Applied statistics & probability for buzzus (Thốngkêhọc búzù ứngdụng)



Applied statistics & probability for buzzus (Thốngkêhọc búzù ứngdụng)

An Hoang Trung Tuong
*Giáo-dục 2012-12-17 16:17:00

Thốngkêhọc búzù ứngdụng


Photo Unknown. Source Somewhere In The Net


Đây là tríchđoạn chương giớithiệu khóatrình thốngkêhọc ứngdụng cho riêng văncông búzù (Applied Statistics & Probability for Buzzus, aka ASPB), gồm 4 bài-giảng siêu-côđọng cover toànbộ các vấnđề thiếtthực nhất của khoahọc thốngkê & sácxuất.

Trung Tướng dựđịnh triểnkhai khóatrình ASPB này với giá 10 Ông Tơn per Nhândân. Nhưng qua 3 ngày thảoluận tại tùybút Sóc Đen Bụng Đỏ, dựđịnh thấtbại toàndiện. Trung Tướng quyếtđịnh tăng giá lên 50 Ông Tơn (per Nhândân), và khuyếncáo văncông: chưa hiểu mình muốn gì, đừng baogiờ xuống tiền.

Nếu chỉ mua tàiliệu mà không dự giảng, mời trả 30 Ông Tơn.

Những ai trót đăngký giá 10 Tơn trước thờiđiểm publish entry, sẽ được bảolưu order. Đó hầu-như là một khuyếnmãi.

Bốn bài ASPB sẽ hướngdẫn các cô 6 chuyênmục: (i) Cănbản, (ii) Mẫu, (iii) Ướclượng, (iv) Kiểmđịnh, (v) Dựbáo, (vi) Kỹnăng, theo cách dễ hấpthụ nhất, dễ ápdụng nhất, thậmchí cho kẻ mù-chữ.

1: Ra quyếtđịnh (Decision Making)

Ra quyếtđịnh là việc các cô phải làm mỗi ngày mỗi giờ.

Bị cảm, bú thuốc Paracetamol hay Panadol?

Sang năm cưới em Meomeo hay em Bali?

Tháng tới mở tiệm bán phở, hay điệnthoại, hay quantài?

Tuần sau đầutư cổphiếu Apple, hay Facebook, hay Google?

Đấy đều là các quyếtđịnh. Thắng hay thua. Lợi hay hại. Tùy các cô có đọc tiếp hay không.

2: Giảthuyết (Hypothesis)

"Anh tin cổphiếu Google vọt 5% trước Giángsinh".

"Em nghĩ Paracetamol hiệuquả hơn Panadol".

Đấy đều là các giảthuyết, đươngnhiên chẳng cái nào sure 100%.

Trong mọi vấnđề thườngnhật của các cô, luôn tồntại nhiều giảthuyết đầy rủiro. Để ra một quyếtđịnh đúngđắn, các cô phải đặt các giảthuyết hợplý, và chọn cái tốt nhất.

"Cổphiếu Google vọt 50% đêm nay" hẳn là một giảthuyết kém hợplý. Khảnăng hiệnthực của nó nhẽ chưa tới 0.01%.

2.1: Giảthuyết gốc (Null Hypothesis)

Khi các cô tậptrung cânnhắc một giảthuyết, thì nó là giảthuyết gốc. Kýhiệu Ho.

"Cổphiếu Google vọt 5% trước Giángsinh" đang là giảthuyết gốc của các cô.

2.2: Giảthuyết ngược (Alternative Hypothesis)

Để phánxét giảthuyết gốc đáng tincậy hay không, các cô phải đặt giảthuyết ngược. Kýhiệu H1.

"Cổphiếu Google không-thể vọt 5% trước Giángsinh" là một giảthuyết ngược.

"Cổphiếu Google chắcchắn vọt 10% trước Giángsinh" cũng là một giảthuyết ngược, thế mới tài.

Note: Để ra một quyếtđịnh, phải xácđịnh giảthuyết gốc, và một giảthuyết ngược.

3: Sailầm loại I & sailầm loại II (Type I Error & Type II Error)

Với mỗi quyếtđịnh của mình, các cô đều có-thể mắc sailầm.

Nếu sau Giángsinh, cổphiếu Google vọt 5% thật (aka giảthuyết gốc đúng), mà các cô nhát-chết không đầutư (aka phủnhận giảthuyết gốc). Xin chia-buồn, các cô đã mắc sailầm loại I.

Nếu sau Giángsinh, cổphiếu Google đứng-yêm (aka giảthuyết gốc sai), nhưng các cô hehe nhỡ-tay đầutư mẹ 100,000 Tơn (aka chấpnhận giảthuyết gốc). Xin chia-buồn, các cô đã mắc sailầm loại II.

Sailầm loại nào tệhại hơn?

Anhhùng Lê Văn Luyện giết Lừa, Tòa Lừa nhậnđịnh anh ý "có-tội", và xử anh ý tửhình.

Nếu anh Luyện giết Lừa thật (giảthuyết gốc đúng), thì Tòa Lừa quyếtđịnh hehe chuẩn và ngon.

Nếu anh Luyện không giết Lừa (giảthuyết gốc sai), thì Tòa Lừa hehe dính sailầm loại II.

Mang anh Luyện sang Mẽo xử, Tòa Mẽo cũng nhậnđịnh anh ý "có-tội", nhưng cho anh ý 10 năm khángcáo và cơhội chứngminh anh ý vôtội.

Nếu anh Luyện giết Lừa thật, thì Tòa Mẽo dính sailầm loại I.

Sailầm loại nào dễ phântrần hơn?

4: Kiểmđịnh giảthuyết (Hypothesis Testing)

Để yêntâm một giảthuyết gốc là đáng tincậy đến-mức có-thể ra quyếtđịnh nghiêmtúc, trong chừngmực lýthuyết, các cô phải thựchiện kiểmđịnh (test) nó và giảthuyết ngược của nó.

Các cô pháthiện, rằng đã 4 năm liền, cổphiếu Google cứ trước lễ Giángsinh lại tăng giá 5-7%, chả nguyênnhân mẹ. Thôngtin ý đã đủ trôngđợi "Cổphiếu Google vọt 5% trước Giángsinh", hay chưa?

Phải kiểmđịnh đcm.

Thốngkêhọc Búzù cungcấp các cô loạt phươngthức kiểmđịnh giảthuyết dưới triếtlý Bựa, bằng các côngcụ thốngkê cơbản.

5: Mẫu & cỡ-mẫu (Sample & Sample Size)

Thốngkêhọc hànlâm sửdụng các thuậttoán hànlâm nhằm kiểmđịnh any giảthuyết trên các mẫu thôngtin thuthập. Thốngkêhọc búzù cũng.

Trung Tướng phátbiểu: gái Lừa toàn vú bé.

Vú bằng ngần nào là bé?

Trung Tướng giảđịnh: vú gái mỏng hơn 5cm là bé.

Giảđịnh "dầy 5cm" đấy gọi là thôngsố (Hypothesis Parameter).

Để khẳngđịnh giảthuyết của Trung Tướng, cần kiểmtra toànbộ 45 triệu đànbà Lừa.

Số 45 triệu đấy gọi là tổngthể (Statistics Population).

Nhưng Trung Tướng chỉ test được 100 đànbà hehe.

Đám đànbà đạidiện đấy gọi là mẫu (Sample). Số 100 đấy gọi là cỡ-mẫu (Sample Size).

Cỡ-mẫu càng lớn thì giảthuyết càng chắccú, dĩnhiên.

Cỡ-mẫu baonhiêu là vừa?

Bốn mùa Giángsinh đã đủ cỡ-mẫu cho kỳvọng cổphiếu vọt 5%, hay chưa?

6: Bácbỏ & chấpthuận kiểmđịnh

Đám 100 đànbà bị Trung Tướng test vú, thật tiếc, có độ-dầy vú trungbình 80cm.

Giảthuyết gốc (aka Gái Lừa Vú Bé), bởi vậy, bị bácbỏ. Đcm sốliệu trungbình kiểmđịnh khác quá xa thôngsố của giảthuyết.

Nhưng, đcm, nếu độ-dầy vú trungbình của 100 đànbà mẫu chỉ tròmtrèm 7cm. Giảthuyết Vú Bé nên được chấpthuận, hay vẫn chưa?

6.1: Mức-bácbỏ búzù (Significance Level)

Trung Tướng địnhnghĩa, mức-bácbỏ búzù là khảnăng bácbỏ một giảthuyết gốc.

Bọn hànlâm thì địnhnghĩa, mức-bácbỏ là sácxuất của sailầm loại I.

Mức-bácbỏ kýhiệu bằng chữ Alpha (Hylạp "α").

Trái với mức-bácbỏ, mức-chấpthuận là sácxuất của sailầm loại II.

Mức-chấpthuận kýhiệu bằng chữ Beta (Hylạp "β").

Đấy là các hệsố nhằm hạnchế các sailầm (both loại I & II) khi tínhtoán kiểmđịnh các giảthuyết búzù.

Mức-bácbỏ búzù thường là 0.01, 0.05, và 0.10, tươngứng 1%, 5%, và 10%.

Sau này, các cô chỉ cần chọn Alpha & Beta, đéo cần bănkhoăn. Đạikhái, Alpha các cô chọn càng cao thì khảnăng giảthuyết bị bácbỏ càng cao.

6.2: Lệch-chuẩn búzù (Standard Deviation)

Lệch-chuẩn, hay độ-lệch chuẩn, là một kháiniệm thốngkê quantrọng.

Chảdụ, khốilượng bìnhquân của 100 bầnnông bằng 60Kg. Khốilượng bìnhquân của 2 ông voi và 50 ông gà cũng bằng 60Kg. Trung Tướng nói, lệch-chuẩn của bọn bầnnông thấp hơn, aka chúng đều-nhau hơn. Các kếtquả kiểmđịnh trên một mẫu có lệch-chuẩn thấp hơn sẽ đáng tincậy hơn.

Lệch-chuẩn kýhiệu bằng chữ Sigma (Hylạp "σ"), và tính khá giảndị.

Giảndị như nào? Mời học.

Rốtcuộc văncông búzù có nên đầutư cổphiếu Google trước Giángsinh? Mời học.

Không học thì cắn cứt.

(@2012)

(Sticked) Đẳngcấp Văn Bựa & Quán Bựa

1300 Comments

Comments