P-value (probabilistic value) เป็นค่าทางสถิติที่ใช้การอย่างแพร่หลายเพื่อใช้อ้างอิงการสรุปผล คำนวณได้จากทดสอบสมมติฐานโดยอ้างอิงหลักการทางสถิติ เช่น Student T-test, Z-test เป็นต้น แต่ทำไมมันถึงเพี้ยน?
ด้วยความที่ค่านี้ถูกใช้กันอย่างแพร่หลาย หลาย ๆ ครั้งจึงถูกบิดเบือนและนำไปสู่การตีความสรุปผลแบบผิด ๆ ทำให้ผลลัพธ์จากค่านี้เริ่มไม่เป็นที่ยอมรับในวงการวิจัย
ฉะนั้นในบทความนี้ เราจะมาทำความเข้าใจกับค่า P-value นี้อย่างถูกต้อง เข้าใจง่าย และนำไปใช้จริงได้ผ่านทาง Google Sheet ฯลฯ ไม่กลายเป็น ค่าพีเพี้ยน
เหตุการ์ณสมมติระหว่างผมกับบอส
ที่เกิดขึ้นจริงบอส
เดี๋ยวผมจะส่งข้อมูลการผลลัพธ์ที่วัดได้จากอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง คุณช่วยพิสูจน์หน่อยว่าของจีนแดงมันห่วย ไม่ได้มาตรฐานผม
โอ้ ส่งมาได้เลยครับบอส
เรียบร้อย ถ้าข้อมูลมีปัญหาอะไรบอกได้เลยนะผม
โอเคครับ เอ๊ะ… อุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง 4 เครื่อง
ไม่ได้ทดลองเวลาเดียวกันเหรอครับ? แล้วคนที่ใช้อุปกรณ์มีแค่ 4 คน วัดผลลัพธ์คนละ 5 ครั้ง!?บอส
อึ้ม! ทำไมรึ?ผม
… OMG :cold_sweat:
ส่วนตัวอย่างข้อมูลที่เก็บได้ตอนที่วัดผลเปรียบเทียบอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดงเครื่องที่ 1 ก็ตามตารางด้านล่าง
ID | อุปกรณ์ที่ใช้เป็นมาตรฐาน | อุปกรณ์จีนแดง #1 |
---|---|---|
0 | 80, 75, 70, 72, 78 | 76, 72, 65, 68, 70 |
1 | 80, 74, 68, 80, 75 | 70, 68, 62, 72, 69 |
2 | 73, 78, 80, 82, 79 | 68, 75, 75, 78, 60 |
3 | 72, 73, 76, 74, 76 | 68, 67, 70, 63, 70 |
มันก็ดูดีใช่ไหมล่ะ? แล้วผมจะตกใจเรียกร้องหาพระเจ้าทำมะเขืออะไร?
เดี๋ยวไว้จะเฉลยตอนจบ แต่ก่อนอื่นเลย เรามาค่อย ๆ ทำความรู้จักกันก่อน
วิธีตั้งและทดสอบสมมติฐาน
จากเหตุการณ์สมมติ อย่างแรกสุดเลยที่ต้องคำนึงถึงคือ การเลือกแบบทดสอบให้ถูกต้องตามโจทย์และจุดประสงค์ ซึ่งโดยทั่วไปแล้วจะมีอยู่ 3 แบบ
การทดสอบ | จุดประสงค์และสมมติฐาน |
---|---|
ตัวอย่างเดียว (1 sample) |
ทดสอบว่าค่าเฉลี่ยของข้อมูลเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่ |
สองตัวอย่าง (2 sample) |
ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่ ไม่ได้มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่ |
ตัวอย่างคู่ (paired sample) |
ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่ มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่ |
จากข้อมูลที่ได้มาจากบอส จะเห็นได้ว่ามีข้อมูลสองประเภท และต้องการเปรียบเทียบผลลัพธ์จากอุปกรณ์ที่ใช้เป็นมาตรฐาน VS จีนแดง
ทีนี้ก็วิเคราะห์ต่อว่ามันมีผลเกี่ยวเนื่องกันหรือไม่ อันนี้ก็ขึ้นอยู่กับวิธีการเก็บข้อมูล ตามทฤษฏีเขาว่า… ช่างทฤษฏีเถอะ ดูตัวอย่างกันเห็นภาพชัดกว่าแน่ ๆ
บริษัทผลิตยาลดความดันต้องการจะติดตามผลว่ายานั้นรักษาได้ผลหรือไม่
- ในกรณีที่วัดความดันของผู้ทดลองยาก่อน-หลังทดลอง ข้อมูลความดันที่เก็บได้จะมีความเกี่ยวเนื่องกัน เพราะข้อมูลเก็บจากข้อมูลแหล่งเดียวกัน
- ในกรณีที่วัดความดันกับผู้ทดลองสองกลุ่ม กลุ่มที่ได้รับยาจริงและกลุ่มที่ได้รับยาหลอก ข้อมูลความดันที่เก็บได้จะไม่มีความเกี่ยวเนื่องกัน เพราะชัดเจนว่าข้อมูลเก็บจากคนละแหล่งกัน
ดั้งนั้นเราก็สามารถพอจะเดา ๆ ได้ว่าข้อมูลจากอุปกรณ์ทั้งสองแบบต้องมีความเกี่ยวเนื่องกันแน่ ๆ เพราะฉะนั้นเราจะใช้การทดสอบตัวอย่างคู่ แต่ถ้าจะให้มั่นใจจริง ๆ ควรไปถามวิธีการเก็บข้อมูลโดยละเอียดจากบอสก่อน จะได้ไม่ผิดพลาดกันนะ :joy:
TTEST(data1, data2, tails, 1)
ในขณะเดียวกัน หากข้อมูลไม่มีความเกี่ยวเนื่องกัน ก็จะต้องใช้การทดสอบ 2 ตัวอย่างซึ่งจะยุ่งยากกว่าหน่อย เพราะเราจำเป็นต้องรู้ว่าข้อมูลทั้ง 2 ชุดมีความแปรปรวนเท่ากัน (\(\sigma\)) หรือไม่ ในขณะที่การทดสอบตัวอย่างคู่จะคิดว่าความแปรปรวนเท่ากันอยู่แล้ว เพราะข้อมูลมาจากแหล่งเดียวกัน
equal var TTEST(data1, data2, tails, 2)
unequal var TTEST(data1, data2, tails, 3)
ส่วนการทดสอบตัวอย่างเดียวจะใช้ในกรณีที่ชุดข้อมูลที่เรามีอยู่นั้นแตกต่างไปจากปกติหรือไม่ โดยที่ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของข้อมูลปกติ เช่น เงินเดือนโปรแกรมเมอร์ในบริษัทแห่งหนึ่งแตกต่างไปจากบริษัทอื่น ๆ ในประเทศหรือไม่
เราก็ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของเงินเดือนโปรแกรมเมอร์ในประเทศไทย
ZTEST(data, mean, [standard_deviation])
คำเตือน! ไม่ว่าจะทำการทดสอบด้วย T-test หรือ Z-test ก็ตาม ข้อมูลที่นำมาทดสอบสมมติฐานจะต้องมีการกระจายตัวแบบปกติหรือระฆังคว่ำ (normal/gaussian distribution) เท่านั้น เพราะการทดสอบทั้งสองนั้นอ้างอิงการกระจายตัวนี้{: .notice–danger}
สมมติฐานหลัก (null hypothesis: \(H_0\))
\[H_0: \mu_0 = \mu\]สมมติฐานทางเลือก (alternative hypothesis: \(H_A\))
สมมติฐานทางเดียว (One-tailed Test)
สมมติฐานมีทิศทาง
การต้ังสมมุติฐานทางเดียวใช้เมื่อ นักวิจัยต้องการคาดคะเนทิศทางของเรื่องที่สนใจศึกษา ได้แก่ มากกว่า น้อยกว่า เพิ่มขึ้น ลดลง โดยอาศัยความรู้จาก
- งานวิจัยที่ทำแล้ว (previous research)
- การศึกษานำร่อง (pilot study)
- และทฤษฎี (theory) (Kirt,1995)
สมมติฐานสองทาง (Two-tailed test)
สมมติฐานไม่มีทิศทาง
ผู้ศึกษาขาดสารสนเทศที่สำคัญในการต้ังสมมุติฐาน (Kirt,1995)
\[H_A: \mu_0 \neq \mu\]วิธีตัดสินใจและสรุปผล
ID | T-Statistic | P-Value |
---|---|---|
0 | 5.580 | 0.005057588874345128 |
1 | 9.000 | 0.0008438325176012782 |
2 | 2.422 | 0.07263554087615957 |
3 | 5.659 | 0.0048046647230320675 |
การกำหนดระดับนัยสำคัญ (\(\alpha\))
- กำหนดเพื่อใช้พิจารณาจะปฏิเสธหรือยอมรับ \(H_0\)
- กำหนดที่ระดับ 0.05, 0.01 โดยทั่ว ๆ ไปกำหนดที่ 0.05
การกำหนดระดับนัยสำคัญเป็นการบอกให้รู้ว่า การสรุปผลโอกาสเกิดความผิดพลาดเท่าใดขึ้นกับการกำหนดระดับนัยสำคัญ
- สมมุติฐานทางเดียว กำหนด \(\alpha = \alpha\)
- สมมุติฐานสองทาง กำหนด \(\alpha = \alpha/2\)
***** ในการพิจารณาโปรแกรมคอมพิวเตอร์ใช้0.05 (ท้งการทดสอบสมมติฐานทางเดียวหรือสองทาง)
ในขณะที่โลกแห่งความเป็นจริงนั้น…
อ้างอิงจากแถลงการณ์ของ The American Statistical Association (ASA) อเมริกาไม่ใช่พ่อ สนใจทำไมเกี่ยวกับ P-value: ความหมาย กระบวนการ และจุดประสงค์2
อ้างอิงจากแถลงการณ์ของ ASA เกี่ยวกับนัยยะสำคัญทางสถิติและ P-value2
- P-values สามารถใช้บอกได้ว่าข้อมูลนั้นมีความเหมาะสมกับโมเดลสถิติที่เราสนใจหรือไม่
- P-values อย่างเดียวใช้วัดความเป็นไปได้ที่สมมติฐานที่เราตั้งไว้จะเป็นจริง
- การสรุปผลทางวิทยาศาสตร์และการตัดสินใจทางนโยบายหรือธุรกิจไม่ควรอ้างอิงดูแค่ว่า P-value ผ่านระดับนัยสำคัญที่เราตั้งไว้หรือไม่เพียงอย่างเดียว
- การตีความได้อย่างเหมาะสมนั้นต้องรายงานอย่างไม่มีกั๊กและโปร่งใส
- P-value หรือนัยสำคัญทางสถิติไม่ใช่ตัววัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์
- P-value ไม่ใช่ตัววัดโมเดลหรือสมมติฐานที่ดี
แล้วตกลง… จะตกใจทำไม?
- P-values
- P-values
- P-value
- การ
- P-value
แหล่งอ้างอิง
1
[1] Ranstam, Jonas. “Why the P-value culture is bad and confidence intervals a better alternative.” Osteoarthritis and cartilage 20.8 (2012): 805-808. Link
[2] Wasserstein, Ronald L., and Nicole A. Lazar. “The ASA’s statement on p-values: context, process, and purpose.” The American Statistician 70:2 (2016): 129-133. Link
[3] Martz, Eston. “Three Things the P-Value Can’t Tell You about Your Hypothesis Test” Minitab, 20 Jun. 2011, Link
[4] Frost, Jim. “How to Correctly Interpret P Values.” Minitab, 17 Apr. 2014, Link
[5] Bastian, Hilda. “5 Tips For Avoiding P-Value Potholes.” The Public Library of Science (PLOS), 25 Apr. 2016, Link
https://stats.stackexchange.com/questions/134890/is-p-value-essentially-useless-and-dangerous-to-use
http://theconversation.com/the-problem-with-p-values-how-significant-are-they-really-20029