P(roblematic)-value: ค่าพี(เพี้ยน)

P-value (probabilistic value) เป็นค่าทางสถิติที่ใช้การอย่างแพร่หลายเพื่อใช้อ้างอิงการสรุปผล คำนวณได้จากทดสอบสมมติฐานโดยอ้างอิงหลักการทางสถิติ เช่น Student T-test, Z-test เป็นต้น แต่ทำไมมันถึงเพี้ยน?

ด้วยความที่ค่านี้ถูกใช้กันอย่างแพร่หลาย หลาย ๆ ครั้งจึงถูกบิดเบือนและนำไปสู่การตีความสรุปผลแบบผิด ๆ ทำให้ผลลัพธ์จากค่านี้เริ่มไม่เป็นที่ยอมรับในวงการวิจัย

ฉะนั้นในบทความนี้ เราจะมาทำความเข้าใจกับค่า P-value นี้อย่างถูกต้อง เข้าใจง่าย และนำไปใช้จริงได้ผ่านทาง Google Sheet ฯลฯ ไม่กลายเป็น ค่าพีเพี้ยน

เหตุการ์ณสมมติระหว่างผมกับบอส~~ที่เกิดขึ้นจริง~~

บอส
เดี๋ยวผมจะส่งข้อมูลการผลลัพธ์ที่วัดได้จากอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง คุณช่วยพิสูจน์หน่อยว่าของจีนแดงมันห่วย ไม่ได้มาตรฐาน

ผม
โอ้ ส่งมาได้เลยครับ

บอส
เรียบร้อย ถ้าข้อมูลมีปัญหาอะไรบอกได้เลยนะ

ผม
โอเคครับ เอ๊ะ… อุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง 4 เครื่อง
ไม่ได้ทดลองเวลาเดียวกันเหรอครับ? แล้วคนที่ใช้อุปกรณ์มีแค่ 4 คน วัดผลลัพธ์คนละ 5 ครั้ง!?

บอส
อึ้ม! ทำไมรึ?

ผม
… OMG :cold_sweat:

ส่วนตัวอย่างข้อมูลที่เก็บได้ตอนที่วัดผลเปรียบเทียบอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดงเครื่องที่ 1 ก็ตามตารางด้านล่าง

ID	อุปกรณ์ที่ใช้เป็นมาตรฐาน	อุปกรณ์จีนแดง #1
0	80, 75, 70, 72, 78	76, 72, 65, 68, 70
1	80, 74, 68, 80, 75	70, 68, 62, 72, 69
2	73, 78, 80, 82, 79	68, 75, 75, 78, 60
3	72, 73, 76, 74, 76	68, 67, 70, 63, 70

มันก็ดูดีใช่ไหมล่ะ? แล้วผมจะตกใจเรียกร้องหาพระเจ้าทำมะเขืออะไร?

เดี๋ยวไว้จะเฉลยตอนจบ แต่ก่อนอื่นเลย เรามาค่อย ๆ ทำความรู้จักกันก่อน

วิธีตั้งและทดสอบสมมติฐาน

จากเหตุการณ์สมมติ อย่างแรกสุดเลยที่ต้องคำนึงถึงคือ การเลือกแบบทดสอบให้ถูกต้องตามโจทย์และจุดประสงค์ ซึ่งโดยทั่วไปแล้วจะมีอยู่ 3 แบบ

การทดสอบ	จุดประสงค์และสมมติฐาน
ตัวอย่างเดียว (1 sample)	ทดสอบว่าค่าเฉลี่ยของข้อมูลเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่
สองตัวอย่าง (2 sample)	ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่ ไม่ได้มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่
ตัวอย่างคู่ (paired sample)	ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่ มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่

จากข้อมูลที่ได้มาจากบอส จะเห็นได้ว่ามีข้อมูลสองประเภท และต้องการเปรียบเทียบผลลัพธ์จากอุปกรณ์ที่ใช้เป็นมาตรฐาน VS จีนแดง

ทีนี้ก็วิเคราะห์ต่อว่ามันมีผลเกี่ยวเนื่องกันหรือไม่ อันนี้ก็ขึ้นอยู่กับวิธีการเก็บข้อมูล ~~ตามทฤษฏีเขาว่า… ช่างทฤษฏีเถอะ~~ ดูตัวอย่างกันเห็นภาพชัดกว่าแน่ ๆ

บริษัทผลิตยาลดความดันต้องการจะติดตามผลว่ายานั้นรักษาได้ผลหรือไม่

ในกรณีที่วัดความดันของผู้ทดลองยาก่อน-หลังทดลอง ข้อมูลความดันที่เก็บได้จะมีความเกี่ยวเนื่องกัน เพราะข้อมูลเก็บจากข้อมูลแหล่งเดียวกัน

ในกรณีที่วัดความดันกับผู้ทดลองสองกลุ่ม กลุ่มที่ได้รับยาจริงและกลุ่มที่ได้รับยาหลอก ข้อมูลความดันที่เก็บได้จะไม่มีความเกี่ยวเนื่องกัน เพราะชัดเจนว่าข้อมูลเก็บจากคนละแหล่งกัน

ดั้งนั้นเราก็สามารถพอจะเดา ๆ ได้ว่าข้อมูลจากอุปกรณ์ทั้งสองแบบต้องมีความเกี่ยวเนื่องกันแน่ ๆ เพราะฉะนั้นเราจะใช้การทดสอบตัวอย่างคู่ แต่ถ้าจะให้มั่นใจจริง ๆ ควรไปถามวิธีการเก็บข้อมูลโดยละเอียดจากบอสก่อน จะได้ไม่ผิดพลาดกันนะ :joy: TTEST(data1, data2, tails, 1)

ในขณะเดียวกัน หากข้อมูลไม่มีความเกี่ยวเนื่องกัน ก็จะต้องใช้การทดสอบ 2 ตัวอย่างซึ่งจะยุ่งยากกว่าหน่อย เพราะเราจำเป็นต้องรู้ว่าข้อมูลทั้ง 2 ชุดมีความแปรปรวนเท่ากัน (\(\sigma\)) หรือไม่ ในขณะที่การทดสอบตัวอย่างคู่จะคิดว่าความแปรปรวนเท่ากันอยู่แล้ว เพราะข้อมูลมาจากแหล่งเดียวกัน

equal var TTEST(data1, data2, tails, 2)

unequal var TTEST(data1, data2, tails, 3)

ส่วนการทดสอบตัวอย่างเดียวจะใช้ในกรณีที่ชุดข้อมูลที่เรามีอยู่นั้นแตกต่างไปจากปกติหรือไม่ โดยที่ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของข้อมูลปกติ เช่น เงินเดือนโปรแกรมเมอร์ในบริษัทแห่งหนึ่งแตกต่างไปจากบริษัทอื่น ๆ ในประเทศหรือไม่ เราก็ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของเงินเดือนโปรแกรมเมอร์ในประเทศไทย ZTEST(data, mean, [standard_deviation])

คำเตือน! ไม่ว่าจะทำการทดสอบด้วย T-test หรือ Z-test ก็ตาม ข้อมูลที่นำมาทดสอบสมมติฐานจะต้องมีการกระจายตัวแบบปกติหรือระฆังคว่ำ (normal/gaussian distribution) เท่านั้น เพราะการทดสอบทั้งสองนั้นอ้างอิงการกระจายตัวนี้{: .notice–danger}

สมมติฐานหลัก (null hypothesis: \(H_0\))

\[H_0: \mu_0 = \mu\]

สมมติฐานทางเลือก (alternative hypothesis: \(H_A\))

สมมติฐานทางเดียว (One-tailed Test)

สมมติฐานมีทิศทาง

การต้ังสมมุติฐานทางเดียวใช้เมื่อ นักวิจัยต้องการคาดคะเนทิศทางของเรื่องที่สนใจศึกษา ได้แก่ มากกว่า น้อยกว่า เพิ่มขึ้น ลดลง โดยอาศัยความรู้จาก

งานวิจัยที่ทำแล้ว (previous research)
การศึกษานำร่อง (pilot study)
และทฤษฎี (theory) (Kirt,1995)

\[H_A: \mu_0 < \mu\]

สมมติฐานสองทาง (Two-tailed test)

สมมติฐานไม่มีทิศทาง

ผู้ศึกษาขาดสารสนเทศที่สำคัญในการต้ังสมมุติฐาน (Kirt,1995)

\[H_A: \mu_0 \neq \mu\]

วิธีตัดสินใจและสรุปผล

ID	T-Statistic	P-Value
0	5.580	0.005057588874345128
1	9.000	0.0008438325176012782
2	2.422	0.07263554087615957
3	5.659	0.0048046647230320675

การกำหนดระดับนัยสำคัญ (\(\alpha\))

กำหนดเพื่อใช้พิจารณาจะปฏิเสธหรือยอมรับ \(H_0\)
กำหนดที่ระดับ 0.05, 0.01 โดยทั่ว ๆ ไปกำหนดที่ 0.05

การกำหนดระดับนัยสำคัญเป็นการบอกให้รู้ว่า การสรุปผลโอกาสเกิดความผิดพลาดเท่าใดขึ้นกับการกำหนดระดับนัยสำคัญ

สมมุติฐานทางเดียว กำหนด \(\alpha = \alpha\)
สมมุติฐานสองทาง กำหนด \(\alpha = \alpha/2\)

***** ในการพิจารณาโปรแกรมคอมพิวเตอร์ใช้0.05 (ท้งการทดสอบสมมติฐานทางเดียวหรือสองทาง)

ในขณะที่โลกแห่งความเป็นจริงนั้น…

อ้างอิงจากแถลงการณ์ของ The American Statistical Association (ASA) ~~อเมริกาไม่ใช่พ่อ สนใจทำไม~~เกี่ยวกับ P-value: ความหมาย กระบวนการ และจุดประสงค์²

อ้างอิงจากแถลงการณ์ของ ASA เกี่ยวกับนัยยะสำคัญทางสถิติและ P-value²

P-values สามารถใช้บอกได้ว่าข้อมูลนั้นมีความเหมาะสมกับโมเดลสถิติที่เราสนใจหรือไม่

P-values อย่างเดียวใช้วัดความเป็นไปได้ที่สมมติฐานที่เราตั้งไว้จะเป็นจริง

การสรุปผลทางวิทยาศาสตร์และการตัดสินใจทางนโยบายหรือธุรกิจไม่ควรอ้างอิงดูแค่ว่า P-value ผ่านระดับนัยสำคัญที่เราตั้งไว้หรือไม่เพียงอย่างเดียว

การตีความได้อย่างเหมาะสมนั้นต้องรายงานอย่างไม่มีกั๊กและโปร่งใส

P-value หรือนัยสำคัญทางสถิติไม่ใช่ตัววัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์

P-value ไม่ใช่ตัววัดโมเดลหรือสมมติฐานที่ดี

แล้วตกลง… จะตกใจทำไม?

P-values

P-values

P-value

การ

P-value

แหล่งอ้างอิง

¹
[1] Ranstam, Jonas. “Why the P-value culture is bad and confidence intervals a better alternative.” Osteoarthritis and cartilage 20.8 (2012): 805-808. Link
[2] Wasserstein, Ronald L., and Nicole A. Lazar. “The ASA’s statement on p-values: context, process, and purpose.” The American Statistician 70:2 (2016): 129-133. Link
[3] Martz, Eston. “Three Things the P-Value Can’t Tell You about Your Hypothesis Test” Minitab, 20 Jun. 2011, Link
[4] Frost, Jim. “How to Correctly Interpret P Values.” Minitab, 17 Apr. 2014, Link
[5] Bastian, Hilda. “5 Tips For Avoiding P-Value Potholes.” The Public Library of Science (PLOS), 25 Apr. 2016, Link

https://stats.stackexchange.com/questions/134890/is-p-value-essentially-useless-and-dangerous-to-use

http://theconversation.com/the-problem-with-p-values-how-significant-are-they-really-20029

Share on

Twitter Facebook LinkedIn