P-value (probabilistic value) เป็นค่าทางสถิติที่ใช้การอย่างแพร่หลายเพื่อใช้อ้างอิงการสรุปผล คำนวณได้จากทดสอบสมมติฐานโดยอ้างอิงหลักการทางสถิติ เช่น Student T-test, Z-test เป็นต้น แต่ทำไมมันถึงเพี้ยน?

ด้วยความที่ค่านี้ถูกใช้กันอย่างแพร่หลาย หลาย ๆ ครั้งจึงถูกบิดเบือนและนำไปสู่การตีความสรุปผลแบบผิด ๆ ทำให้ผลลัพธ์จากค่านี้เริ่มไม่เป็นที่ยอมรับในวงการวิจัย

ฉะนั้นในบทความนี้ เราจะมาทำความเข้าใจกับค่า P-value นี้อย่างถูกต้อง เข้าใจง่าย และนำไปใช้จริงได้ผ่านทาง Google Sheet ฯลฯ ไม่กลายเป็น ค่าพีเพี้ยน

เหตุการ์ณสมมติระหว่างผมกับบอสที่เกิดขึ้นจริง

บอส
เดี๋ยวผมจะส่งข้อมูลการผลลัพธ์ที่วัดได้จากอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง คุณช่วยพิสูจน์หน่อยว่าของจีนแดงมันห่วย ไม่ได้มาตรฐาน

ผม
โอ้ ส่งมาได้เลยครับ

บอส
เรียบร้อย ถ้าข้อมูลมีปัญหาอะไรบอกได้เลยนะ

ผม
โอเคครับ เอ๊ะ… อุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดง 4 เครื่อง
ไม่ได้ทดลองเวลาเดียวกันเหรอครับ? แล้วคนที่ใช้อุปกรณ์มีแค่ 4 คน วัดผลลัพธ์คนละ 5 ครั้ง!?

บอส
อึ้ม! ทำไมรึ?

ผม
… OMG :cold_sweat:

ส่วนตัวอย่างข้อมูลที่เก็บได้ตอนที่วัดผลเปรียบเทียบอุปกรณ์ที่ใช้เป็นมาตรฐาน กับอุปกรณ์จีนแดงเครื่องที่ 1 ก็ตามตารางด้านล่าง

ID อุปกรณ์ที่ใช้เป็นมาตรฐาน อุปกรณ์จีนแดง #1
0 80, 75, 70, 72, 78 76, 72, 65, 68, 70
1 80, 74, 68, 80, 75 70, 68, 62, 72, 69
2 73, 78, 80, 82, 79 68, 75, 75, 78, 60
3 72, 73, 76, 74, 76 68, 67, 70, 63, 70

มันก็ดูดีใช่ไหมล่ะ? แล้วผมจะตกใจเรียกร้องหาพระเจ้าทำมะเขืออะไร?

เดี๋ยวไว้จะเฉลยตอนจบ แต่ก่อนอื่นเลย เรามาค่อย ๆ ทำความรู้จักกันก่อน

วิธีตั้งและทดสอบสมมติฐาน

จากเหตุการณ์สมมติ อย่างแรกสุดเลยที่ต้องคำนึงถึงคือ การเลือกแบบทดสอบให้ถูกต้องตามโจทย์และจุดประสงค์ ซึ่งโดยทั่วไปแล้วจะมีอยู่ 3 แบบ

การทดสอบ จุดประสงค์และสมมติฐาน
ตัวอย่างเดียว
(1 sample)
ทดสอบว่าค่าเฉลี่ยของข้อมูลเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่
สองตัวอย่าง
(2 sample)
ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่
ไม่ได้มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่
ตัวอย่างคู่
(paired sample)
ทดสอบว่าความแตกต่างของค่าเฉลี่ยของข้อมูลทั้งสองชุดที่
มีผลเกี่ยวเนื่องกัน มีค่าเท่ากับค่าที่เราคาดการณ์ไว้ (\(\mu_0\)) หรือไม่

จากข้อมูลที่ได้มาจากบอส จะเห็นได้ว่ามีข้อมูลสองประเภท และต้องการเปรียบเทียบผลลัพธ์จากอุปกรณ์ที่ใช้เป็นมาตรฐาน VS จีนแดง

ทีนี้ก็วิเคราะห์ต่อว่ามันมีผลเกี่ยวเนื่องกันหรือไม่ อันนี้ก็ขึ้นอยู่กับวิธีการเก็บข้อมูล ตามทฤษฏีเขาว่า… ช่างทฤษฏีเถอะ ดูตัวอย่างกันเห็นภาพชัดกว่าแน่ ๆ

บริษัทผลิตยาลดความดันต้องการจะติดตามผลว่ายานั้นรักษาได้ผลหรือไม่

  • ในกรณีที่วัดความดันของผู้ทดลองยาก่อน-หลังทดลอง ข้อมูลความดันที่เก็บได้จะมีความเกี่ยวเนื่องกัน เพราะข้อมูลเก็บจากข้อมูลแหล่งเดียวกัน
  • ในกรณีที่วัดความดันกับผู้ทดลองสองกลุ่ม กลุ่มที่ได้รับยาจริงและกลุ่มที่ได้รับยาหลอก ข้อมูลความดันที่เก็บได้จะไม่มีความเกี่ยวเนื่องกัน เพราะชัดเจนว่าข้อมูลเก็บจากคนละแหล่งกัน

ดั้งนั้นเราก็สามารถพอจะเดา ๆ ได้ว่าข้อมูลจากอุปกรณ์ทั้งสองแบบต้องมีความเกี่ยวเนื่องกันแน่ ๆ เพราะฉะนั้นเราจะใช้การทดสอบตัวอย่างคู่ แต่ถ้าจะให้มั่นใจจริง ๆ ควรไปถามวิธีการเก็บข้อมูลโดยละเอียดจากบอสก่อน จะได้ไม่ผิดพลาดกันนะ :joy: TTEST(data1, data2, tails, 1)

ในขณะเดียวกัน หากข้อมูลไม่มีความเกี่ยวเนื่องกัน ก็จะต้องใช้การทดสอบ 2 ตัวอย่างซึ่งจะยุ่งยากกว่าหน่อย เพราะเราจำเป็นต้องรู้ว่าข้อมูลทั้ง 2 ชุดมีความแปรปรวนเท่ากัน (\(\sigma\)) หรือไม่ ในขณะที่การทดสอบตัวอย่างคู่จะคิดว่าความแปรปรวนเท่ากันอยู่แล้ว เพราะข้อมูลมาจากแหล่งเดียวกัน

equal var TTEST(data1, data2, tails, 2)

unequal var TTEST(data1, data2, tails, 3)

ส่วนการทดสอบตัวอย่างเดียวจะใช้ในกรณีที่ชุดข้อมูลที่เรามีอยู่นั้นแตกต่างไปจากปกติหรือไม่ โดยที่ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของข้อมูลปกติ เช่น เงินเดือนโปรแกรมเมอร์ในบริษัทแห่งหนึ่งแตกต่างไปจากบริษัทอื่น ๆ ในประเทศหรือไม่ เราก็ให้ \(\mu_0\) และ \(\sigma_0\) เป็นค่าเฉลี่ยและความแปรปรวนของเงินเดือนโปรแกรมเมอร์ในประเทศไทย ZTEST(data, mean, [standard_deviation])

คำเตือน! ไม่ว่าจะทำการทดสอบด้วย T-test หรือ Z-test ก็ตาม ข้อมูลที่นำมาทดสอบสมมติฐานจะต้องมีการกระจายตัวแบบปกติหรือระฆังคว่ำ (normal/gaussian distribution) เท่านั้น เพราะการทดสอบทั้งสองนั้นอ้างอิงการกระจายตัวนี้{: .notice–danger}

สมมติฐานหลัก (null hypothesis: \(H_0\))

\[H_0: \mu_0 = \mu\]

สมมติฐานทางเลือก (alternative hypothesis: \(H_A\))

สมมติฐานทางเดียว (One-tailed Test)

สมมติฐานมีทิศทาง

การต้ังสมมุติฐานทางเดียวใช้เมื่อ นักวิจัยต้องการคาดคะเนทิศทางของเรื่องที่สนใจศึกษา ได้แก่ มากกว่า น้อยกว่า เพิ่มขึ้น ลดลง โดยอาศัยความรู้จาก

  • งานวิจัยที่ทำแล้ว (previous research)
  • การศึกษานำร่อง (pilot study)
  • และทฤษฎี (theory) (Kirt,1995)
\[H_A: \mu_0 < \mu\]

สมมติฐานสองทาง (Two-tailed test)

สมมติฐานไม่มีทิศทาง

ผู้ศึกษาขาดสารสนเทศที่สำคัญในการต้ังสมมุติฐาน (Kirt,1995)

\[H_A: \mu_0 \neq \mu\]

วิธีตัดสินใจและสรุปผล

ID T-Statistic P-Value
0 5.580 0.005057588874345128
1 9.000 0.0008438325176012782
2 2.422 0.07263554087615957
3 5.659 0.0048046647230320675

การกำหนดระดับนัยสำคัญ (\(\alpha\))

  • กำหนดเพื่อใช้พิจารณาจะปฏิเสธหรือยอมรับ \(H_0\)
  • กำหนดที่ระดับ 0.05, 0.01 โดยทั่ว ๆ ไปกำหนดที่ 0.05

การกำหนดระดับนัยสำคัญเป็นการบอกให้รู้ว่า การสรุปผลโอกาสเกิดความผิดพลาดเท่าใดขึ้นกับการกำหนดระดับนัยสำคัญ

  • สมมุติฐานทางเดียว กำหนด \(\alpha = \alpha\)
  • สมมุติฐานสองทาง กำหนด \(\alpha = \alpha/2\)

***** ในการพิจารณาโปรแกรมคอมพิวเตอร์ใช้0.05 (ท้งการทดสอบสมมติฐานทางเดียวหรือสองทาง)

ในขณะที่โลกแห่งความเป็นจริงนั้น…

อ้างอิงจากแถลงการณ์ของ The American Statistical Association (ASA) อเมริกาไม่ใช่พ่อ สนใจทำไมเกี่ยวกับ P-value: ความหมาย กระบวนการ และจุดประสงค์2

อ้างอิงจากแถลงการณ์ของ ASA เกี่ยวกับนัยยะสำคัญทางสถิติและ P-value2

  1. P-values สามารถใช้บอกได้ว่าข้อมูลนั้นมีความเหมาะสมกับโมเดลสถิติที่เราสนใจหรือไม่
  2. P-values อย่างเดียวใช้วัดความเป็นไปได้ที่สมมติฐานที่เราตั้งไว้จะเป็นจริง
  3. การสรุปผลทางวิทยาศาสตร์และการตัดสินใจทางนโยบายหรือธุรกิจไม่ควรอ้างอิงดูแค่ว่า P-value ผ่านระดับนัยสำคัญที่เราตั้งไว้หรือไม่เพียงอย่างเดียว
  4. การตีความได้อย่างเหมาะสมนั้นต้องรายงานอย่างไม่มีกั๊กและโปร่งใส
  5. P-value หรือนัยสำคัญทางสถิติไม่ใช่ตัววัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์
  6. P-value ไม่ใช่ตัววัดโมเดลหรือสมมติฐานที่ดี

แล้วตกลง… จะตกใจทำไม?

  1. P-values
  2. P-values
  3. P-value
  4. การ
  5. P-value

แหล่งอ้างอิง

1
[1] Ranstam, Jonas. “Why the P-value culture is bad and confidence intervals a better alternative.” Osteoarthritis and cartilage 20.8 (2012): 805-808. Link
[2] Wasserstein, Ronald L., and Nicole A. Lazar. “The ASA’s statement on p-values: context, process, and purpose.” The American Statistician 70:2 (2016): 129-133. Link
[3] Martz, Eston. “Three Things the P-Value Can’t Tell You about Your Hypothesis Test” Minitab, 20 Jun. 2011, Link
[4] Frost, Jim. “How to Correctly Interpret P Values.” Minitab, 17 Apr. 2014, Link
[5] Bastian, Hilda. “5 Tips For Avoiding P-Value Potholes.” The Public Library of Science (PLOS), 25 Apr. 2016, Link

https://stats.stackexchange.com/questions/134890/is-p-value-essentially-useless-and-dangerous-to-use

http://theconversation.com/the-problem-with-p-values-how-significant-are-they-really-20029