บทคัดย่อ
ผลการศึกษาวิจัยที่ได้ค่า p-value มากกว่า 0.05 หรือที่มีการสรุปผลว่าไม่มีนัยสำคัญทางสถิตินั้น มักได้รับการแปลความหมายอย่างไม่ถูกต้องว่าเป็นการศึกษาที่ไม่มีความสำคัญ หรือล้มเหลว หรือที่ไม่ถูกต้องยิ่งกว่านั้นคือแปลความหมายว่าเท่ากันหรือไม่มีความสัมพันธ์กัน ความจริงคือเราไม่สามารถสรุปว่าเท่ากันหรือสัมพันธ์กันหรือไม่โดยใช้ค่า p-value แม้ผลจะออกมาว่ามีนัยสำคัญทางสถิติจากผล p-value น้อยกว่า 0.05 นั้น ขนาดความแตกต่างอาจน้อยมากจนไม่มีความหมายใดๆ ถ้าหากขนาดตัวอย่างใหญ่มาก ค่าที่สามารถบอกได้ดีกว่านั้นคือค่าช่วงเชื่อมั่น บทความนี้อธิบายหลักการพื้นฐานเกี่ยวกับเรื่องนี้พร้อมตัวอย่างที่ง่ายต่อการทำความเข้าใจ
1. คำนำ
รายงานวิจัยที่ให้ผล ไม่มีนัยสำคัญ มักถูกจัดเป็นงานวิจัยที่ "ไม่สำคัญ" อย่างน่าเสียดาย ความจริงหาได้เป็นเช่นนั้นไม่ ผู้วิจัยบางคนถึงกับไม่เผยแพร่ผลงานที่ให้ผลดังกล่าว บางคนพยายามให้ได้ผลดังกล่าวจนเผยให้เห็นร่องรอยเช่นเปลี่ยนการทดสอบจากสองทางเป็นทางเดียวเพียงเพื่อให้สามารถบอกว่าผลมีนัยสำคัญ บรรณาธิการบางวารสารไม่ยอมลงตีพิมพ์ คณะกรรมการพิจารณาผลงานวิชาการบางกลุ่มไม่ให้งานนั้นผ่านการพิจารณา และอื่นๆ อีกมาก ปรากฏการณ์เหล่านี้เป็นการให้ความสำคัญกับค่า p-value เกินจริง (Over reliance on p-value) เป็นผลจากความไม่เข้าใจการอนุมานทางสถิติ (Statistical inference) เฉพาะอย่างยิ่งด้านการทดสอบสมมติฐาน การแปลความหมาย ไม่มีนัยสำคัญทางสถิติ (Not statistically significant) เป็น ไม่มีความสำคัญ (Clinically or socio-biologically unimportant) เป็นการเข้าใจที่ไม่ถูกต้อง บทความนี้อธิบายที่มาของการทดสอบความมีนัยสำคัญทางสถิติ วิธีการคำนวณ พร้อมตัวอย่างประกอบ และชี้ให้เห็นว่าผลการศึกษาที่สรุปว่าไม่มีนัยสำคัญนั้นมิได้หมายความว่าไม่มีความสำคัญ พร้อมกับเสนอแนะแนวทางที่ควรนำเสนอได้แก่ช่วงเชื่อมั่น แนวทางการแปลความหมาย และใช้ประโยชน์ผลการศึกษาดังกล่าว
2. พื้นฐานความรู้สำหรับทำความเข้าใจ
2.1 ภาษาชาวบ้าน
ลองจินตนาการถึงเหรียญที่ไม่ถ่วงหรือเหรียญที่ไม่มีคติ เรากล่าวว่าค่าความน่าจะเป็นในการโยนเหรียญแล้วขึ้นหัวจากการโยนเหรียญ 1 ครั้ง นั้น เท่ากับ 0.5 ถ้าเราโยนเหรียญ 10 ครั้งแล้วได้หัว 4 ครั้งได้ก้อย 6 ครั้งนั้นมีโอกาสสูงกว่าได้หัว 9 ครั้งกับก้อย 1 ครั้ง และจะพบว่าโอกาสที่จะได้หัวทั้ง 10 ครั้งจากการโยนเหรียญ 10 ครั้งนั้นมีน้อยลง
ความบังเอิญ คือสิ่งที่ทำให้เกิดการแปรผันของผลจากการทดลองโยนเหรียญดังกล่าว คราวนี้ลองนึกภาพสถานการณ์หนึ่งที่เราไม่แน่ใจว่าเหรียญถ่วงหรือไม่ เราเพียงแต่สงสัยแต่ไม่รู้และไม่แน่ใจว่าเหรียญนั้นถ่วงหรือไม่ เมื่อโยนแล้วส่วนใหญ่จะออกหัวหรือออกก้อย เราก็จะตั้งสมมุติฐานของความไม่แตกต่างว่าสัดส่วนของการเกิดหัวเกิดก้อยเท่ากัน กล่าวคือค่าความน่าจะเป็นของการโยนแล้วขึ้นหัวเท่ากับ 0.5 จากนั้นเราก็ทดสอบสมมุติฐานโดยการโยนเหรียญหลายๆครั้ง สมมติว่าโยนเหรียญ 10 ครั้ง และทั้ง 10 ครั้งออกหัว คำถามคือ ผลที่ได้นั้นมีโอกาสเป็นไปได้มากน้อยแค่ไหนถ้าหากเหรียญไม่ถ่วง? หลายคนอาจจะสรุปว่าเหตุการณ์เช่นนี้เกิดได้ค่อนข้างยาก ดังนั้นเขาจึงปฏิเสธสมมุติฐานของความไม่แตกต่างและสรุปว่าเหรียญนั้นถ่วง แต่ถ้าสมมุติผลได้ 9 หัว และ 1 ก้อย หรือได้ 8 หัว และ 2 ก้อย ถ้าหากความจริงคือเหรียญไม่ถ่วงแล้ว ผลที่ได้นั้นมีโอกาสเป็นไปได้มากขึ้นเป็นลำดับ การตัดสินใจว่าจะปฏิเสธสมมุติฐานของความไม่แตกต่างหรือไม่นั้นขึ้นอยู่กับวิจารณญาณ ไม่มีหลักเกณฑ์ตายตัว แต่มักไม่ต่างกันมาก เช่นถ้าสมมติสมมุติผลได้ 5 หัว และ 5 ก้อย หลายคนจะบอกว่าเป็นไปได้สูงและตัดสินไม่ปฏิเสธสมมุติฐานของความไม่แตกต่าง
วิธีการทางสถิติมีการกำหนดค่าในการตัดสินใจที่จะแยกระหว่างความเป็นไปได้และความเป็นไปไม่ได้คือ 5 ใน 100 หรือ p-value = 0.05 ขีดจำกัดดังกล่าวได้กำหนดเป็นวิธีมาช้านานถึงแม้ว่าจะมีค่าอื่นที่อาจจะใช้ได้อย่างมีเหตุผล เช่น 0.1 และ 0.01 ก็ตาม ผลการศึกษาที่ได้ค่าน้อยกว่าค่านี้ (p-value < 0.05) จะได้สรุปว่ามีนัยสำคัญทางสถิติ
คำว่านัยสำคัญทางสถิติจึงมีความหมายว่าผลที่ได้จาการศึกษาเพียงพอที่จะบอกว่าเป็นไปโดยบังเอิญนั้นน้อยมาก และเราพร้อมที่จะปฏิเสธสมมุติฐานของความไม่แตกต่าง แต่ถ้าผลการศึกษาที่ได้ค่ามากกว่าค่านี้ (p-value > 0.05) เราก็จะบอกว่าการศึกษาครั้งนี้ไม่มีนัยสำคัญทางสถิติและสมมุติฐานของความไม่แตกต่างนั้นไม่ได้รับการปฏิเสธ เช่นผลการโยนเหรียญเกิดหัว 7 ครั้งก้อย 3 ครั้ง ผลนี้แม้จะเกิดได้ไม่บ่อยนักแต่ก็ใช่เป็นไปได้ยากถึงแม้เหรียญจะไม่ถ่วง
เหตุการณ์ที่ยังผลให้ p-value > 0.05 สามารถเกิดขึ้นได้กับการที่ได้รับอนุญาตให้โยนเหรียญเพียง 3 ครั้ง แม้ผลจะออกมาว่าได้หัวทั้ง 3 ครั้งก็ไม่สามารถบอกว่าเป็นเหตุการณ์ที่เป็นไปได้ยาก และจะสรุปได้ว่าไม่มีนัยสำคัญทางสถิติเช่นเดียวกัน กรณีนี้ความจริงเหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ว่าถ่วงหรือไม่ ดังนั้นคำกล่าวที่ว่า เราไม่มีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือสรุปว่าเหรียญถ่วง) จึงเป็นการอธิบายคำว่า ไม่มีนัยสำคัญทางสถิติ ได้เหมาะสมในกรณีนี้ ในทางตรงข้ามถ้าโยนเหรียญ 1,000 ครั้ง ได้หัว 499 ครั้งและก้อย 501 ครั้งย่อมยังผลให้ p-value > 0.05 เช่นกัน (คำนวณจริงได้ p-value = 0.950 ในการทดสอบสมมติฐานว่า สัดส่วนได้หัวเท่ากับก้อยเท่ากับ 0.5 และผลทดลองได้ 499/1000 = 0.499) แต่กรณีนี้เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานไม่ผิด (คือมั่นใจที่จะสรุปว่าเหรียญไม่ถ่วง) ดังนั้นผลการศึกษาที่ออกมาว่าไม่มีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value ทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้นอาจถูกหรือผิดก็ได้ กล่าวตามตัวอย่างข้างต้นคือ เหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ (Inconclusive)
ต่อเนื่องจากตัวอย่างเดิม ถ้าโยนเหรียญ 1,000,000 ครั้ง แม้สัดส่วนการเกิดหัวเท่าเดิม คือ 0.499 ซึ่งต่างจาก 0.5 น้อยมากๆ แต่จะได้ p-value < 0.05 ทันที (คำนวณจริงได้ p-value = 0.046) ข้อสังเกตคือ แม้ค่าความแตกต่างคือ 0.500-0.499 = 0.001 เท่ากันกับตัวอย่างการโยนเหรียญ 1,000 ครั้ง (n=1,000) ตามที่กล่าวข้างต้น แต่กรณีนี้ (n=1,000,000) เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือมั่นใจที่จะสรุปว่าเหรียญถ่วง) ดังนั้นผลการศึกษาที่ออกมาว่ามีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value สามารถทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้นอาจผิด แต่อาจแปลความหมายในทางที่ผิดได้ถ้าหากขนาดความแตกต่างนั้นนั้นน้อยมาก
การศึกษาที่มีขนาดตัวอย่างใหญ่มากๆ สามารถได้ผล Significant แม้ขนาดความแตกต่างจะน้อยมาก ๆ
2.2 ภาษาสถิติ
การศึกษาวิจัยเชิงปริมาณโดยทั่วไปเป็นการศึกษาในกลุ่มตัวอย่างจำนวนหนึ่ง แล้วนำผลที่ได้ไปอธิบายประชากรที่เป็นแหล่งที่มาของตัวอย่างนั้น โดยใช้วิธีการทางสถิติที่เรียกว่า การอนุมานทางสถิติ (Statistical inference)
การอนุมานทางสถิติมี 2 องค์ประกอบได้แก่ การประมาณค่า (Estimation) และการทดสอบสมมติฐาน (Hypothesis testing) ผลจากการประมาณค่าคือค่าช่วงเชื่อมั่น (Confidence interval ย่อเป็น CI เช่น 95%CI) ส่วนการทดสอบสมมติฐาน ผลคือค่า p-value นำไปสู่การแปลความหมายว่ามีนัยสำคัญ (Significant) กรณี p-value < 0.05 และไม่มีนัยสำคัญ (Non-significant) กรณี p-value > 0.05
ค่า 0.05 นี้เป็นเกณฑ์ในการตัดสินใจ นอกจากค่านี้ผู้วิจัยอาจกำหนดเป็น 0.1 หรือ 0.01 ก็ได้แต่ไม่เป็นที่นิยม ค่าเหล่านี้ผู้วิจัยต้องกำหนดล่วงหน้าก่อนเห็นข้อมูล
ดังนั้น p-value เป็นประเด็นเฉพาะกับงานวิจัยที่มีการทดสอบสมมติฐานเท่านั้น การวิจัยใดที่มุ่งเพื่อประมาณค่าเป็นหลักเช่นเพื่อหาค่าปกติของระดับน้ำตาลในเลือดของคนไทย จะไม่มีการทดสอบสมมติฐาน p-value ก็ไม่ใช่ประเด็น
3. การทดสอบสมมติฐาน ไม่ใช่การพิสูจน์สมมติฐาน
การทดสอบสมมติฐานคือการคำนวณหาค่าความน่าจะเป็นหรือโอกาสที่จะได้ผลการศึกษาตามที่ได้ในครั้งนี้หรือสุดขั้วกว่านั้นถ้าสมมติฐานเป็นจริง ตัวอย่างเช่น การศึกษาเปรียบเทียบอัตราการหายจากโรคหลังใช้ยาใหม่ (P1) เปรียบเทียบกับยาเก่า (P2) โปรดสังเกตว่าใช้ P อักษรตัวใหญ่แทนอัตราการหายในประชากร ค่าที่อธิบายประชากรเรียกว่าค่าพารามิเตอร์ สมมติฐานในที่นี้คืออัตราการหายจากยาเก่าเท่ากันกับอัตราการหายจากยาใหม่ (Ho: P1 = P2 หรือเขียนอีกรูปหนึ่งเป็น Ho: P1- P2 = 0)
สมมติว่าผลการศึกษาเราพบว่า p1 = 40% และ p2 = 50% โปรดสังเกตว่าใช้ p อักษรตัวเล็กเพื่อทราบว่าเป็นค่าสถิติจากตัวอย่าง (โปรดอย่าสับสน p ในที่นี้มาจาก Proportion คือค่าสัดส่วน หรือ Percentage คือค่าสัดส่วนคูณด้วย 100 ซึ่งแตกต่างจาก p-value ที่ p มาจาก Probability คือค่าความน่าจะเป็น) ผลการศึกษาบ่งชี้ว่าอัตราการหายจากยาใหม่สูงกว่ายาเก่า 10% แต่นี่เป็นผลจากการศึกษาเพียงครั้งเดียวจากคนไข้ตัวอย่างจำนวนหนึ่ง ถ้าศึกษาเช่นเดียวกันนี้หลายๆครั้งย่อมได้ค่าแตกต่างกันไป อันเป็นผลจากความบังเอิญ (Chance) เมื่อเราทำการทดสอบสมมติฐานตามที่กล่าวข้างต้น จะกล่าวเป็นประโยคคล้ายกันว่า ถ้าความเป็นจริงคือยามีประสิทธิผลเท่ากัน หรืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสเท่าไร? เพื่อตอบคำถามดังกล่าว ผู้วิเคราะห์ต้องใช้สถิติทดสอบ (Statistical test) เช่นกรณีนี้ใช้ Z-test ผลที่ได้คือ p-value เช่นถ้าสมมติให้การศึกษานี้มีขนาดตัวอย่างกลุ่มละ 50 รายเท่ากัน ค่า p-value = 0.32 กล่าวคือ ถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสประมาณ 1 ใน 3 ตามความรู้สึกแล้วอะไรก็ตามที่มีโอกาส 1 ใน 3 ยังถือว่ามีโอกาสสูงอยู่ จึงกล่าวว่าความแตกต่างที่ได้เท่ากับ 10% นั้นสามารถเกิดได้โดยบังเอิญทั้งที่ความจริงอัตราการหายไม่แตกต่างกัน นั่นคือผู้วิจัยไม่สามารถปฏิเสธสมมติฐานความไม่แตกต่าง กรณีเช่นนี้มักเขียนรายงานผลว่า อัตราการหายจากการใช้ยาใหม่แตกต่างจากยาเก่าอย่างไม่มีนัยสำคัญทางสถิติ (p-value = 0.32) ด้วยถือว่าทุกคนเข้าใจ แต่ความจริงคือทุกคนเข้าใจต่างกันตามที่กล่าวข้างต้น แต่ถ้าพิจารณาให้ดี สิ่งที่ใช้กล่าวอ้างว่ามีหรือไม่มีนัยสำคัญนั้นเป็นเพียง ค่าความน่าจะเป็น เท่านั้น เราพิจารณาความน่าจะเป็น แล้วตัดสินใจ แล้วจึงกล่าวเช่นนั้น
ถ้า 1 ใน 3 ยังถือว่าเป็นค่าความน่าจะเป็นที่สูง จึงสรุปว่าไม่มีนัยสำคัญ แล้วเท่าไรจึงจะถือว่าต่ำพอที่จะสรุปว่ามีนัยสำคัญได้ นั่นคือต้องมีเกณฑ์ เกณฑ์ที่ยอมรับกันโดยทั่วไปคือน้อยกว่า 1 ใน 20 หรือค่าความน่าจะเป็นน้อยกว่า 0.05 เป็นเกณฑ์ตัดสินใจปฏิเสธสมมติฐาน ค่านี้เรียกว่าระดับนัยสำคัญ (Significant level แทนด้วย a อ่านว่าแอลฟ่า) เช่นการศึกษาที่กล่าวข้างต้นให้ผล p-value = 0.01 แสดงว่าถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสประมาณ 1 ใน 100 คือเป็นไปได้แต่โอกาสเป็นไปเช่นนั้นน้อยมาก จึงกล้าที่จะตัดสินใจบอกว่าอัตราการหายต่างกัน โดยยอมรับความผิดพลาดในการตัดสินใจครั้งนี้ด้วยโอกาสไม่เกิน 0.05 เกณฑ์ตัดสินใจนี้เพียงแต่ตั้งกันขึ้นเองแล้วถือปฏิบัติตามนั้น ค่า a นี้นอกจากค่า 0.05 ยังมีค่า 0.01 และ 0.1 แล้วแต่ผู้วิจัยจะกำหนด แต่ค่า p-value จากการศึกษาใดย่อมคงที่ตามที่คำนวณได้ ส่วนค่า a นั้นผู้วิจัยต้องกำหนดล่วงหน้าก่อนเห็นข้อมูล แต่ผู้อ่านสามารถใช้วิจารณญาณเปลี่ยนค่า a ได้ ซึ่งความจริงก็คือการพิจารณาค่า p-value จริงๆ นั่นเอง ด้วยเหตุนี้ การแสดงค่า p-value จริงๆ จึงดีกว่าที่จะบอกเพียงว่า p-value < 0.05 หรือ p-value > 0.05 หรือค่าอื่นที่เป็นเกณฑ์ที่ผู้วิจัยใช้ตัดสินใจ และการไม่นำเสนอค่า p-value เลยแต่นำเสนอเป็น มีนัยสำคัญ/ไม่มีนัยสำคัญ หรือใช้เครื่องหมาย * แทนนั้นจึงไม่แนะนำอย่างยิ่ง
นอกจากนั้นจะเห็นว่าการทดสอบสมมติฐานตามตัวอย่างที่กล่าวข้างต้นไม่ใช่การพิสูจน์ว่ายาใหม่ดีกว่ายาเก่า สถิติมิได้มีบทบาทในการพิสูจน์อะไรทั้งสิ้น ในการทดสอบสมมติฐานสถิติเพียงบอกขนาดความน่าจะเป็นที่สนใจเท่านั้น เพื่อผู้วิจัยใช้ประกอบการตัดสินใจว่าจะปฏิเสธสมมติฐานเท่านั้น
4. การแปลความหมายที่ถูกต้อง
ทุกที่ที่มีค่า p-value ต้องรู้ว่าสมมติฐานคืออะไร จึงจะแปลความหมายได้ถูกต้อง ส่วนมากมักรู้โดยอัตโนมัติจากคำถามวิจัยเช่นการศึกษาเปรียบเทียบประสิทธิผลของยาสองขนาน สมมติฐานคือยาสองขนานมีประสิทธิผลไม่แตกต่างกัน แม้ผู้วิจัยจะไม่ระบุไว้ก็ไม่ถึงกับเกิดผลเสีย แต่บางกรณีเช่นการศึกษาผู้ป่วยกลุ่มเดียวว่าระดับน้ำตาลในกระแสเลือดโดยเฉลี่ยเท่าไร สมมติฐานต้องระบุไว้เสมอว่าค่าที่ต้องการทดสอบคือเท่าไร ค่าที่ระบุในสมมติฐานเรียกว่าค่าความไม่แตกต่าง (Null value) กรณีตัวอย่างแรกคือ 0 กรณีตัวอย่างหลังคือค่าอะไรก็ได้ที่นักวิจัยต้องการทราบว่าผลจากการศึกษาแตกต่างจากค่านี้โดยบังเอิญหรือไม่
หลังจากที่ทราบว่าสมมติฐานคืออะไร การแปลความหมายที่ถูกต้องจะต้องกล่าวย้ำสมมติฐานก่อน ตามด้วยผลจากการศึกษา และค่า p-value โดยกล่าวว่า ถ้าสมมติฐานเป็นจริง การได้ผลตามที่พบจากการศึกษานี้หรือสุดขั้วกว่านั้นมีโอกาสเท่าไร เช่นตัวอย่างที่กล่าวข้างต้นว่า ถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 แล้ว การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้น มีโอกาสเท่ากับ 0.32 อย่างไรก็ตาม ข้อความนี้มักไม่นิยมเขียนในการรายงานผลการวิจัย แต่มักรายงานผลเป็น อัตราการหายจากการใช้ยาใหม่แตกต่างจากยาเก่าอย่างไม่มีนัยสำคัญทางสถิติ (p-value = 0.32) ถึงแม้รายงานเช่นนี้ การเข้าใจได้เช่นข้อความข้างต้นตามที่ควรจะเป็นนั้นจะทำให้ข้อความที่พยายามขยายความผลการศึกษานี้ไม่ผิดเพี้ยน ไม่ว่าจะปรากฏในบทอภิปรายผล หรือข้อเสนอแนะ สิ่งที่พบบ่อยคือ ผล Non-significant มักถูกแปลความหมายว่าเท่ากันเช่นกล่าวว่า ดังนั้นยาใหม่มีประสิทธิผลไม่ต่างไปจากยาเก่า นำไปสู่ข้อเสนอแนะที่ไม่แนะนำให้ใช้ยาใหม่ บ้างกลับบอกว่ายาใหม่ดีกว่ายาเก่า 10% ตามผลที่ได้จากการศึกษาพร้อมกับบอกว่า อย่างไรก็ตามการศึกษานี้ไม่พบว่ามีนัยสำคัญทางสถิติ จึงควรมีการศึกษาใหม่ที่มีขนาดตัวอย่างใหญ่กว่านี้ ราวกับว่าการเพิ่มขนาดตัวอย่างทำให้สรรพคุณยาเปลี่ยนไปได้ การกล่าวเช่นนี้โดยพิจารณาจากค่า p-value อย่างเดียวล้วนมีโอกาสผิดพลาดได้ทั้งสิ้น กรณีผลการศึกษาบ่งชี้ว่าไม่มีนัยสำคัญทางสถิติ ถ้าพิจารณาจาก p-value อย่างเดียว เราสามารถบอกได้เพียงว่าเป็นความบังเอิญที่ได้ผลเช่นนั้น ความจริงอาจเท่ากันหรือต่างกันก็ได้
ตัวอย่างอื่นที่คล้ายกันกับผลไม่มีนัยสำคัญทางสถิตินี้ได้แก่ในศาลยุติธรรมและในห้องปฏิบัติการ (ห้อง Lab) โดยกล่าวได้ดังนี้ ในศาลต้องเริ่มจากมีการกล่าวหาโดยโจทก์ว่าจำเลยผิด จากนั้นศาลจะเชื่อว่าจำเลยไม่ผิดไว้ก่อน (สมมติฐานความไม่แตกต่าง หรือ H0) แล้วพยานหลักฐานจากโจทก์จะใช้สำหรับพิสูจน์ว่าจำเลยผิดตามข้อกล่าวหาหรือไม่ (สมมติฐานทางเลือก หรือ HA)
การ พิสูจน์ ในศาล ถ้าได้ข้อสรุปว่า จำเลยไม่ผิดตามข้อกล่าวหา หมายถึงจำเลยอาจบริสุทธิ์ หรือผิดจริงแต่พยานหลักฐานไม่เพียงพอก็ได้
การ ตรวจ สิ่งส่งตรวจทางห้องปฏิบัติการให้ผลลบ หมายถึงสิ่งส่งตรวจนั้นอาจไม่มีเชื้อหรือมีเชื้อแต่ตรวจไม่พบเชื้อที่เรียกร้องให้ตรวจหานั้นก็ได้
แม้ผลจะสรุปในทางตรงข้ามว่ามีพยานหลักฐานเอาผิดจำเลยได้ หรือผล Lab เป็นผลบวก ซึ่งคล้ายกับการทดสอบสมมติฐานให้ผลว่ามีนัยสำคัญทางสถิติ ข้อสรุปดังกล่าวอาจผิดก็ได้ กล่าวคือจำคุกคนไม่ผิด ผลห้องปฏิบัติการเป็นผลบวกลวง (False positive) และปฏิเสธสมมติฐานที่เป็นจริง ตามลำดับ
จากตัวอย่างข้างต้น ผลการไต่สวนในศาลจะบอกเลยว่าจำเลยผิดตามข้อกล่าวหาหรือไม่ คำตัดสินโต้แย้งไม่ได้ เช่นเดียวกันกับการตรวจในห้องปฏิบัติการ แต่ในการทดสอบสมมติฐานทางสถิติ จะให้ผลเป็นความน่าจะเป็นหรือโอกาสให้ทั้งผู้วิจัยและผู้อ่านผลการวิจัยพิจารณาตัดสินใจ แต่เป็นเพียงโอกาสตัดสินใจผิดถ้าสมมติฐานเป็นจริง จึงมีความหมายค่อนข้างจำกัด
5. ช่วงเชื่อมั่นให้ประโยชน์ที่เหนือกว่า
จากตัวอย่างข้างต้น อัตราการหายในกลุ่มที่ใช้ยาใหม่สูงกว่ากลุ่มที่ใช้ยาเก่า 10% ช่วงเชื่อมั่น 95% ของความแตกต่างอยู่ระหว่าง 9.4% ถึง 29.4% เพื่อง่าย เราสามารถแสดงเป็นแผนภูมิตามรูปที่ 1
รูปที่ 1 ช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่าจากการศึกษากรณีตัวอย่าง และค่าความแตกต่างที่มีความสำคัญทางการแพทย์
จากรูปที่ 1 ชี้ให้เห็นความจริงอย่างหนึ่งเกี่ยวกับความสัมพันธ์ระหว่างค่า p-value กับช่วงเชื่อมั่นว่า ถ้าช่วงเชื่อมั่น 95% คร่อมค่า 0 ค่า p-value จะมากกว่า 0.05 เสมอ ค่า 0 คือค่าความไม่แตกต่าง (Null value) สำหรับตัวอย่างนี้ เป็นค่าที่ปรากฏในสมมติฐานความไม่แตกต่างนั่นเอง นั่นหมายถึงช่วงเชื่อมั่นสามารถบอกได้ว่าความแตกต่างนั้นมีหรือไม่มีนัยสำคัญทางสถิติได้เช่นกัน แม้จะบอกไม่ได้ละเอียดลงไปว่า p-value เท่ากับเท่าไร แต่บอกอะไรที่มากไปกว่า p-value มาก เช่นรูปที่ 1 แม้ผลคือไม่มีนัยสำคัญทางสถิติ แต่มีทิศทางค่อนมาทางด้านขวาคือยาใหม่มีแนวโน้มดีกว่ายาเก่า นอกจากนั้นผลดังกล่าวเป็นเพียงเปรียบเทียบกับค่า 0 ในความเป็นจริงผู้วิจัยมักมีระดับความแตกต่างที่มีความสำคัญทางการแพทย์ที่ต่างจาก 0 เช่นจะเปลี่ยนไปใช้ยาใหม่ก็ต่อเมื่ออัตราการหายจากโรคจากยาใหม่มากกกว่ายาเก่าเกิน 25% จะสามารถบอกได้ว่าการศึกษานี้ไม่สามารถให้ข้อสรุปว่ายาใหม่ดีกว่ายาเก่า (Inconclusive finding) แต่ถ้าศึกษาใหม่ด้วยขนาดตัวอย่างที่มากกว่าเดิม โอกาสที่จะพบว่ายาใหม่ไม่ดีไปกว่ายาเก่าเกินระดับที่ถือว่ามีความสำคัญทางการแพทย์นั้นมีสูงกว่าผลที่เป็นตรงข้าม
รูปที่ 2 แสดงช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่า สำหรับแสดงผลการศึกษาที่เป็นไปได้จาก 7 งานวิจัย โดยกำหนดว่าความแตกต่าง 25% ถือว่ามีความสำคัญทางการแพทย์
รูปที่ 2 ช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่า สำหรับแสดงผลการศึกษาที่เป็นไปได้จากหลายการวิจัย
จากทั้ง 7 งานวิจัย งานวิจัยที่ 1 ถึง 3 ให้ผลว่าต่างจาก 0 อย่างมีนัยสำคัญทางสถิติ แต่งานวิจัยที่ 1 ยังสรุปไม่ได้ว่ายาใหม่ดีกว่ายาเก่าด้วยช่วงเชื่อมั่นคร่อม 25% และช่วงเชื่อมั่นกว้างซึ่งสะท้อนว่าขนาดตัวอย่างไม่เพียงพอ แม้จะเพิ่มขนาดตัวอย่างแต่มีโอกาสสูงที่จะได้ข้อสรุปว่ายาใหม่ไม่ดีกว่ายาเก่า ในขณะที่งานวิจัยที่ 2 ช่วงเชื่อมั่นที่แคบหมายถึงผลกระชับ (Precise) ขนาดตัวอย่างเพียงพอ และได้ข้อสรุปแล้วว่ายาใหม่ไม่ดีไปกว่ายาเก่า ส่วนงานวิจัยที่ 3 คล้ายกับงานวิจัยที่ 2 แต่ได้ข้อสรุปแล้วว่ายาใหม่ไม่ดีกว่ายาเก่า
งานวิจัยที่ 4 ถึง 7 ให้ผลว่าต่างจาก 0 อย่างไม่มีนัยสำคัญทางสถิติ แต่เฉพาะงานวิจัยที่ 4 เท่านั้นที่อาจสามารถสรุปว่าเท่ากัน ถ้าหากเป็นที่ยอมรับในวงการวิชาชีพนั้นว่าถ้าต่างกันไม่เกิน ±5% ถือว่าเท่ากัน (Equivalent range) งานวิจัยที่ 4 คืองานวิจัยที่ให้ข้อสรุปแล้วว่ายาทั้งสองขนานมีประสิทธิผลเท่ากัน ส่วนงานวิจัยอื่นๆที่ให้ผลไม่มีนัยสำคัญไม่สามารถสรุปว่าเท่ากันได้เลย งานวิจัยที่ 5 กับ 6 อาจได้ค่า p-value เท่ากันแต่ทิศทางความแตกต่างตรงข้ามกัน อย่างไรก็ตามทั้งงานวิจัยที่ 4 5 และ 6 ล้วนให้ข้อสรุปแล้วว่ายาใหม่ไม่ดีไปกว่ายาเก่าด้วยช่วงเชื่อมั่นไม่คร่อม 25% และขีดจำกัดบนสุดของช่วงเชื่อมั่นน้อยกว่า 25% ในขณะที่งานวิจัยที่ 7 ได้ผลสรุปไม่ต่างจากงานวิจัยที่ 1 และจากทั้ง 4 งานวิจัยที่ให้ผลไม่มีนัยสำคัญทางสถิตินั้น เฉพาะงานวิจัยที่ 1 และ 7 เท่านั้นที่มีเหตุผลที่จะให้ข้อเสนอแนะว่าควรมีการศึกษาซ้ำด้วยขนาดตัวอย่างที่ใหญ่กว่า เมื่อคำนึงถึงความแตกต่างที่มีความสำคัญในทางปฏิบัติ
ข้อสรุปทั้งหมดที่กล่าวนี้ การพิจารณาจากค่า p-value เพียงอย่างเดียวไม่สามารถสรุปได้ตามนั้น ค่า p-value ไม่สามารถให้ข้อมูลอะไรเลยเกี่ยวกับขนาดความแตกต่าง ขนาดความสัมพันธ์ หรือขนาดอื่นใดที่การศึกษาวิจัยนั้นสนใจ ค่า p-value บอกเพียงว่าความแตกต่างหรือความสัมพันธ์ที่พบจากการศึกษาหรือมากกว่านั้นเป็นไปได้มากน้อยเพียงใดถ้าหากความจริงคือไม่มีความแตกต่างหรือไม่มีความสัมพันธ์กัน
6. สรุป
การรายงานผลการศึกษาวิจัยที่มีการทดสอบสมมติฐานและได้ค่า p-value มากกว่าระดับนัยสำคัญว่า ไม่มีนัยสำคัญทางสถิตินั้น มักถูกนำไปแปลความหมายอย่างไม่ถูกต้องว่าเป็นการศึกษาที่ไม่มีความสำคัญ หรือล้มเหลว ที่ไม่ถูกต้องยิ่งกว่าคือแปลความหมายว่าเท่ากันหรือไม่มีความสัมพันธ์กัน ความจริงผลอาจเป็นตรงข้าม จากค่า p-value เราไม่สามารถสรุปได้เลยว่าเป็นแบบใด บอกได้แต่เพียงว่าถ้าสมมติฐานถูกต้องแล้วการที่การศึกษาหนึ่งจะได้ผลเช่นที่ได้จากการศึกษานี้หรือสุดขั้วกว่านั้นมีโอกาสสูง ความแตกต่างหรือความสัมพันธ์ที่พบนั้นเป็นไปโดยบังเอิญ ความหมายที่เป็นไปได้มีสองอย่างเท่านั้นคือเท่ากันหรือไม่มีความสัมพันธ์กัน และต่างหรือสัมพันธ์กันแต่ขนาดตัวอย่างไม่เพียงพอที่จะแสดงให้เห็นตามนั้นได้ ค่าที่สามารถบอกได้ว่าเป็นความหมายใดนั้นคือค่าช่วงเชื่อมั่น โดยพิจารณาควบคู่กับขนาดความแตกต่างหรือความสัมพันธ์ที่มีความสำคัญในทางปฏิบัติ ดังนั้นรายงานวิจัยที่ให้ผลไม่มีนัยสำคัญทางสถิติจึงไม่ได้หมายความว่าเป็นงานวิจัยที่ไม่สำคัญ แต่อาจเป็นงานวิจัยที่ให้ข้อสรุปแล้วว่าเท่าหรือไม่มีความสัมพันธ์กันแล้วก็ได้ หรืออาจเป็นงานวิจัยที่สรุปได้แล้วว่าต่างกันอย่างมากไม่เกินระดับที่มีความสำคัญในทางปฏิบัติแล้วก็ได้ หรือแม้กระทั่งกรณีที่ยังไม่สามารถสรุปได้ตามที่กล่าวแต่ค่าช่วงเชื่อมั่นยังบอกขนาดความแตกต่างและทิศทางที่เป็นไปได้กรณีตัวอย่างที่ใหญ่พอ