การทดสอบนัยสำคัญทางสถิติและช่วงเชื่อมั่น

สนใจลงโฆษณา โทร. 02-275-1900, 02-612-4900, 038-395000

ค้นบ่อย : หางานบัญชี, หางานธุรการ, หางานจัดซื้อ, หางานผู้จัดการ, หางานขับรถ, หางานบุคคล, หางานคลังสินค้า, หางานครู, หางานวิศวกร, หางานเขียนแบบ, หางานคีย์ข้อมูล, หางานการตลาด, หางานโรงแรม, หางานสิ่งแวดล้อม, หางานคอมพิวเตอร์, หางาน Programmer, หางานประชาสัมพันธ์, หางานช่าง, หางานสถาปนิก

เรื่อง การทดสอบนัยสำคัญทางสถิติและช่วงเชื่อมั่น
เขียนโดย Wonder Man

Rated: vote
by 11 users

บทคัดย่อ

ผลการศึกษาวิจัยที่ได้ค่า p-value มากกว่า 0.05 หรือที่มีการสรุปผลว่าไม่มีนัยสำคัญทางสถิตินั้น มักได้รับการแปลความหมายอย่างไม่ถูกต้องว่าเป็นการศึกษาที่ไม่มีความสำคัญ หรือล้มเหลว หรือที่ไม่ถูกต้องยิ่งกว่านั้นคือแปลความหมายว่าเท่ากันหรือไม่มีความสัมพันธ์กัน ความจริงคือเราไม่สามารถสรุปว่าเท่ากันหรือสัมพันธ์กันหรือไม่โดยใช้ค่า p-value แม้ผลจะออกมาว่ามีนัยสำคัญทางสถิติจากผล p-value น้อยกว่า 0.05 นั้น ขนาดความแตกต่างอาจน้อยมากจนไม่มีความหมายใดๆ ถ้าหากขนาดตัวอย่างใหญ่มาก ค่าที่สามารถบอกได้ดีกว่านั้นคือค่าช่วงเชื่อมั่น บทความนี้อธิบายหลักการพื้นฐานเกี่ยวกับเรื่องนี้พร้อมตัวอย่างที่ง่ายต่อการทำความเข้าใจ

1. คำนำ

รายงานวิจัยที่ให้ผล “ไม่มีนัยสำคัญ” มักถูกจัดเป็นงานวิจัยที่ "ไม่สำคัญ" อย่างน่าเสียดาย ความจริงหาได้เป็นเช่นนั้นไม่ ผู้วิจัยบางคนถึงกับไม่เผยแพร่ผลงานที่ให้ผลดังกล่าว บางคนพยายามให้ได้ผลดังกล่าวจนเผยให้เห็นร่องรอยเช่นเปลี่ยนการทดสอบจากสองทางเป็นทางเดียวเพียงเพื่อให้สามารถบอกว่าผลมีนัยสำคัญ บรรณาธิการบางวารสารไม่ยอมลงตีพิมพ์ คณะกรรมการพิจารณาผลงานวิชาการบางกลุ่มไม่ให้งานนั้นผ่านการพิจารณา และอื่นๆ อีกมาก ปรากฏการณ์เหล่านี้เป็นการให้ความสำคัญกับค่า p-value เกินจริง (Over reliance on p-value) เป็นผลจากความไม่เข้าใจการอนุมานทางสถิติ (Statistical inference) เฉพาะอย่างยิ่งด้านการทดสอบสมมติฐาน การแปลความหมาย “ไม่มีนัยสำคัญทางสถิติ (Not statistically significant)” เป็น “ไม่มีความสำคัญ (Clinically or socio-biologically unimportant)” เป็นการเข้าใจที่ไม่ถูกต้อง บทความนี้อธิบายที่มาของการทดสอบความมีนัยสำคัญทางสถิติ วิธีการคำนวณ พร้อมตัวอย่างประกอบ และชี้ให้เห็นว่าผลการศึกษาที่สรุปว่าไม่มีนัยสำคัญนั้นมิได้หมายความว่าไม่มีความสำคัญ พร้อมกับเสนอแนะแนวทางที่ควรนำเสนอได้แก่ช่วงเชื่อมั่น แนวทางการแปลความหมาย และใช้ประโยชน์ผลการศึกษาดังกล่าว

2. พื้นฐานความรู้สำหรับทำความเข้าใจ

2.1 ภาษาชาวบ้าน

ลองจินตนาการถึงเหรียญที่ไม่ถ่วงหรือเหรียญที่ไม่มีคติ เรากล่าวว่าค่าความน่าจะเป็นในการโยนเหรียญแล้วขึ้นหัวจากการโยนเหรียญ 1 ครั้ง นั้น เท่ากับ 0.5 ถ้าเราโยนเหรียญ 10 ครั้งแล้วได้หัว 4 ครั้งได้ก้อย 6 ครั้งนั้นมีโอกาสสูงกว่าได้หัว 9 ครั้งกับก้อย 1 ครั้ง และจะพบว่าโอกาสที่จะได้หัวทั้ง 10 ครั้งจากการโยนเหรียญ 10 ครั้งนั้นมีน้อยลง

“ความบังเอิญ” คือสิ่งที่ทำให้เกิดการแปรผันของผลจากการทดลองโยนเหรียญดังกล่าว คราวนี้ลองนึกภาพสถานการณ์หนึ่งที่เราไม่แน่ใจว่าเหรียญถ่วงหรือไม่ เราเพียงแต่สงสัยแต่ไม่รู้และไม่แน่ใจว่าเหรียญนั้นถ่วงหรือไม่ เมื่อโยนแล้วส่วนใหญ่จะออกหัวหรือออกก้อย เราก็จะตั้งสมมุติฐานของความไม่แตกต่างว่าสัดส่วนของการเกิดหัวเกิดก้อยเท่ากัน กล่าวคือค่าความน่าจะเป็นของการโยนแล้วขึ้นหัวเท่ากับ 0.5 จากนั้นเราก็ทดสอบสมมุติฐานโดยการโยนเหรียญหลายๆครั้ง สมมติว่าโยนเหรียญ 10 ครั้ง และทั้ง 10 ครั้งออกหัว คำถามคือ “ผลที่ได้นั้นมีโอกาสเป็นไปได้มากน้อยแค่ไหนถ้าหากเหรียญไม่ถ่วง?” หลายคนอาจจะสรุปว่าเหตุการณ์เช่นนี้เกิดได้ค่อนข้างยาก ดังนั้นเขาจึงปฏิเสธสมมุติฐานของความไม่แตกต่างและสรุปว่าเหรียญนั้นถ่วง แต่ถ้าสมมุติผลได้ 9 หัว และ 1 ก้อย หรือได้ 8 หัว และ 2 ก้อย ถ้าหากความจริงคือเหรียญไม่ถ่วงแล้ว ผลที่ได้นั้นมีโอกาสเป็นไปได้มากขึ้นเป็นลำดับ การตัดสินใจว่าจะปฏิเสธสมมุติฐานของความไม่แตกต่างหรือไม่นั้นขึ้นอยู่กับวิจารณญาณ ไม่มีหลักเกณฑ์ตายตัว แต่มักไม่ต่างกันมาก เช่นถ้าสมมติสมมุติผลได้ 5 หัว และ 5 ก้อย หลายคนจะบอกว่าเป็นไปได้สูงและตัดสินไม่ปฏิเสธสมมุติฐานของความไม่แตกต่าง

วิธีการทางสถิติมีการกำหนดค่าในการตัดสินใจที่จะแยกระหว่างความเป็นไปได้และความเป็นไปไม่ได้คือ 5 ใน 100 หรือ p-value = 0.05 ขีดจำกัดดังกล่าวได้กำหนดเป็นวิธีมาช้านานถึงแม้ว่าจะมีค่าอื่นที่อาจจะใช้ได้อย่างมีเหตุผล เช่น 0.1 และ 0.01 ก็ตาม ผลการศึกษาที่ได้ค่าน้อยกว่าค่านี้ (p-value < 0.05) จะได้สรุปว่ามีนัยสำคัญทางสถิติ

คำว่านัยสำคัญทางสถิติจึงมีความหมายว่าผลที่ได้จาการศึกษาเพียงพอที่จะบอกว่าเป็นไปโดยบังเอิญนั้นน้อยมาก และเราพร้อมที่จะปฏิเสธสมมุติฐานของความไม่แตกต่าง แต่ถ้าผลการศึกษาที่ได้ค่ามากกว่าค่านี้ (p-value > 0.05) เราก็จะบอกว่าการศึกษาครั้งนี้ไม่มีนัยสำคัญทางสถิติและสมมุติฐานของความไม่แตกต่างนั้นไม่ได้รับการปฏิเสธ เช่นผลการโยนเหรียญเกิดหัว 7 ครั้งก้อย 3 ครั้ง ผลนี้แม้จะเกิดได้ไม่บ่อยนักแต่ก็ใช่เป็นไปได้ยากถึงแม้เหรียญจะไม่ถ่วง

เหตุการณ์ที่ยังผลให้ p-value > 0.05 สามารถเกิดขึ้นได้กับการที่ได้รับอนุญาตให้โยนเหรียญเพียง 3 ครั้ง แม้ผลจะออกมาว่าได้หัวทั้ง 3 ครั้งก็ไม่สามารถบอกว่าเป็นเหตุการณ์ที่เป็นไปได้ยาก และจะสรุปได้ว่าไม่มีนัยสำคัญทางสถิติเช่นเดียวกัน กรณีนี้ความจริงเหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ว่าถ่วงหรือไม่ ดังนั้นคำกล่าวที่ว่า “เราไม่มีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือสรุปว่าเหรียญถ่วง)” จึงเป็นการอธิบายคำว่า “ไม่มีนัยสำคัญทางสถิติ” ได้เหมาะสมในกรณีนี้ ในทางตรงข้ามถ้าโยนเหรียญ 1,000 ครั้ง ได้หัว 499 ครั้งและก้อย 501 ครั้งย่อมยังผลให้ p-value > 0.05 เช่นกัน (คำนวณจริงได้ p-value = 0.950 ในการทดสอบสมมติฐานว่า สัดส่วนได้หัวเท่ากับก้อยเท่ากับ 0.5 และผลทดลองได้ 499/1000 = 0.499) แต่กรณีนี้เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานไม่ผิด (คือมั่นใจที่จะสรุปว่าเหรียญไม่ถ่วง) ดังนั้นผลการศึกษาที่ออกมาว่าไม่มีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value ทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้นอาจถูกหรือผิดก็ได้ กล่าวตามตัวอย่างข้างต้นคือ เหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ (Inconclusive)

ต่อเนื่องจากตัวอย่างเดิม ถ้าโยนเหรียญ 1,000,000 ครั้ง แม้สัดส่วนการเกิดหัวเท่าเดิม คือ 0.499 ซึ่งต่างจาก 0.5 น้อยมากๆ แต่จะได้ p-value < 0.05 ทันที (คำนวณจริงได้ p-value = 0.046) ข้อสังเกตคือ แม้ค่าความแตกต่างคือ 0.500-0.499 = 0.001 เท่ากันกับตัวอย่างการโยนเหรียญ 1,000 ครั้ง (n=1,000) ตามที่กล่าวข้างต้น แต่กรณีนี้ (n=1,000,000) เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือมั่นใจที่จะสรุปว่าเหรียญถ่วง) ดังนั้นผลการศึกษาที่ออกมาว่ามีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value สามารถทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้นอาจผิด แต่อาจแปลความหมายในทางที่ผิดได้ถ้าหากขนาดความแตกต่างนั้นนั้นน้อยมาก

การศึกษาที่มีขนาดตัวอย่างใหญ่มากๆ สามารถได้ผล Significant แม้ขนาดความแตกต่างจะน้อยมาก ๆ

2.2 ภาษาสถิติ

การศึกษาวิจัยเชิงปริมาณโดยทั่วไปเป็นการศึกษาในกลุ่มตัวอย่างจำนวนหนึ่ง แล้วนำผลที่ได้ไปอธิบายประชากรที่เป็นแหล่งที่มาของตัวอย่างนั้น โดยใช้วิธีการทางสถิติที่เรียกว่า การอนุมานทางสถิติ (Statistical inference)

การอนุมานทางสถิติมี 2 องค์ประกอบได้แก่ การประมาณค่า (Estimation) และการทดสอบสมมติฐาน (Hypothesis testing) ผลจากการประมาณค่าคือค่าช่วงเชื่อมั่น (Confidence interval ย่อเป็น CI เช่น 95%CI) ส่วนการทดสอบสมมติฐาน ผลคือค่า p-value นำไปสู่การแปลความหมายว่ามีนัยสำคัญ (Significant) กรณี p-value < 0.05 และไม่มีนัยสำคัญ (Non-significant) กรณี p-value > 0.05

ค่า 0.05 นี้เป็นเกณฑ์ในการตัดสินใจ นอกจากค่านี้ผู้วิจัยอาจกำหนดเป็น 0.1 หรือ 0.01 ก็ได้แต่ไม่เป็นที่นิยม ค่าเหล่านี้ผู้วิจัยต้องกำหนดล่วงหน้าก่อนเห็นข้อมูล

ดังนั้น p-value เป็นประเด็นเฉพาะกับงานวิจัยที่มีการทดสอบสมมติฐานเท่านั้น การวิจัยใดที่มุ่งเพื่อประมาณค่าเป็นหลักเช่นเพื่อหาค่าปกติของระดับน้ำตาลในเลือดของคนไทย จะไม่มีการทดสอบสมมติฐาน p-value ก็ไม่ใช่ประเด็น

3. การทดสอบสมมติฐาน ไม่ใช่การพิสูจน์สมมติฐาน

การทดสอบสมมติฐานคือการคำนวณหาค่าความน่าจะเป็นหรือโอกาสที่จะได้ผลการศึกษาตามที่ได้ในครั้งนี้หรือสุดขั้วกว่านั้นถ้าสมมติฐานเป็นจริง ตัวอย่างเช่น การศึกษาเปรียบเทียบอัตราการหายจากโรคหลังใช้ยาใหม่ (P1) เปรียบเทียบกับยาเก่า (P2) โปรดสังเกตว่าใช้ P อักษรตัวใหญ่แทนอัตราการหายในประชากร ค่าที่อธิบายประชากรเรียกว่าค่าพารามิเตอร์ สมมติฐานในที่นี้คืออัตราการหายจากยาเก่าเท่ากันกับอัตราการหายจากยาใหม่ (Ho: P1 = P2 หรือเขียนอีกรูปหนึ่งเป็น Ho: P1- P2 = 0)

สมมติว่าผลการศึกษาเราพบว่า p1 = 40% และ p2 = 50% โปรดสังเกตว่าใช้ p อักษรตัวเล็กเพื่อทราบว่าเป็นค่าสถิติจากตัวอย่าง (โปรดอย่าสับสน p ในที่นี้มาจาก Proportion คือค่าสัดส่วน หรือ Percentage คือค่าสัดส่วนคูณด้วย 100 ซึ่งแตกต่างจาก p-value ที่ p มาจาก Probability คือค่าความน่าจะเป็น) ผลการศึกษาบ่งชี้ว่าอัตราการหายจากยาใหม่สูงกว่ายาเก่า 10% แต่นี่เป็นผลจากการศึกษาเพียงครั้งเดียวจากคนไข้ตัวอย่างจำนวนหนึ่ง ถ้าศึกษาเช่นเดียวกันนี้หลายๆครั้งย่อมได้ค่าแตกต่างกันไป อันเป็นผลจากความบังเอิญ (Chance) เมื่อเราทำการทดสอบสมมติฐานตามที่กล่าวข้างต้น จะกล่าวเป็นประโยคคล้ายกันว่า “ถ้าความเป็นจริงคือยามีประสิทธิผลเท่ากัน หรืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสเท่าไร?” เพื่อตอบคำถามดังกล่าว ผู้วิเคราะห์ต้องใช้สถิติทดสอบ (Statistical test) เช่นกรณีนี้ใช้ Z-test ผลที่ได้คือ p-value เช่นถ้าสมมติให้การศึกษานี้มีขนาดตัวอย่างกลุ่มละ 50 รายเท่ากัน ค่า p-value = 0.32 กล่าวคือ “ถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสประมาณ 1 ใน 3” ตามความรู้สึกแล้วอะไรก็ตามที่มีโอกาส 1 ใน 3 ยังถือว่ามีโอกาสสูงอยู่ จึงกล่าวว่าความแตกต่างที่ได้เท่ากับ 10% นั้นสามารถเกิดได้โดยบังเอิญทั้งที่ความจริงอัตราการหายไม่แตกต่างกัน นั่นคือผู้วิจัยไม่สามารถปฏิเสธสมมติฐานความไม่แตกต่าง กรณีเช่นนี้มักเขียนรายงานผลว่า “อัตราการหายจากการใช้ยาใหม่แตกต่างจากยาเก่าอย่างไม่มีนัยสำคัญทางสถิติ (p-value = 0.32)” ด้วยถือว่าทุกคนเข้าใจ แต่ความจริงคือทุกคนเข้าใจต่างกันตามที่กล่าวข้างต้น แต่ถ้าพิจารณาให้ดี สิ่งที่ใช้กล่าวอ้างว่ามีหรือไม่มีนัยสำคัญนั้นเป็นเพียง “ค่าความน่าจะเป็น” เท่านั้น เราพิจารณาความน่าจะเป็น แล้วตัดสินใจ แล้วจึงกล่าวเช่นนั้น

ถ้า 1 ใน 3 ยังถือว่าเป็นค่าความน่าจะเป็นที่สูง จึงสรุปว่าไม่มีนัยสำคัญ แล้วเท่าไรจึงจะถือว่าต่ำพอที่จะสรุปว่ามีนัยสำคัญได้ นั่นคือต้องมีเกณฑ์ เกณฑ์ที่ยอมรับกันโดยทั่วไปคือน้อยกว่า 1 ใน 20 หรือค่าความน่าจะเป็นน้อยกว่า 0.05 เป็นเกณฑ์ตัดสินใจปฏิเสธสมมติฐาน ค่านี้เรียกว่าระดับนัยสำคัญ (Significant level แทนด้วย a อ่านว่าแอลฟ่า) เช่นการศึกษาที่กล่าวข้างต้นให้ผล p-value = 0.01 แสดงว่าถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้นมีโอกาสประมาณ 1 ใน 100 คือเป็นไปได้แต่โอกาสเป็นไปเช่นนั้นน้อยมาก จึงกล้าที่จะตัดสินใจบอกว่าอัตราการหายต่างกัน โดยยอมรับความผิดพลาดในการตัดสินใจครั้งนี้ด้วยโอกาสไม่เกิน 0.05 เกณฑ์ตัดสินใจนี้เพียงแต่ตั้งกันขึ้นเองแล้วถือปฏิบัติตามนั้น ค่า a นี้นอกจากค่า 0.05 ยังมีค่า 0.01 และ 0.1 แล้วแต่ผู้วิจัยจะกำหนด แต่ค่า p-value จากการศึกษาใดย่อมคงที่ตามที่คำนวณได้ ส่วนค่า a นั้นผู้วิจัยต้องกำหนดล่วงหน้าก่อนเห็นข้อมูล แต่ผู้อ่านสามารถใช้วิจารณญาณเปลี่ยนค่า a ได้ ซึ่งความจริงก็คือการพิจารณาค่า p-value จริงๆ นั่นเอง ด้วยเหตุนี้ การแสดงค่า p-value จริงๆ จึงดีกว่าที่จะบอกเพียงว่า p-value < 0.05 หรือ p-value > 0.05 หรือค่าอื่นที่เป็นเกณฑ์ที่ผู้วิจัยใช้ตัดสินใจ และการไม่นำเสนอค่า p-value เลยแต่นำเสนอเป็น “มีนัยสำคัญ/ไม่มีนัยสำคัญ” หรือใช้เครื่องหมาย * แทนนั้นจึงไม่แนะนำอย่างยิ่ง

นอกจากนั้นจะเห็นว่าการทดสอบสมมติฐานตามตัวอย่างที่กล่าวข้างต้นไม่ใช่การพิสูจน์ว่ายาใหม่ดีกว่ายาเก่า สถิติมิได้มีบทบาทในการพิสูจน์อะไรทั้งสิ้น ในการทดสอบสมมติฐานสถิติเพียงบอกขนาดความน่าจะเป็นที่สนใจเท่านั้น เพื่อผู้วิจัยใช้ประกอบการตัดสินใจว่าจะปฏิเสธสมมติฐานเท่านั้น

4. การแปลความหมายที่ถูกต้อง

ทุกที่ที่มีค่า p-value ต้องรู้ว่าสมมติฐานคืออะไร จึงจะแปลความหมายได้ถูกต้อง ส่วนมากมักรู้โดยอัตโนมัติจากคำถามวิจัยเช่นการศึกษาเปรียบเทียบประสิทธิผลของยาสองขนาน สมมติฐานคือยาสองขนานมีประสิทธิผลไม่แตกต่างกัน แม้ผู้วิจัยจะไม่ระบุไว้ก็ไม่ถึงกับเกิดผลเสีย แต่บางกรณีเช่นการศึกษาผู้ป่วยกลุ่มเดียวว่าระดับน้ำตาลในกระแสเลือดโดยเฉลี่ยเท่าไร สมมติฐานต้องระบุไว้เสมอว่าค่าที่ต้องการทดสอบคือเท่าไร ค่าที่ระบุในสมมติฐานเรียกว่าค่าความไม่แตกต่าง (Null value) กรณีตัวอย่างแรกคือ 0 กรณีตัวอย่างหลังคือค่าอะไรก็ได้ที่นักวิจัยต้องการทราบว่าผลจากการศึกษาแตกต่างจากค่านี้โดยบังเอิญหรือไม่

หลังจากที่ทราบว่าสมมติฐานคืออะไร การแปลความหมายที่ถูกต้องจะต้องกล่าวย้ำสมมติฐานก่อน ตามด้วยผลจากการศึกษา และค่า p-value โดยกล่าวว่า “ถ้าสมมติฐานเป็นจริง การได้ผลตามที่พบจากการศึกษานี้หรือสุดขั้วกว่านั้นมีโอกาสเท่าไร” เช่นตัวอย่างที่กล่าวข้างต้นว่า “ถ้าความเป็นจริงคืออัตราการหายจากโรคต่างกันเท่ากับ 0 แล้ว การที่ผลการศึกษาหนึ่งพบว่าผลต่างดังกล่าวเท่ากับ 10% หรือมากกว่านั้น มีโอกาสเท่ากับ 0.32” อย่างไรก็ตาม ข้อความนี้มักไม่นิยมเขียนในการรายงานผลการวิจัย แต่มักรายงานผลเป็น “อัตราการหายจากการใช้ยาใหม่แตกต่างจากยาเก่าอย่างไม่มีนัยสำคัญทางสถิติ (p-value = 0.32)” ถึงแม้รายงานเช่นนี้ การเข้าใจได้เช่นข้อความข้างต้นตามที่ควรจะเป็นนั้นจะทำให้ข้อความที่พยายามขยายความผลการศึกษานี้ไม่ผิดเพี้ยน ไม่ว่าจะปรากฏในบทอภิปรายผล หรือข้อเสนอแนะ สิ่งที่พบบ่อยคือ ผล Non-significant มักถูกแปลความหมายว่าเท่ากันเช่นกล่าวว่า “ดังนั้นยาใหม่มีประสิทธิผลไม่ต่างไปจากยาเก่า” นำไปสู่ข้อเสนอแนะที่ไม่แนะนำให้ใช้ยาใหม่ บ้างกลับบอกว่ายาใหม่ดีกว่ายาเก่า 10% ตามผลที่ได้จากการศึกษาพร้อมกับบอกว่า “อย่างไรก็ตามการศึกษานี้ไม่พบว่ามีนัยสำคัญทางสถิติ จึงควรมีการศึกษาใหม่ที่มีขนาดตัวอย่างใหญ่กว่านี้” ราวกับว่าการเพิ่มขนาดตัวอย่างทำให้สรรพคุณยาเปลี่ยนไปได้ การกล่าวเช่นนี้โดยพิจารณาจากค่า p-value อย่างเดียวล้วนมีโอกาสผิดพลาดได้ทั้งสิ้น กรณีผลการศึกษาบ่งชี้ว่าไม่มีนัยสำคัญทางสถิติ ถ้าพิจารณาจาก p-value อย่างเดียว เราสามารถบอกได้เพียงว่าเป็นความบังเอิญที่ได้ผลเช่นนั้น ความจริงอาจเท่ากันหรือต่างกันก็ได้

ตัวอย่างอื่นที่คล้ายกันกับผลไม่มีนัยสำคัญทางสถิตินี้ได้แก่ในศาลยุติธรรมและในห้องปฏิบัติการ (ห้อง Lab) โดยกล่าวได้ดังนี้ ในศาลต้องเริ่มจากมีการกล่าวหาโดยโจทก์ว่าจำเลยผิด จากนั้นศาลจะเชื่อว่าจำเลยไม่ผิดไว้ก่อน (สมมติฐานความไม่แตกต่าง หรือ H₀) แล้วพยานหลักฐานจากโจทก์จะใช้สำหรับพิสูจน์ว่าจำเลยผิดตามข้อกล่าวหาหรือไม่ (สมมติฐานทางเลือก หรือ H_A)

การ “พิสูจน์” ในศาล ถ้าได้ข้อสรุปว่า จำเลยไม่ผิดตามข้อกล่าวหา หมายถึงจำเลยอาจบริสุทธิ์ หรือผิดจริงแต่พยานหลักฐานไม่เพียงพอก็ได้

การ “ตรวจ” สิ่งส่งตรวจทางห้องปฏิบัติการให้ผลลบ หมายถึงสิ่งส่งตรวจนั้นอาจไม่มีเชื้อหรือมีเชื้อแต่ตรวจไม่พบเชื้อที่เรียกร้องให้ตรวจหานั้นก็ได้

แม้ผลจะสรุปในทางตรงข้ามว่ามีพยานหลักฐานเอาผิดจำเลยได้ หรือผล Lab เป็นผลบวก ซึ่งคล้ายกับการทดสอบสมมติฐานให้ผลว่ามีนัยสำคัญทางสถิติ ข้อสรุปดังกล่าวอาจผิดก็ได้ กล่าวคือจำคุกคนไม่ผิด ผลห้องปฏิบัติการเป็นผลบวกลวง (False positive) และปฏิเสธสมมติฐานที่เป็นจริง ตามลำดับ

จากตัวอย่างข้างต้น ผลการไต่สวนในศาลจะบอกเลยว่าจำเลยผิดตามข้อกล่าวหาหรือไม่ คำตัดสินโต้แย้งไม่ได้ เช่นเดียวกันกับการตรวจในห้องปฏิบัติการ แต่ในการทดสอบสมมติฐานทางสถิติ จะให้ผลเป็นความน่าจะเป็นหรือโอกาสให้ทั้งผู้วิจัยและผู้อ่านผลการวิจัยพิจารณาตัดสินใจ แต่เป็นเพียงโอกาสตัดสินใจผิดถ้าสมมติฐานเป็นจริง จึงมีความหมายค่อนข้างจำกัด

5. ช่วงเชื่อมั่นให้ประโยชน์ที่เหนือกว่า

จากตัวอย่างข้างต้น อัตราการหายในกลุ่มที่ใช้ยาใหม่สูงกว่ากลุ่มที่ใช้ยาเก่า 10% ช่วงเชื่อมั่น 95% ของความแตกต่างอยู่ระหว่าง –9.4% ถึง 29.4% เพื่อง่าย เราสามารถแสดงเป็นแผนภูมิตามรูปที่ 1

รูปที่ 1 ช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่าจากการศึกษากรณีตัวอย่าง และค่าความแตกต่างที่มีความสำคัญทางการแพทย์

จากรูปที่ 1 ชี้ให้เห็นความจริงอย่างหนึ่งเกี่ยวกับความสัมพันธ์ระหว่างค่า p-value กับช่วงเชื่อมั่นว่า ถ้าช่วงเชื่อมั่น 95% คร่อมค่า 0 ค่า p-value จะมากกว่า 0.05 เสมอ ค่า 0 คือค่าความไม่แตกต่าง (Null value) สำหรับตัวอย่างนี้ เป็นค่าที่ปรากฏในสมมติฐานความไม่แตกต่างนั่นเอง นั่นหมายถึงช่วงเชื่อมั่นสามารถบอกได้ว่าความแตกต่างนั้นมีหรือไม่มีนัยสำคัญทางสถิติได้เช่นกัน แม้จะบอกไม่ได้ละเอียดลงไปว่า p-value เท่ากับเท่าไร แต่บอกอะไรที่มากไปกว่า p-value มาก เช่นรูปที่ 1 แม้ผลคือไม่มีนัยสำคัญทางสถิติ แต่มีทิศทางค่อนมาทางด้านขวาคือยาใหม่มีแนวโน้มดีกว่ายาเก่า นอกจากนั้นผลดังกล่าวเป็นเพียงเปรียบเทียบกับค่า 0 ในความเป็นจริงผู้วิจัยมักมีระดับความแตกต่างที่มีความสำคัญทางการแพทย์ที่ต่างจาก 0 เช่นจะเปลี่ยนไปใช้ยาใหม่ก็ต่อเมื่ออัตราการหายจากโรคจากยาใหม่มากกกว่ายาเก่าเกิน 25% จะสามารถบอกได้ว่าการศึกษานี้ไม่สามารถให้ข้อสรุปว่ายาใหม่ดีกว่ายาเก่า (Inconclusive finding) แต่ถ้าศึกษาใหม่ด้วยขนาดตัวอย่างที่มากกว่าเดิม โอกาสที่จะพบว่ายาใหม่ไม่ดีไปกว่ายาเก่าเกินระดับที่ถือว่ามีความสำคัญทางการแพทย์นั้นมีสูงกว่าผลที่เป็นตรงข้าม

รูปที่ 2 แสดงช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่า สำหรับแสดงผลการศึกษาที่เป็นไปได้จาก 7 งานวิจัย โดยกำหนดว่าความแตกต่าง 25% ถือว่ามีความสำคัญทางการแพทย์

รูปที่ 2 ช่วงเชื่อมั่น 95% ค่าความแตกต่างอัตราการหายจากโรคระหว่างกลุ่มที่ใช้ยาใหม่เปรียบเทียบกับกลุ่มที่ใช้ยาเก่า สำหรับแสดงผลการศึกษาที่เป็นไปได้จากหลายการวิจัย

จากทั้ง 7 งานวิจัย งานวิจัยที่ 1 ถึง 3 ให้ผลว่าต่างจาก 0 อย่างมีนัยสำคัญทางสถิติ แต่งานวิจัยที่ 1 ยังสรุปไม่ได้ว่ายาใหม่ดีกว่ายาเก่าด้วยช่วงเชื่อมั่นคร่อม 25% และช่วงเชื่อมั่นกว้างซึ่งสะท้อนว่าขนาดตัวอย่างไม่เพียงพอ แม้จะเพิ่มขนาดตัวอย่างแต่มีโอกาสสูงที่จะได้ข้อสรุปว่ายาใหม่ไม่ดีกว่ายาเก่า ในขณะที่งานวิจัยที่ 2 ช่วงเชื่อมั่นที่แคบหมายถึงผลกระชับ (Precise) ขนาดตัวอย่างเพียงพอ และได้ข้อสรุปแล้วว่ายาใหม่ไม่ดีไปกว่ายาเก่า ส่วนงานวิจัยที่ 3 คล้ายกับงานวิจัยที่ 2 แต่ได้ข้อสรุปแล้วว่ายาใหม่ไม่ดีกว่ายาเก่า

งานวิจัยที่ 4 ถึง 7 ให้ผลว่าต่างจาก 0 อย่างไม่มีนัยสำคัญทางสถิติ แต่เฉพาะงานวิจัยที่ 4 เท่านั้นที่อาจสามารถสรุปว่าเท่ากัน ถ้าหากเป็นที่ยอมรับในวงการวิชาชีพนั้นว่าถ้าต่างกันไม่เกิน ±5% ถือว่าเท่ากัน (Equivalent range) งานวิจัยที่ 4 คืองานวิจัยที่ให้ข้อสรุปแล้วว่ายาทั้งสองขนานมีประสิทธิผลเท่ากัน ส่วนงานวิจัยอื่นๆที่ให้ผลไม่มีนัยสำคัญไม่สามารถสรุปว่าเท่ากันได้เลย งานวิจัยที่ 5 กับ 6 อาจได้ค่า p-value เท่ากันแต่ทิศทางความแตกต่างตรงข้ามกัน อย่างไรก็ตามทั้งงานวิจัยที่ 4 5 และ 6 ล้วนให้ข้อสรุปแล้วว่ายาใหม่ไม่ดีไปกว่ายาเก่าด้วยช่วงเชื่อมั่นไม่คร่อม 25% และขีดจำกัดบนสุดของช่วงเชื่อมั่นน้อยกว่า 25% ในขณะที่งานวิจัยที่ 7 ได้ผลสรุปไม่ต่างจากงานวิจัยที่ 1 และจากทั้ง 4 งานวิจัยที่ให้ผลไม่มีนัยสำคัญทางสถิตินั้น เฉพาะงานวิจัยที่ 1 และ 7 เท่านั้นที่มีเหตุผลที่จะให้ข้อเสนอแนะว่าควรมีการศึกษาซ้ำด้วยขนาดตัวอย่างที่ใหญ่กว่า เมื่อคำนึงถึงความแตกต่างที่มีความสำคัญในทางปฏิบัติ

ข้อสรุปทั้งหมดที่กล่าวนี้ การพิจารณาจากค่า p-value เพียงอย่างเดียวไม่สามารถสรุปได้ตามนั้น ค่า p-value ไม่สามารถให้ข้อมูลอะไรเลยเกี่ยวกับขนาดความแตกต่าง ขนาดความสัมพันธ์ หรือขนาดอื่นใดที่การศึกษาวิจัยนั้นสนใจ ค่า p-value บอกเพียงว่าความแตกต่างหรือความสัมพันธ์ที่พบจากการศึกษาหรือมากกว่านั้นเป็นไปได้มากน้อยเพียงใดถ้าหากความจริงคือไม่มีความแตกต่างหรือไม่มีความสัมพันธ์กัน

6. สรุป

การรายงานผลการศึกษาวิจัยที่มีการทดสอบสมมติฐานและได้ค่า p-value มากกว่าระดับนัยสำคัญว่า ไม่มีนัยสำคัญทางสถิตินั้น มักถูกนำไปแปลความหมายอย่างไม่ถูกต้องว่าเป็นการศึกษาที่ไม่มีความสำคัญ หรือล้มเหลว ที่ไม่ถูกต้องยิ่งกว่าคือแปลความหมายว่าเท่ากันหรือไม่มีความสัมพันธ์กัน ความจริงผลอาจเป็นตรงข้าม จากค่า p-value เราไม่สามารถสรุปได้เลยว่าเป็นแบบใด บอกได้แต่เพียงว่าถ้าสมมติฐานถูกต้องแล้วการที่การศึกษาหนึ่งจะได้ผลเช่นที่ได้จากการศึกษานี้หรือสุดขั้วกว่านั้นมีโอกาสสูง ความแตกต่างหรือความสัมพันธ์ที่พบนั้นเป็นไปโดยบังเอิญ ความหมายที่เป็นไปได้มีสองอย่างเท่านั้นคือเท่ากันหรือไม่มีความสัมพันธ์กัน และต่างหรือสัมพันธ์กันแต่ขนาดตัวอย่างไม่เพียงพอที่จะแสดงให้เห็นตามนั้นได้ ค่าที่สามารถบอกได้ว่าเป็นความหมายใดนั้นคือค่าช่วงเชื่อมั่น โดยพิจารณาควบคู่กับขนาดความแตกต่างหรือความสัมพันธ์ที่มีความสำคัญในทางปฏิบัติ ดังนั้นรายงานวิจัยที่ให้ผลไม่มีนัยสำคัญทางสถิติจึงไม่ได้หมายความว่าเป็นงานวิจัยที่ไม่สำคัญ แต่อาจเป็นงานวิจัยที่ให้ข้อสรุปแล้วว่าเท่าหรือไม่มีความสัมพันธ์กันแล้วก็ได้ หรืออาจเป็นงานวิจัยที่สรุปได้แล้วว่าต่างกันอย่างมากไม่เกินระดับที่มีความสำคัญในทางปฏิบัติแล้วก็ได้ หรือแม้กระทั่งกรณีที่ยังไม่สามารถสรุปได้ตามที่กล่าวแต่ค่าช่วงเชื่อมั่นยังบอกขนาดความแตกต่างและทิศทางที่เป็นไปได้กรณีตัวอย่างที่ใหญ่พอ

ความคิดเห็นของคุณกับบทความนี้ ...

Knowledge Center

knowledge

	พาณิชย์อิเล็กทรอนิกส์ (e-Commerce)
	เรื่องน่ารู้ตามหมวดหมู่ • การแพทย์ • ความรู้ทั่วไป • เรื่องของผู้หญิง • กีฬา • ข่าวและสื่อ และอื่น ๆ อีกมาก

TV Interview

หลากเรื่องราวทางธุรกิจ แง่มุมของผู้บริหาร จากบริษัทชั้นนำต่างๆ

HR Corner
สัมภาษณ์คัดเลือกผู้สมัครงานอย่างไร? ให้ตรงสเป็ค

The Seeds of Innovation นวัตกรรมใหม่แห่งการพัฒนาบุคลากร

การสร้างความแตกต่าง ให้เหนือคู่แข่ง
คุณมกร พฤฒิโฆสิต

หางานบ่อย : จัดงานแต่ง จัดการขนส่ง เร่รัดหนี้สิน งานสำหรับผู้หญิง ตำแหน่งว่างโรงแรมพัทยา หว้ยขว้าง วุฒิ ป.6 สบาย ขับรถ การเงิน ปากน้ำโพ tantelecom พัทยา ช่างภาพ ธนาคาร หาดใหญ่ เร่งรัดหนี้สิน บริษัทจัดหางาน pr พริตตี้ แปลภาษา จีน กระเป๋าหนัง ตำแหน่งงานว่างแถวบางนา พนักงานขายทัตตกรรม กะดึก. ม.3 ผู้แทนขายกรุงเทพ บริษัท ซัมซูง วุฒิ ม.6ปากเกร็ด ภูููมิสถาปนิก เภสัชกรผลิตยา วุฒิม6 สยาม การตลาด นครปฐม เจ้าหน้าที่ฝ่ายกฎหมาย งานที่ใช้ภาษา จำหน่ายตั๋วรถโดยสาร วุฒิ ม.6 สระบุรี หางานกุ๊ก โรงแรม วุฒิม6 สุขุมวิท101/1 จีน บัญชี นิคมมาบตาพุด บางพลี+กิ่งแก้ว ธิติยา บิ๊กซี แคชเชียร วุฒิ ม.6 บาวใหญ่ MAkro งานวุฒิม.6 กทม บิ๊กซีพระราม 2 โภชนากากร ร’ยงร’ยท ธุราการ สุราษ บัญชี สกลนคร พนักงานฝ่ายการตลาด ชลบุรี ตลิ่งชัน เพชรเกษม (มหาชน) ผู้ช่วยพยาบาล PN จ. กรุงเทพ