เพื่อนๆ ถึงเวลาหยุดใช้ 'นัยสำคัญทางสถิติ' เป็นเครื่องหมายของการวิจัยที่สำคัญแล้ว
เบรกกิ้งแบด/บบส
นักสถิติชั้นนำของโลกได้กล่าวไว้ และข้อความของพวกเขาถึงนักวิจัย นักศึกษา และผู้สื่อสารด้านวิทยาศาสตร์นั้นชัดเจน ถึงเวลาแล้วที่จะหยุดใช้ค่า p และนัยสำคัญทางสถิติเพียงอย่างเดียวเพื่อทดสอบสมมติฐานและพิจารณาว่าผลลัพธ์มีความสำคัญหรือไม่
หากไม่มีสิ่งใดที่สมเหตุสมผลสำหรับคุณ ELI5 ก็คือ: นักวิทยาศาสตร์พบความสัมพันธ์ในการวิจัยของพวกเขาตลอดเวลา และเพื่อดูว่าสิ่งเหล่านั้นถูกต้องตามกฎหมายหรือเป็นเพียงความบังเอิญ พวกเขาใช้การทดสอบที่เรียกว่า- ยิ่งค่า p-value ต่ำ โอกาสที่ผลลัพธ์จะเป็นจริงก็จะยิ่งดีขึ้น โดยค่า p-value น้อยกว่า 0.05 จะเป็นตัวเลขวิเศษที่จะกำหนดว่าบางสิ่งควรค่าแก่การเผยแพร่หรือไม่ ('- หรืออย่างน้อยนั่นคือวิธีที่เราใช้มันตอนนี้ แต่ตามแถลงการณ์ที่เพิ่งเผยแพร่โดย American Statistical Association (ASA) เรากำลังทำผิดทั้งหมด
"ค่า p ไม่เคยมีวัตถุประสงค์เพื่อใช้แทนการใช้เหตุผลทางวิทยาศาสตร์"กรรมการบริหาร ASA กล่าว, รอน วัสเซอร์สไตน์. "ข้อโต้แย้งทางสถิติที่มีเหตุผลอย่างดีนั้นมีค่ามากกว่าค่าของตัวเลขตัวเดียว และจำนวนนั้นเกินเกณฑ์ที่กำหนดหรือไม่ คำกล่าวของ ASA มีวัตถุประสงค์เพื่อนำทางการวิจัยเกี่ยวกับ 'โพสต์ P'
สิ่งเหล่านี้มาจากนักสถิติที่กำลังต่อสู้กับคำพูด และเป็นครั้งแรกในประวัติศาสตร์ 177 ปีของพวกเขาที่ ASA ได้ออกแถลงการณ์ที่ให้รายละเอียดอย่างชัดเจนว่าควรใช้แบบทดสอบอย่างไร
การตัดสินใจเกิดขึ้นหลังจากที่สมาคมเริ่มกังวลมากขึ้นว่าการพึ่งพาค่า p ของชุมชนวิทยาศาสตร์นั้นมีส่วนช่วยในการตีพิมพ์ผลการวิจัยที่ไม่สามารถทำซ้ำได้ ซึ่งหากการศึกษาล่าสุดเป็นอะไรที่ต้องผ่านไป มันเป็นปัญหาใหญ่ทีเดียว
"เมื่อเวลาผ่านไป ปรากฏว่าค่า p-value กลายเป็นตัวกั้นว่างานนั้นสามารถเผยแพร่ได้หรือไม่ อย่างน้อยก็ในบางสาขา"เจสสิก้า อุตต์ส กล่าวประธาน ASA "อคติด้านบรรณาธิการที่ชัดเจนนี้นำไปสู่ 'เอฟเฟกต์ลิ้นชักไฟล์' ซึ่งงานวิจัยที่มีผลลัพธ์ที่มีนัยสำคัญทางสถิติมีแนวโน้มที่จะได้รับการตีพิมพ์มากกว่า ในขณะที่งานอื่น ๆ ที่อาจมีความสำคัญพอ ๆ กันทางวิทยาศาสตร์นั้นไม่เคยพบเห็นในการพิมพ์มาก่อน"
นอกจากนี้ยังทำให้นักวิจัย 'แฮ็ก' ข้อมูลของตนเพื่อให้ได้ p ที่จำเป็นมาก
แล้วถ้าเราใช้ค่า p ผิดทั้งหมด, แล้วอะไรล่ะที่ถูก? เอเอสเอก็มีได้ออกแนวปฏิบัติ 6 ประการนี้-
- ค่า P สามารถระบุได้ว่าข้อมูลเข้ากันไม่ได้กับแบบจำลองทางสถิติที่ระบุอย่างไร
- ค่า P ไม่ได้วัดความน่าจะเป็นที่สมมติฐานที่ศึกษาจะเป็นจริง หรือความน่าจะเป็นที่ข้อมูลถูกสร้างขึ้นโดยสุ่มเพียงอย่างเดียว
- ข้อสรุปทางวิทยาศาสตร์และการตัดสินใจทางธุรกิจหรือนโยบายไม่ควรขึ้นอยู่กับว่าค่า p ผ่านเกณฑ์ที่กำหนดหรือไม่เท่านั้น
- การอนุมานที่เหมาะสมต้องมีการรายงานที่สมบูรณ์และความโปร่งใส
- ค่า p หรือนัยสำคัญทางสถิติไม่ได้วัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์
- โดยตัวมันเอง ค่า p ไม่ได้ให้การวัดหลักฐานที่ดีเกี่ยวกับแบบจำลองหรือสมมติฐาน
นี่ไม่ใช่ครั้งแรกที่มีการวิพากษ์วิจารณ์ค่า p - มีวารสารฉบับหนึ่งเมื่อปีที่แล้วที่จะห้ามกันโดยสิ้นเชิง- และนักวิทยาศาสตร์หลายคนปรบมือให้กับข้อความที่กล้าหาญนี้
“แน่นอนว่าหากสิ่งนี้เกิดขึ้นเมื่อ 20 ปีที่แล้ว การวิจัยทางชีวการแพทย์อาจจะอยู่ในสถานที่ที่ดีกว่าในตอนนี้” Giovanni Parmigiani นักชีวสถิติจาก Dana Farberสถาบันในบอสตัน ซึ่งไม่ได้เป็นส่วนหนึ่งของ ASAบอกธรรมชาติ.
แต่คนอื่นๆ เตือนว่ามันไม่ได้กล่าวถึงปัญหาที่แท้จริง ซึ่งไปไกลกว่าค่า p และเกี่ยวข้องกับความคาดหวังทางวิทยาศาสตร์ที่ไม่สมจริงของสังคมมากกว่า
"ผู้คนต้องการสิ่งที่พวกเขาไม่สามารถหาได้จริงๆ"แอนดรูว์ เกลแมน นักสถิติจากมหาวิทยาลัยโคลัมเบีย กล่าว- “พวกเขาต้องการความมั่นใจ”
และนั่นจะต้องใช้การสื่อสารที่เปิดกว้างมากขึ้น ระหว่างนักวิทยาศาสตร์และสาธารณชน เกี่ยวกับความหมายที่แท้จริงในการอนุมานความหมายจากผลลัพธ์ และการตีความที่ละเอียดยิ่งขึ้นที่เกี่ยวข้อง
ไม่ใช่เรื่องง่าย แต่เมื่อเป้าหมายคือการปรับปรุงวิธีการทางวิทยาศาสตร์ให้ดีขึ้น มันก็คุ้มค่าเสมอ