
บางครั้งจำเป็นต้องมองอย่างใกล้ชิด
เครดิตภาพ: ekaterinanovikova/shutterstock.com
มีมาร์กทเวนคือมีชื่อเสียงการประกาศการโกหกสามประเภท: การโกหกการโกหกที่ถูกสาปและสถิติ มันเป็นผลรวมของบางสิ่งบางอย่างที่เราทั้งหมดในกระดูกของเราแม้ว่าเราจะไม่รู้คำอธิบายที่แม่นยำสำหรับมัน: สถิตินั้นไม่สามารถทำได้อย่างเต็มที่น่าเชื่อถือ - พวกเขาง่ายเกินไปที่จะจัดการเพื่อจุดประสงค์ที่เลวร้าย
ตัวอย่างหัวหน้า: ความขัดแย้งของซิมป์สัน ที่รักและสิ่งที่ดีมากที่ทำปรากฏการณ์นี้มีพลังมากพอที่จะย้อนกลับความสัมพันธ์ในข้อมูลได้อย่างสมบูรณ์ - และทั้งหมดอย่างมีเทคนิคโดยไม่ต้องโกหกเพียงครั้งเดียว
แล้วมันคืออะไร?
ความขัดแย้งของซิมป์สันคืออะไร?
ลองนึกภาพว่าคุณเป็นแพทย์ที่ตัดสินใจว่าจะสั่งการรักษาผู้ป่วยหรือไม่ คุณมีข้อมูลต่อไปนี้:

ตารางที่ประสบความสำเร็จและความล้มเหลวของการรักษาเทียบกับการควบคุมแสดงข้อมูลประชากรชายและหญิงทั่วทั้งประชากร
เครดิตภาพ: iflscience ดัดแปลงมาจากสารานุกรมสแตนฟอร์ด
แนวทางปฏิบัติที่ชัดเจนคืออะไร? สำหรับทั้งเพศชายและหญิงการรักษาทำได้ดีกว่าโปรโตคอลควบคุมและผู้ป่วยของคุณน่าจะเป็นหนึ่งในสองตัวเลือกเหล่านั้น - แต่รวมทั้งสองกลุ่มเข้าด้วยกันและดูเหมือนว่าจะไม่มีประสิทธิภาพ ทั้งสองสิ่งนี้จะเป็นจริงได้อย่างไร?
“ Simpsons Paradox เป็นปรากฏการณ์ทางสถิติที่เกิดขึ้นเมื่อคุณรวมกลุ่มย่อยเข้ากับกลุ่มเดียว” นักสถิติ Jim Frost อธิบายไว้ในโพสต์สำหรับเว็บไซต์ของเขาสถิติโดยจิม- “ กระบวนการรวบรวมข้อมูลสามารถทำให้ทิศทางและความแข็งแกร่งของความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรสองตัวเปลี่ยน”
“ ความขัดแย้ง” ถูกสังเกตเห็นครั้งแรกย้อนกลับไปในปี 1899แต่มันไม่ได้จนถึงปี 1970 ที่มันมีชื่อเล่นเมื่อนักคณิตศาสตร์โคลินไบลท์ตั้งชื่อมันเพื่อเป็นเกียรติแก่ Codebreaker และนักสถิติ Edward Simpson ซึ่งได้นำเสนอการวิเคราะห์อย่างละเอียดเกี่ยวกับผลกระทบในกระดาษปี 1951 ที่โด่งดังในตอนนี้-
ทุกวันนี้การทำความเข้าใจปรากฏการณ์มีความสำคัญมากกว่าที่เคยเป็นมาโดยนักแสดงที่ไม่ดีที่ต้องการกระจายข้อมูลที่ผิดเกี่ยวกับ COVID-19 หรือวัคซีนหรือส่งเสริมความคิดเห็นที่ไม่มีหลักวิทยาศาสตร์และใหญ่โต มันยังสามารถใช้ในการเลือกตั้งการเลือกตั้งผ่าน Gerrymandering: พิจารณารูปแบบการลงคะแนนในภูมิภาคด้านล่างซึ่งแต่ละสแควร์แสดงถึงเขตหนึ่ง

รู้สึกเหมือนเป็นชัยชนะที่ชัดเจนสำหรับสีน้ำเงินใช่ไหม?
เครดิตภาพ: iflscience
เห็นได้ชัดว่ามีการโหวตสำหรับปาร์ตี้สีน้ำเงินมากกว่าสีแดง - ดังนั้นให้ตัวแทนห้าคนสามัญสำนึกแนะนำสามควรเป็นสีน้ำเงินและสองสีแดง แต่นี่คือคำถาม: ถ้าเราแยกเขตเช่นนี้ล่ะ?

ฮ่าฮ่าคิดว่าคุณอาศัยอยู่ในระบอบประชาธิปไตยคุณ ??? คนโง่.
เครดิตภาพ: iflscience
ยังมีห้าอำเภอกระจายโดยประชากรอย่างเท่าเทียมกัน แม้ว่าตอนนี้ Red ได้รับรางวัลสามเขตให้กับสองของ Blue - ย้อนกลับผลลัพธ์โดยรวมอย่างแท้จริง
เห็นได้ชัดว่าความขัดแย้งของซิมป์สันนั้นทรงพลัง - และมากกว่าแค่เทคนิคทางสถิติเฉพาะ แล้วสิ่งที่อยู่เบื้องหลังมันคืออะไร?
ทำไมความขัดแย้งของซิมป์สันจึงเกิดขึ้น?
ชีวิตไม่ค่อยง่ายและสถิติมากยิ่งขึ้น เลือกที่จะเพิกเฉยต่อสิ่งนั้นและความขัดแย้งของซิมป์สันคือที่ที่คุณจบลง “ [มัน] เกิดขึ้นเมื่อกระบวนการรวบรวมข้อมูลไม่รวมตัวแปรที่สับสน” Frost อธิบาย - กล่าวอีกนัยหนึ่งเมื่อคุณคิดว่าข้อมูลทั้งหมดเท่ากันโดยไม่คำนึงถึงผลกระทบของคุณสมบัติอื่น ๆ ในตัวอย่างของคุณ
“ โดยปกติสิ่งนี้จะเกิดขึ้นโดยไม่ได้ตั้งใจ” ฟรอสต์กล่าวเสริม “ มันน่าตกใจว่ามันจะเกิดขึ้นได้ง่ายแค่ไหนถ้าคุณไม่ได้ดูมัน!”
อันที่จริงมันง่ายที่จะทำไม่น้อยเพราะ - เกือบตามคำจำกัดความ - ตัวแปรที่สับสนเป็นสิ่งที่คุณไม่กำลังมองหา. สมมติว่าคุณกำลังตรวจสอบว่าการแทรกแซงบางอย่างมีประสิทธิภาพเพียงใดในการป้องกันการเสียชีวิตจากไวรัสเฉพาะ: คุณจะวัดจำนวนคนที่ได้รับการแทรกแซงที่เสียชีวิตจากโรคเมื่อเทียบกับจำนวนที่ไม่ได้และกลุ่มควบคุมบางกลุ่มเดียวกันไม่รับมัน นั่นสมเหตุสมผล - และดังนั้นคุณอาจไม่คิดว่าจะแบ่งชั้นข้อมูลตามอายุหรือวิถีชีวิตหรือประวัติทางการแพทย์แม้ว่าการทำเช่นนั้นอาจเปลี่ยนผลลัพธ์ได้ทั้งหมด
ไม่เชื่อเรา? ไม่จำเป็นต้องใช้คำพูดของเรา: สถานการณ์ที่แน่นอนนั้นเกิดขึ้นจริง ย้อนกลับไปในปี 2565เมื่อ Memes สื่อสังคมออนไลน์ออกไปอ้างว่าการได้รับการฉีดวัคซีนป้องกัน Covid-19 นั้นไม่ได้ผลหรืออันตราย
เห็นได้ชัดว่ามันอยู่ไกลจากครั้งแรกที่ผู้คนบอกเรื่องโกหกนี้ แต่คราวนี้พวกเขามีสิ่งที่ดูเหมือนจะเป็นข้อมูลที่ยากที่จะสำรองการยืนยัน: ในเดือนเมษายนของปีนั้นการวิเคราะห์ได้แสดงว่ามีผู้ใหญ่ประมาณ 6 ใน 10 คนที่ตายจาก Covid-19 ได้รับการฉีดวัคซีนหรือเพิ่มขึ้นจริงสถิติที่แข็งแกร่งตลอดทั้งปี มันจะเป็นจริงได้หรือไม่? การได้รับการฉีดวัคซีนทำให้คุณมีแนวโน้มที่จะตกเป็นเหยื่อของ Covid-19 หรือไม่?
ไม่ “ ความสัมพันธ์ระหว่างการฉีดวัคซีนและการมีเปอร์เซ็นต์การเสียชีวิตที่สูงขึ้นเป็นนิยายที่สร้างขึ้นโดยการรวมข้อมูลและการเปิดเผยข้อมูลที่เกี่ยวข้อง - ความขัดแย้งของซิมป์สัน” ฟรอสต์ยืนยัน
“ ในสหรัฐอเมริกาประชากรที่ได้รับการฉีดวัคซีน COVID มีแนวโน้มที่จะมีอายุมากกว่าและมีปัจจัยเสี่ยงมากขึ้น” เขาอธิบาย “ กลุ่มนี้มีแนวโน้มที่จะมีผลลัพธ์ COVID ที่เลวร้ายยิ่งขึ้นอย่างไรก็ตามเมื่อคุณปรับอายุและปัจจัยเสี่ยงอื่น ๆ CDC พบว่าผู้ที่ได้รับการฉีดวัคซีนและผู้ที่ได้รับการฉีดวัคซีน COVID มีความเสี่ยงต่ำกว่า 18.6 เท่าของการตายจาก Covid วัคซีนทำงาน!”
หลีกเลี่ยงความขัดแย้งของซิมป์สัน
เห็นได้ชัดว่าความขัดแย้งของซิมป์สันเป็นสิ่งที่เราต้องระวัง - ทั้งสองเพื่อหลีกเลี่ยงในการวิเคราะห์ของเราเองและเป็นคนขี้เล่นเมื่อคนอื่นพยายามใช้มันกับเรา นี่คือปัญหาแม้ว่า: มันยากที่จะระวัง
“ ขอบเขตที่ความขัดแย้งของซิมป์สันมีแนวโน้มที่จะเกิดขึ้นในการวิจัยเชิงทดลองนั้นยากที่จะพิจารณาเพราะสิ่งที่ไม่ได้รับการทดสอบและรายงานในสิ่งพิมพ์ไม่สามารถตรวจพบได้อย่างง่ายดายโดยผู้อ่าน” ชี้ให้เห็นกระดาษหนึ่งฉบับปี 2552บนปรากฏการณ์
“ วิธีหนึ่งในการตรวจสอบเรื่องนี้คือการตรวจสอบผลการวิจัยในการศึกษา” มันแนะนำ “ หากมีความไม่สอดคล้องกันในความสัมพันธ์ระหว่างผลลัพธ์และการรักษาในการศึกษาอาจเป็นไปได้ว่าการสับสนเกิดขึ้นอย่างน้อยการศึกษาเหล่านั้น”
แน่นอนว่าทางออกที่ดีกว่าคือปัญหาที่จะไม่เกิดขึ้นเลย - แต่นั่นก็เป็นนักสถิติของตัวเอง “ ความขัดแย้งของซิมป์สันเป็นเครื่องเตือนใจที่ทรงพลังเกี่ยวกับความซับซ้อนที่มีอยู่ในการวิเคราะห์ข้อมูล” ฟรอสต์เตือน “ [มัน] สอนเราถึงความสำคัญของความระมัดระวังและความแม่นยำในการวิเคราะห์ทางสถิติกระตุ้นให้นักวิจัยเจาะลึกลงไปในข้อมูลแทนที่จะยอมรับข้อมูลเชิงลึกระดับพื้นผิว”
ผู้รวบรวมข้อมูลควรระมัดระวังในการ“ ตั้งคำถามกับข้อมูลเสมอมองข้ามมวลรวม [และ] มุ่งมั่นเพื่อความชัดเจนและความแม่นยำในทุกชุดข้อมูลที่คุณพบ” Frost แนะนำ “ ด้วยการทำเช่นนี้คุณสามารถมั่นใจได้ว่าผลการศึกษาของคุณสะท้อนให้เห็นถึงแนวโน้มและรูปแบบพื้นฐานในข้อมูลอย่างถูกต้อง”