有,马克·吐温是著名的宣布三种类型的谎言:谎言,该死的谎言和统计。这是我们所有人的简洁总结在我们的骨头中,即使我们不知道它的确切解释:统计数据不能完全值得信赖 - 它们太容易出于邪恶目的而操纵。
主要例子:辛普森的悖论。挚爱,而且非常好的人绝对会这样做,这种现象足够强大,足以完全逆转数据中的相关性 - 从技术上讲不说谎言。
那么,这是什么?
辛普森的悖论是什么?
想象一下,您是一名医生,决定是否为患者开某种治疗方法。您有以下信息:

治疗与控制的成功和失败的表,显示了整个人群,男性和女性数据。
图片来源:Iflscience,改编自斯坦福百科全书
明显的行动是什么?对于男性和女性受试者,治疗的表现都比对照方案更好,并且您的患者很可能是这两种选择之一 - 但结合了这两组,并且似乎无效。这两个事情怎么能是真的?
统计学家吉姆·弗罗斯特(Jim Frost)在他的网站的一篇文章中解释说:“辛普森一家悖论是一种统计现象,它会在您将亚组合并为一组时发生。”吉姆的统计数据。 “汇总数据的过程可能会导致两个变量之间关系的明显方向和强度发生变化。”
首先注意到“悖论”早在1899年,但直到1970年代才得到绰号,当数学家科林·布莱斯(Colin Blyth)命名为了纪念Codebreaker和统计学家爱德华·辛普森(Edward Simpson)现在著名的1951年纸。
如今,理解这种现象比以往任何时候都更重要,因为那些想传播有关COVID-19或疫苗的错误信息或促进不科学和偏执的观点的坏演员所利用的那样。它甚至可以用来通过格里曼德(Gerrymandering)进行挖掘选举:考虑下面每个广场代表一个区域的区域中的投票模式。

感觉像是蓝色的明显胜利,对吗?
图片来源:Iflscience
显然,蓝色政党的选票比红军多得多 - 因此,鉴于五个代表,常识表明,三个应该是蓝色和两个红色。但是,这是一个问题:如果我们这样将其分开怎么办?

哈哈,以为你住在民主国家,是吗???傻子。
图片来源:Iflscience
仍然有五个地区,同样由人口分布。不过,现在,雷德赢得了布鲁(Blue)的两个区域的三个区域 - 实际上扭转了总体结果。
显然,辛普森的悖论是强大的 - 不仅仅是利基统计技术。那么,它的背后是什么?
为什么辛普森的悖论发生?
生活很少简单,统计数字甚至更是如此。选择忽略这一点,而辛普森的悖论是您最终的地方。弗罗斯特解释说:“当汇总数据的过程不包括混淆变量时,就会发生[它]。
弗罗斯特补充说:“通常,这是无意发生的。” “如果您不关注它,它很容易发生!”
确实,这很容易做到,尤其是因为 - 几乎按照定义 - 混杂变量是您不是寻找。假设您正在调查一定干预措施在预防特定病毒死亡的某个干预措施中的有效性:您将立即衡量有多少接受干预的人死于该疾病,而没有多少人,而对于某些对照组来说是相同的不是接受它。这完全是有道理的 - 因此,即使这样做可以完全改变结果,因此您可能不会认为将数据分类为年龄,生活方式或病史。
不相信我们吗?无需宣传我们的话:确切的情况实际发生 回到2022年,当社交媒体模因宣称为19 Covid-19接种疫苗是无效甚至危险的。
显然,这与人们第一次告诉这个谎言相去甚远,但是这次他们似乎有很难的数据来支持断言:那年的4月,分析显示了实际上,大约有十分之六的成年人死于Covid-19,实际上已经接种了疫苗,这一统计数据全年保持强劲。可能是真的吗?接种疫苗是否使您成为Covid-19的受害者的可能性更高?
好吧,不。弗罗斯特证实:“接种疫苗和死亡百分比更高的关系是通过汇总数据和抛弃相关信息而产生的小说 - 辛普森的悖论。”
他解释说:“在美国,共疫苗接种的人口往往年龄较大,并且具有更多的危险因素。” “这一群体自然会产生更糟糕的结果。但是,当您调整年龄和其他危险因素时,CDC发现COVID接种疫苗和增强的个体的死亡风险低18.6倍。疫苗正在起作用!”
避免辛普森的悖论
显然,辛普森的悖论是我们需要意识到的 - 既可以在我们自己的分析中避免这种悖论,又要在其他试图将其使用在我们身上时变得很棒。不过,这是一个问题:很难注意。
“很难确定在实验研究中可能发生辛普森的悖论的程度,因为读者尚未在出版物中进行测试和报告的程度,”读者无法轻易检测到。”一张2009年的论文关于现象。
它建议:“调查此问题的一种方法是检查整个研究的发现。” “如果在研究中的结果与治疗之间存在不一致的关系,那么至少在其中一些研究中可能发生了混乱。”
当然,一个更好的解决方案是根本不出现这个问题 - 但这取决于统计学家本身。 “辛普森的悖论是对数据分析固有的复杂性的有力提醒,”弗罗斯特警告说。 “ [它]教会了我们在统计分析中的警惕和精度的重要性,敦促研究人员深入研究数据,而不是接受表面级别的见解。”
弗罗斯特建议,数据聚合器应保持谨慎,以“始终质疑数据;超越聚合; [和]努力在您遇到的每个数据集中为清晰度和准确性而努力。” “这样做,您可以确保您的研究结果准确地反映了数据中的潜在趋势和模式。”