世界领先的统计学家已经发声,他们向研究人员、学生和科学传播者传达的信息很明确——是时候停止单独使用 p 值和统计显着性来检验假设并确定结果是否重要了。
如果这些对你来说都没有意义,那么 ELI5 就是这样的:科学家们一直在他们的研究中发现相关性,为了弄清楚它们是合法的还是只是侥幸,他们使用了一种名为。 p 值越低,结果真实的机会就越大,小于 0.05 的 p 值是决定某物是否值得发布的神奇数字('')。 或者,至少,我们现在就是这样使用它的,但是根据刚刚发布的声明根据美国统计协会 (ASA) 的说法,我们的做法完全错误。
“p 值从来没有打算取代科学推理,”ASA 执行董事表示,罗恩·瓦瑟斯坦。 “合理的统计论点包含的不仅仅是单个数字的值以及该数字是否超过任意阈值。ASA 声明旨在引导研究进入“后 P”状态。
这些话出自一位统计学家之口,简直是充满争议的言论,ASA 在其 177 年的历史上首次发布了一份声明,明确详细说明了如何使用该测试。
这一决定是在该协会越来越担心科学界对 p 值的依赖导致发表无法重现的研究结果之后做出的——如果最近的研究有什么可遵循的,是一个相当大的问题。
“随着时间的推移,p 值似乎已成为作品是否可发表的看门人,至少在某些领域是如此。”杰西卡·厄茨说,ASA 主席。 “这种明显的编辑偏见导致了‘文件抽屉效应’,其中具有统计显着性结果的研究更有可能被发表,而其他可能在科学上同样重要的工作却从未在印刷品中出现过。”
它还导致研究人员“破解”他们的数据以获得急需的数据
那么,如果我们使用的 p 值全部错误,那么什么才是正确的呢? ASA 有发布了这六项指导方针:
- P 值可以指示数据与指定统计模型的不兼容程度。
- P 值并不衡量所研究的假设为真的概率,也不衡量数据仅由随机机会产生的概率。
- 科学结论和商业或政策决策不应仅基于 p 值是否超过特定阈值。
- 正确的推断需要完整的报告和透明度。
- p 值或统计显着性并不衡量效应的大小或结果的重要性。
- p 值本身并不能很好地衡量模型或假设的证据。
这并不是 p 值第一次受到批评——去年就有一本期刊批评得如此之深完全禁止它们-许多科学家都对这一大胆的声明表示赞赏。
“当然,如果这发生在 20 年前,生物医学研究现在可能会处于更好的境地,”达纳法伯生物统计学家乔瓦尼·帕玛强尼 (Giovanni Parmigiani) 说道。位于波士顿的研究所,不属于 ASA 的一部分,告诉自然。
但其他人警告说,它并没有解决真正的问题,这远远超出了 p 值的范围,更多地与社会对科学不切实际的期望有关。
“人们想要一些他们无法真正得到的东西,”哥伦比亚大学统计学家安德鲁·格尔曼说。 “他们想要确定性。”
这将需要科学家和公众之间进行更加开放的沟通,了解从结果中推断意义的真正含义以及所涉及的细致入微的解释。
这并不容易,但当目标是改进科学方法时,它总是值得的。