世界領先的統計學家已經發聲,他們向研究人員、學生和科學傳播者傳達的信息很明確——是時候停止單獨使用 p 值和統計顯著性來檢驗假設並確定結果是否重要了。
如果這些對你來說都沒有意義,那麼 ELI5 就是這樣的:科學家一直在他們的研究中發現相關性,為了弄清楚它們是合法的還是只是僥倖,他們使用了一種名為。 p 值越低,結果真實的機會就越大,小於 0.05 的 p 值是決定某物是否值得發布的神奇數字('')。或者,至少,我們現在就是這樣使用它的,但是根據剛剛發布的聲明根據美國統計協會 (ASA) 的說法,我們的做法完全錯誤。
“p 值從來沒有打算取代科學推理,”ASA 執行董事表示,羅恩·瓦瑟斯坦。 「合理的統計論點包含的不僅僅是單一數字的值以及該數字是否超過任意閾值。ASA 聲明旨在引導研究進入「後 P」狀態。
這些話出自一位統計學家之口,簡直是充滿爭議的言論,ASA 在其 177 年的歷史上首次發布了一份聲明,明確詳細說明瞭如何使用該測試。
這項決定是在該協會越來越擔心科學界對 p 值的依賴導致發表無法重現的研究結果之後做出的——如果最近的研究有什麼好遵循的,是一個相當大的問題。
“隨著時間的推移,p 值似乎已成為作品是否可發表的看門人,至少在某些領域是如此。”傑西卡·厄茨說,ASA 主席。 「這種明顯的編輯偏見導致了『文件抽屜效應’,其中具有統計顯著性結果的研究更有可能被發表,而其他可能在科學上同樣重要的工作卻從未在印刷品中出現過。”
它還導致研究人員“破解”他們的數據以獲得急需的數據
那麼,如果我們使用的 p 值全部錯誤,那麼什麼才是正確的呢? ASA 有發布了這六項指導方針:
- P 值可以指示資料與指定統計模型的不相容程度。
- P 值並未衡量所研究的假設為真的機率,也不衡量數據僅由隨機機會產生的機率。
- 科學結論和商業或政策決策不應僅基於 p 值是否超過特定門檻。
- 正確的推論需要完整的報告和透明度。
- p 值或統計顯著性並不會衡量效果的大小或結果的重要性。
- p 值本身並不能提供有關模型或假設的證據的良好衡量標準。
這並不是 p 值第一次受到批評——去年就有一本期刊批評得如此之深完全禁止它們-許多科學家都對這項大膽的聲明表示讚賞。
「當然,如果這發生在 20 年前,生物醫學研究現在可能會處於更好的境地,」達納法伯生物統計學家喬瓦尼·帕瑪強尼 (Giovanni Parmigiani) 說道。位於波士頓的研究所,不屬於 ASA 的一部分,告訴自然。
但其他人警告說,它並沒有解決真正的問題,這遠遠超出了 p 值,更多地與社會對科學不切實際的期望有關。
“人們想要一些他們無法真正得到的東西,”哥倫比亞大學統計學家安德魯‧格爾曼說。 “他們想要確定性。”
這將需要科學家和公眾之間進行更開放的溝通,以了解從結果中推斷意義的真正含義以及所涉及的細緻入微的解釋。
這並不容易,但當目標是改進科學方法時,它總是值得的。