有,馬克·吐溫是著名的宣布三種類型的謊言:謊言,該死的謊言和統計。這是我們所有人的簡潔總結在我們的骨頭中,即使我們不知道它的確切解釋:統計數據不能完全值得信賴 - 它們太容易出於邪惡目的而操縱。
主要例子:辛普森的悖論。摯愛,而且非常好的人絕對會這樣做,這種現象足夠強大,足以完全逆轉數據中的相關性 - 從技術上講不說謊言。
那麼,這是什麼?
辛普森的悖論是什麼?
想像一下,您是一名醫生,決定是否為患者開某種治療方法。您有以下信息:

治療與控制的成功和失敗的表,顯示了整個人群,男性和女性數據。
圖片來源:Iflscience,改編自斯坦福百科全書
明顯的行動是什麼?對於男性和女性受試者,治療的表現都比對照方案更好,並且您的患者很可能是這兩種選擇之一 - 但結合了這兩組,並且似乎無效。這兩個事情怎麼能是真的?
統計學家吉姆·弗羅斯特(Jim Frost)在他的網站的一篇文章中解釋說:“辛普森一家悖論是一種統計現象,它會在您將亞組合併為一組時發生。”吉姆的統計數據。 “匯總數據的過程可能會導致兩個變量之間關係的明顯方向和強度發生變化。”
首先註意到“悖論”早在1899年,但直到1970年代才得到綽號,當數學家科林·布萊斯(Colin Blyth)命名為了紀念Codebreaker和統計學家愛德華·辛普森(Edward Simpson)現在著名的1951年紙。
如今,理解這種現像比以往任何時候都更重要,因為那些想傳播有關COVID-19或疫苗的錯誤信息或促進不科學和偏執的觀點的壞演員所利用的那樣。它甚至可以用來通過格里曼德(Gerrymandering)進行挖掘選舉:考慮下面每個廣場代表一個區域的區域中的投票模式。

感覺像是藍色的明顯勝利,對嗎?
圖片來源:Iflscience
顯然,藍色政黨的選票比紅軍多得多 - 因此,鑑於五個代表,常識表明,三個應該是藍色和兩個紅色。但是,這是一個問題:如果我們這樣將其分開怎麼辦?

哈哈,以為你住在民主國家,是嗎? ? ?傻子。
圖片來源:Iflscience
仍然有五個地區,同樣由人口分佈。不過,現在,雷德贏得了布魯(Blue)的兩個區域的三個區域 - 實際上扭轉了總體結果。
顯然,辛普森的悖論是強大的 - 不僅僅是利基統計技術。那麼,它的背後是什麼?
為什麼辛普森的悖論發生?
生活很少簡單,統計數字甚至更是如此。選擇忽略這一點,而辛普森的悖論是您最終的地方。弗羅斯特解釋說:“當匯總數據的過程不包括混淆變量時,就會發生[它]。
弗羅斯特補充說:“通常,這是無意發生的。” “如果您不關注它,它很容易發生!”
確實,這很容易做到,尤其是因為 - 幾乎按照定義 - 混雜變量是您不是尋找。假設您正在調查一定乾預措施在預防特定病毒死亡的某個乾預措施中的有效性:您將立即衡量有多少接受干預的人死於該疾病,而沒有多少人,而對於某些對照組來說是相同的不是接受它。這完全是有道理的 - 因此,即使這樣做可以完全改變結果,因此您可能不會認為將數據分類為年齡,生活方式或病史。
不相信我們嗎?無需宣傳我們的話:確切的情況實際發生 回到2022年,當社交媒體模因宣稱為19 Covid-19接種疫苗是無效甚至危險的。
顯然,這與人們第一次告訴這個謊言相去甚遠,但是這次他們似乎有很難的數據來支持斷言:那年的4月,分析顯示了實際上,大約有十分之六的成年人死於Covid-19,實際上已經接種了疫苗,這一統計數據全年保持強勁。可能是真的嗎?接種疫苗是否使您成為Covid-19的受害者的可能性更高?
好吧,不。弗羅斯特證實:“接種疫苗和死亡百分比更高的關係是通過匯總數據和拋棄相關信息而產生的小說 - 辛普森的悖論。”
他解釋說:“在美國,共疫苗接種的人口往往年齡較大,並且具有更多的危險因素。” “這一群體自然會產生更糟糕的結果。但是,當您調整年齡和其他危險因素時,CDC發現COVID接種疫苗和增強的個體的死亡風險低18.6倍。疫苗正在起作用!”
避免辛普森的悖論
顯然,辛普森的悖論是我們需要意識到的 - 既可以在我們自己的分析中避免這種悖論,又要在其他試圖將其使用在我們身上時變得很棒。不過,這是一個問題:很難注意。
“很難確定在實驗研究中可能發生辛普森的悖論的程度,因為讀者尚未在出版物中進行測試和報告的程度,”讀者無法輕易檢測到。 ”一張2009年的論文關於現象。
它建議:“調查此問題的一種方法是檢查整個研究的發現。” “如果在研究中的結果與治療之間存在不一致的關係,那麼至少在其中一些研究中可能發生了混亂。”
當然,一個更好的解決方案是根本不出現這個問題 - 但這取決於統計學家本身。 “辛普森的悖論是對數據分析固有的複雜性的有力提醒,”弗羅斯特警告說。 “ [它]教會了我們在統計分析中的警惕和精度的重要性,敦促研究人員深入研究數據,而不是接受表面級別的見解。”
弗羅斯特建議,數據聚合器應保持謹慎,以“始終質疑數據;超越聚合; [和]努力在您遇到的每個數據集中為清晰度和準確性而努力。” “這樣做,您可以確保您的研究結果準確地反映了數據中的潛在趨勢和模式。”