論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子

2020-12-18 巡洋艦人工智慧學堂

本文基於「SIMPSON』S PARADOX IN COVID-19 CASE FATALITY RATES:A MEDIATION ANALYSIS OF AGE-RELATED CAUSAL EFFECTS」 這篇arxiv論文,該文為教學性的。

1)問題引入

上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。

但更深刻的解釋是:分開分析時,存在一個中間變量。任何兩個統計變量X與Y之間,都存在三種可能的因果關係中的一種,要麼是X導致Y,要麼是Y導致X,或者存在一個共同的原因Z,同時導致了X與Y。在新冠死亡率的案例中,年齡A,死亡率M這兩個變量之間存在一個共同的原因-國家C。

其中,C到A代表國家不同,人口結構不同,A到M代表不同年齡,會導致死亡率不同,而C到M代表不同國家的醫療水平不同,防疫政策不同,造成的死亡率的差異。而這正是因果推斷要去衡量的。這在因果推斷中被定義為Total causal effect(TCE),計算公式為:

在新冠的例子中,該式的含義是,如果義大利和中國具有相同的人口結構和抗疫措施,死亡率會是多少?根據Pearl提出的do-calcuscus,可以通過觀察數據估算出該數值為義大利和中國的整體死亡率之差4.3%-2.3%=2%。

因果推斷還能回答下面的三個問題,一是對於特定的年齡,例如50-59歲,不考慮國家在醫療水平和防疫措施上的區別,是中國人或是義大利人感染新冠後,預期死亡率更低?該問題的回答是,義大利的死亡率0.2%,相比中國的1.1%,更讓患者安心。

二是如果中國採取了義大利的防疫措施,那會怎樣影響新冠死亡率,對此的回答是這樣總的死亡率會增加0.8%,從2.3%增加到3.1%該問題等價於反事實的問題。

三是如果另一個國家,例如西班牙採取了中國的,而不是義大利的防疫措施,在考慮西班牙的人口結構時,會產生怎樣的效果。

對此,可以將死亡率分為直接受到防疫措施直接引起的,以及由於間接的影響造成的死亡率,下圖中的縱軸是死亡率,該圖回答了上述問題。

對於該文,讀者可能會問,為什麼只用年齡作為mediator變量,可能還有性別,經濟狀況,飲食習慣等變量,也可能造成辛普森悖論

為了應對該問題,可以在因果圖上增加一個selection的變量,代表在選擇那些mediator時,可能的bias,從而擴展分析框架

任何因果分析,都需要從關於數據生成過程的一組假設開始。雖然我們的模型假設是對實際潛在現象的過度簡化。但該例子說明,

最後關於因果推斷,推薦三本入門書:

寫給普通人的因果邏輯入門書-《別拿相關當因果!》

好書推薦-《結果與原因的經濟學》極簡因果推斷教程

從相關性到因果性-讀《The book of why》

如果三本書中,找出最適合入門的一本,又相對全面的一本,那是第一本

更多閱讀

櫻花,氣候,相關性與因果性

將因果思維融入機器學習,實現信息處理的自動化

速讀悖論,兼談因果推斷的重要性

相關焦點

  • 數據分析之辛普森悖論
    也正是因為在分析業務數據的時候,總是用到分組對比的方法,所以我們一不小心就可能會陷入統計學的陷阱 -- 辛普森悖論。實際案例分享我們先來看工作中一個實際的例子,相信做電商的朋友都非常清楚一個指標:1分鐘響應率,指的是買家諮詢了貨品問題,賣家能否在1分鐘內及時響應。
  • 因果推理「三問」:是什麼?為什麼需要?如何使用?
    譯者:AI研習社(聽風1996)雙語原文連結:Causal Inference: What, Why, and How作為一名經濟學博士,我致力於尋找某些變量之間的因果關係,用來完成我的論文。因果關係強大到可以讓人們有足夠的信心去做決策、防止損失、求解最優解等。在本文中,我將討論什麼是因果關係,為什麼需要發現因果關係,以及進行因果推理的常用技巧。1. 什麼是因果關係?因果關係描述的是兩個變量之間的關係,即一個變量如何誘發另一個變量的發生。它比相關關係要強得多,因為相關關係只是描述兩個變量之間的共同運動模式。
  • 因為這個數學悖論,美國曾不允許宣傳吸菸導致肺癌
    第一次聽說辛普森悖論的人,會對人生產生懷疑。但是有一個經典的統計學悖論,第一次聽說的人也會感到異常迷惑。而且這個悖論,和我們的日常生活息息相關。現在大部分人都知道吸菸會導致肺癌,對孕婦和胎兒也有害。換句話說,如果只看LBW嬰兒,我們就會得出這樣一個結論:母親吸菸反而有好處。在報告這個悖論時,Yerushalmy 寫道:「這個悖論的發現駁斥了吸菸有害胎兒健康的觀點。」如果吸菸真的對胎兒有害,那要怎麼解釋這個令人困惑現象呢?
  • 用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」
    不過,韓國用戶分析AI服務商在一次演講中表示,由於遊戲開發者們會認為「這是我製作的遊戲,所以我比誰都了解這個遊戲」,所以在分析用戶行為時,常常會產生兩個錯誤——「辛普森悖論」和「倖存者偏差」。因為,即使是在同一款遊戲中,既有比其他人更重視遊戲內排名的用戶,也有比起競爭、認為用包裝角色更有價值的用戶,情況多樣。因此,詳細的數據分析是很重要的。
  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差一、不要把數據統計關係當成因果關係我們先看三個例子:1、彩票悖論首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。
  • 輪組評測中的辛普森悖論,和列文虎克的觀察力
    即便我們只說那些真實的騎行感受反饋,還存在著辛普森悖論。辛普森悖論舉例說是這樣的:兩個實力相當的對手(籃球、桌球、下棋、搏擊什麼都好),各自用100場比賽成績總勝率來評價(籃球、足球、桌球、下棋、搏擊),其中一個隊選30個強對手勝利3場,選70個水平相近的對手而勝40場,結果總勝率43%;另外一個隊選70個強對手勝利7場,選30個水平相近的對手全勝,總勝率37%,如果只看總勝率,與看具體對手情況的勝率,兩個對手哪一個實力更強一點?
  • 那些反直覺的統計學悖論(上)
    ·珀爾、達納·麥肯《為什麼:關於因果關係的新科學》。貝葉斯在數學方面主要研究概率論,他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了卓越的貢獻。我們先從著名的三門問題開始,三門問題源於美國一個現場遊戲的電視節目。遊戲是這樣的,你前面有ABC三扇門,其中一扇門後面停著一輛轎車,你可以在這三扇門中任選一扇打開。如果打開門,後面有轎車,那轎車就歸你所有。
  • 《因果科學周刊》第4期:因果賦能推薦系統
    而烏鴉可以認識到放入石子就可以使水面上升這一層因果關係。我們可以把鸚鵡看作是能做curve fitting的機器學習模型而把烏鴉看作是體現變量之間因果關係的因果模型。比起問它們誰更聰明,我想更有意義的做法是結合他倆的技能,幫助我們解決實際問題。在機器學習在很多任務中已取得成功的今天,我們想回答的問題是:因果推斷能否幫助機器學習在一些任務中做得更好,以及因果推斷能否受益於新的機器學習算法?
  • 因果階梯與Do-演算:怎樣完美地證明吸菸致癌?
    本文整理自中科院計算所在讀博士李奉治在集智-凱風研讀營的分享,介紹Judea Pearl的因果理論,以及Do-演算在因果推斷領域的應用前景。李奉治 | 作者鄧一雪 | 編輯1. 從吸菸致癌談起一個很樸素的想法就是,我們找到一群被試,通過隨機抽籤的方式強制他們吸菸或不吸菸,這樣就可以排除掉吸菸基因的影響。當然,這從醫學倫理的角度來說,是根本不可能做到的。更為棘手的是,還有各種各樣新的反對者的觀點的提出,比如一個人的心情、整體社會的工業化程度等等,都能成為反駁吸菸導致肺癌這一個因果路徑的影響因子。
  • 因果識別計量大法, 十八章修煉寶典
    DID不要求隨機分組,都隨機了的話還要Double Difference幹嘛呢,直接一個差就可以了;DID也不要求政策衝擊是隨機的。  很久以前推薦過一篇論文【國內雙重差分法的研究現狀與潛在問題】,發表於《數量經濟技術經濟研究》2015年第7期,這篇論文就大談特談隨機,誤導了很多人(我認識的人就中過槍,答辯時被老師批了)。
  • 心理學家闡明了人類最基本的概念之一——因果關係
    這是心理與腦科學學院博士生塔德·奎利恩最近發表的一篇論文的主題。這項發表在《認知》雜誌上的研究概述了一個因素在事件中的作用如何影響我們是否認為它是事件的起因。在他的論文中,奎利恩構建了一個因果判斷的數學模型,這個模型比之前的任何模型都能更好地再現人們的直覺。
  • 從因果關係來看小樣本學習丨NeurIPS 2020
    論文的代碼會在Github上開源:yue-zhongqi/ifslgithub.com我們的這篇工作,根據小樣本學習當中的因果關係,提出了一種新的基於因果乾預的分類器IFSL,去除了預訓練帶來的摻雜效果,在各種方法上取得了穩定的提升。
  • 外祖母悖論是什麼?平行時空的存在將其推翻,造成物理界大躁動
    但與平行時空相反的「外祖母悖論」又是怎麼回事呢?下面讓我們一探究竟!「外祖母悖論」大義上指的時光倒流是不可能實現的,主要探討的是關於時間旅行的問題。其觀點主要講述了穿越到過去把自己的祖父母殺死,這樣你就不會存在。與它相反的理論是「平行時空」,如果科學家們能提出平行時空的具體概念,想必肯定會將「外祖母悖論」給推翻。
  • Python實現固定效應回歸模型實現因果關係推斷
    眾所周知,「相關並不意味著因果關係」。 我要告訴你,相關可以表示因果關係,但需要一定條件。 這些條件已在計量經濟學文獻中被廣泛討論。 在本文中,我將以一種易於理解的方式對其進行總結。 我將解釋如果不滿足這些條件為什麼標準的普通最小二乘(OLS)無法確定因果關係。 然後,我將介紹可以提供有效解決方案的固定效應(FE)模型。
  • 多瑪姆我是來談條件 《因果》評測
    時空旅行是近幾年科幻小說和哲學討論的一個熱門話題,近期開水君發現了一款遊戲也引入了時空旅行這一概念,這是一款已經上架iOS的解謎遊戲《因果》(Causality),初看遊戲我並沒有被吸引,繞口的名字,截圖中看似點擊箭頭控制太空人到達特定位置的一款解謎遊戲,這類解謎實在是一抓一大把,毫無新意。
  • 辛普森遊艇昨日宣布擴展菲爾蘭代理網絡,進軍東南亞及中國臺灣
    2018年,辛普森遊艇宣布成為英國豪華動力艇品牌菲爾蘭遊艇(Fairline Yachts)的代理商,在中國香港和菲律賓擁有代理權。經過1年多的合作之後,雙方的夥伴關係再上一個臺階,經銷網絡擴展到了亞洲大部分的地區。
  • 黑洞信息悖論之謎,霍金最後的問題被解決了嗎?
    在所有黑洞相關的問題中,最令理論物理學家頭痛的或許是黑洞信息悖論。這是霍金證明黑洞存在熱輻射後誕生的一個麻煩的問題,也是霍金生前最後一篇論文研究的問題:黑洞蒸發後,所有與之相關的信息都丟失了,因而違反了信息守恆律。數十年來,為了解決這一問題物理學家提出了許多猜想和模型,如今終見曙光——黑洞信息沒丟!那麼黑洞信息悖論要被終結了嗎?
  • 每100名患者中約4人死亡 義大利新冠死亡率引擔憂
    中新網11月19日電 據歐聯網援引歐聯通訊社19日報導,美國約翰斯·霍普金斯大學的統計顯示,義大利新冠死亡率為3.8%,每100名新冠病毒感染者,有接近4人不治身亡。義大利總理孔特呼籲企業、社會團體和全國民眾一定要加強團結,用全社會的力量去遏制和戰勝疫情。
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。
  • 辛普森殺妻案,你更相信誰?
    追捕一直持續到晚上8時,辛普森已在逃亡之路上行駛五十餘英裡。與警方進行交涉後,辛普森獲準在布倫特伍德的家中暫留一個小時,直到他的律師羅伯特·夏皮羅趕到才投案自首。另外,辯方專家在檢驗襪子上的血跡時發現其中含有濃度很高的螯合劑(EDTA),辯方律師提醒陪審團,案發之日,警方在抽取辛普森的血樣之後在血樣中添加了這種螯合劑。其次,從現場勘查報告看,身高體壯的高曼曾與兇犯展開了一場血戰,他的隨身物品——一串鑰匙、一個信封、一張紙片以及一個呼叫機——都散落在不同的地方,這說明打鬥的範圍很大,搏鬥很激烈。