本文基於「SIMPSON』S PARADOX IN COVID-19 CASE FATALITY RATES:A MEDIATION ANALYSIS OF AGE-RELATED CAUSAL EFFECTS」 這篇arxiv論文,該文為教學性的。
1)問題引入
上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。
對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。
但更深刻的解釋是:分開分析時,存在一個中間變量。任何兩個統計變量X與Y之間,都存在三種可能的因果關係中的一種,要麼是X導致Y,要麼是Y導致X,或者存在一個共同的原因Z,同時導致了X與Y。在新冠死亡率的案例中,年齡A,死亡率M這兩個變量之間存在一個共同的原因-國家C。
其中,C到A代表國家不同,人口結構不同,A到M代表不同年齡,會導致死亡率不同,而C到M代表不同國家的醫療水平不同,防疫政策不同,造成的死亡率的差異。而這正是因果推斷要去衡量的。這在因果推斷中被定義為Total causal effect(TCE),計算公式為:
在新冠的例子中,該式的含義是,如果義大利和中國具有相同的人口結構和抗疫措施,死亡率會是多少?根據Pearl提出的do-calcuscus,可以通過觀察數據估算出該數值為義大利和中國的整體死亡率之差4.3%-2.3%=2%。
因果推斷還能回答下面的三個問題,一是對於特定的年齡,例如50-59歲,不考慮國家在醫療水平和防疫措施上的區別,是中國人或是義大利人感染新冠後,預期死亡率更低?該問題的回答是,義大利的死亡率0.2%,相比中國的1.1%,更讓患者安心。
二是如果中國採取了義大利的防疫措施,那會怎樣影響新冠死亡率,對此的回答是這樣總的死亡率會增加0.8%,從2.3%增加到3.1%該問題等價於反事實的問題。
三是如果另一個國家,例如西班牙採取了中國的,而不是義大利的防疫措施,在考慮西班牙的人口結構時,會產生怎樣的效果。
對此,可以將死亡率分為直接受到防疫措施直接引起的,以及由於間接的影響造成的死亡率,下圖中的縱軸是死亡率,該圖回答了上述問題。
對於該文,讀者可能會問,為什麼只用年齡作為mediator變量,可能還有性別,經濟狀況,飲食習慣等變量,也可能造成辛普森悖論
為了應對該問題,可以在因果圖上增加一個selection的變量,代表在選擇那些mediator時,可能的bias,從而擴展分析框架
任何因果分析,都需要從關於數據生成過程的一組假設開始。雖然我們的模型假設是對實際潛在現象的過度簡化。但該例子說明,
最後關於因果推斷,推薦三本入門書:
寫給普通人的因果邏輯入門書-《別拿相關當因果!》
好書推薦-《結果與原因的經濟學》極簡因果推斷教程
從相關性到因果性-讀《The book of why》
如果三本書中,找出最適合入門的一本,又相對全面的一本,那是第一本
更多閱讀
櫻花,氣候,相關性與因果性
將因果思維融入機器學習,實現信息處理的自動化
速讀悖論,兼談因果推斷的重要性