原創 李奉治 集智俱樂部
導語
通過手工推導,我們可以解決包含少量變量的因果推理問題,但對於現實中有幾十個或者上百個結點的因果圖,當前業界還需要一個可以自動化進行因果推理的演算應用框架。本文整理自中科院計算所在讀博士李奉治在集智-凱風研讀營的分享,介紹Judea Pearl的因果理論,以及Do-演算在因果推斷領域的應用前景。
李奉治 | 作者
鄧一雪 | 編輯
1. 從吸菸致癌談起
隨著香菸的大批量生產和煙廠鋪天蓋地的廣告宣傳,在上世紀,香菸的銷售量與受眾有了突飛猛進的增長。但在1924年,美國《讀者文摘》就曾刊載一篇文章,題目是《菸草損害人體健康嗎?》,這也是此問題首次出現在大眾的視野之中。
在50年代末,這個問題在統計學家和醫生群體中產生了激烈而衝突的討論。上方這張折線圖中的黑線,展示了隨著時間的推移,美國男性每年的人均香菸消費量的變化,而灰色的線是肺癌及支氣管癌的死亡率。從直觀上很容易看出,這兩條折線有著幾乎一樣的形狀,時間上有著30年左右的偏移。從時序的相關性上來觀察,很多人已經認定,就是吸菸導致了肺癌的發生。
在這裡,我們使用圖結構來描述這一問題。我們使用一個節點來表示一個變量,節點之間的有向邊表示起點節點是終點結點的直接原因。
一部分研究者認為,吸菸與肺癌的關係如左圖所示,吸菸會直接導致肺部的焦油沉積,而焦油沉積會直接導致肺癌的產生。這裡需要額外說明的是,每一條邊上其實是有一個權值的,比如焦油沉積會有0.7的概率直接導致肺癌產生。所以這張圖並不是說吸菸就一定會肺癌。
而右側的圖是另一派研究者的觀點,他們認為吸菸並不是肺癌產生的原因,而是有一個當時還沒有觀測到的吸菸基因,既會導致一個人容易尼古丁上癮,又會導致肺癌的產生,因此吸菸和肺癌兩者之間產生了相關性。
那麼這兩種模型究竟哪一個是正確的呢?按照傳統觀點,我們就需要開展實驗和數據收集,使用統計學的方式來得出結論了。
我們將將兩個觀點結合到一起,就得到了這樣的一張圖。我們如果要進行實驗,驗證吸菸基因是否是真正的影響因素,就需要對吸菸基因這個變量進行控制。
一個很樸素的想法就是,我們找到一群被試,通過隨機抽籤的方式強制他們吸菸或不吸菸,這樣就可以排除掉吸菸基因的影響。當然,這從醫學倫理的角度來說,是根本不可能做到的。更為棘手的是,還有各種各樣新的反對者的觀點的提出,比如一個人的心情、整體社會的工業化程度等等,都能成為反駁吸菸導致肺癌這一個因果路徑的影響因子。
那麼,我們是否真的就永遠無法解決這個問題了嗎?
2. 基礎前置概念
在因果圖中,結點之間的有向邊可以看做是因果關係傳遞的通道。為了探尋兩個結點之間的因果性關係,十分重要的方法就是研究兩者之間所有路徑上的因果信息傳遞狀態。對於有向圖中的路徑,只會有這三種基礎結構,對應了「因果流」的三種模式:
1. A→B→C :鏈 (Chain) 接合,其中B被稱作「中介變量」 (Mediator)
2. A←B→C :叉 (Fork) 接合,其中B被稱作「混雜因子」 (Confounder)
3. A→B←C :對撞 (Collider) 接合,其中B被稱作「對撞因子」 (Collider)
在進行實驗時,如果我們控制了某一變量,會怎樣影響因果信息的傳遞呢?上圖對於三種接合分別給出了例子。
對於連結合,如果控制了中介變量B,A與C之間的因果關係傳遞就會被阻斷。例如在吸菸導致焦油沉積導致肺癌這個例子中,如果我們控制焦油沉積這個變量,進行分層統計,那麼就阻斷了吸菸到肺癌的因果傳遞,無論吸菸的分布是什麼樣的,都不影響最後肺癌的分布結果。或者說,只要醫生發現了某個人的肺部焦油沉積很高,那麼無論患者是否吸菸,都不會影響醫生對肺癌高風險的判斷。
對於叉接合,如果控制了混雜因子B,A與C之間就失去了相關性。給出的例子是一個很有趣的統計學現象,就是對於孩子們來說,往往穿更大鞋碼的孩子,閱讀能力就越強。其實原因很明顯,有「年齡」這個混雜因子,年齡越大的孩子往往會有更大的鞋碼和更好的閱讀能力。而如果我們控制了年齡這個混雜因子,在每個年齡層面進行分析,就會發現鞋碼和閱讀能力之間是沒有關聯的,因果信息傳遞的路徑被切斷了。
對於對撞接合,原本A和C之間就是獨立的,但如果控制了對撞因子B,根據辯解效應 (Pearl, 1988) 的存在,反而會打開A與C之間的因果關係傳遞通道。例如才能和外貌都會讓一個成名,而且一個人的是否有才能和一個人是否好看之間往往是沒有直接相關性的。但如果我們已經知道了某個人成名了,控制了這一變量,那麼才能和外貌之間的因果信息傳遞就被打開了,當我們知道一個名人很有才能時,就會潛意識上認為這個人可能不會很好看。如果知道了一個人因為外貌而成名,就會覺得這個人可能沒有才能。
上方的三種接合模式都有對應的控制因果流的傳遞方法。那麼對於更大的因果圖,如何阻斷某兩個結點之間的因果信息流呢?這裡就提供了一個判據,被稱為d-分離,具體的定義如圖所示。以我們以之前的吸菸的因果圖為例,要阻斷吸菸和肺癌之間的信息流,那麼就需要看兩個路徑,控制吸菸基因和焦油沉積兩個變量,才能使吸菸與肺癌之間滿足d-分離。
我們剛才已經嘗試用圖來表示我們對於知識的信念,在這裡我們需要形式化定義之前的操作:概率因果模型(Probabilistic Causal Model)。PCM是一個四元組,包括:
1. 一組外生變量U,這些變量無法被觀測或幹預,但會影響到模型中的其他變量。在剛才的例子中,吸菸基因就是外生變量,因為在當時的技術下,基因是無法被檢測或幹預的;
2. 一組內生變量V,這些變量是可以被觀測的,例如吸菸、焦油沉積和肺癌。這些變量的值依賴於U∪V的一個子集,例如肺癌變量就是直接依賴於吸菸基因和焦油沉積;
3. 一組函數F,刻畫了變量之間的生成關係,在因果圖中對應了其中的有向邊;
4. 在外生變量上的一個聯合概率分布P(U)。
在概率因果模型下,我們就可以定義什麼是幹預(Intervention)了。比如說剛才提到了一個理想的實驗,可以隨機強制一個人吸菸或不吸菸,這裡的強制就是在幹預一個變量。在圖模型中,我們強制吸菸變量為1,就可以刪去所有指向吸菸變量的有向邊,因為其他變量已經不會再影響吸菸變量的值了。如果我們幹預了變量X,就記作do(X)。
3. Do-演算與因果之梯
這時我們應該如何去想辦法去除吸菸基因的影響,直接計算出隨機強制一個人吸菸,其患肺癌的概率是如何的呢?這裡所說的強制幹預一個變量,就是do-演算框架中的 do 算子。
為了解決這樣的問題,計算出直接幹預一個變量後其他變量變化的結果,2011年圖靈獎得主 Judea Pearl 提出了一個do-演算的公理體系,包含三條公理,對觀察項和幹預項進行轉換。這個體系已被證明是完備的。
結合do-演算的三條公理,我們就可以將包含 do 算子的表達式 P(c | do(s)) 一步一步地轉換成為一個不包含 do 算子的表達式。這樣,我們通過對 S、T 和 C 三個變量的觀察值進行運算,就可以直接計算出 do(s) 時 c 的分布情況。吸菸致癌的問題就可以得到完美的證明與解答了。可問題是,找出這樣一個變換流程是十分困難的,搜索空間巨大,這裡就需要 「do-演算 」 的相關算法進行解決了。
那麼do-演算與通常神經網絡模型或傳統的統計學有什麼區別呢?
圖靈曾經提出了圖靈測試來進行一個二元分類——人類和非人類。但Pearl是提出了一個三元分類:
第一層級的梯子上站著的是機器人和動物,能夠做的就是基於被動觀察來做出預測。Pearl認為,目前為止我們的機器學習進展都還是在這一層級的,無論大家認為它有多麼強大。
第二層級的梯子上站著的是原始人類和嬰兒,它們學會了有意圖地去使用工具,對周遭環境進行幹預。
第三個層級上的底子上站著的是有較高智慧的人類,擁有反思的能力,能夠在大腦中將真實的世界與虛構的世界進行對比。
在這三個層級上,能夠提出和解決的問題是不同的:
在第一個層級上,問題都是基於相關性的,比如:「我的肺部有很多焦油沉積,我未來患肺癌的概率是多少?」
而在第二個層級上,就涉及到了對現實世界的幹預,並預測幹預結果,比如:「我現在已經吸菸三年了,如果我現在戒菸,我還會患肺癌嗎?」
第三個層級上,就是要構建一個虛擬世界,並將虛擬世界與現在進行對比,問題的答案就是對比的結果,比如「如果過去的三年我都沒有吸菸,現在我還會患肺癌嗎?」 Pearl在數學上證明了,這三個層級之間是有著根本的區別的。
因果推理可以在大量的領域得到應用,比如大家都比較關注的複雜系統的漏洞分析,就可以使用 do-演算,減少對實際系統的測試,直接計算出幹預的結果。對於醫學領域、社會領域、金融領域和強人工智慧的開發,都具有決定性的作用,在此我不再贅述。通過手工推導,我們可以解決包含少量變量的因果推理問題,但對於現實中有幾十個或者上百個結點的因果圖,當前業界還需要一個可以自動化進行因果推理的演算應用框架。
參考文獻
[1] J. Pearl, 「The Seven Tools of Causal Inference with Reflections on Machine Learning,」 Communications of ACM, 62(3): 54-60, March 2019
[2] Bareinboim, E., Correa, J. D., Ibeling, D., & Icard, T. (2020). On Pearl’s hierarchy and the foundations of causal inference. ACM Special Volume in Honor of Judea Pearl (provisional title).
[3] BAREINBOIM E, PEARL J. A general algorithm for deciding transportability of experimental results [J]. Journal of causal Inference, 2013, 1(1):107-134.
[4] GALLES D, PEARL J. Testing identifiability of causal effects [C]//UAI』 95: Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995: 185–195.
[5] PEARL J. Causal diagrams for empirical research [J]. Biometrika, 1995, 82(4):669-688.
[6] SHPITSER I, PEARL J. Identification of joint interventional distributions in recursive semimarkovian causal models [C]//Proceedings of the National Conference on Artificial Intelligence: volume 21. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999, 2006a: 1219.
[7] SHPITSER I, PEARL J. What counterfactuals can be tested [C]//UAI』 07: Proceedings of the Twenty-Third Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, USA: AUAI Press, 2007: 352–359.
[8] TIAN J, PEARL J. A general identification condition for causal effects [C]//Eighteenth National Conference on Artificial Intelligence. USA: American Association for Artificial Intelligence, 2002: 567–573.
相關視頻回放
視頻地址:
https://campus.swarma.org/course/1986
關注更多因果科學前沿工作,歡迎參加集智俱樂部與北京智源人工智慧研究院聯合組織的因果科學與Casual AI系列讀書會
複雜科學最新論文
集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自Nature、Science等頂刊的最新論文,追蹤複雜系統、網絡科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每周通過微信服務號「集智斑圖」推送論文信息。掃描下方二維碼即可一鍵訂閱:
原標題:《因果階梯與Do-演算:怎樣完美地證明吸菸致癌?》
閱讀原文