因果階梯與Do-演算:怎樣完美地證明吸菸致癌?

2020-12-12 澎湃新聞

原創 李奉治 集智俱樂部

導語

通過手工推導,我們可以解決包含少量變量的因果推理問題,但對於現實中有幾十個或者上百個結點的因果圖,當前業界還需要一個可以自動化進行因果推理的演算應用框架。本文整理自中科院計算所在讀博士李奉治在集智-凱風研讀營的分享,介紹Judea Pearl的因果理論,以及Do-演算在因果推斷領域的應用前景。

李奉治 | 作者

鄧一雪 | 編輯

1. 從吸菸致癌談起

隨著香菸的大批量生產和煙廠鋪天蓋地的廣告宣傳,在上世紀,香菸的銷售量與受眾有了突飛猛進的增長。但在1924年,美國《讀者文摘》就曾刊載一篇文章,題目是《菸草損害人體健康嗎?》,這也是此問題首次出現在大眾的視野之中。

在50年代末,這個問題在統計學家和醫生群體中產生了激烈而衝突的討論。上方這張折線圖中的黑線,展示了隨著時間的推移,美國男性每年的人均香菸消費量的變化,而灰色的線是肺癌及支氣管癌的死亡率。從直觀上很容易看出,這兩條折線有著幾乎一樣的形狀,時間上有著30年左右的偏移。從時序的相關性上來觀察,很多人已經認定,就是吸菸導致了肺癌的發生。

在這裡,我們使用圖結構來描述這一問題。我們使用一個節點來表示一個變量,節點之間的有向邊表示起點節點是終點結點的直接原因。

一部分研究者認為,吸菸與肺癌的關係如左圖所示,吸菸會直接導致肺部的焦油沉積,而焦油沉積會直接導致肺癌的產生。這裡需要額外說明的是,每一條邊上其實是有一個權值的,比如焦油沉積會有0.7的概率直接導致肺癌產生。所以這張圖並不是說吸菸就一定會肺癌。

而右側的圖是另一派研究者的觀點,他們認為吸菸並不是肺癌產生的原因,而是有一個當時還沒有觀測到的吸菸基因,既會導致一個人容易尼古丁上癮,又會導致肺癌的產生,因此吸菸和肺癌兩者之間產生了相關性。

那麼這兩種模型究竟哪一個是正確的呢?按照傳統觀點,我們就需要開展實驗和數據收集,使用統計學的方式來得出結論了。

我們將將兩個觀點結合到一起,就得到了這樣的一張圖。我們如果要進行實驗,驗證吸菸基因是否是真正的影響因素,就需要對吸菸基因這個變量進行控制。

一個很樸素的想法就是,我們找到一群被試,通過隨機抽籤的方式強制他們吸菸或不吸菸,這樣就可以排除掉吸菸基因的影響。當然,這從醫學倫理的角度來說,是根本不可能做到的。更為棘手的是,還有各種各樣新的反對者的觀點的提出,比如一個人的心情、整體社會的工業化程度等等,都能成為反駁吸菸導致肺癌這一個因果路徑的影響因子。

那麼,我們是否真的就永遠無法解決這個問題了嗎?

2. 基礎前置概念

在因果圖中,結點之間的有向邊可以看做是因果關係傳遞的通道。為了探尋兩個結點之間的因果性關係,十分重要的方法就是研究兩者之間所有路徑上的因果信息傳遞狀態。對於有向圖中的路徑,只會有這三種基礎結構,對應了「因果流」的三種模式:

1. A→B→C :鏈 (Chain) 接合,其中B被稱作「中介變量」 (Mediator)

2. A←B→C :叉 (Fork) 接合,其中B被稱作「混雜因子」 (Confounder)

3. A→B←C :對撞 (Collider) 接合,其中B被稱作「對撞因子」 (Collider)

在進行實驗時,如果我們控制了某一變量,會怎樣影響因果信息的傳遞呢?上圖對於三種接合分別給出了例子。

對於連結合,如果控制了中介變量B,A與C之間的因果關係傳遞就會被阻斷。例如在吸菸導致焦油沉積導致肺癌這個例子中,如果我們控制焦油沉積這個變量,進行分層統計,那麼就阻斷了吸菸到肺癌的因果傳遞,無論吸菸的分布是什麼樣的,都不影響最後肺癌的分布結果。或者說,只要醫生發現了某個人的肺部焦油沉積很高,那麼無論患者是否吸菸,都不會影響醫生對肺癌高風險的判斷。

對於叉接合,如果控制了混雜因子B,A與C之間就失去了相關性。給出的例子是一個很有趣的統計學現象,就是對於孩子們來說,往往穿更大鞋碼的孩子,閱讀能力就越強。其實原因很明顯,有「年齡」這個混雜因子,年齡越大的孩子往往會有更大的鞋碼和更好的閱讀能力。而如果我們控制了年齡這個混雜因子,在每個年齡層面進行分析,就會發現鞋碼和閱讀能力之間是沒有關聯的,因果信息傳遞的路徑被切斷了。

對於對撞接合,原本A和C之間就是獨立的,但如果控制了對撞因子B,根據辯解效應 (Pearl, 1988) 的存在,反而會打開A與C之間的因果關係傳遞通道。例如才能和外貌都會讓一個成名,而且一個人的是否有才能和一個人是否好看之間往往是沒有直接相關性的。但如果我們已經知道了某個人成名了,控制了這一變量,那麼才能和外貌之間的因果信息傳遞就被打開了,當我們知道一個名人很有才能時,就會潛意識上認為這個人可能不會很好看。如果知道了一個人因為外貌而成名,就會覺得這個人可能沒有才能。

上方的三種接合模式都有對應的控制因果流的傳遞方法。那麼對於更大的因果圖,如何阻斷某兩個結點之間的因果信息流呢?這裡就提供了一個判據,被稱為d-分離,具體的定義如圖所示。以我們以之前的吸菸的因果圖為例,要阻斷吸菸和肺癌之間的信息流,那麼就需要看兩個路徑,控制吸菸基因和焦油沉積兩個變量,才能使吸菸與肺癌之間滿足d-分離。

我們剛才已經嘗試用圖來表示我們對於知識的信念,在這裡我們需要形式化定義之前的操作:概率因果模型(Probabilistic Causal Model)。PCM是一個四元組,包括:

1. 一組外生變量U,這些變量無法被觀測或幹預,但會影響到模型中的其他變量。在剛才的例子中,吸菸基因就是外生變量,因為在當時的技術下,基因是無法被檢測或幹預的;

2. 一組內生變量V,這些變量是可以被觀測的,例如吸菸、焦油沉積和肺癌。這些變量的值依賴於U∪V的一個子集,例如肺癌變量就是直接依賴於吸菸基因和焦油沉積;

3. 一組函數F,刻畫了變量之間的生成關係,在因果圖中對應了其中的有向邊;

4. 在外生變量上的一個聯合概率分布P(U)。

在概率因果模型下,我們就可以定義什麼是幹預(Intervention)了。比如說剛才提到了一個理想的實驗,可以隨機強制一個人吸菸或不吸菸,這裡的強制就是在幹預一個變量。在圖模型中,我們強制吸菸變量為1,就可以刪去所有指向吸菸變量的有向邊,因為其他變量已經不會再影響吸菸變量的值了。如果我們幹預了變量X,就記作do(X)。

3. Do-演算與因果之梯

這時我們應該如何去想辦法去除吸菸基因的影響,直接計算出隨機強制一個人吸菸,其患肺癌的概率是如何的呢?這裡所說的強制幹預一個變量,就是do-演算框架中的 do 算子。

為了解決這樣的問題,計算出直接幹預一個變量後其他變量變化的結果,2011年圖靈獎得主 Judea Pearl 提出了一個do-演算的公理體系,包含三條公理,對觀察項和幹預項進行轉換。這個體系已被證明是完備的。

結合do-演算的三條公理,我們就可以將包含 do 算子的表達式 P(c | do(s)) 一步一步地轉換成為一個不包含 do 算子的表達式。這樣,我們通過對 S、T 和 C 三個變量的觀察值進行運算,就可以直接計算出 do(s) 時 c 的分布情況。吸菸致癌的問題就可以得到完美的證明與解答了。可問題是,找出這樣一個變換流程是十分困難的,搜索空間巨大,這裡就需要 「do-演算 」 的相關算法進行解決了。

那麼do-演算與通常神經網絡模型或傳統的統計學有什麼區別呢?

圖靈曾經提出了圖靈測試來進行一個二元分類——人類和非人類。但Pearl是提出了一個三元分類:

第一層級的梯子上站著的是機器人和動物,能夠做的就是基於被動觀察來做出預測。Pearl認為,目前為止我們的機器學習進展都還是在這一層級的,無論大家認為它有多麼強大。

第二層級的梯子上站著的是原始人類和嬰兒,它們學會了有意圖地去使用工具,對周遭環境進行幹預。

第三個層級上的底子上站著的是有較高智慧的人類,擁有反思的能力,能夠在大腦中將真實的世界與虛構的世界進行對比。

在這三個層級上,能夠提出和解決的問題是不同的:

在第一個層級上,問題都是基於相關性的,比如:「我的肺部有很多焦油沉積,我未來患肺癌的概率是多少?」

而在第二個層級上,就涉及到了對現實世界的幹預,並預測幹預結果,比如:「我現在已經吸菸三年了,如果我現在戒菸,我還會患肺癌嗎?」

第三個層級上,就是要構建一個虛擬世界,並將虛擬世界與現在進行對比,問題的答案就是對比的結果,比如「如果過去的三年我都沒有吸菸,現在我還會患肺癌嗎?」 Pearl在數學上證明了,這三個層級之間是有著根本的區別的。

因果推理可以在大量的領域得到應用,比如大家都比較關注的複雜系統的漏洞分析,就可以使用 do-演算,減少對實際系統的測試,直接計算出幹預的結果。對於醫學領域、社會領域、金融領域和強人工智慧的開發,都具有決定性的作用,在此我不再贅述。通過手工推導,我們可以解決包含少量變量的因果推理問題,但對於現實中有幾十個或者上百個結點的因果圖,當前業界還需要一個可以自動化進行因果推理的演算應用框架。

參考文獻

[1] J. Pearl, 「The Seven Tools of Causal Inference with Reflections on Machine Learning,」 Communications of ACM, 62(3): 54-60, March 2019

[2] Bareinboim, E., Correa, J. D., Ibeling, D., & Icard, T. (2020). On Pearl’s hierarchy and the foundations of causal inference. ACM Special Volume in Honor of Judea Pearl (provisional title).

[3] BAREINBOIM E, PEARL J. A general algorithm for deciding transportability of experimental results [J]. Journal of causal Inference, 2013, 1(1):107-134.

[4] GALLES D, PEARL J. Testing identifiability of causal effects [C]//UAI』 95: Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995: 185–195.

[5] PEARL J. Causal diagrams for empirical research [J]. Biometrika, 1995, 82(4):669-688.

[6] SHPITSER I, PEARL J. Identification of joint interventional distributions in recursive semimarkovian causal models [C]//Proceedings of the National Conference on Artificial Intelligence: volume 21. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999, 2006a: 1219.

[7] SHPITSER I, PEARL J. What counterfactuals can be tested [C]//UAI』 07: Proceedings of the Twenty-Third Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, USA: AUAI Press, 2007: 352–359.

[8] TIAN J, PEARL J. A general identification condition for causal effects [C]//Eighteenth National Conference on Artificial Intelligence. USA: American Association for Artificial Intelligence, 2002: 567–573.

相關視頻回放

視頻地址:

https://campus.swarma.org/course/1986

關注更多因果科學前沿工作,歡迎參加集智俱樂部與北京智源人工智慧研究院聯合組織的因果科學與Casual AI系列讀書會

複雜科學最新論文

集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自Nature、Science等頂刊的最新論文,追蹤複雜系統、網絡科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每周通過微信服務號「集智斑圖」推送論文信息。掃描下方二維碼即可一鍵訂閱:

原標題:《因果階梯與Do-演算:怎樣完美地證明吸菸致癌?》

閱讀原文 

相關焦點

  • 3種致癌因素比吸菸還可怕
    據日本門戶網站livedoor刊文報導,大家知道吸菸會加速皮膚老化鬆弛嗎?不僅如此,吸菸還是患高血壓和癌症等疾病的一個原因,所以說吸菸是百害而無一利的。但是即使不吸菸的人在日常的生活中或許也有一些和吸菸同效的壞習慣,這些壞習慣說不定對身體的危害比尼古丁更大。
  • 減輕吸菸對身體的傷害的方法
    吸菸危害健康已是眾所周知的事實,菸草中含有許多致癌物,另外還有許多促致癌物,以及能夠降低機體排出異物能力的纖毛毒物質。這些毒物附在香菸煙霧的微小顆粒上,到達肺泡,並在那裡沉積,彼此強化,結果又大大加強了致癌作用。每天吸菸10支以上的人,肺癌死亡率要比不吸菸者高兩倍半。此外,吸菸還能引起喉癌、口腔癌、鼻咽癌、食道癌、胰腺癌、膀胱癌等。
  • 因果推斷簡介之五:因果圖 (Causal Diagram)
    顯然,一個有向無環圖唯一地決定了一個聯合分布;反過來,一個聯合分布不能唯一地決定有向無環圖。反過來的結論不成立,對我們的實踐有很重要的意義,比如 Figure 2 中的兩個有向無環圖,原因和結果不同,圖的結構也不同;但是,我們觀測到的聯合分布P(X1,X2)可以有兩種分解 P(X1)P(X2∣X1)和 P(X2)P(X1∣X2)。
  • 控煙小知識:為什麼吸菸會致癌?
  • 研究發現非吸菸肺腺致癌基因譜
    早在上世紀五十年代,人們就逐漸認識到了肺癌與吸菸的相關性,其中以小細胞肺癌與吸菸的關係最為密切。90%以上的小細胞肺癌患者來源於吸菸人群;而75%左右的鱗癌患者來源於吸菸人群;相比較而言,只有50%的肺腺癌患者是吸菸者。基於肺腺癌在我國的高發,來源於非吸菸人群的肺腺癌患者已經不在少數,而且在非吸菸的肺腺癌患者中女性佔到絕大多數。
  • FDA宣布尼古丁不致癌,吸菸對健康無害?造謠
    較真鑑定:假/謠言要點(趕時間,只看要點就夠了):美國FDA局長在7.28宣布的是,要將可燃香菸的尼古丁降低至非成癮水平,而並非尼古丁不致癌,更不用說吸菸對健康無害了。最近一篇名為《美國FDA正式宣布尼古丁與致癌無關 吸菸有害健康是騙人的?》
  • 吸菸誘發口腔白斑致癌
    王 達  吸菸不僅是導致肺癌的重要因素之一,也是許多心腦血管疾病的重要致病因素。此外,長期吸菸還可對口腔黏膜造成損害,口腔白斑就是一種與吸菸密切相關的口腔疾病。  口腔白斑是由匈牙利皮膚科醫生於1887年首次命名,它是口腔黏膜上的一種不能診斷為任何其他疾病的、明顯的白色病變, 一些口腔白斑可轉化為癌。
  • 因果關係是通向強AI的階梯or作用被誇大?
    張坤解釋道,通俗地講,科學研究中的因果關係與我們生活中所說的因果關係是一回事。比如我們平時所說的天下雨導致地上溼就是一個典型的因果關係的例子。張坤反問道,人類為何自發地習慣於因果的思維方式?我們有時需要有的放矢地改變這個世界,這當然需要因果的認識;更多情形下,因果的思維方式幫助我們把眼前複雜的世界分解成各個相互沒有聯繫的模塊,從而簡單地分而治之;否則,沉醉於萬物皆有聯繫、牽一髮而動全局的想法,就很難主動地去做好的預測或幹預。
  • 肉能致癌?我們還能好好吃肉嗎?
    加工肉致癌,醫學上公開的秘密近日,一則「火腿培根致癌堪比砒霜」的報導引爆輿論,有網友表示吃肉都能致癌,看到該新聞整個人都不好了。吃肉為什麼會致癌?雖然目前對其作用機制尚未完全明確,但是有幾個可能的理論假說:1.紅肉中富含血紅素,高鐵攝入可能引起氧化損傷,通過促進生產羥基自由基誘導腫瘤發生。2.肉類中含氮殘餘物在結腸細菌作用下發生N-亞硝化反應,增加氨和N-亞硝基化合物(NOC)的形成。氨是致癌啟動子,NOC已被證明在人結腸細胞誘導DNA加合物的形成。
  • Nature:吸菸導致基因突變致癌
    吸菸有害健康是不爭事實,然而,香菸如何對人體造成傷害?英國研究人員發現,香菸中的致癌物直接導致脫氧核糖核酸(DNA)突變,估計菸民平均每吸15支煙,DNA就發生一次突變。研究結果刊載於最新一期英國《自然》雜誌網絡版。
  • 刑法因果關係的司法證明
    如,超越規範保護目的認定法益,錯誤地將「不幸」理解為「不法」進而導致不當歸因;將必然原因視為判定因果關係的唯一標準,不當排除了導致危害結果發生的非必然原因;只承認「直接因果關係」,將間接因果關係中的「誘因」等排除在因果關係之外;錯誤理解了刑法因果關係中斷理論,將原因競合視為導致因果關係中斷的介入因素;未正確理解「合法替代」理論或「因果偏離」理論而錯誤歸因,等等。
  • 超80%的醫生誤解尼古丁,尼古丁致癌謠言亟需澄清
    今年3月,義大利知名科學家Riccardo Polosa表示,研究證明慢性阻塞性肺病患者改用電子菸後,呼吸系統得到有效改善。這至少可以證明,尼古丁並非兩種疾病的罪魁禍首。令人驚訝的是,即便早有科學證據證明尼古丁不致癌,被調查的醫生中仍有80%相信尼古丁致癌。文中指出,儘管菸草危害的主要來源是燃燒產生的致癌物,仍有80%的醫生誤認尼古丁致癌。可能有人會因此質疑「尼古丁不致癌」的權威性。
  • 吸菸不光吸入致癌物質,還加劇了體內重金屬的積累
    吸菸會導致體內腫瘤疾病的發生,不僅僅是由於煙中含有致癌物質,還因為吸菸加劇了體內鎘等重金屬的積累,這些重金屬會破壞和影響細胞內受損DNA的修正與恢復。一般情況下,鉛在體內積存得最多,其次是錳,最少的是鎘;男性體內積存的鉛要比女性體內多,女性體內積存的錳要比男性體內多。
  • 吸菸不僅致癌!有報導稱:吸菸還會增加視神經病變,甚至導致失明
    你以為吸菸和癌症間沒有關聯嗎?科學證實香菸中含有多重致癌物,而長年吸菸的人患上癌症的機率也會直線上升。 這不僅包括了呼吸道的癌變,其他器官也有癌變的可能性,所以說吸菸就是在將自己推給魔鬼!
  • 吸菸對人體危害有多大,看看這69種致癌物質就知道了
    在菸草煙霧超過7,000種化學物質中,已知至少有250種是有害物質,其中,至少有69種會致癌。這些致癌化學物質主要包括: 乙醛 芳香胺類 砷 苯 鈹(一種有毒金屬) 1,3–丁二烯(一種有害氣體) 鎘(一種有毒金屬)
  • DNF:希洛克團本臨近,裝備三大階梯玩家誕生,第一階梯才算完美
    畢竟有的神話位居T0級別,能爆出來的概率太低,導致階梯存在差距,只有第一階梯的,才能算得上完美。 希洛克團本臨近,裝備三大階梯玩家誕生,第一階梯才算完美 第一階梯玩家:T0神話畢業,搭配已經完美
  • 尼古丁到底是不是致癌物質?
    主要危害是讓人吸菸上癮    近百年來一直與「死亡」、「癌症」等緊密聯繫的尼古丁最近得到了不少新的關注,有不少專家為它正名。認為香菸中的尼古丁並沒有太多的危害,真正的致癌兇手是焦油和一氧化碳。    無獨有偶,美國的媒體也有不少的報導稱:尼古丁的確對人體有害,但是它與菸草能不能致癌沒有任何關係,它的主要危害在於可以使人對菸草上癮。當人吸菸時,菸草中所含的4000多種其它化學成分會侵入人體內,而這其中許多化學成分是可能致癌的。而這些致癌物質中危害最大的就是我們平時不太關注的焦油和一氧化碳,而不是大家普遍認為的尼古丁。
  • Nat Medicine:研究解析吸菸與腹主動脈瘤之間因果聯繫
    國際著名雜誌Nature Medicine在線刊登了來自美國俄克拉荷馬大學健康科學中心和山東大學的研究人員的最新研究成果「Activation of AMP-activated protein kinase α2 by nicotine instigates formation of abdominal aortic aneurysms in mice in vivo,」文章中,解析了吸菸與腹主動脈瘤
  • TED - 吸菸是如何危害身體的 How do cigarettes affect the body
    But how exactly do cigarettes harm us?但是香菸到底是怎麼傷害我們的?這就是吸菸可導致缺氧和呼吸急促的原因之一。在大概十秒的範圍內,血液攜帶一種叫做尼古丁的興奮劑進入大腦,多巴胺和其他神經遞質釋放的觸發,包括內啡肽,會通過製造愉快的感覺,使吸菸上癮。
  • 23個常見「致癌因素」已公布,吸菸喝酒在列,希望你都能避開
    想要防癌,首先我們得知道癌症是怎麼產生的,下面就讓小編帶大家一起來了解一下國際著名醫學雜誌《柳葉刀》上公布了23個常見的致癌因素。其中有5個部分極為重要。下面分別給大家介紹一下,每個部分的內容包括哪些?以及如何預防和降低患癌率。