因果發現:如何讓算法成為複雜系統中的「福爾摩斯」?

2020-09-22 集智俱樂部


導語

偵探小說中,神探們能從一堆看似雜亂無章的事件或物證中,抽絲剝繭地發現真相,即案件背後有序的因果鏈條,在凱風研讀營中黃碧薇博士的關於因果發現的分享中,講述了如何用算法,做複雜系統中的「福爾摩斯」。

黃碧薇是美國CMU在讀博士,其所在研究組開發的因果關係自動發現智能平臺Tetrad獲2020世界人工智慧大會SAIL獎,相關網址:http://www.phil.cmu.edu/tetrad/about.html

自9月20日(周日)開始,集智俱樂部聯合北京智源人工智慧研究院還將舉行一系列有關因果推理的讀書會,歡迎更多的有興趣的同學和相關研究者參加,一起迎接因果科學的新時代。該文的作者黃碧薇也會在讀書會期間再詳細具體深入的介紹因果發現這個主題,系列讀書會詳情與參與方式見文末。

1. 何謂因果發現

因果推斷中,通常假設因果圖是已知的,即我們知道變量之間可能存在怎樣的因果關係,只是需要通過自然實驗或觀察數據,來判斷因果關係是否成立。

例如某人聲稱窮人吸菸多,而窮人患肺癌的比例更高,而這意味著「吸菸多的人患肺癌多」不能支持「吸菸引起肺癌」,這就是一個已知的因果鏈條。然而真實世界中,類似的因果鏈條,往往並不是先驗知識。

尋找因果關係,傳統的方法是通過隨機對照實驗。但是這種實驗方式在實際問題中可能涉及到一些倫理問題,並且通常需要花費大量的人力和物力。因此我們希望尋找一個更切實可行的方法:這就是我們接下來要談的因果發現,即從觀測數據中發現因果關係。相對來說,觀測數據是更容易獲取的,特別是在大數據時代。

因果發現不同於找到數據間的依賴關係,如果通過觀察,發現變量A的值不同時,變量B的分布也不同,那麼這兩個變量之間就存在依賴關係(相關性)。但只有在變量A能「主動」不同的選擇後,變量B的分布發生改變,才能說變量A和B之間存在因果關係。

在因果發現中,很多時候不能簡單地根據事件的發生順序,確定因果關係。例如氣壓計的水銀柱下降和下雨概率增加相關,並且水銀柱的下降要早於下雨,但是事實是兩者之間並不存在因果關係,他們之間的相關性是由於大氣壓降低同時造成了水銀柱的下降和下雨。而且很多數據可能不包含時序信息,比如獨立同分布的靜態數據。



因果發現的應用案例示意圖

上圖列出了因果發現的三個應用場景,分別是:(1)基於大腦影像時序數據,找出不同腦區之間的因果圖;(2)基於細胞內的蛋白質濃度變化,推測基因調控網絡;(3)根據金融市場的交易數據,推測不同行業的股票價格之間存在的因果關係。

上述三個例子都來自複雜系統,由於涉及的變量很多,如果通過傳統的隨機對照實驗進行驗證,所需做的實驗數量是超指數增長的,在現實中是不可接受的。

2. 因果發現算法及其假設

下面簡要介紹基於條件約束 (constraint-based) 的因果發現算法和基於功能因果模型 (functional causal model-based) 的因果發現算法。

通過馬爾可夫條件和faithfulness假說,可以在因果圖結構和統計獨立性之間建立一個對應關係。特別是在無環圖的情況下,這種映射是一對一的。因此我們可以通過判定觀測變量之間的條件獨立性來學習因果結構。

馬爾科夫條件和faithfulness假設示意圖

馬爾可夫條件說的是任何變量,給定其父節點,都和它的非後代 (non-descendants) 統計獨立。上圖中給定X, Z和Y是統計獨立的。馬爾科夫條件提供了如下蘊含關係:結構圖中表示的獨立性->概率獨立性, 或者等價地:概率依賴性->結構圖中表示的依賴關係。值得一提的是,馬爾科夫條件在一般情況下都是滿足的,但在量子物理中需要更進一步的研究。

Faithfulness 假說需要排除的因果圖

為了在因果圖結構和概率獨立性之間建立一個對應關係,我們不僅需要馬爾科夫條件,還需要faithfulness假說。它說的是:所有觀測到的概率條件獨立性都包含在馬爾科夫條件中。也就是它提供了如下的蘊含關係:概率獨立性->結構圖中表示的獨立性, 或者等價地:結構圖中表示的依賴關係->概率依賴性。

上圖中,如果a=-bc,健康狀況和死亡風險之間是統計獨立的,因此因果關係變得無法檢出。為了避免該狀況,需要Faithfulness 假說,排除上述的可能性。

基於條件約束的因果發現算法示意圖

例如上圖中,如果能夠從數據中得到,在給定X時,變量Y和Z之間相互獨立,並且其他獨立性都不滿足,可以據此推出在圖中右下角的三種可能的因果圖。在滿足上述的兩條假設時,可使用PC[1]算法來找到因果圖。

注意使用約束的因果發現算法只能找到馬爾可夫等價類,即所有邊都是能唯一確定的,但某些方向不能唯一確定。特別是在只有兩個變量時,這兩個變量的因果方向不能以此來確定。確定任意兩個變量之間的因果方向可以進一步通過下面介紹的基於功能因果模型的因果發現實現

除了上述基於條件約束因果發現算法,另一類因果發現算法是基於功能因果模型的。在該模型中,結果Y可以表示為原因X和噪聲項E的函數:Y=f(X, E),其中X和E獨立。

通過合理地限制因果機制f的函數空間,我們可以發現非對稱獨立性,從而可以判定因果方向。即如果在正確的因果方向,通過用結果Y對原因X做回歸,得到的噪聲項是和X獨立的。但如果反過來用X對Y做回歸,得到的噪聲項和Y是不獨立的。

目前的研究表明當f滿足以下三種條件的一種時,噪聲和假設原因之間的非對稱獨立性滿足:(1)線性非高斯模型,即Y = a*X+E;第一個能發現完整的因果圖的LiNGAM模型即是基於此。(2)非線性加噪聲模型:Y=f(X)+E。以及更通用的(3)後非線性模型 (post-nonlinear model) : Y = g(f(X)+E)。

現實世界中,因果圖並不是一成不變的。上述方法僅適用於尋找靜止的因果圖,對於變化的因果圖,可以通過因果機制獨立變化的非對稱性, 來判定因果關係的方向性[5],這是因為在大多數情況下,當因果圖改變時,原因的分布和給定原因下結果變量的分布變化獨立性,在錯誤的方向往往是不成立的,即P(cause)的變化和P(effect|cause)的變化是獨立的,但P(effect)的變化和P(cause|effect)的變化是不獨立的。

3. 因果發現有什麼用

因果理解帶來的好處已經在一些機器學習的任務中有所體現,比如遷移學習[2, 3]、非穩態數據的預測[4]、分類、聚類、強化學習等等。

遷移學習指的是要已學到數據特徵的模型能夠在新的場景下儘可能地被復用,通過相對較少的訓練得到較好的表現。如果知道了因果模型, 就可以幫助更好地做遷移學習。我們可以更有理有據地做適應性預測,知道哪些部分發生了變化,遵從什麼樣的規則在變,而不是像黑盒一樣盲目地做。並且用更少的數據和計算時間,即降低了樣本複雜度和模型複雜度,有針對性的重新訓練模型中因果關係改變的部分。

因果發現還可以簡化模型,去除模型中和因果鏈條無關的參數,這樣不僅不會影響模型的效果,還能夠讓模型更加具有解釋性。另一個提升模型可解釋的方法是識別出不同任務間改變的因果鏈條有哪些,從而讓新模型能夠更容易地遷移到新的任務。

經由因果發現,還能夠更準確地在時間序列的非穩態數據上進行預測[4],下圖是基於真實的美國1965-2017年間季度GDP、失業率、通脹率和經濟增長率之間的時序數據,經由因果發現得出的即時的因果關係圖。

基於真實數據發現的因果關係圖

研究發現使用了因果發現的模型(比如說基於上圖的因果關係),在基於過去數據對未來情況進行預測時,相比傳統模型誤差更小。這說明了因果發現能夠用於提升模型對複雜系統的刻畫精度。

4. 總結

數據分析界流傳著」啤酒和尿布「的故事,說的是通過分析,發現超市中啤酒和尿布的銷售量存在相關性,然而要得到這是由於買尿布的年輕爸爸會順便買啤酒犒勞自己這一因果聯繫,就需要額外的信息。而唯有找到了因果聯繫,才能確認幹預手段,即將這兩個商品放在一起是有用的。

因果發現讓數據分析能夠在不引入先驗知識的情況下,自動化地在觀測數據中找到因果聯繫,相比傳統因果推斷,不需要領域知識去構建待檢驗的因圖圖,對機器學習和數據分析也都會有所助益。

學習因果發現的算法及模型,首要的是弄清楚模型的假設,模型的假設決定了其適用領域。因果發現的方法雖然很多,但通常依賴的是三種獨立性,據此可以將其分為三類。

這三種獨立性分別是:(1)條件獨立,即在給定變量X後,變量Y和Z之間相互獨立,據此可以剔除因果圖中的連接;(2)噪音獨立,即原因和噪音無關,因此會出現不對稱性,據此確定因果鏈條的方向;(3)因果機制的變化獨立性,即原因和給定原因的結果各自對應的分布是獨立變化的,由此來在因果關係改變時,進一步確定因果方向,以及更好地進行Domain Adaptation。

參考文獻:

[1] Spirtes et al., Causation, Prediction, and Search. Spring-Verlag Lectures in Statistics, 1993.

[2] Zhang, et al., Domain adaptation under target and conditional shift, ICML, 2013.

[3] Zhang, et al., Domain adaptation as a problem of inference on graphical models, arxiv 2019.

[4] Huang, et al., Causal Discovery and Forecasting in Nonstationary Environments with State-Space Models, ICML, 2019.

[5] Huang, Zhang et al.. Causal Discovery from Heterogeneous/Nonstationary Data. JMLR, 21(89), 2020.

作者:郭瑞東

審校:黃碧薇

編輯:鄧一雪

相關焦點

  • 張江:從圖網絡到因果推斷,複雜系統自動建模五部曲
    導語 隨著深度學習崛起和圖結構數據井噴,從複雜系統角度揭開人工智慧黑箱、利用人工智慧輔助複雜系統建模都成為可能。「如何對複雜系統進行自動建模」,這是一個迫切的需求。 自動建模發展5個階段 隨著大數據的積累和人工智慧,特別是深度學習技術的發展,使得我們可以通過數據驅動的方式,利用深度學習算法來自動構建複雜系統的模型。其基本流程如圖所示:
  • 複雜系統自動建模綜述:描述、預測與理論發現
    ,但無論是對複雜系統的刻畫描述,還是對複雜系統進行有效的預測,以及科學理論發現,都是一項巨大的挑戰。本文總結了張江老師在集智-凱風讀書會上的《複雜系統自動建模》專題,介紹了如何更好地利用AI來對複雜系統更好的進行描述、預測乃至於理論發現,最後,本文還對通過AI對複雜系統進行自動建模中的一些可能的問題進行了簡單的描述和討論。
  • 因果觀念新革命?萬字長文,解讀複雜系統背後的暗因果
    在對生態學、神經科學、金融市場等各種真實系統的廣泛測試之後,他們證明這種方法在重構複雜系統隱藏結構之間因果關係的能力上具有相當大的準確度,勝過幾乎大多數流行的因果推斷方法。進入 20 世紀,就連在物理學中人們也發現了更多不確定性現象。量子力學對微觀世界的描述,讓很多人確信,世界在根基上就是不確定性的。混沌理論革命則讓人們意識到,對複雜系統即使存在確定的關係,也會因為初始敏感導致計算不可約性。在這些科學發展的背景下,不確定性完全佔據了上風,大多數人認為可能只存在相關性,在科學實踐和決策上也廣泛採取統計學方法。
  • 華為諾亞ICLR 2020滿分論文:基於強化學習的因果發現算法
    因果研究中一個經典的問題是「因果發現」問題——從被動可觀測的數據中發現潛在的因果圖結構。在此論文中,華為諾亞方舟實驗室因果研究團隊將強化學習應用到打分法的因果發現算法中,通過基於自注意力機制的 encoder-decoder 神經網絡模型探索數據之間的關係,結合因果結構的條件,並使用策略梯度的強化學習算法對神經網絡參數進行訓練,最終得到因果圖結構。
  • 因果律是如何不再成為科學界真理的?量子和混沌理論告訴你
    然而,上個世紀以來,量子物理學的發現,讓因果律不再嚴格遵從,在全世界引起劇烈反響。接下來我將聊聊,科學的新發現是如何讓因果律不再成為真理的。因果律表明一個事件(原因)和另一個事件(結果)之間存在一個必然聯繫。原因是結果的前驅,結果是原因的後繼,原因決定了結果。自然系統的當前狀態,很明顯是它在前一瞬間的狀態的結果。
  • 如何分析判斷系統是否為穩定系統、因果系統、線性系統?
    打開APP 如何分析判斷系統是否為穩定系統、因果系統、線性系統? 易水寒 發表於 2018-07-19 17:26:18   如何判斷一個系統是否為線性系統,時不變系統以及穩定系統?
  • 讀者因不滿「福爾摩斯」之死,集體示威遊行,要求作者使其復活
    1891年,柯南道爾在給母親的一封信中寫道:我打算把福爾摩斯殺掉,因為他佔用了我太多的時間。在福爾摩斯風靡英格蘭的時候,人們近乎把他當作一個真實的人物,他的名氣讓許多現實中的偵探望塵莫及。至今小說中所謂福爾摩斯居所,倫敦貝克街221號仍然會收到許多從全世界飛來的「福爾摩斯先生親收」的信件,其中不乏有詢問案件破解方法、報告福爾摩斯其最大的死對頭莫裡亞蒂教授行蹤等等看似荒誕的內容。
  • 貝葉斯牧師和福爾摩斯先生
    福爾摩斯通過一系列的演繹推理將複雜的案子一個個成功破案,助手也是經常被他弄得一頭霧水。在大量的案例裡,福爾摩斯擅長的本領是歸納,能從許多證據推出假設。「你排除了所有的不可能,剩下的證據無論多麼不可思議,都一定是真相。」 這是福爾摩斯的名言。
  • 親愛的福爾摩斯先生
    貝克街221B號是小說中福爾摩斯的偵探事務所,現在這裡已成為倫敦的一個旅遊景點——福爾摩斯偵探博物館。該館按照《福爾摩斯探案全集》描寫的樣子,完整地呈現了福爾摩斯當年的日常起居:茶几上擱著櫻桃木菸斗和方格花呢獵鹿帽,書房的角落放著一把只剩兩根琴弦的小提琴,放大鏡和化學實驗藥品一如往常地忘了收拾的樣子,給酸素染出許多黑斑的書桌上還有幾本卷宗,仿佛福爾摩斯先生真的一會兒就會回來。
  • 因果關係的複雜,不是簡單的一因一果
    但是從科學與哲學的角度看,為什麼即使在實證研究中,科學方法仍然有其限制。科學家最常見的是追求用簡單的因果關係來解釋現象發生的原因。為什麼會有火?因為氧化反應釋放化學能。為什麼人們要交易?因為對雙方都有利。為什麼會下雨?因為空氣中有太多水氣。但是這些看似簡單的答案再追問下去,會發現它們都是由更多、更複雜的因素造成的。
  • 響應號召,集智俱樂部學術年會線上舉辦,一起因果糾纏!
    如何開發對數據變化具有穩定性和魯棒性的學習模型,對於學術研究和實際應用都是至關重要的。因果推斷是一種強有力的統計建模工具,用於解釋和穩定學習。在這次分享中,崔鵬老師著重於因果推理和穩定學習,旨在從觀察數據中探索因果知識,以提高機器學習算法的解釋性和穩定性。
  • 集智俱樂部學術年會:5場主題報告+3場分論壇,一起因果糾纏!
    如何開發對數據變化具有穩定性和魯棒性的學習模型,對於學術研究和實際應用都是至關重要的。因果推斷是一種強有力的統計建模工具,用於解釋和穩定學習。在這次分享中,崔鵬老師著重於因果推理和穩定學習,旨在從觀察數據中探索因果知識,以提高機器學習算法的解釋性和穩定性。
  • 福爾摩斯探案集
    在一次朋友的偶然介紹中,他認識了後來大名鼎鼎的偵探夏洛克.福爾摩斯。這個人的性格很奇怪。常常能知道某個人剛剛去過的地方。去幹了什麼事兒?現在是什麼心情?無論那個人掩飾的多麼好,他也會發現。而且他還在化學,解剖學,醫學方面有極大地的研究。就在華生知道了這個朋友後的幾十年內,福爾摩斯的的每一個案子他都前往現場觀察。並且將其記錄下來。形成了這本回憶錄。有好幾次,福爾摩斯都面臨危險。
  • 幾種常見的車輛路徑規划算法
    主流決策算法的利弊相隨 從上部分的內容我們不難發現,決策算法面臨的最大挑戰,就是如何達到自動駕駛所需要的極高的安全性和可靠性。自動駕駛決策的結果會輸出到控制器,根據 ISO26262 已有的功能安全的規定,這會反過來要求決策系統也需要達到 ASIL-D 的標準。
  • Yann LeCun說是時候放棄概率論了,因果關係才是理解世界的基石
    相關的論文連結(http://csc.ucdavis.edu/~cmg/papers/mdbsi.pdf),這篇論文中的一個圖解讓「貝葉斯們」開始去質疑他們在18世紀的信仰:圖:圖中描述了將多個貝葉斯網絡推理算法應用於二元分布和三元分布的結果。該算法認為變量X,Y和Z之間不存在相關關係,所以形成了三個獨立的節點。
  • 讀書筆記|動態複雜系統的八個特性
    如上所述,連接是系統的基本構成要素之一,也是系統思考中最重要的概念之一。系統的這一特性在有些複雜系統中就表現為「自組織」(self-organization)或「湧現」(emergence)。比如一群鳥,規模比較小的鳥群通常會排成V字形隊列,頭鳥飛在V字的頂點,其他鳥兒有規則地排在後面,像一個聽診器。
  • 看因果深度學習如何教AI人工智慧去問為什麼
    他表示,企業家意識到將業務流程交給人工智慧算法可能就像讓他們兩歲的孩子駕駛自己的汽車一樣冒險。問題在於分析和AI主要用於查找數據集中的相關性。由於關聯僅暗示因果關係,因此這些關聯無法幫助您理解發生某事的原因-如果無法做到,則只能告訴您接下來會發生什麼的可能性。
  • 政治科學視角下的大數據方法與因果推論
    作為新興研究方法,大數據方法傳統上被認為是數據驅動的知識發現過程⑨。大數據方法是用一系列算法從海量非結構化數據中發現反映社會現象的特定模式、特定關係或特定趨勢,其目標是運用機器學習把非結構化的、高維的、海量的數據,轉化為結構化的、可被理解的社會知識,因此被視為探索性(相關性)分析而非因果性分析方法。
  • 跨媒體因果推斷
    本論壇將從跨媒體智能的抽象歸納、演繹推理及因果推斷等方面,討論跨媒體大數據表徵與推理、分析因果計算的前沿理論和方法、探索跨媒體因果推斷的未來發展趨勢,並暢想未來的創新應用方向。演講題目:網絡多媒體大數據表徵與推理摘要:網絡多媒體大數據異構性強、維度高、關聯複雜,給其表徵與推理帶來巨大挑戰。
  • 相關不等於因果,深度學習讓AI問出「十萬個為什麼」
    「但現實世界中,很多問題是無法僅通過曲線擬合度解決的,」莫漢蒂說。如果幾個因素都可以預測產品偏好,那企業應該選擇哪些因素以及如何確定其重要性順序呢?簡單地將不同變量按強度排列與獨立選擇一些因素並單獨評估其對預測結果的貢獻程度的結果是不同的。  「我們可以觀察相關性,但並不能證明甚至解釋因果關係,」莫漢蒂說。因果關係回答的是「我應該採取什麼行動才能實現改變?」