2020年 第10卷 第5期 機器學習及其應用專題
因果關係一直是人類認識世界的基本方式和現代科學的基石。愛因斯坦就曾指出,西方科學的發展是以希臘哲學家發明形式邏輯體系,以及通過系統的實驗發現有可能找出因果關係這兩個偉大的成就為基礎。從與相關關係對比的角度來看, 因果關係嚴格區分了「原因」變量和「結果」 變量,在揭示事物發生機制和指導幹預行為等方 面有相關關係不能替代的重要作用。以圖1為例,吸菸、黃牙都與肺癌具有較強的相關關係,然而只有吸菸才是肺癌的原因,也只有戒菸才能降低肺癌的發病概率,而把牙齒洗白則不能降低肺癌的發病概率。探索和推斷事物間的因果關係,是數據科學中的一個核心問題,正受到國內外同行的廣泛關注。現有因果關係的研究集中在因果推斷及因果性學習兩個方面。
因果推斷的目標是發現變量/事物背後的因果關係。隨機控制實驗是發現因果關係的傳統方法。由於實驗技術局限和實驗耗費代價巨大等原因,越來越多的因果推斷領域學者希望通過觀察數據推斷變量之間的因果關係,已成為當前因果推斷領域的研究熱點。在基於觀察數據的因果推斷領域研究方面的代表性進展包括在上個世紀90年代,圖靈獎得主Pearl Judea教授、卡內基梅隆大學Clark Glymour教授等先驅共同建立了基於觀察數據因果推斷的理論基礎和基於約束的方法,以及近10年Bernhard Schölkopf、Kun Zhang、Shohei Shimizu等學者為代表提出的基於因果函數模型的方法。 因果性學習則體現了因果推斷對於機器學習算法設計的指導作用。隨著人工智慧的發展,越來越多學者開始認識到因果推斷對於克服現有人工智慧方法/技術在抽象、推理和可解釋性等方面的不足具有重要意義。正如圖靈獎得獎者Pearl Judea在新作《The Book of Why》一書中提出的 「因果關係之梯」,他把因果推斷分成三個層面,第一層是「關聯」;第二層是「幹預」;第三層是「反事實推理」。他特別指出,我們當前的機 器學習領域的研究只處於第一層,只是「弱人工智慧」,要實現「強人工智慧」還需要幹預和反事實推理。在Kun Zhang等學者發表的《Learning causality and causality-related learning: some recent progress》綜述中,對基於因果思想的機器學習方法進行了總結,提出了因果性學習這一概念。 因果推斷、因果性學習及一些相關概念的關係如圖2所示。因果推斷理論和方法為因果性學習提供了重要的理論基礎和思想的來源。下面分別對基於觀察數據的因果推斷方法和因果性學習方法這兩個方面的研究進展進行重點探討。近30年來,因果推斷的研究一直備受學者們關注。針對觀察數據特性的不同,基於觀察數據的因果推斷方法可以分為基於時序觀察數據的因果推斷方法和基於非時序觀察數據的因果推斷方法。雖然時序觀察數據中時間維度蘊含了「因-果」方向的重要信息——「果」在時間上不能發生在「因」的前面,但是時序數據需要獲取一個對象在不同時刻的觀察值,對觀察手段具有較高的要求。同時,部分基於非時序觀察數據的因果推斷方法可以拓展到時序觀察數據中,所以本文主要探討基於非時序觀察數據的因果推斷方法。基於約束的方法主要以美國卡內基梅隆大學Glymour教授和Spirtes教授的PC(Peter-Clark)算法,以及加利福尼亞州大學洛杉磯分校Pearl教授和Verma教授的IC(Inductive Causation)算法為代表。這兩個算法的基本流程主要有兩個階段,首先利用基於獨立性或條件獨立性檢驗的相關方法判斷變量之間的獨立性,獲得變量間的因果無向圖;然後再利用V-結構和定向規則對變量間的無向邊進行定向。這兩個算法主要解決因果關係方向推斷難題。後續有不少學者在此算法上 進行了一些拓展和改進。為了降低高維數據上的誤發現率,北京大學耿直教授等提出了一種搜索局部結構的分解方法,通過遞歸方法將圖一分為二,學習局部結構,並逐步自底向上整合成全局結構。Tsamardinos等則結合基於約束的方法和貪婪等價類搜索方法,提 出了最大-最小爬山法(MMHC)。這種方法先通過局部結構學習算法——最大-最小父親孩子(MMPC)算法學習因果無向圖,然後用貪婪貝葉斯評分爬山搜索方法對無向圖進行定向。另一類學者們關注的問題是不完全觀察數據情況下存在隱變量,不完全觀察數據導致的虛假因果關係問題。例如,圖1的例子中,如果 只有黃牙和肺癌的相關數據,利用因果推斷方法,我們往往會發現二者之間存在因果關係。但是實際上這種關係是虛假的,未觀察到的吸菸才是兩者的共同原因,黃牙和肺癌之間在吸菸條件下是互相獨立的。在現實場景中經常出現這種情況,這時對隱變量的檢測就至關重要。針對隱變量問題,Spirtes教授等提出了FCI(Fast Causal Inference)算法,後續學者們對其進行了拓展,如Colombo等的RFCI(Really Fast Causal Inference)算法。考慮到小樣本的情況,Ogarrio 等提出了GFCI(Greedy Fast Causal Inference)算法。鑑於線性圖模型蘊含著多種協方差矩陣子矩陣的排序約束,Kummerfeld等利用這些排序約束,再加上條件獨立性檢驗,提出了一種FTFC (Find Two Factor Clusters)算法,用於識別隱變量模型。基於因果函數模型的方法則是從數據產生的因果機制出發,探索利用因果函數模型來識別因果方向。此類方法主要以線性非高斯無環模型 (LiNGAM)、加性噪聲模型(ANM),後非線性模型(PNL)和信息幾何方法(IGCI)這幾類模型為代表。線性無環模型是一種較為經典的模型,主要用於分析連續變量之間的因果方向與因果連接權重。利用數據的非高斯性,Shimizu等於2006年首先提出了LiNGAM,並用獨立成分分析(ICA)求解,所以又稱為ICA-LiNGAM算法。但該模型具有局部收斂的缺陷,使得求解結果往往是局部最優解,而不是全局最優解。2011年,Shimizu 等緊接地提出了DirectLiNGAM(A Direct Method for a Linear Non-Gaussian SEM)框架,通過不斷地識別外生變量進而估計因果次序。與線性模型相比,非線性加噪模型不具有傳遞性,即每個直接因果關係遵循該模型,但卻省略了中間因果變量。因此我們提出了一種級聯非線性加性噪聲模型(Cascade Nonlinear Additive Noise Models)來表示這種因果關係,並進一步提出了一種在變分自動編碼器框架下從數據中估計模型的方法。實驗結果表明,所提出的模型和方法極大地擴展了基於因果函數模型的方法在非線性情形中的適用性。上述方法主要適用於連續型數據。目前將連續空間上的因果方法推廣到離散空間上,仍然是一個具有挑戰的問題。Peters等嘗試將加性噪聲模型推廣到離散的數據上,然而對於類別型變量來說,基於加性噪聲模型的假設很難被滿足。我們試圖找到一種更為一般的,可適用於更多數據上的因果機制。如圖3所示,通過假設了一種兩階段過程的因果機制,我們建立了HCR(Hidden Compact Representation)模型。在第一階段中,原因變量通過一個恆等映射得到一個低秩的隱變量;在第二階段中,結果由隱變量的狀態決定,並在隨機噪聲幹擾下產生。基於似然度框架,引 入貝葉斯準則,給出了一種識別該模型的方法。另一類值得人們關注的問題是現有方法不適用於數據含有測量誤差的情況。在現實生活中,由於觀測手段的有限性,我們所獲取的數據也不可避免地含有測量誤差。Scheines和Ramsey探索了測量誤差的存在對基於線性因果函數模型的方法影響,Zhang等隨後提出並證明了含有測量誤差的線 性因果模型的可識別條件。研究指出,當數據越趨向高斯分布,對應的因果推斷也會越困難;當不具備對測量誤差的先驗知識時,因果推斷也是不可能的。我們從外生變量的性質中得到啟發,提出一種基於熵的ETPIA算法。第一階段,利用外生變量具有熵最小的性質將識別外生變量。第二階段,剔除外生變量對其餘變量的影響。在剔除階段針對不含有測量誤差的情況, 直接使用回歸係數去除外 生變量對其餘變量的影響;而在含有測量誤差的情況下,利用依賴比實現外生變量效應的剔除。第三階段,則需要在得到外生變量的順序(因果次序)的基礎上使用剪枝算法獲得最終的因果網絡。上述內容都是考慮從觀察數據中發現因果關係,並不適用於含有隱變量的情況。特別地,在隱變量的研究中,如何學習隱變量之間的因果關係,是當今研究的熱點問題和挑戰。在LiNGAM模型的基礎上,通過引入隱變量,Tashiro和 Shimizu等提出了ParceLiNGAM算法,主要通過檢驗估計回歸殘差與外生變量的獨立性和找到包含未被隱變量所影響的變量子集來發現隱變 量;Hoyer等結合LiNGAM模型,提出適用於 線性非高斯條件下的lvLiNGAM(latent variable LiNGAM)框架。但是這些研究大多數關注於在含有隱變量的情況下發現可觀察變量的因果結構,而不在於發現隱變量的因果結構。如旨在發現隱變量結構的工作(如Tetrad),往往需要更多的可觀察變量,且它們輸出的是一個等價 類。為了在觀察變量數量不多的情況下識別隱變量結構,通過引入非高斯性假設,我們提出了一種基於Triad約束條件的隱變量因果結構學習算法 LSTC(Learn the Structure of latent variables based on Triad Constraints)。在其他類型數據上,Zhang等擴展了GPLVM(Gaussian-Process Latent Variable Model),提出了IGPLVM(Invariant Gaussian Process Latent Variable Models)算法來處理隱變量對觀察變量的因果作用是非線性的,而觀察變量間的因果作用是線性的情況。混合型方法是融合了基於約束的方法和因果函數模型的方法而發展出來的另一類方法。這類方法有效地提高因果函數模型的不足,同時克服了高維數據上誤發現率控制難題。現有的混合型方法主要依賴分治策略、組裝策略與融合策略這三類策略方法。利用分治策略,我們嘗試將因果推斷問題分解為子問題並利用遞歸方法求解,提出了SADA(Scalable cAusation Discovery Algorithm)框架,主要適用於因果結構中的稀疏屬性的觀察分析,在樣本集較少的情況下也能正確地識別因果變量。其主要思想是,首先通過求解因果分割集將高維問題分解成2個子問題;然後針對每個子問題進行遞歸分解直到其問題規模足夠小;針對每個足夠小的子問題,採用ANM等基於因果函數模型的方法進行求解,最後對小問題進行合併。我們在研究中發現,分治策略在分解問題時引入錯誤的劃分,在後續過程中會不斷累積使得總體誤差呈現某種不可控的現象。而組裝策略可以針對隨機小變量集合,通過某種複雜的聚合過程排除由於分割引入的結構錯誤,獲得可靠因果機制。所以我們設計了SMRP(Sophisticated Merging over Random Partitions)算法來合併所有劃分的結果,運用基於傳播的顯著性增強方法和最大無環子圖的因果次序方法等對局部結果進行合併。該框架能通過可靠的因果機制,有效地合併隨機分塊的部分結果。上述兩類策略及方法主要基於分治的思想,還有另一類考慮融合不同方法的策略。考慮到基於評分的方法得到的結果存在馬爾可夫等價類問題,而基於因果函數模型的方法有助於消除馬爾可夫等價類,故嘗試將兩者進行融合,提出了SELF(Structural Equational Likelihood Framework)框架。其核心思想是將因果函數的噪聲獨立性假設嵌入似然度計算中,通過似然度框架實現兩類方法的統一。混合型方法一定程度實現了基於約束的方法的高維擴展性和基於因果函數模型的方法的因果發現能力的結合,為我們在高維數據場景中的應用提供了重要基礎。例如在與中國南方電網合作中,通過運用混合型方法建立了電網信息子系統的故障發生模型,並基於故障因果溯源,實現了根因故障的快速定位。在該應用案例中,故障定位中的平均準確率由原來的55.56%提高到 91.67%,大大減少了故障排查範圍,提升了系統運行的可靠性。我們還與南方通訊建設、華為等單位合作,在移動通訊網絡基站性能優化上進行了應用,通過重構基站性能指標之間的因果網絡,成功給出了數據連接性能和通話質量優化等重要典型投訴的優化方案,相關方案在實際應用效果中超過了傳統領域專家基於經驗給出的優化方案。這些成功應用案例體現了因果推斷在決策支持領域的重要價值,是因果推斷研究的重要方向。目前以深度學習為代表的機器學習正受到學者們越來越多的關注。然而,機器學習,尤其是深度學習的可解釋性、泛化能力和對數據的過度依賴是目前公認的挑戰。為此,學界越來越關注在機器學習中因果思想的運用,在半監督學習(SSL)和領域自適應等方面進行了嘗試。相關研究表明,因果推斷理論給出了隱藏在觀察數據背後的有用信息,為半監督學習和領域自適應等機器學習領域的研究提供了新思路和方向。我們對這兩方面的因果性學習方法進行了總結,如表2所示。未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智慧智商評測;開展網際網路(城市)雲腦研究計劃,構建網際網路(城市)雲腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。
如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角「閱讀原文」