反事實推理、特徵分離,「因果表示學習」的最新研究都在講什麼?

2020-12-18 機器之心Pro

機器之心分析師網絡

作者：仵冀穎

編輯：Joni Zhong

本文精選了幾篇因果表示學習領域的最新文獻，並細緻分析了不同方法的基本架構，希望能幫助感興趣的你對因果學習應用於機器學習的方向和可能一探究竟。

因果推理（Causal inference）是根據影響發生的條件得出因果關係結論的過程，是研究如何更加科學地識別變量間的因果關係（Causality）。在因果關係中，原因對結果負有部分責任，而結果又部分取決於原因。客觀事物普遍存在著內在的因果聯繫，人們只有弄清事物發展變化的前因後果，才能全面地、本質地認識事物。基幹事物發展的這種規律，在論證觀點時，有時就可以直接從事物本身的因果關係中進行推論，這就叫因果推理法。幾十年來，因果推理一直是統計學、計算機科學、教育學、公共政策和經濟學等許多領域的重要研究課題。

為了解決觀測數據因果推斷中的這些問題，研究人員開發了各種框架，包括潛在結果框架（the potential outcome framework）（潛在結果框架也稱為內曼-魯賓潛在結果或魯賓因果模型（the Rubin Causal Model））和結構因果模型（the structural causal model，SCM）。UCLA 教授 Judea Pearl 在他的著作《Causality: models, reasoning, and inference》[1] 中介紹了 RCM 和 SCM 的等價性，就應用來看，RCM 更加精確，而 SCM 更加直觀。Judea Pearl 是因果關係模型的倡導者之一。

機器之心在 2018 年也有一篇對於他的論文的報導：https://cloud.tencent.com/developer/article/1119926，探討了機器學習的理論局限性與因果推理的七大特性。來自 University at Buffalo、University of Georgia、Alibaba 和 University of Virginia 的幾位學者在 AAAI 2020 中發表了一篇關於 RCM 因果推理方法的的文章《A Survey on Causal Inference》[2]，是第一篇對 RCM 和機器學習問題的綜述，而關於 SCM 的介紹則主要可以參見 Judea Pearl 的綜述《Causal inference in statistics: An overview》[3]。

而近年來，在以上提及的兩個理論框架的基礎上，機器學習領域的蓬勃發展促進了因果推理領域的發展。採用決策樹、集成方法、深層神經網絡等強大的機器學習方法，可以更準確地估計潛在結果。除了對結果估計模型的改進外，機器學習方法也為處理混雜問題提供了一個新的方向。借鑑近年來產生式對抗性神經網絡等深度表徵學習方法，通過學習所有協變量的平衡表徵來調整共焦變量，使得在學習表徵的條件下，處理任務獨立於共焦變量。在機器學習中，數據越多越好。然而，在因果推理中，僅僅有更多的數據是不夠的。擁有更多的數據只會有助於獲得更精確的估計，但在因果推理的框架下，如果使用傳統機器學習技巧，不能確保這些因果估計是正確和無偏的。

與傳統的使用因果圖連接隨機變量來完成因果發現和推理假設任務的因果推理不同，近年來，關於因果的表示學習（Causal Representation Learning）問題吸引了越來越多的關注。因果表示學習是指從數據中學習變量，也就意味著，經過大數據學習，基於因果表示學習的機器學習算法或者能夠超越傳統的符號人工智慧（symbolic AI）。它不要求人工劃分的先驗知識，就能從數據中學到信息。直接定義與因果模型相關的對象或變量，相當於直接提取真實世界的更詳細的粗粒度模型。儘管經濟學、醫學或心理學中的每一個因果模型所使用的變量都是基本概念的抽象，但是要在存在幹預的情況下使用粗粒度變量描述因果模型，仍然是非常困難的。

現有機器學習面臨的另外一個困難是有效的訓練數據。對於每個任務/領域，尤其以醫學為例，只能掌握有限的數據。為了提高模型的效果，就必須想辦法搜尋、匯集、重新使用或者人工編制數據的有效方法。這與目前由人類進行大規模標籤工作的行業實踐形成鮮明對比。因此，因果表示學習對人類和機器智能都是一項挑戰，但它符合現代機器學習的總體目標，即學習數據的有意義表示，其中有意義表示穩健、可轉移、可解釋或公平。

在這篇文章中，我們選了幾篇關於因果表示學習的最新文獻，其中涉及了基於 SCM 和基於 RCM 的工作。我們主要分析了不同方法的基本架構，目的是對因果學習應用於機器學習的方向和可能一探究竟。

提取模塊化結構（Learning modular structures）

因果表示學習的一個方向是提取模塊化的結構，即世界的不同組件在一系列環境、任務和設置中存在，那麼對於一個模型來說，使用相應的模塊就是利用了有效的因果表示。例如，如果自然光的變化（太陽、雲層等的位置）意味著視覺環境可以在幾個數量級的亮度條件下出現，那麼人類的神經系統中的視覺處理算法應該採用能夠將這些變化因素化的方法，而不是建立單獨的人臉識別器，比如說，適用於各種照明條件。如果大腦通過增益控制機制來補償光照的變化，那麼這個機制本身就不需要和導致亮度差異的物理機制有任何關係。Goyal 等針對這個方向，嘗試將一組動態模塊嵌入到一個遞歸神經網絡中，由所謂的注意機制進行協調，這允許學習模塊獨立動態運行，同時也會存在相互影響。

論文地址：https://arxiv.org/pdf/1909.10893.pdf

這篇文章的作者認為：「世界上的物理過程通常具有模塊化的結構，通過簡單子系統的組合體現出複雜性。機器學習試圖揭示和使用物理世界中的規律，在動態環境中，我們認為一個整體系統是由一些相當獨立的子系統組成的，這些子系統隨著時間的推移而發展，對力和幹預做出反應」，以及，「這些子系統在物理過程中受力和幹預的影響，會隨著時間不斷演化。機器學習中的智能體無需每次都對所有子系統付出同等的注意力：在制定決策或規劃時，只有那些存在強交互的子系統才需要被聯合考慮。」在這樣的背景下，作者提出了循環獨立機（Recurrent Independent Mechanism，RIM）的概念。RIM 的核心思想是模塊化的結構，其中所包含的循環單元能夠處理獨立的轉換動態（transition dynamics）（類似於一個獨立的子系統的工作機制），在此基礎上，利用注意力機制、在關鍵時間節點實現不同循環單元之間的稀疏通信（實現對強交互的子系統的聯合考慮）。

RIM 中幾個重要的概念：（1）模塊化：機器學習中的生成模型可以看作是獨立機制或「因果」模塊的合成體，根據因果推理理論，模塊化是對模型生成的變量進行局部幹預（localized intervention）的先決條件。（2）獨立性：獨立性是因果推理的重要理論，即不同物體的運動或改變機制是相互獨立的。（3）稀疏性：無需每次都對所有子系統付出同等的注意力，模型在制定決策或規劃時，只考慮在當前時間節點存在強交互需求的子系統。

基於 RIM 架構學習得到的模型能夠有效捕獲真實世界中的組合生成結構（compositional generative structure）或因果結構（Causal structure），從而提升了模型完成不同任務的範化性能（這些任務大多數機制是相同的，只有一小部分機制發生變化）。RIM 整體架構見圖 1。

圖 1. RIM 架構

RIM 架構的一個步驟分為四個階段（圖 1 中的左圖顯示了兩個步驟）。在第一階段中，各個 RIM 生成一個用於從當前輸入讀取的查詢 query。在第二階段，使用基於注意力的競爭機制，根據編碼的視覺輸入選擇要激活的 RIM（右圖）（基於注意力得分，藍色 RIM 處於活動狀態，白色 RIM 保持非活動狀態）。在第三階段，單個激活 RIM 按照默認轉換動態運行，而非激活 RIM 保持不變。在第四階段，使用注意力機制在 RIMs 之間進行稀疏通信。

在 RIM 架構中，將模型劃分為 k 個子系統，其中每個子系統都可以單獨的捕獲轉換動態，具體的，每個子系統設置為一個循環獨立機（RIM），每個 RIM 基於自身函數、利用訓練數據自動學習。在時間 k，RIM 的狀態為 h_(t,k)，參數為 θ_k。默認的機制是每個 RIM 專注於自身的小問題、單獨處理自己的動態，根據決策任務的需要，與其他 RIM 進行交互。相較於傳統的直接訓練大型的系統，基於 RIM 架構能夠節省計算消耗、提高系統的穩定性。

首先，對於未激活的 RIM（激活組為 St），其隱藏狀態保持不變：

而對於激活的 RIM，運行一個獨立的轉換動態，將這些獨立的轉換動態記為 D_k，同時保證每個 RIM 都有自己的獨立參數。以 LSTM 為例，激活的 RIM 響應於當前輸入的注意力機制 A 的函數以下式更新

當輸入與其相關時，激活並更新對應的 RIM，並為之分配所需要的表徵和計算資源。如果訓練數據是由一組獨立的物理機制生成的，則其學習機制也是獨立的。

注意力機制

這篇文章引入了注意力機制（attention mechanism）來選擇：根據心理學研究顯示，大腦對複雜實體進行並行處理的能力是有限的，許多代表視覺信息的大腦系統基於競爭（在整個視覺領域並行運行）來分配資源，以及這種分配通常還會受到來自更高大腦區域的反饋的影響，該理論在認知科學上稱為差異競爭（biased competition）。基於內容的軟注意力機制（content-based soft-attention mechanisms）對類型化的可互換對象集進行操作。這一思想目前廣泛應用於最新的 transformer 的多頭點乘自注意力模型，並在許多任務中獲得了很好的效果。根據這個原理，軟注意力機制計算一個 query（或稱為 key）與對應的 key 矩陣的乘積，進行規範化處理之後，輸出 softmax 值：

其中，softmax 應用於其參數矩陣的每一行，產生一組凸權重。作為結果，得到值 V 的凸組合。如果注意力集中在特定行的一個元素上（即 softmax 已飽和），則只需選擇一個對象並將其值設置為結果中行 j 的值。請注意，鍵中的維度可以拆分為多個頭（heads），然後分別計算它們的注意力矩陣和寫入值。

當每個 RIM 的輸入和輸出是一組對象或實體（每一個都與鍵和值向量相關聯）時，RIM 處理就變成了一個通用的對象屬性的處理機器，它可以在類似於程式語言中變量的意義上操作「變量」：作為函數的可交換參數。因為每個對象都有一個密鑰嵌入（可以理解為名字 name 或類型 type），所以相同的 RIM 處理可以應用於任何適合預期的「分布式類型」（由查詢向量指定）的變量。然後，每個注意力的頭對應於 RIM 計算的函數的一個類型參數。當對象的鍵與查詢匹配時，它可以用作 RIM 的輸入。而在常規的神經網絡（沒有使用注意力機制）中，神經元是以固定的變量（從前一層給它們輸入的神經元）工作的。每個 RIM 有一組不同的查詢嵌入，利用鍵值注意機制就可以動態選擇哪個變量實例（即哪個實體或對象）將用作 RIM 動態機制的每個參數的輸入。這些輸入可以來自外部輸入，也可以來自其它 RIM 的輸出。因此，如果單個 RIM 可以用類型化參數表示這些「函數」，那麼它們可以「綁定」到當前可用且最適合它的任何輸入（根據它的注意力得分）：「輸入注意力」機制將查看候選輸入目標的鍵，並評估其「類型」是否與 RIM 期望的匹配（在查詢中指定）。

自上而下的框架

該模型動態地選擇與當前輸入相關的 RIM，令每個 RIM 在處理實際輸入實例和一個特殊的空輸入之間做出選擇，空輸入完全由零組成，因此不包含任何信息。在每個步驟中，根據實際輸入的 softmax 值來選擇最優的 k_A 個 RIM。這些 RIMs 必須在每個步驟上競爭以從輸入中讀取數據，只有贏得這一競爭的 RIM 才能從輸入中讀取數據並更新其狀態。

時間 t 的輸入值 x_t 被視為一組元素，結構為一個矩陣的行（對於圖像數據，它可以是 CNN 的輸出）。首先連接生成一個全零行向量，以獲得：

⊕表示行級級聯操作。定義線性轉換構造鍵（K=XW.^k，每個輸入元素一個，空元素一個）、值（V=XW.^v，每個元素一個）和查詢（Q=RW_k.^q，每個 RIM 注意頭一個），其中 R 是每行（r_i）與單個 RIM 的隱藏狀態相對應的矩陣。W_v 是從一個從輸入元素到相應的加權注意值向量的映射矩陣，W_k 為權重矩陣，它將輸入映射到鍵。W_k.^q 是從 RIM 的每個隱藏狀態映射到其查詢的權重矩陣。此時注意力機制為：

為每個步驟選擇前 k 個 RIMs 進行激活，這些步驟對空輸入的關注最少，將此集合定義為 S_t。由於查詢依賴於 RIM 的狀態，這使得單個 RIM 只關注與特定 RIM 相關的部分輸入，從而基於自上而下的注意過程實現選擇性注意（如圖 1 所示的架構）。

RIM 之間的交互

雖然在默認情況下 RIM 是獨立運行的，但是注意力機制允許 RIM 之間共享信息。具體來說，允許激活的 RIM 讀取所有其他 RIM（無論激活與否）。這是由於，雖然未激活的 RIM 與當前輸入無關因而其值不應改變，但是，它們仍然可以存儲與激活的 RIM 相關的上下文信息。為了實現 RIM 之間的交互，本文使用了一種殘餘連接的方法防止長序列上的梯度消失或爆炸問題 [4]：

實驗分析

當 RIM 用於處理包含不同時間模式的序列時，能夠實現專門化以便根據不同模式激活不同的 RIM。因此，當修改模式的子集（特別是那些與類標籤無關的子集）時，RIM 具有很好的泛化性能，而大多數遞歸模型並不能很好地泛化這些變體。

RIM 的考慮是假設可以通過只在序列的相關部分激活模塊來提高泛化性能，為了證明這一考慮的正確性，作者給出了將 MNIST 數字分類為像素序列的實驗，並針對不同解析度的測試圖像進行了推廣，以證明 RIM 的泛化能力。表 1 給出了 RIM 完成序列 MNIST 解析度任務的結果，表中數值為 3 次不同的實驗結果的平均值。如果驗證序列長度和測試序列長度一致，則兩個模型（RIM、LSTM）都顯示出較好的性能。然而，隨著序列長度的改變（通過改變圖像解析度）RIM 的表現相對穩定，而 LSTM 的性能下降的較為嚴重。此外，RIM 的性能優於其它基線模型，如 Transformers、EntNet、RMC 以及微分神經計算機（DNC）等。

表 1. 序列 MNIST 解析度任務的實驗結果

此外，作者還給出了一個關於合成的「彈跳球」任務的實驗。在這個任務中，多個球（質量和大小不同）基於基本的牛頓物理學移動。此外，球除了碰撞以外，它們的移動大多是獨立的，因此非常適合 RIM。使用長度為 51 的序列進行序列，在預測下一幀時使用二元交叉熵損失函數，以及，使用 LSTM 作為基線算法。實驗的目的是驗證 RIM 是否能夠較好地預測未來的運動，具體結果見圖 2。圖 2 給出了前 15 幀的實驗結果（圖中最後 6 個），然後在接下來的 15 個時間步驟中展開系統。實驗結果表明 RIMs 比 LSTM 的表現更優（預測結果是黑色的，真值是藍色的）。

圖 2. 預測彈跳球的運動

反事實推理（Counterfactual）

因果表示學習的另外一個有趣的研究方向是反事實推理在領域適應問題中的應用。統計學習理論中最基本的假設是訓練數據和測試數據來自同一分布。然而，在大多數實際情況下，測試數據是從只與訓練數據的分布相關但不完全相同的分布中提取的。在因果推理中，這也是一個很大的挑戰，反事實分布一般會與事實分布不同。因此，有必要通過從實際數據中學習來預測反事實結果，從而將因果推理問題轉化為領域適應問題。關於反事實推理的應用，我們找到兩篇有趣的文章，分別遵循 SCM 和 RCM 架構進行分析，一篇聚焦圖像處理問題，另一篇則探討文本分析問題。

論文地址：https://arxiv.org/pdf/1812.03253.pdf

基於 SCM 提取獨立分離的表徵。在圖像處理領域中，一些基本表徵是問題不變的，或者說它們是可以被獨立地幹預 (intervention) 來實現，對於部分獨立分離的表徵進行處理和操作，仍然能夠生成有效的圖像，這些圖像可以使用生成性對抗網絡（a generative adversarial network，GAN）的鑑別器來訓練。在極端情況下，還可以混合潛在向量，其中每個分量都是從另一個訓練示例中計算出來的。對於遵循獨立同分布（IID）的訓練集，這些潛在向量具有統計獨立的分量。在這樣的架構中，編碼器是一個識別或重建世界上因果驅動因素的反因果映射，解碼器建立了低維潛在表示（驅動因果模型的噪聲）和高維世界之間的聯繫。如果潛在表徵重構了（驅動）真正因果變量的噪聲，則通過對這些噪聲（及其驅動機制）進行幹預，能夠生成有效的圖像數據。

這篇文章提出了一個因果生成模型（A Causal Generative Model，CGM）框架。如圖 2b 所示, 本質也是一個因果圖模型，其基本假設前提仍然是因果原理的獨立機制，即促成生成過程的因果機制相互之間無影響。因此，可以通過單獨修改某些生成機制來研究直接幹預神經網絡模型的效果。具體到生成模型中，因果關係允許分析如果某些變量採用不同的值（稱為「反事實值」,counterfactual），結果會如何改變，進而評估生成模型捕獲因果機制的能力。CGM 框架如圖 3 所示，其中，(a）給出生成映射和分離變換的圖示，（b）為顯示節點之間不同類型獨立性的示例 CGM 的因果圖，（c）為顯示與分離變換 t 相關的潛在空間中的稀疏變換 t′的交換圖，（d）為內在分離的圖示。

圖 3. CGM 框架

給定一個實現函數 g_M 的生成模型 M，該模型將潛空間 Z 映射到學習數據點所在的流形 y_M，嵌入到周圍歐氏空間 Y 中。模型中的一個樣本是通過從具有相互獨立的分量、完全支持 z 的先前潛在變量分布中提取實現 z 來生成的。使用術語表示（representation）來指定從 y_M 到某個表示空間 R 的映射 r（也將 r（y）稱為點 y∈y_M 的表示）。此外，假定 g_M 可逆，(g_M).^-1 為數據表示，記為潛在表示（latent representation）。假設生成模型是由一個非遞歸神經網絡實現的，使用一個因果圖形模型（即 SCM）來表示通過一系列操作實現映射 g_M 的計算圖（因果語言中稱為函數賦值, functional assignments）。除了潛在表示，還可以選擇一組可能由因果圖中的節點表示的多維內生（內部）變量（endogenous variables）(圖 3b)，例如，映射 g_M 是由內生變量賦值 v_M 和內生映射 g_M 組成的：

這些變量的一個典型選擇是在卷積神經網絡的一個隱藏層中收集每個通道的輸出激活圖。對於潛在情況，使用了一些條件來保證 g_M 可逆的，進而定義了網絡的內部表示。給定潛在變量和內生變量的典型維度選擇，約束 V_k 的取值為比其歐氏周圍空間 V_k 更小維度的子集 (V.^k)_M 中的值。

無監督獨立：從統計原理到因果原理

經典的獨立表徵（disentangled representation）概念假設個體潛在變量「對現實世界的轉變進行的稀疏編碼」。雖然，所謂「現實世界的轉變」這一概念是很難具象化的，但這種對統計概念不可知的洞察力，推動了有監督的方法實現分離表示，在這種方法中，相關的轉變可以通過適當的數據集和訓練程序得到明確的識別和操作。

相比之下，無監督的獨立性表示學習則需要從未標記的數據中學習這種現實世界的轉變。為了應對這一挑戰，SOTA 方法試圖通過個體潛在因素的變化來實現這種轉換，並藉助於一種分離的統計概念，在潛在因素之間實現條件獨立。

作者提出了一種獨立的非統計定義，考慮對數據模型進行轉換。如圖 3c 的交換圖所示，這樣的屬性的分離相當於令 T 對應於潛在空間的變換 T′，該變換 T′將僅作用於單個變量 z_k，使用變換函數 f，其它潛在變量可用於其它屬性的編碼。

由此，當兩個變換 (T1 和 T2) 修改了潛在表象的不同組成部分時，它們是獨立的。由於這一過程依賴於潛在表示的變換，而這些潛在表示是外部的，因此作者把這種概念稱為外部獨立（extrinsic disentanglement）。

通過操縱內部表示來實現獨立

如圖 3b 的 CGM 所示，與潛在變量相比，由於常見的延遲原因，由圖形模型的內生變量編碼的屬性無法保證在統計上是獨立的，但是仍然能夠遵循獨立性原則獨立的幹預數據。由圖 3d 所示，其中分割節點表示在應用變換 T.^2 之前，在原始 CGM（3b）中計算 V2 的值。

發現深度模型中的模塊性

我們不會詳細介紹模型中的詳細算法，但會簡略介紹它的體系設計：模塊性定義為能夠實現任意獨立轉換的內部表示的結構屬性。考慮一個標準的前向多層神經網絡，選擇「內生變量」作為給定層 L 的「通道」的所有輸出激活的集合。令 E 為這些通道的子集，模塊間雜交過程如圖 4 所示。舉兩個潛在變量 z1 和 z2 的獨立例子，它們將生成兩個原始輸出示例（y1，y2）=（gM(z1),gM(z2)）（稱之為 Original1 和 Original2）。同時生成 Original2 時定義 v(z2) 收集由 E 索引的全部變量的值，以及 \tilde{v}（z1）表示在生成 Original 1 時由該層上所有其他內生變量獲取的值的元組。假設選擇模塊化的結構\tilde{v}（z1）和 v（z2）將對其相應生成圖像的不同方面進行編碼，以便可以通過將層的輸出值集合與特定元組分配來生成混合這些特徵的混合示例，並將其發送至生成網絡的下遊部分。

圖 4. 影響圖的生成

衡量因果效應

上述反事實雜交框架能夠評估給定模塊如何影響生成器的輸出。接下來，作者通過從潛在空間重複生成對（z1，z2）來量化其因果效應，其中，這兩個向量能夠彼此獨立地進行採樣。然後，按照上述步驟為一批樣本生成並收集混合輸出，並使用它們生成一個影響圖（influence map）來估計平均絕對效應：

其中 Y(z1) 是潛在輸入 z1 生成的無幹擾輸出。絕對值內的差異可以解釋為潛在結果框架中的單元級因果效應 (unit-level causal effect)，以及，求取這種期望近似於計算平均治療效果（average treatment effect）。上式的輸出 IM 與輸出圖像的尺寸相同時，通過顏色通道對其求取平均，從而得到一個灰度熱圖像素圖。

模塊和反事實圖像的無監督檢測

這篇文章所介紹的雜交方法的一個挑戰，特別是對於每層包含大量單元或通道的網絡，就是如何選擇要幹預的子集 E，作者使用從細到粗（fine to coarse）的方法提取子集。首先，估計與網絡每個進化層的每個單獨輸出信道相關聯的基本影響圖（Elementary Influence Maps，EIM）（例如，在上式中設置 E={c}）。然後，根據相似度對影響圖進行分組，以更粗的比例定義模塊。

圖 5 給出了一個在 CelebA 資料庫上訓練得到的 VAE 卷積層通道的表示 EIMs 示例，以及，圖中通道實現了功能性的分級，例如一些影響更精細的面部特徵（眼睛、嘴，…）和其他影響圖像的背景或頭髮等等。這就說明，單個通道可以聚合形成模塊，而這些模塊對應於輸出（人臉圖像）的一個特定特徵。

圖 5. 生成影響圖。VAE 在 CelebA 資料庫上生成的影響圖示例（顏色較淺的像素代表較大的方差，以及擾動對該像素的影響更大）

為了在無監督的情況下實現這種分組，使用 EIM 作為特徵向量對通過進行聚類：首先對每個影響圖進行預處理，方法是：（1）使用一個小的矩形滑動窗口進行算術平均，以在空間上平滑貼圖；（2）在圖像上的值分布的 75% 的百分位處對生成的貼圖進行閾值化處理，以獲得二值圖像。在對圖像進行降維後，得到一個（通道×像素）矩陣，然後用人工選擇的秩 K 將其輸入到一個非負矩陣分解（Non-negative Matrix Factorization，NMF）算法中，得到 S=WH。從得到的兩個因子矩陣中，得到 K 聚類模板模式（通過根據圖像維度重塑 H 的每一行得到），以及每一個模式對單個映射（在 W 中編碼）貢獻的權重表示。每個影響圖都是一個基於模板模式的最大權重聚類。

實驗分析

為了驗證這篇文章所提出的方法是否可以擴展到高解析度的生成模型，並推廣到包含各種對象的複雜圖像數據集，作者使用了 BigGAN-deep 框架進行實驗 [5]，同時利用 ImageNet 庫進行預訓練 (https://tfhub.dev/deepmind/biggan-deep-256/1)。BigGAN 是一個條件 GAN 架構，由 12 個 Gblocks 組成，每個 Gblock 包含 4 個卷積層的級聯。每個 Gblock 還接收來自潛在變量和類別標籤的直接輸入，並由跳過連接繞過。這篇文章中作者使用 BigGan 驗證是否能夠通過混合不同類別的特徵來產生混合體。圖 6（公雞鴕鳥）中提供的示例表明，在前景中保持非常相似的對象的同時，可以使用修改的背景生成高質量的反事實。在更具挑戰性的情況下，對於不同性質的物體（圖 4 的考拉泰迪），仍然能夠生成每個原始樣本的有意義的組合：例如，樹上的泰迪熊（下一行）或「泰迪考拉」將泰迪紋理與考拉的顏色合併在一個統一的室內背景和一個木質結構中（上一行）。

圖 6. BigGAN 跨類雜交的示例。左：鴕鳥公雞，右：考拉泰迪

論文地址：https://www.ijcai.org/Proceedings/2019/570

平衡因果表示學習

治療效果 (treatment effect)，又稱因果效應 (causal effect)，是指一個變量（即治療）對另一個變量（即結果）的影響。如果對治療進行幹預，假設協變量不變（即這些協變量的條件），治療效果被定義為結果的變化，其中協變量是與治療和結果相關的變量或特徵。在文本分析領域，大多數模型關注的是數值協變量，而如何處理具有文本信息的協變量來估計模型效果仍是一個懸而未決的問題。然而，在現實世界中，文本數據幾乎無處不在，如臨床治療記錄、電影評論、新聞、社交媒體帖子等。針對這一問題，這篇文章提出了一種基於條件治療的對抗性學習匹配（conditional treatment-adversarial learning based matching，CTAM）方法。CTAM 融合了治療對抗性學習，在學習表徵時過濾掉與工具變量相關的信息，然後在學習表徵之間進行匹配，以估計處理效果。

令 Z 和 Z'分別表示觀察到的文本協變量 T 和非文本協變量 X 的潛在表示。在潛在表示中，Z'更接近工具變量，因此比結果 Y 更能預測治療分配。任務目標是學習潛在的表徵，過濾掉與儀器變量相關的信息。CTAM 的因果圖表示為：

圖 7. CTAM 因果圖

CTAM 引入條件治療對抗學習，以儘可能地消除潛在表徵中與 Z'相關的信息。CTAM 框架的結構為：

圖 8. CTAM 框架

CTAM 包含三個主要部分：文本處理、表示學習和條件處理鑑別器。通過文本處理組件，將原始文本轉化為矢量化的表示 S，將 S 與非文本協變量 X 連接起來，構造一個統一的特徵向量 C，然後將其輸入到表示神經網絡中，得到潛在表示 Z。在學習了表示之後，Z 和潛在結果 Y 一起被輸入到條件治療鑑別器中。在訓練過程中，表示學習與條件治療鑑別器進行極大極小博弈：通過阻止鑑別器進行正確的治療，使表徵學習過濾掉與結構變量相關的信息。

文本處理

文本處理過程將文本數據 T 轉換為向量表示 S。這篇文章採用了 GloVe 單詞嵌入方法 [6]，S 是一個文檔中所有單詞嵌入的平均值。

表示學習

在表示過程中，文本協變量 S 的學習數值向量首先與數值協變量 X 連接起來，記為 C。用一個表示神經網絡將連接向量 C 映射到潛在表示 Z。潛在表示 Z 包含了與近似工具變量相關的信息，這將放大治療效果估計偏差。為了消除這些信息，作者設計了以下條件治療對抗性學習的方法。

條件處理鑑別器

條件處理鑑別器的輸入是潛在表示 Z 和潛在結果 Y，輸出是處理分配 W。判別條件只依賴於潛在表示 (latent representation) 的結果，這使得潛在表示只通過潛在的結果分布與治療相關。也就是說，通過使用條件處理鑑別器，利用極大極小博弈，學習的潛在表示能夠通過處理分配消除掉條件依賴。

條件處理鑑別器也是一種前饋神經網絡 D，其目標是正確地預測治療分配。條件處理鑑別器的損失用交叉熵來衡量：

由於此處的潛在結果僅適用於條件治療鑑別器，而不是顯示結果，因此將其命名為偽潛在結果。

條件治療對抗性學習的目的是去除掉與近似工具變量有關的信息。近似工具變量指的是對治療分配更具預測性的變量而不是結果，這種過濾策略相當於去除潛在表示和治療分配之間的條件依賴。因此，通過訓練一種對抗性學習模式來達到這一目標。鑑別器 D 執行極小極大博弈。鑑別器 D 一方面通過最小化上式給出正確的治療；另一方面，向表示學習重新發送結果預測值進行訓練，使上述損失最大化，過濾掉有利於鑑別器 D 的信息。當成功的「愚弄」了條件治療鑑別器，就能夠從潛在表示中消除掉增強治療分配的信息，即，成功地過濾掉與結構變量相關的信息。

損失函數

CTAM 三層結構的完整損失函數為：

其中 L_D 為上文介紹的條件處理鑑別器的交叉熵損失，L_p 是群距離和偽結果預測損失之和：

L_p 中的第一項測量相同治療下共享觀察結果標籤的記錄之間的成對距離，第二項測量具有不同觀察結果的記錄之間的成對距離。最小化兩項之間的差異會使得相似的記錄彼此靠近，而使得表示空間中的不同記錄彼此遠離。第三項是偽結果預測損失，最小化它可以更好地預測條件治療鑑別器的潛在結果。

模型訓練

訓練過程包括優化鑑別者、表示學習和偽結果預測者之間的極大極小博弈，可以看作：

以及三層更新過程為：

實驗分析

作者使用 News 新聞數據集進行實驗。News 新聞數據集主要研究觀看設備對用戶體驗的影響。文本協變量 T 由術語文檔矩陣表示，詞彙量為 3477。使用不同的設備表示治療（treatment）：Wi=1 表示在行動裝置中查看第 i 條記錄中的新聞，Wi=0 表示桌面。實驗結果見表 2。

表 2.News 新聞數據集中的實驗結果

由表 2，CTAM 在 PEHE 和 E_ATE 指標下具有最好的性能，在 E_ATT 指標下性能與最佳基線方法 STM 相比類似。這一結果表明，條件治療鑑別器能有效地濾除與近似工具變量有關的信息，從而減少治療效果估計的偏差。

展望

現代機器學習的表示學習主要目標是學習到能夠保持相關統計特性的數據表徵。然而，這種做法沒有考慮到變量的因果性質，也就是說，它不關心它分析或重建的變量的介入性質。本文介紹了 3 篇利用表徵學習實現因果學習的目的，其中共同之處是如何在物理世界、有限的數據採集情況下，在表徵中實現物理因果關係的特性分離（disentanglement）。這在數據有限，以及實驗不能重複 (也就是 counterfactual）中尤其難辦。為了解決這問題，第二三篇都採用了生成模型（generative model) 或者類似思想來在潛在空間「虛擬」一個獨立的原因，而第一篇則著重利用了注意力機制來模擬大腦從上而下（top-down）的預測過程。總體來說，引入因果關係，將能夠把表示學習提升到更高的層次：超越統計依賴結構的表徵，向支持幹預、規劃和推理的模型邁進，實現康拉德·洛倫茲（Konrad Lorenz）的想像空間思維概念（thinking as acting in an imagined space）。這最終要求機器有能力反省自己的行為和設想其他的情況，即需要（幻想）自由意志。自我意志的生物學功能可能與在洛倫茲想像的空間中需要一個代表自己的變量有關，自由意志則可能是一種交流該變量所採取行動的手段，對社會和文化學習至關重要，雖然它是人類智能的核心，但目前，機器學習還無法真正的實現。本篇文章結合最新的研究成果分析了向已有的表示學習方法/模型中引入因果機制的效果，但實際上最困難的問題尚未得到解決，關於這一領域的基礎性分析有待更深入的研究。

本文提到的參考文獻：

[1] Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press.

[2] Liuyi Yao (https://arxiv.org/search/stat?searchtype=author&query=Yao%2C+L), Zhixuan Chu (https://arxiv.org/search/stat?searchtype=author&query=Chu%2C+Z), Sheng Li (https://arxiv.org/search/stat?searchtype=author&query=Li%2C+S), Yaliang Li (https://arxiv.org/search/stat?searchtype=author&query=Li%2C+Y), Jing Gao (https://arxiv.org/search/stat?searchtype=author&query=Gao%2C+J), Aidong Zhang (https://arxiv.org/search/stat?searchtype=author&query=Zhang%2C+A), A Survey on Causal Inference, https://arxiv.org/pdf/2002.02770.pdf.

[3] Pearl, J. Causal inference in statistics: An overview. Statistics surveys, 3:96–146, 2009.

[4] Adam Santoro, Ryan Faulkner, David Raposo, Jack W. Rae, Mike Chrzanowski, Theophane Weber,

Daan Wierstra, Oriol Vinyals, Razvan Pascanu, and Timothy P. Lillicrap. Relational recurrent neuralnetworks.CoRR, abs/1806.01822, 2018.

[5] Brock, A., Donahue, J., and Simonyan, K. Large scale gan training for high fidelity natural image synthesis.

arXiv preprint arXiv:1809.11096, 2018.

[6] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In Proc. of EMNLP』14, 2014

作者介紹：仵冀穎，工學博士，畢業於北京交通大學，曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理，現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺，愛好科研，希望能保持學習、不斷進步。

反事實推理、特徵分離,「因果表示學習」的最新研究都在講什麼?

相關焦點

一場因果革命,Judea Pearl最新力作《為什麼》中文版發布

清華大學崔鵬:探索因果推理和機器學習的共同基礎

從哲學上看,因果關係為什麼很難確定?

因果推理「三問」:是什麼?為什麼需要?如何使用?

集智俱樂部學術年會:5場主題報告+3場分論壇,一起因果糾纏!

響應號召,集智俱樂部學術年會線上舉辦,一起因果糾纏!

梅劍華:深度學習為什麼不能發展出真正的人工智慧?

因果關係是通向強AI的階梯or作用被誇大?

變態「三角戀」?世界知識、大腦和計算是AGI的新「三駕馬車」

「因果」真的存在嗎?聽師父講《殺羊變羊》的故事你就知道了

清華崔鵬團隊KDD論文一作解讀:在大數據背景下進行因果效應評估

今日Paper | 4D關聯圖;通用表徵學習;元轉移學習;無偏場景圖生成等

「熊貓」變「長臂猿」,「烏龜」變「來復槍」,深度學習模型被攻擊...

2017福建選調生行測判斷推理備考:可能性推理因果論證解題技巧

2015公考行測之因果關係對可能性的推理

薛丁格的佛與深度學習中的因果

4月半年番「金田一少年事件簿R」公開最新宣番CM!

「冰果」小說「古典部」系列最新篇連載於官能雜誌?!

工程之道,深度學習推理性能業界最佳優化實踐