所謂因果,作為一個人類,你肯定並不陌生。
銀杏葉黃了,是因為寒露已至。你的肚子開始咕咕叫,是因為晚飯時間到了。
因果推理這個詞看上去並不日常,但事實上,這是人類在與現實世界進行交互時必不可少的能力。
對於AI來說,因果推理能力同樣很重要。隨著深度學習模型在各個領域取得巨大成功,其缺失因果推理能力的問題也逐漸暴露。沒有正確的因果模型,這些機器學習方法的泛化就很成問題,比如,給圖像生成說明的模型有時候會生成一些脫離實際的說明文字。
如此AI,顯得很不智能。
圖靈獎得主Judea Pearl就曾指出,機器學習的突破口在於「因果革命」。
現在,李飛飛團隊帶來了他們在因果推理方面的最新研究:
讓人工智慧在視覺觀察中逐步生成因果圖,並有選擇性地根據誘導圖來決定行動。
所以,他們是怎麼樣賦予AI因果推理的能力的呢?
兩個階段對於AI而言,因果歸納和推理是兩個不同的階段。
比如說,進入一個有許多燈的陌生房間,在不事先了解布線的情況下,想要開燈,就得先試試各個開關,理清開關和燈之間的對應關係。
AI觸發開關的第一階段,就是因果歸納。在這一階段,智能體通過執行動作並觀察結果,來發現潛在的因果關係。
第二階段是因果推理,智能體使用已獲得的因果關係來決定行動,以完成任務。
為了建立有效的因果歸納和推理計算模型,必須在測試時完成對新的因果關係和新任務目標的概括。
第一階段,李飛飛團隊採用因果歸納模型,根據智能體的觀察數據構建因果結構,即隨機變量的有向無環圖。
這裡採用的新技術,是迭代因果歸納網絡。
迭代因果歸納網絡從原始的感官觀察中歸納出因果結構,需要準確地捕捉每個行為對環境的獨特影響,同時考慮其他行為的混雜影響。
研究團隊假設,最能概括因果關係的歸納網絡將是一個能分解單個動作及其對應效果的網絡,並且只更新因果圖的相關成分。
在迭代模型中,首先假設因果結構的邊緣權重為0(即沒有因果關係),並將觀測數據的每個幀映射到一個編碼。
然後,計算跨時間步長的狀態嵌入之間的差異(即,狀態殘差),並將其與相應的動作關聯起來。
這些數據被餵給邊緣解碼器模塊(the Edge Decoder),該模塊負責預測邊緣更新,以及用于衡量邊緣更新如何應用於節點的注意力向量。
最後,應用基於當前圖的更多邊緣更新,並輸出最終的預測圖。
第二階段,使用因果結構將目標條件策略置於背景之中,以執行指定目標的任務。因果結構的構造是顯式的,這樣,在long-horizon任務中,新的問題實例能更好地泛化。
研究團隊提出了基於注意力的圖編碼的目標條件策略(goal-conditioned policy)。
學習目標條件策略這一策略的目的是給定一個初始圖像,一個目標圖像,以及預測的因果結果,在規定時間步長內完成既定目標。
輸入數據是當前圖像,目標圖像和預測因果圖。假設最佳策略專注於學習因果圖中與當前任務步驟相關的邊緣。
將當前圖像和目標圖像進行編碼。基於這一編碼,輸出因果圖中「效果」上的注意力向量,從而提取相關邊緣。然後,將其與圖像編碼對應起來,預測最終動作。
實驗新方法效果如何,還是要用實驗說話。
迭代因果歸納網絡(ICIN)的比較對象,是使用時間卷積的非迭代歸納模型(TCIN)和不帶注意力機制的ICIN。
在絕大部分實驗條件之下,李飛飛團隊的方法(藍條)都要優於對照組。
One More Thing學會因果推理的AI,有什麼用呢?
李飛飛團隊曾經造出這樣一隻AI,能「窺見未來」。
一個人從車後繞來,他是誰?要去哪兒?想幹什麼?
這隻AI不僅「預知」了線路,還答出了「開門」這個正確答案。
對於人類而言,做出這樣的預測並不難,以特定目的為導向,了解一個人的目的,就能推測他要去哪兒要做什麼。
同樣,對於AI而言,學會了因果推理,在完成目標導向任務時,就能事半功倍。
李飛飛團隊論文一作,是斯坦福在讀博士Suraj Nair,曾在谷歌大腦實習。
他師從Silvio Savarese教授,也就是李飛飛的丈夫。
論文的另一位作者是Yuke Zhu是斯坦福SVL實驗室(Stanford Vision and Learning Lab)的一員,該實驗室由李飛飛,Silvio Savarese和Juan Carlos Niebles主導。
Yuke Zhu今年8月剛從斯坦福博士畢業,將於2020年秋季入職德州大學奧斯汀分校。
李飛飛和她的丈夫Silvio Savarese為論文的另外兩名作者。
論文地址:
https://arxiv.org/abs/1910.01751
作者系網易新聞·網易號「各有態度」籤約作者
— 完 —
量子位MEET 2020智能未來大會啟幕,將攜手優秀AI企業、傑出科研人員呈現一場高質量行業盛會!詳情可點擊圖片:
2019中國人工智慧年度評選啟幕,將評選領航企業、商業突破人物、最具創新力產品3大獎項,並於MEET 2020大會揭榜,歡迎優秀的AI公司掃碼報名!