導語
複雜系統在我們日常生活中無處不在,但無論是對複雜系統的刻畫描述,還是對複雜系統進行有效的預測,以及科學理論發現,都是一項巨大的挑戰。本文總結了張江老師在集智-凱風讀書會上的《複雜系統自動建模》專題,介紹了如何更好地利用AI來對複雜系統更好的進行描述、預測乃至於理論發現,最後,本文還對通過AI對複雜系統進行自動建模中的一些可能的問題進行了簡單的描述和討論。
傳統模式下對複雜系統進行建模
許多相互作用的元素可以組成複雜系統,如網際網路、經濟系統、公共部門和行政組織、城市、生命體、大腦、電網、交通、生態系統等等,複雜系統存在於我們生活的各個領域。
各式複雜系統往往可以被抽象為一組單元,它們通過一個網絡相連,並按照一定的動力學法則發生相互作用。然而,由於複雜系統中的元素、主體數量較多,系統組成元素之間以及系統和環境之間存在依賴、競爭、關聯等複雜的作用,便產生了如非線性 、湧現、自發秩序、適應性以及反饋迴路等的特殊性質,導致互動模式與影響難以描述,參數數量的增加有可能快於系統大小的增加,我們既無法把整個系統基於還原論而簡單理解為個體的加總,也無法從整體的行為有效推斷出系統的確定性質。
所以,我們對複雜系統的建模是極其困難的。
19世紀、20世紀特別是20世紀80年代以來,複雜科學、網絡科學的不斷發展使得我們可以從更多角度去認識、研究、刻畫和預測複雜現象。比如對於城市這一複雜系統的演化增長,雖然我們不期待用一張餐巾紙寫下城市的生長方程,但我們絕對可以用一頁紙寫下所有的規則:
圖1:複雜的城市,簡單的規則
Li, R., Dong, L., Zhang, J., Wang, X., Wang, W. X., & Di, Z & Stanley, H. E. (2017). Simple spatial scaling rules behind complex cities. Nature Communications, 8(1), 1841. 下載地址:https://www.nature.com/articles/s41467-017-01882-w。
我們的另一項工作是對新冠疫情在城市間的傳播防控進行建模。疫情期間我們成立了集智疫情小組,嘗試通過對疫情傳播進行建模分析從而得到一些可以幫助防控疫情的知識。對於疾病傳播,我們將城市作為節點,城市感染人數作為節點的特徵,根據城市間的人口遷移數據建立整個網絡,通過數據驅動的方式對Meta-population model中的參數進行學習。雖然我們這項研究運用了AI,但我們只是利用其學習模型中的參數,模型本身的構建仍舊依賴科學家對複雜系統的洞見。
圖2:新冠疫情在城市間的傳播
Jiang Zhang, Lei Dong, Yanbo Zhang.et al.. Investigating time, strength, and duration of measures in controlling the spread of COVID-19 using a networked meta-population model. Nonlinear Dynamics, 2020
可以看到,複雜科學和網絡科學的不斷發展使得我們有生命遊戲、Boid模型、SIR病毒傳播模型、偏好依附網絡增長模型、匹配生長模型、人工股市模型等等可以用來對一些複雜系統進行較好的描述、刻畫和行為預測,這些簡潔、富有洞察力、便於理論發現分析且計算廉價的模型大大加深了我們對複雜系統的認識;然而依靠人工構建模型面臨著很多缺點:
2007年1月28日,圖靈獎得主吉姆·格雷(Jim Gray)在自己酷愛的航海運動中駕駛帆船失蹤於茫茫大海之上。短短17天之前,他在加州山景城召開的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,發表了他的著名演講:The Fourth Paradigm: Data-Intensive Scientific Discovery(《第四範式:數據密集型科學發現》)。演講中,他將人類科學發展分為四種範式:以記錄和描述自然現象為主的「實驗科學」,即第一範式;利用模型歸納總結過去記錄的現象的「理論科學」,即第二範式;科學計算機的出現帶來的模擬仿真等「計算科學」,即第三範式;如今大數據時代的到來,出現新的科學研究方式,即數據密集型科學(Data-Intensive Scientific Discovery),稱為第四範式。
圖3:科學的四種研究範式
米加寧,章昌平,李大宇 & 林濤.(2018).第四研究範式:大數據驅動的社會科學研究轉型. 學海(02),11-27. doi:10.16091/j.cnki.cn32-1308/c.2018.02.003.
而第四範式與第三範式最顯著的區別,在於第三範式是先提出可能的理論,再搜集數據,然後通過計算仿真進行理論驗證。而第四範式是先有了大量的已知數據,然後通過計算得出之前未知的可信的理論。顯然,第四範式的核心,在於一種新的認知途徑:尋找「產生於數據」(born from the data)中的洞見。而大數據的特點是連續產生的數據,並力求在範圍上窮舉和在內容上精細,同時數據產出上又是彈性靈活、大小可變的。我們認識到,隨著大數據的積累和人工智慧的不斷發展,特別是深度學習技術的發展,使得我們可以通過數據驅動(data-driven science)的方式,利用深度學習算法來自動構建複雜系統的模型,我們擁有了更加強力的工具來對複雜系統進行更加精確、深入的分析、模擬、預測,甚至科學發現。
可參考:Rob Kitchin: Big Data, New Epistemologies and Paradigm Shifts, Big Data & Society, vol. 1 no. 1, 2014, pp. 1–12.
顯然,利用AI自動建模較傳統人工建模(基於第二、第三範式)有顯著的區別,自動建模尋求「產生於數據」而不是「產生於理論」的假設和洞見,即先有一個從數據中以歸納的方式來形成某種假設,然後再用演繹的方式進行研究。這種數據獲取和分析的決策思路,建立在溯因推理(abductive reasoning)之上。這種範式更加適用於提煉傳統「知識驅動的科學」難以提煉的額外的、有價值的洞見。
其次,隨著技術的發展,我們已經積累了關於複雜系統運轉的大量數據,特別是系統所產生的時間序列數據,而傳統人工建模方法很難與這種結構的數據相結合,換言之,傳統建模方法難以提取數據中隱藏的大量信息、知識。不過,AI中的一些算法卻非常擅長於從時間序列數據等中學習提取模型,同時,當前的硬體已經能夠支持我們藉助一些深度學習的算法對較大量級的數據進行學習分析。
因此,我們便有可能在AI的幫助下完成對複雜系統的自動建模,使得我們不僅僅能夠對模型參數進行學習計算,更重要的是利用AI自動對模型本身進行學習構建,最終實現對複雜系統的描述、預測和科學發現。
AI自動建模的五個階段
AI自動建模,簡單來說就是根據獲取到的複雜系統的觀測數據,利用 AI 系統,自動去構建出一個我們想要的模型,從而捕獲到複雜系統內部的規則。這樣,我們就能夠對真實的複雜系統進行描述刻畫,進而做出分析預測,完成科學發現,最終實現對複雜系統的調控和構造。
圖4:AI自動建模的流程
我們大體按照發展順序,將這一領域分成了如下五個階段(方面):
圖5:AI自動建模五部曲我們將簡要介紹各個階段的代表性案例,同時結合我的一些相關研究進行展示。
複雜系統的行為數據大多表現為時間序列,而RNN是時間序列預測的主要工具,因此用RNN來自動建模是一個主力方向。使用RNN進行建模,其記憶機制可以捕捉到複雜系統的長程關聯。基於 RNN 的方法有非常多,這裡我們展示一個跟複雜系統相關的工作。
庫計算:Model-Free Prediction of Large Spatiotemporally Chaotic Systems from Data: A Reservoir Computing ApproachJaideep Pathak,Brian Hunt,Michelle Girvan.et al.physical review letters(2018)
在這個工作中,用 RNN 的一種變種模型「庫計算」(reservoir computing),具有強大的預測能力,甚至可以預測混沌模型。而庫計算和一般的RNN最大的區別在於它具有一個不可學習的核心部件:水庫(圖中的R)。水庫本質上是一個高度稀疏的隨機網絡,信號經過編碼後進入水庫進行傳遞,而整個過程是不可學習的。在這個過程中,水庫起到記憶的作用,經過若干次迭代,信號的輸入和輸出過程通過梯度算法進行學習調整。最後,這個模型對於混沌的預測,卻可以得到一個比LSTM等完全梯度反向傳播的RNN更好的效果,而庫計算的核心部件水庫由於是一種固定結構,我們甚至可以用一些物理上的硬體來實現它。
圖6:庫計算(reservoir computing)
圖7:第三代神經網絡——圖神經網絡
在時間序列自動學習方面,圖網絡不僅很好地學習了動力學,而且還能夠在學好的動力學上做控制。如果在神經網絡中對圖網絡進行劃分,可以認為它是第三代的神經網絡。我們知道,第一代的神經網絡是常見的前饋神經網絡(Feed Forward Network),而第二代的神經網絡則是根據問題進行構造的深度神經網絡。如在圖像識別中,由於圖片結構上的平移不變性、旋轉對稱等,我們通過kernel在圖片上平移,通過卷積的方式來提取特徵,由此設計了CNN。
而kernel無論移動到圖片的哪一個位置,其內部的結構都是一樣的,因此CNN可以實現參數共享。又如在自然語言中,根據其一維結構的序列特性,通過各種門的操作從而使得序列前後的信息互相影響以更好捕捉序列的特徵,由此設計了RNN。而第三代神經網絡,則可以理解為對上述情況的一種泛化,CNN無非是一種固定的若干維的網絡結構,而如果將其泛化到一般性的網絡結構,去掉空間上的約束,這時便構成了圖神經網絡。
圖神經網絡最初由 Franco Scarselli 和 Marco Gori 等人提出,在之後的十幾年裡被不斷擴展,先後發展出了圖卷積網絡(Graph Convolution Networks,GCN)、 圖注意力網絡(Graph Attention Networks)、圖自編碼器( Graph Autoencoders)、圖生成網絡(Graph Generative Networks)和圖時空網絡(Graph Spatial-temporal Networks)等多個子領域。圖網絡的基本理念是構造一種可學習的圖上的傳播過程,通過給機器展示一張固定的圖,這被稱為基於關係的偏置先驗(inductive bias),學習一種網絡節點到連邊,連邊到節點的映射過程。
圖8:圖網絡動力學預測原理
由於模型將圖結構充分利用,能夠把握非常異質化的網絡,因此準確度可以大大高。而圖上構建傳播擴散的過程即為不同節點之間傳播過程中的多次迭代,通過反向傳播算法多次對連邊傳播擴散過程中的參數進行調整。
下面這篇文章是彩雲天氣算法工程師和我們的一項工作,我們將圖網絡應用於霧霾預測,並結合氣象領域知識,構建城市間的相互作用網絡模型,對預測霧霾有非常好的效果。
PM2.5-GNN: A Domain Knowledge Enhanced Graph Neural Network For PM2.5 ForecastingShuo Wang,Yanran Li,Jiang Zhang.et al.arXiv(2020)
圖卷積網絡(GCN)最早由Thomas Kipf提出(今年 1 月份,他從阿姆斯特丹大學機器學習專業拿到了博士學位)。
圖9:Thomas Kipf在社交媒體上展示自己的博士論文
Thomas Kipf 提出了一種用深度學習處理結構化數據的新方法。該方法主要基於以圖的形式結構化神經網絡模型的表示和計算,從而提高模型在學習具備顯式和隱式模塊結構的數據時的泛化能力。
GCN的概念首次提出於ICLR2017(成文於2016年),它實際上跟CNN的作用一樣,就是一個特徵提取器,只不過它的對象是圖數據,用於執行圖結構數據中節點的半監督分類任務。GCN精妙地設計了一種從圖數據中提取特徵的方法,從而讓我們可以使用這些特徵去對圖數據進行節點分類(node classification)、圖分類(graph classification)、邊預測(link prediction),還可以順便得到圖的嵌入表示(graph embedding)。GCN 發表時,它在多個無向圖數據集的節點級分類任務中實現了 SOTA 性能。
圖10:圖卷積網絡原理
其中H是節點向量,也即節點特徵,通過一個可學習一般形式W進行線性變換,和一個的擴散算子A,再加上一個非線性sigma函數,節點特徵就被迭代了一輪, 而經過若干輪迭代, 就可以得到整合了整個網絡信息的節點表示。而這整個過程非常類似於一個歸一化的拉普拉斯算子,由此完成整個圖上的擴散過程。
目前還有一種在表現上比GCN更加優秀的算法:圖注意力網絡(Graph Attention Network,GAT)。Petar Veličković(於 2019 年從劍橋大學獲得計算機科學博士學位)和 Guillem Cucurull、Yoshua Bengio 等人一起完成了圖注意力網絡的開山之作——《Graph Attention Networks》,這篇論文被 ICLR 2018 接收。Petar Veličković現在是 DeepMind 的研究科學家。
圖11:Petar Veličković在社交媒體上展示自己的博士論文
Petar Veličković的博士論文《The resurgence of structure in deep neural networks》,作者通過開發三種 structure‐infused 神經網絡架構(在稀疏多模態和圖結構數據上運行)和一種 structure‐informed 圖神經網絡學習算法來直接驗證該假設,並展示了傳統基線模型和算法的卓越性能。
針對GCN在看待相鄰節點的影響的時候進行簡單地直接對節點特徵進行平權地加和,然後匯聚到節點上,得到新的特徵這一做法,圖注意力網絡提出在傳播過程引入自注意力(self-attention)機制,每個節點的隱藏狀態通過注意其鄰居節點來計算。GAT網絡由堆疊簡單的圖注意力層(graph attention layer)來實現,對節點對 ,注意力係數計算方式如下。
圖12:圖注意力網絡原理
我們的一項工作就是運用圖注意力網絡進行連邊預測,而連邊預測並非我們想達到的最終目的,我們發現,通過連邊預測的效果進行調整,實際上我們可以在未給定直接信息的基礎上通過連邊從而學習出每個節點更加豐富的信息。
在這裡,我們只需要一個足夠大的網絡,通過連邊預測任務實現對每個節點表徵向量的學習,最後實現包括節點中心性排序、社團劃分、節點分類等。一般來說,進行上述任務,比如節點分類,我們需要大量的標註數據進行訓練,而很多情況下這種數據獲取的成本和難度無疑比較高。但是,網絡的獲取卻是一個難度較低的事情,我們可以很容易的收集到一個存在上千節點以上的網絡,而通過我們這項工作,就有可能通過網絡結構自監督的學習出每個節點的表徵向量。
圖13:張江老師團隊關於圖注意力網絡的一項工作
Weiwei Gu,Fei Gao,Xiaodan Lou.et al.. Link Prediction via Graph Attention Network. arXiv:1910.04807, 2019
這項工作的核心思想在於,網絡結構本身即蘊含了足夠豐富的信息,這便提供了一種通過對網絡結構學習從而重構網絡本身的可能。
由此,我們首先在完整網絡結構的基礎上,移除比如10%部分的網絡,在剩下的90%的網絡中,學習整體的pattern(前提假設為網絡結構本身具有空間結構平移對稱性,而我們正是通過GAT來學習這種特性):即通過前饋神經網絡預測兩個節點之間是否存在連邊的分類器(此步驟使用的是網絡結構自帶的連邊標籤數據),在學習完成這種分類模式後,再嘗試重構移除部分的網絡,從而評估檢測學習出來的分類模式效果,進而對每個節點的節點向量進行學習重構,最終實現對整個網絡的完整構造。
圖14:連邊預測(DeepLinker)原理
我們把這種方法稱作DeepLinker,接下來,我們用中國風險投資(VC)網絡給這個算法進行訓練,根據注意力中心性進行排序,最後結果和CB Insight上最好的VC排序符合的很好,排名前二十的VC重合度達到了72%。
圖15:用DeepLinker預測最好的VC
同時我們還嘗試依據DeepLinker得到的節點特徵向量進行節點分類,在這個過程中,我們並沒有將節點標籤作為輸入數據,而是僅僅通過連邊學習來逆向重構節點特徵,根據算法重構的特徵進行分類,我們發現這種分類的準確度較傳統的其他方法有較大優勢,也能得到一個很好的結果。總結起來,Deeplinker算法是一種無監督學習的方法,且能最大化利用已知網絡結構數據,但是,這個算法實際上只提取了網絡結構中的信息,卻能在節點排序、節點分類的問題上取得很好的結果,說明實際上網絡結構本身就包含了大量信息,節點之間的連邊模式包含了不同節點本身的特徵,即網絡結構是對網絡節點信息的提取,這使得我們可以通過對網絡結構進行逆向工程從而還原出網絡節點的特徵。
圖16:用DeepLinker進行節點分類
最後,除了GAT之外,門控注意力網絡(GaAN)也使用多頭注意力機制。GaAN中的注意力聚合器與GAT中的注意力聚合器的區別在於,GaAN使用鍵值注意力和點積注意力,而GAT使用全連接層來計算注意力係數。此外,GaAN通過計算其他soft gate為不同的注意力頭分配不同的權重。該聚合器稱為門控注意聚合器。即GaAN使用卷積網絡,該卷積網絡具有中心節點的特徵,並且與之相鄰以生成門值。
GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs
圖網絡主要處理的是在時間上離散的模型,而複雜系統的很多行為、變化卻是連續發生的。神經常微分網絡(Neural ODE)便是一種能夠對連續時間進行自動建模的模型。我們認為,神經常微分網絡與傳統深度神經網絡相比,其最大的貢獻在於進一步加深了網絡的深度,同時可以與歸一化流(normalizing flows)在連續域的拓展相緊密結合,實現原則上無限深度的生成模型。另外,就是NeuralODE開闢了連續動力系統自動數據驅動建模的新領域。
以往的算法直接學習的對象是函數ƒ(x),而2015年出現的殘差網絡ResNet則是對每層的輸入進行reference,學習殘差函數ƒ(x)-x,這種殘差函數更接近學習目標從而更加容易優化且加深了網絡層數。類似於RNN的模型往往較難處理趨勢,但擅長處理漲落(fluctuation),所以殘差網絡可以提升模型性能。而殘差網絡的迭代更新可以看做連續變化的歐拉離散化,當我們不斷縮短變化的區間,在極限情況下,便成為了一個常微分方程,於是我們可以使用神經網絡指定的常微分方程(ODE)來參數化隱藏單元的連續動態,並通過求解常微分方程來完成模型訓練。
圖17:從ResNet到Neural ODE
數值求解ODE通常通過積分來完成,在這個模型裡,使用的是用 Pontryagin 的「伴隨法」計算 ODE 梯度的替代方法。該方法通過求解第二個時間向後增加的 ODE,可以與所有的 ODE 積分器一起使用,並且佔用較小的內存。最後,整個梯度計算算法如下:
圖18:用「伴隨法」計算模式求解器的梯度
由此,模型通過求解一組常微分方程,實現了對相當於無限層的整個神經網絡的訓練,並且,在取消分層概念後,可以自動採樣插值從而使得整個函數連續化,從而取得一個很好的效果。
顯然,Neural ODE提供了一種新的自動建模理解方式,即它把一個機器學習的問題轉化為了一個最優控制的問題,這個視角使得我們可以將控制論的很多東西遷移嫁接到AI自動建模裡。即任何一個動力學預測都可以轉化成對一個目標函數的優化。
Neural ODE 論文:https://arxiv.org/pdf/1806.07366.pdfautograd:https://github.com/HIPS/autograd/blob/master/autograd/scipy/integrate.py
而在這篇論文之後,很多人開始用物理相關理論遷移到神經網絡從而提供一種不一樣的方法來對動力學系統進行學習。比如哈密頓神經網絡,即用哈密頓方程對動力學進行描述,這裡的關鍵在於,對於物理系統特別是能量守恆的系統,可以通過求解哈密頓方程來給出系統演化的動力學方程,即只要知道如何構造哈密頓函數,便可以求解系統演化。
而這種模型是可以推廣到一切帶有守恆量的系統的。然而在面對時間序列數據時,我們可能並不知道是否存在守恆量,也無法得知守恆量的形式,但是我們可以通過神經網絡對其進行學習,從而找到系統的動力學模型,並找到守恆量。這裡面有一個關鍵技術問題通過pytorch包中的grad包可以進行高階求導。類似的還有拉格朗日神經網絡等等。
圖19:哈密頓神經網絡
圖20:拉格朗日神經網絡
基於圖網絡的自動模型需要將圖結構作為數據進行輸入,但是在很多實際問題中,特別對對,我們無法預先獲取準確的圖結構數據,也不清楚系統中的相互作用結構,能夠收集的往往只有關於整個系統的觀測數據、時間序列數據。在這種情況下,我們需要一種能夠運用觀測數據從而對整個圖的結構進行學習建模的算法。由於整個複雜系統是一個動力體系,它的圖結構中的連邊可以看做由因果關係(causal relation)轉化而來,所以我們對圖結構的學習重構也是對整個複雜系統內部的因果關係進行學習發現。
圖21:圖結構中蘊含因果信息
目前,已經有一些工作可以實現對圖結構中的因果信息進行學習挖掘。比如有人認為GAT中的Attention本身,就是一種圖結構。對於一類具有加權有向連邊的圖,以交通流預測為例,我們可以將多個地點的交通流轉化時空上的多層網絡,其中每一時刻為一層網絡,不同流量探測器或是路段之間相互連接形成交通網絡;不同時間步對應不同的層。其中模型最終學習到的空間上的注意力就是每個節點-鄰居對的權重分配計算,時間上的注意力就是每個時刻與歷史時刻的權重分配計算,兩種機制共同幫助模型學習出連邊權重,而這種情況下學習出的連邊往往也具有方向。
圖22:圖多重注意力網絡
但是,很多網絡中的連邊卻是無權無向的,對於這種情況,一種開創性的方法是由GCN作者Kipf提出的神經關係推斷(NRI)模型,即通過將圖神經網絡與基於圖連邊類型的概率潛變量模型結合起來。首先,我們將系統歷史時間序列數據輸入模型,接下來將一個全連接的圖網絡結構輸入編碼器(Encoder),通過對歷史數據的學習編碼出一套網絡結構,再將建構出來的圖結構輸入解碼器(Decoder),生成下一時刻的預測。整體來看,NRI通過編碼器-解碼器架構對系統動力學進行重構,而中間的潛變量就是圖網絡的結構。
圖23:神經關係推斷網絡原理
Kipf 使用 NRI 建模了相互作用的動力系統,如物理學中的多粒子系統,取得了很好的結果。但這個模型只能作用於5-10個節點,最多不超過30個節點的系統建模。而這一限制是由於編碼器中需要使用一個具有全連接結構的圖網絡進行運算,所以一旦節點數量上升,這套模型的算力需求就會極速上升,最終導致模型無法運行。
NRI模型複雜度高,只能用於小規模網絡,我們(張江老師科研組)在NRI的基礎上,提出了一種更輕便、效率更高、可用於大規模網絡(100個節點左右)的網絡重構方法(Gumbel Graph Network,GGN)。這裡面的關鍵在於我們大大簡化了NRI架構,將基於圖網絡的網絡構造過程替代為一個輕量的鄰接矩陣生成器。這大大簡化了計算,還能夠將網絡重構規模擴充到數千個節點。網絡生成器的關鍵是利用一種被稱為gumbel softmax sampling的機制,將NRI中的編碼器及其要求輸入的全連接網絡轉換為一種基於Gumbel softmax技術的網路生成器和它生成的一個獨立網絡,這樣能極大降低運算量,並且取得一個很好的結果。
圖24:gumbel softmax sampling原理
A general deep learning framework for network reconstruction and dynamics learningZhang Zhang, Yi Zhao, Jing Liu.et al.(2019)
而我們最新的進展則是對上面的方法進一步進行性能提升,實現對1000個節點以上乃至於2000個節點的網絡重構,而只要時間足夠長,這一算法可以實現對較複雜網絡的更高精度重構。這裡面的關鍵在於引入類似于格蘭傑因果檢驗(Granger Causality)的方法,雖然格蘭傑因果檢驗並沒有上升到因果階梯中的幹預和反事實,但從預測角度理解,它正好對應我們連邊重構過程中的思想,即如果引入一個新變量可以提高我們預測的準確度,那麼我們便把這個新變量作為一個格蘭傑因納入模型。
圖25:格蘭傑因果神經網絡的原理
當然,在格蘭傑因果檢驗中,我們直接假設因果之間符合一種線性的函數關係,但實際上複雜系統中的非線性卻是無處不在的,所以我們通過神經網絡特別是圖神經網絡便可以有效加強它的擬合能力,從而更加準確的實現對任意非線性動力學的因果聯繫以及動力學過程的重構和發現。這裡面的一個關鍵便在於將圖網絡重構機制理解為一個Node sharing的神經網絡,即類比於CNN,圖網絡中的kernel就是這個Node sharing結構。
圖26:格蘭傑因果圖網絡模型框架,我們最近將這一架構成功用於基因網絡的重構:https://www.biorxiv.org/content/10.1101/842369v1.full.pdf
Neural Gene Network Constructor: A Neural Based Model for
Reconstructing Gene Regulatory Network
另外,利用自注意力機制,我們也可以用於提煉動態的圖結構。例如,下面這篇文章就將Transformer模型(自注意力機制)用到了各種具有動態交互圖的複雜系統之中,包括鳥群Boid模型、元胞自動機的自動建模等。
圖27:以鳥為例給出的模型結構
圖28:模型自發學習到的視野半徑
Towards Automated Statistical Physics : Data-driven Modeling of Complex Systems with Deep LearningSeungwoong Ha,Hawoong Jeong(2020)動態圖神經網絡的基礎和進展
目前,階段4看似給我們提供了一種學習圖結構和因果關係的方法,但這種結構還不能嚴格等同於因果,真正進行因果推斷和因果發現,我們需要上升到幹預甚至是反事實的階梯。
圖29:因果階梯
在這方面,李飛飛團隊有一項工作是通過AI算法幹預虛擬世界或者現實世界來幫助我們攀登因果之梯。在一個虛擬世界裡,我們的算法不僅能夠觀測其中物體的運動,同時它還可以對物體的運動實施幹預,比如改變一些運動狀態,碰撞其中的物體等。這便更加類似於科學家探索世界時的方式了,科學家們不僅僅觀察這個世界,還會嘗試設計實驗以驗證自己的猜想。
整個過程需要通過兩個網絡來完成,一個網絡與上述的動力學建模預測網絡一致,而第二個網絡的訓練目標則有兩個,目標1是使得殘差與上面網絡的殘差儘量保持一致,目標2是通過對虛擬世界行動、幹預使得預測誤差最大化。顯然,這種操作的目的就是找到算法中的反例,通過對反例的修正從而使得模型預測更加準確。這使得我們的虛擬世界實驗體系和AI形成了閉環體系,通過觀測擬合及幹預實驗使得準確率進一步提升。我們認識到,這一整個過程其實是一種強化學習,即讓AI自己提出來它要學習什麼,它要在哪些方面加大權重。
圖30:主動幹預的學習模型
Towards Curiosity-Driven Learning of Physical DynamicsMichael John Lingelbach,Damian Mrowca,Nick Haber.et al.
主動幹預的學習模型為我們未來的人機互動提供了一個有益的方向:在一些情況下,由AI直接提出,如果要優化模型,它需要我們做什麼,它需要哪些方面的數據;由此我們針對AI的需求設計來相應的規則。
這種開放的互動將使得我們的複雜系統自動建模得以登上新的臺階。同時, 還有文章聲稱,可以利用深度學習方法攀爬第三層階梯,儘管是否符合真正的反事實推理還需要進一步確認:
Deep Structural Causal Models for Tractable Counterfactual InferenceNick Pawlowski, Daniel C. Castro, Ben GlckerarXiv(2020)
最後,當我們學習到了基本模型之後,還可以對系統實施控制。下面這篇文章就以模擬的智能交通系統為平臺,討論了自動學習以對系統動態控制。
Flow: A Modular Learning Framework for Autonomy in TrafficCathy Wu,Aboudy Kreidieh,Kanaad Parvate.et al.arXiv(29)
總結來看,複雜系統的自動建模已經取得了豐碩的成績。相比於傳統的人工模型,自動建模的優勢在於:
當然相比於經典模型,它還處於剛起步的階段,現在尚沒有對如下問題進行充分討論:
圖31:Yann LeCun在ACM FCRC 2019的演講《深度學習革命:續集》
顯然,上面這些問題指向了複雜系統的基本理論和AI的基本理論。
AI探索複雜系統的未來
進入AI自動建模的第五階段,我們認識到因果關係是必須面對的問題,它也是複雜系統科學發現的核心,當我們能夠利用AI發現複雜系統中的因果關係時,便獲得了一種強大的系統泛化能力,這也正是我們可以根據物理定律來理解分析世界,甚至預測一些不可能發生的事情,比如各種經典的思想實驗。
在這方面,圖靈獎獲得者Yoshua Bengio認為我們有必要參考人類的認知系統,因為人類是能夠以某種高效方式重用已擁有的知識,而當前的機器學習並不擅長知識重組。機器學習擅長的是將知識模塊化為可重用的片段。其中,人類的認知系統包含兩個子系統:系統1和系統2。系統1是直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;系統2是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要著重考慮的。
Judea Pearl認為一個足夠強大的、準確的因果模型可以讓我們利用第一層級(關聯)的數據來回答第二層級(幹預)的問題。沒有因果模型,我們就不能從第一層級登上第二層級。這就是深度學習系統(只要它們只使用了第一層級的數據而沒有利用因果模型)永遠無法回答幹預問題的原因,幹預行動據其本意就是要打破機器訓練的環境規則。這些都是未來深度學習需要著重考慮的。
要理解AI探索複雜系統的未來,我們首先要明確作為核心評價之一的利用AI進行預測到底意味著什麼。預測是智能的不可或缺的組成部分,當實際情況和預測出現差異時,實際上就是學習的過程。然而,這個世界並不全是可預測的。同時,對於視頻預測任務,結果可能是多重的,而訓練系統做出唯一一種預測的結果往往會得到唯一「模糊」的結果,即所有未來結果的「平均」。這顯然不是理想的預測。
另外,在很多模型中,我們需要利用隱變量來處理不確定性,訓練樣本只是整個可能的輸出集合的表示。最後,我們如何判斷預測是否正確? 第一個驗證方法就是和目標是否一致,另一個是求得最優。這兩個場景往往對應著兩條曲線,一條更精確,還有一條則敏感度更高,顯然這不一定是一件事情。比如假定有一個模型,模擬出有哮喘的肺炎患者,死於肺炎的可能性較小。很明顯,如果有哮喘應該死亡率高,為什麼反而低了?這可能是因為有哮喘很快就會受到正常的照顧,反而容易生存。
所以,數據不足將導致大部分的AI重構的模型是難以驗證的。這正好應對了Judea Pearl提出的因果科學,首先,有些問題是無法回答的,同時可以回答的問題需要特定的數據,哪怕我們通過一套基於數學體系的因果運算使得我們可以通過不進行幹預而得到正確的答案,這同樣需要我們能夠採集其中的關鍵數據。
圖32:Pearl的因果推斷引擎
不論是運用數據描述或幹預社會和人的行為,還是運用各種可穿戴設備採集與分析數據, 進而分析指導他人或自己的生活,都預示著計算社會或社會計算的來臨。自然,我們可以利用AI來探索社會,進一步發展計算社會科學。2009年2月6日,David Lazer、Alex Pentland為首的15位學者在Science上發表題為「計算社會科學」的觀點文章,標誌著這一交叉領域的誕生。時隔十年,今年8月28日,David Lazer、Alex Pentland,、Duncan Watts領銜的15位學者在Science的政策論壇專欄發表文章,反思計算社會科學領域研究的不足。
Science最新綜述:計算社會科學十年,反思與展望
實際上,17世紀和18世紀被稱為「政治算術」便是計算社會科學的一個雛形,在當時,政治算術旨在用數量分析的方法研究社會經濟,1798年,人口學家馬爾薩斯出版了《人口原理》第1版,該書強調了人口控制的必要性,但因為沒有數據支撐而引起了激烈的爭論,也促使英國政府於1801年開展了首次人口普查。有了數據的支持,該書於1803年出版的第2版論證更加詳實,一時洛陽紙貴。
在20世紀晚期,人們已經嘗試對各種社會現象進行建模,如研究集體選擇和偏好加總的社會選擇理論 (Social Choice Theory) 通過構建數理模型,研究制度如何將個人偏好加總為集體的選擇。而布萊恩·阿瑟(Brain Arthur)的好友肯尼斯·阿羅 (Kenneth Arrow)1951 年的博士學位論文《社會選擇與個人價值》提出「不可能性定理」 (Impossibility Theorem) 證明,試圖找出一套不存在投票悖論的規則,一般是辦不到的。即不存在同時滿足下列條件的社會選擇規則:
限於篇幅,在這裡我們不深入的描述一些計算社會科學的相關研究,但AI顯然能夠幫助我們嘗試重構一些社會系統,描述互動規則,預測某些社會現象和行動(社會運行具有不完全重複性,預測有可能會產生「俄狄浦斯效應」,所以準確預測並不是最重要的目標),更為重要的是,AI自動建模這種方法為我們提供了一種自動學習社會機制、社會制度設計的可能,未來,我們的一些政策、法律、合同、合約、各種制度可能會在AI自動建模的幫助下得以設計和優化,從而更好的達到我們期待的效果。
講者: @張江
整理:黃華津
編輯:鄧一雪