選自arXiv
作者:Miles Cranmer等
機器之心編譯
參與:杜偉、小舟、魔王
簡單的符號表達式能夠有效地建模世界。符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。
如何將深度模型轉換為符號方程?
來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
符號模型是自然科學的語言。與深度模型不同,符號模型是緊湊的、可解釋的,同時具備良好的泛化能力。簡單的符號表達式卻是建模世界獨一無二的強大方式。1960 年,物理學家尤金 · 維格納(Eugene Paul Wigner)在《數學在自然科學中不合理的有效性》中就表達了他對數學描述物理世界的卓越能力的驚訝。
在機器學習領域,人們通過遺傳算法學習符號模型。這種方法無法針對輸入特徵的數量進行很好地縮放。但深度神經網絡可以高效學習高維空間中的模式。那麼,問題來了,我們可以兼二者之所長嗎?
來自普林斯頓大學和 DeepMind 等機構的研究者提出了一種通用方法,通過引入強歸納偏置來提取深度模型的符號表示。
該方法的工作原理是:首先在監督設置下訓練 GNN,同時鼓勵稀疏潛在表示,然後對學得模型的組件應用符號回歸,從而提取顯式物理關係。
該研究發現,這一方法可以從神經網絡中提取正確的已知公式,包括力學定律和哈密頓動力學。此外,研究者還將該方法應用於宇宙學示例,即暗物質模擬中,並發現了一個新的解析公式。該公式可以基於鄰近宇宙結構的質量分布預測暗物質的濃度。
此外,相比 GNN 本身,使用該方法從 GNN 提取的符號表達式能夠更好地泛化至分布外(out-of-distribution)數據。該方法為解釋神經網絡,以及基於神經網絡學得的表示發現新的物理學原理提供了新的方向。
接下來,我們來看研究人員提出該方法的動機,以及具體方法和實驗細節。
研究動機
我們都知道,科學自動化的前提是實現知識發現的自動化。但是,該過程中會出現很多問題,比如機器學習模型何時成為知識?為什麼麥克斯韋方程組被認為是科學事實,而深度學習模型卻只是數據插值呢?舉例來說,深度學習的確無法具備符號物理模型那麼好的泛化性。然而,到底是什麼使簡單的符號模型具備描述世界的強大性能呢?
從純粹的機器學習角度來看,符號模型有其自身的優勢,比如模型緊湊、具備顯式可解釋性,以及泛化性優異。「符號回歸」(Symbolic regression)正是用於此類符號模型的機器學習算法,這種監督方法可以聚集多個解析函數來建模數據集。
但是,機器學習領域通常使用遺傳算法來學習符號模型,遺傳算法本質上類似於 Schmidt & Lipson (2009) 提出的強力程序(brute force procedure),但它無法針對輸入特徵的數量進行很好地縮放。因此,很多機器學習問題,尤其是高維機器學習問題很難通過傳統的符號回歸進行表示。
使用遺傳算法的符號回歸示例。算子和變量組成的二叉樹表示方程,突變和交叉持續迭代並組成最佳模型。
另一方面,深度學習被證明在高維空間的學習中非常高效,但泛化性和可解釋性卻很差。那麼,有沒有什麼方法可以將傳統符號回歸和深度學習的優勢結合起來呢?該研究給出了答案。
符號回歸 + 深度學習,如何實現?
這項研究採用的策略是:深度模型不僅可以預測目標,還能夠將這些目標分解為低維空間中運行的較小內部函數;然後,符號回歸利用解析表達式來近似深度模型的每個內部函數;最後,將提取到的符號表達式組合在一起,得到一個等價的解析模型。
具體步驟如下所示:
設計一個深度學習模型,它具有可分離的內部結構和由問題引發的歸納偏置;
使用可用數據對模型進行端到端訓練;
在訓練過程中,鼓勵每個內部函數輸入或輸出中的潛在表示保持稀疏性;
用符號表達式擬合模型內部學得的不同函數;
以等價的符號表達式替換深度模型中的這些函數。
具體而言,在相互作用粒子案例中,研究者選擇了圖神經網絡架構,因為其內部結構可以分解為三個與粒子交互物理相對應的模函數(modular function)。其中 GNN 的「消息函數」相當於力,「節點更新函數」相當於牛頓運動定律。GNN 在多個基於物理學的應用中獲得成功。
下圖展示了該研究實驗中所使用的 GNN 內部結構:
需要注意的是:不同於牛頓力學,GNN 中的消息形成高維潛在向量,節點不用表示物理粒子,邊和節點模型可學習任意函數,並且輸出不必為更新後的狀態(updated state)。
最後,通過鼓勵 GNN 中的消息來增強稀疏性,該研究降低了每個函數的維數,使得符號回歸更易於提取表達式。
下圖展示了結合 GNN 和符號回歸提取分析表達式的過程:
實驗效果
牛頓動力學
研究者在具備已知力學定律的簡單多體(N-body)系統數據上訓練牛頓動力學圖網絡。然後通過消息函數 φ^e 學得的表示,運用該方法獲得已知的力學定律。
如下圖 4 所示,研究者採用的數據集包含不同交互作用定律下的二維和三維多體粒子模擬。模擬本身包含 4 或 8 個粒子的質量和電荷,並以位置、速度和加速度作為時間函數的參數。
在當前系統狀態下,研究者訓練模型來預測每個粒子的瞬時加速度。為了探究消息表示的大小在將消息解釋為力中的重要性,研究者使用 Standard、Bottleneck、L_1 和 KL 四種不同的策略來訓練圖網絡。
模型性能
為了評估學得的模型,研究者用不同的隨機種子生成了一個新的數據集。研究發現,使用 L_1 正則化的模型在大多數情況下具備最佳性能,如下表 3 所示:
表 3:不同模型在每個數據集上的預測損失。
解釋消息組件
作為解釋消息組件的首次嘗試,研究者採用了具備最大方差(或 KL 散度)的 D 消息特徵(D 是模擬的維數),並用每個特徵擬合真正分力的線性組合。
研究者發現在標準設置下訓練的圖網絡並沒有顯示出和分力的強相關性。
而有效消息大小被顯式(瓶頸)或隱式(KL 或 L_1)限制為低維的所有其他模型所得到的消息與真實的力具備強相關關係(表 1 指出了與真實力的擬合誤差),其中使用 L_1 正則化訓練的模型顯示出最強的相關性。
用符號回歸近似內部函數
該研究展示了如何使用符號回歸從消息中提取力學定律,且無需使用關於每種力的形式的先驗知識。
哈密頓動力學
基於牛頓動力學案例中的數據集,研究者使用哈密頓歸納偏置訓練了 FlatHGN,並展示了它可以為所有問題提取標量勢能,而不是力。
就性能結果而言,哈密頓模型在所有數據集上的表現都可以和 L_1 正則化模型媲美。
宇宙學中的暗物質暈
最後,研究者將該方法應用於現實問題:宇宙學中的暗物質暈。
在研究這個問題時,研究團隊採用的是來自 [40] 的開源多體暗物質模擬。研究者選擇了該數據集中的第零模擬,在最後一個時間步(current day Universe)該模擬包含 215,854 個暗物質暈。
下表 2 中「Best, with mass」行即為使用該研究方法提取的公式。研究者在沒有質量信息的情況下做了相同的分析,並發現了一個有趣的類似公式。相鄰兩者之間的相對速度可用於表示質量,如表 2 所示:
在該問題中,符號表達式的泛化性能要比原本的圖神經網絡好很多。這又反映了尤金 · 維格納(Eugene Wigner)的那句話:簡單的符號模型語言卻能夠深刻地描述宇宙。
論文地址:https://arxiv.org/pdf/2006.11287.pdf
博客地址:https://astroautomata.com/paper/symbolic-neural-nets/
GitHub 地址:https://github.com/MilesCranmer/symbolic_deep_learning
交互式 demo 地址:https://colab.research.google.com/github/MilesCranmer/symbolic_deep_learning/blob/master/GN_Demo_Colab.ipynb