普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙

2021-01-08 機器之心Pro

選自arXiv

作者:Miles Cranmer等

機器之心編譯

參與:杜偉、小舟、魔王

簡單的符號表達式能夠有效地建模世界。符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。

如何將深度模型轉換為符號方程?

來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。

符號模型是自然科學的語言。與深度模型不同,符號模型是緊湊的、可解釋的,同時具備良好的泛化能力。簡單的符號表達式卻是建模世界獨一無二的強大方式。1960 年,物理學家尤金 · 維格納(Eugene Paul Wigner)在《數學在自然科學中不合理的有效性》中就表達了他對數學描述物理世界的卓越能力的驚訝。

在機器學習領域,人們通過遺傳算法學習符號模型。這種方法無法針對輸入特徵的數量進行很好地縮放。但深度神經網絡可以高效學習高維空間中的模式。那麼,問題來了,我們可以兼二者之所長嗎?

來自普林斯頓大學和 DeepMind 等機構的研究者提出了一種通用方法,通過引入強歸納偏置來提取深度模型的符號表示。

該方法的工作原理是:首先在監督設置下訓練 GNN,同時鼓勵稀疏潛在表示,然後對學得模型的組件應用符號回歸,從而提取顯式物理關係。

該研究發現,這一方法可以從神經網絡中提取正確的已知公式,包括力學定律和哈密頓動力學。此外,研究者還將該方法應用於宇宙學示例,即暗物質模擬中,並發現了一個新的解析公式。該公式可以基於鄰近宇宙結構的質量分布預測暗物質的濃度。

此外,相比 GNN 本身,使用該方法從 GNN 提取的符號表達式能夠更好地泛化至分布外(out-of-distribution)數據。該方法為解釋神經網絡,以及基於神經網絡學得的表示發現新的物理學原理提供了新的方向。

接下來,我們來看研究人員提出該方法的動機,以及具體方法和實驗細節。

研究動機

我們都知道,科學自動化的前提是實現知識發現的自動化。但是,該過程中會出現很多問題,比如機器學習模型何時成為知識?為什麼麥克斯韋方程組被認為是科學事實,而深度學習模型卻只是數據插值呢?舉例來說,深度學習的確無法具備符號物理模型那麼好的泛化性。然而,到底是什麼使簡單的符號模型具備描述世界的強大性能呢?

從純粹的機器學習角度來看,符號模型有其自身的優勢,比如模型緊湊、具備顯式可解釋性,以及泛化性優異。「符號回歸」(Symbolic regression)正是用於此類符號模型的機器學習算法,這種監督方法可以聚集多個解析函數來建模數據集。

但是,機器學習領域通常使用遺傳算法來學習符號模型,遺傳算法本質上類似於 Schmidt & Lipson (2009) 提出的強力程序(brute force procedure),但它無法針對輸入特徵的數量進行很好地縮放。因此,很多機器學習問題,尤其是高維機器學習問題很難通過傳統的符號回歸進行表示。

使用遺傳算法的符號回歸示例。算子和變量組成的二叉樹表示方程,突變和交叉持續迭代並組成最佳模型。

另一方面,深度學習被證明在高維空間的學習中非常高效,但泛化性和可解釋性卻很差。那麼,有沒有什麼方法可以將傳統符號回歸和深度學習的優勢結合起來呢?該研究給出了答案。

符號回歸 + 深度學習,如何實現?

這項研究採用的策略是:深度模型不僅可以預測目標,還能夠將這些目標分解為低維空間中運行的較小內部函數;然後,符號回歸利用解析表達式來近似深度模型的每個內部函數;最後,將提取到的符號表達式組合在一起,得到一個等價的解析模型。

具體步驟如下所示:

設計一個深度學習模型,它具有可分離的內部結構和由問題引發的歸納偏置;

使用可用數據對模型進行端到端訓練;

在訓練過程中,鼓勵每個內部函數輸入或輸出中的潛在表示保持稀疏性;

用符號表達式擬合模型內部學得的不同函數;

以等價的符號表達式替換深度模型中的這些函數。

具體而言,在相互作用粒子案例中,研究者選擇了圖神經網絡架構,因為其內部結構可以分解為三個與粒子交互物理相對應的模函數(modular function)。其中 GNN 的「消息函數」相當於力,「節點更新函數」相當於牛頓運動定律。GNN 在多個基於物理學的應用中獲得成功。

下圖展示了該研究實驗中所使用的 GNN 內部結構:

需要注意的是:不同於牛頓力學,GNN 中的消息形成高維潛在向量,節點不用表示物理粒子,邊和節點模型可學習任意函數,並且輸出不必為更新後的狀態(updated state)。

最後,通過鼓勵 GNN 中的消息來增強稀疏性,該研究降低了每個函數的維數,使得符號回歸更易於提取表達式。

下圖展示了結合 GNN 和符號回歸提取分析表達式的過程:

實驗效果

牛頓動力學

研究者在具備已知力學定律的簡單多體(N-body)系統數據上訓練牛頓動力學圖網絡。然後通過消息函數 φ^e 學得的表示,運用該方法獲得已知的力學定律。

如下圖 4 所示,研究者採用的數據集包含不同交互作用定律下的二維和三維多體粒子模擬。模擬本身包含 4 或 8 個粒子的質量和電荷,並以位置、速度和加速度作為時間函數的參數。

在當前系統狀態下,研究者訓練模型來預測每個粒子的瞬時加速度。為了探究消息表示的大小在將消息解釋為力中的重要性,研究者使用 Standard、Bottleneck、L_1 和 KL 四種不同的策略來訓練圖網絡。

模型性能

為了評估學得的模型,研究者用不同的隨機種子生成了一個新的數據集。研究發現,使用 L_1 正則化的模型在大多數情況下具備最佳性能,如下表 3 所示:

表 3:不同模型在每個數據集上的預測損失。

解釋消息組件

作為解釋消息組件的首次嘗試,研究者採用了具備最大方差(或 KL 散度)的 D 消息特徵(D 是模擬的維數),並用每個特徵擬合真正分力的線性組合。

研究者發現在標準設置下訓練的圖網絡並沒有顯示出和分力的強相關性。

而有效消息大小被顯式(瓶頸)或隱式(KL 或 L_1)限制為低維的所有其他模型所得到的消息與真實的力具備強相關關係(表 1 指出了與真實力的擬合誤差),其中使用 L_1 正則化訓練的模型顯示出最強的相關性。

用符號回歸近似內部函數

該研究展示了如何使用符號回歸從消息中提取力學定律,且無需使用關於每種力的形式的先驗知識。

哈密頓動力學

基於牛頓動力學案例中的數據集,研究者使用哈密頓歸納偏置訓練了 FlatHGN,並展示了它可以為所有問題提取標量勢能,而不是力。

就性能結果而言,哈密頓模型在所有數據集上的表現都可以和 L_1 正則化模型媲美。

宇宙學中的暗物質暈

最後,研究者將該方法應用於現實問題:宇宙學中的暗物質暈。

在研究這個問題時,研究團隊採用的是來自 [40] 的開源多體暗物質模擬。研究者選擇了該數據集中的第零模擬,在最後一個時間步(current day Universe)該模擬包含 215,854 個暗物質暈。

下表 2 中「Best, with mass」行即為使用該研究方法提取的公式。研究者在沒有質量信息的情況下做了相同的分析,並發現了一個有趣的類似公式。相鄰兩者之間的相對速度可用於表示質量,如表 2 所示:

在該問題中,符號表達式的泛化性能要比原本的圖神經網絡好很多。這又反映了尤金 · 維格納(Eugene Wigner)的那句話:簡單的符號模型語言卻能夠深刻地描述宇宙。

論文地址:https://arxiv.org/pdf/2006.11287.pdf

博客地址:https://astroautomata.com/paper/symbolic-neural-nets/

GitHub 地址:https://github.com/MilesCranmer/symbolic_deep_learning

交互式 demo 地址:https://colab.research.google.com/github/MilesCranmer/symbolic_deep_learning/blob/master/GN_Demo_Colab.ipynb

相關焦點

  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。deep mind在此期間做了很多紮實的研究工作,本文將進行簡單的描述。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 既要深度學習又要符號化推理,DeepMind 新 JAIR 論文小試牛刀
    這兩種思維之間的區別讓 DeepMind 的研究人員們感到非常有趣,因為這兩種不同的思維剛好對應了兩種不同的機器學習方法,那就是深度學習和符號程序生成(symbolic program synthesis)。深度學習的核心是直覺式的認知思維,而符號程序生成關注的是概念式的、基於規則的思維。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    不過 Deep RL 需要大量的訓練數據,人們開始質疑深度強化學習過於依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。但在本文中,DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。
  • 深度牛頓!24歲博士小哥用圖神經網絡重新發現宇宙
    >深度學習模型取得了很大進展,但是依舊難以解釋。傳統的符號模型可以很好地解釋和泛化,但高維數據又不好處理,那二者能否優勢互補呢?近日,普林斯頓大學的博士Miles Cranmer發表了一篇論文,將符號模型和深度學習模型結合了起來,給天體物理學帶來了新的驚喜! 19歲時,Miles Cranmer讀了一篇物理學家李 · 斯莫林的採訪。
  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    ——根據研究人員的最新發現,神經網絡對數據的要求,居然比神經符號模型還要低!按照之前的常識,結合了算法和符號推理技術的神經符號模型(Neurosymbolic Models),會比神經網絡更適合於預測和解釋任務,此外,神經符號模型在反事實方面表現更好。 而Neural-Symbolic,本質上其實是將現代數學中的分析學和代數學結合的產物。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • 盤點金融領域裡常用的深度學習模型
    作者 | Sonam Srivastava ,譯者 | sambodhi ,編輯 | Vincent ,AI前線出品| ID:ai-front在今天我們發布的這篇文章中,作者 Sonam Srivastava 介紹了金融中的三種深度學習用例及這些模型優劣的證據。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    除了這些高層次的區別外,在模型架構上也存在很大不同。本論文主要按照這些方法的發展史和如何解決圖問題進行詳細綜述。本研究還分析了這些模型的區別,以及如何合成不同的架構。文章最後,簡單概述了這些方法的應用和潛在方向。圖 1:圖深度學習方法分類。表 1:圖深度學習方法的主要區別。表 2:常用符號表。
  • ​大牛的《深度學習》筆記,Deep Learning速成教程
    因此,「深度模型」是手段,「特徵學習」是目的。區別於傳統的淺層學習,深度學習的不同在於:1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節點;2)明確突出了特徵學習的重要性,也就是說,通過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。與人工規則構造特徵的方法相比,利用大數據來學習特徵,更能夠刻畫數據的豐富內在信息。
  • 新深度學習模型——少量人工神經元造就更高智能
    與之前的深度學習模型相比,該系統具有明顯的優勢:能更好地應對嘈雜輸入,而且其操作模式可以詳細解讀。與活體大腦相似,人工神經網絡也是由許多獨立的細胞組成的。當一個細胞處於活躍狀態時,會向其他細胞發送信號,下一個細胞會將接收到的所有信號進行綜合評估,以決定自身是否也需要被激活。
  • DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程...
    DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程模型 李倩 發表於 2018-07-09 09:04:12 函數逼近是機器學習中許多問題的核心,DeepMind的最新研究結合了神經網絡和隨機過程的優點
  • 深度學習在醫學影像中的研究進展及發展趨勢
    因此,如何利用深度學習技術從一幅或者多幅低解析度醫學圖像中獲得高解析度圖像成為當前主要研究熱點之一。隨著深度學習模型在自然圖像超解析度重建中的成功應用,採用深度學習模型進行醫學圖像超解析度重建的研究逐漸開展起來。然而,醫學圖像與自然圖像有本質的區別,其超解析度重建不僅需要在圖像切片平面上進行,還需要在切片之間進行,如圖2所示。
  • 一個簡單的深度學習模型,帶你深度了解背後原理
    全文共4431字,預計學習時長9分鐘深度學習是目前在實際數據科學應用中最流行的模型之一。從圖像到文本,再到語音/音樂等領域,它都是一個有效的模型。隨著使用量的上升,快速且可擴展地實現深度學習變得至關重要。Tensorflow等深度學習平臺的興起可以幫助簡化開發人員的實現方式。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究。近日,谷歌的 AI 部門 DeepMind 開發了一種叫做可微分神經計算機(DNC)的神經網絡模型,相關論文發表於 10 月 12 日在線出版的《自然》雜誌上,題為《 利用神經網絡與外部動態存儲器進行混合計算》。這種新模型將神經網絡與可讀寫的外部存儲器結合,既能像神經網絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統計算機一樣處理數據。
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀
    同時該模型採用的獨熱編碼(one-hot encoding)並不會提供任何符號間關係的信息,而採用 word2vec [12] 那樣的詞嵌入模型可能會有所好轉。因此將圖片轉換為 UI 代碼的工作仍處於研究之中,目前尚未投入實際使用。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    因此,科學家們開始利用AI技術開發深度學習算法,在基因組學數據的基礎上對蛋白質結構進行預測。在此基礎上,AlphaFold誕生了。和以往方法不一樣的是,AlphaFold並未使用已經明確結構的蛋白質3D模型作為模板,而是從頭開始探索預測方法。
  • 針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法
    【導讀】對於機器學習而言,獲取數據的成本有時會非常昂貴,因此為模型選擇一個合理的訓練數據規模,對於機器學習是至關重要的。在本文中,作者針對線性回歸模型和深度學習模型,分別介紹了確定訓練數據集規模的方法。