業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究

2021-01-11 機器之心Pro

選自Google Research Blog作者:George Dahl機器之心編譯參與:吳攀

理論上講,由原子構成的分子種類的數量是無窮大的。要了解這些分子的性質,化學家往往要進行很多嚴格的實驗,隨著新分子的不斷出現,這樣的工作也是無窮無盡的。為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。

機器學習(ML)近來已經在化學領域實現了很多激動人心的應用,尤其是在化學搜索問題上——從藥物發現和電池設計到尋找更好的 OLED 和催化劑。歷史上,化學家曾經在這些化學搜索中使用過薛丁格方程的數值近似方法,比如密度泛函理論(DFT)。但是,這些近似方法的計算成本限制了搜索的規模。為了實現更大規模的搜索,一些研究組已經使用由 DFT 所生成的訓練數據創造了可用於預測化學性質的機器學習模型(如 Rupp et al. 和 Behler and Parrinello)。在這些之前的成果的基礎上,我們將多種現代機器學習方法應用到了 QM9 基準上。QM9 基準是一個公開的分子集合,其中的分子都配對了相應的 DFT 計算出的電子、熱力學和振動性質。

我們最近發表了兩篇介紹我們在這一領域的相關研究的論文,這些成果來自於谷歌大腦團隊、Google Accelerated Science 團隊、DeepMind 和巴塞爾大學之間的合作。

第一篇論文《電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)》包含了一種新的分子特徵化方法,並在 QM9 基準上對多種機器學習方法進行了一次系統性評估。在這個基準上嘗試了許多機器學習方法之後,我們開始努力改進最有潛力的深度神經網絡。

由此我們得到了第二篇論文《用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)》,該論文描述了一大類被稱為「信息傳遞神經網絡(MPNN:Message Passing Neural Network)」的模型,其定義比較抽象,足以囊括許多之前的圖對稱性(graph symmetries)不變的神經網絡模型。我們在 MPNN 類別中開發了全新的變體,其在 QM9 基準上的表現極大地超越了所有基線方法,並在其中一些目標上實現了近 4 倍的提升。

從機器學習的角度看,分子數據非常有趣的一個原因是:一個分子的自然表徵就像是一個圖(graph),其中原子是節點(node)、鍵是邊(edge)。能夠利用數據中固有的對稱性的模型往往能更好地進行歸納——卷積神經網絡在圖像上的成功的部分原因是它們有能力整合我們關於圖像數據的不變性(比如,將一張狗的圖像轉移到左邊,仍然還是一張狗的圖像)的先驗知識。圖對稱性的不變性是計算圖數據的機器學習模型尤其期望的性質,在這一領域也有大量有趣的研究(如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。但是,儘管已經取得了這些進展,但仍然還有許多工作要做。我們希望為化學(和其它)應用找到這些模型的最好版本,並描繪本文獻中所提出的不同模型之間的聯繫。

我們的 MPNN 在 QM9 中的所有 13 種化學性質上都達到了當前最佳的預測表現。在這個特定的分子集合上,我們的模型能以對化學家足夠有用的準確度預測其中的 11 種性質,而其速度可以達到使用 DFT 模擬的 300,000 倍。但是,在化學家可以實際應用 MPNN 之前,還有很多工作要做。特別地,MPNN 必須被應用到比 QM9 遠遠更加多樣化的分子集合上(比如,更大的或帶有更多變的重原子集合)。當然,即使有更接近真實情況的訓練集,也仍然難以很好地泛化到非常不同的分子上。克服這兩個難題將涉及到機器學習領域的核心問題(比如泛化)上的進步。

預測分子的性質是一個尤其重要的問題,需要先進的機器學習技術,也為學習算法提出了有趣的基礎研究難題。最終,分子預測將助力新藥物和新材料的設計,從而造福人類。在谷歌,我們認為傳播我們的研究並幫助訓練新的機器學習研究者是很重要的。因此,我們很高興我們的 MPNN 論文的第一和第二作者都是來自 Google Brain Residency Program。

以下是對上述谷歌兩篇論文的摘要介紹:

論文一:電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)

地址:https://arxiv.org/abs/1702.05532

我們研究了回歸子(regressor)選擇和分子表徵對快速機器學習模型的影響——用於預測有機分子的 13 種電子基態性質。每種「回歸子/表徵/性質」的組合的表現是通過一種學習曲線來評估的,該學習曲線將近似誤差(approximation error)報告為一個關於訓練集大小的函數。其訓練和測試使用了在混合密度泛函理論(DFT)的理論水平上的分子結構和性質,數據來自 QM9 資料庫 [Ramakrishnan et al, Scientific Data 1 140022 (2014)];這些結構和性質包含偶極矩、極化率、HOMO/LUMO 能級和能隙、電子的空間範圍、零點振動能、原子化(atomization)的焓和自由能、熱容和最高基本振動頻率。文獻中已經出現了多種表徵方法(Coulomb 矩陣、鍵袋(bag of bonds)、BAML and ECFP4、分子圖譜 (MG)),以及新開發出的基於分布的變體,包括距離直方圖(HD)、角度(HDA/MARAD)和二面(dihedrals)(HDAD)。回歸子包含線性模型(貝葉斯脊回歸(BR)和帶有彈性網絡正則化(EN)的線性回歸)、隨機森林(RF)、核脊回歸(KRR)和兩種神經網絡——圖卷積(GC)和門控圖(GG)網絡。我們提供了數值證據表明機器學習模型對所有這些性質的預測可以在化學準確度上達到與 DFT 相當的近似誤差。這些發現表明,如果提供了明確的與電子相關的量子(或實驗)數據,那麼機器學習模型可以更加準確。

論文二:用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)

地址:https://arxiv.org/abs/1704.01212

在分子上的監督學習在化學、藥物發現和材料科學領域有非常大的應用潛力。幸運的是,研究文獻中已經描述了一些有希望的與分子對稱性不變性緊密相關的神經網絡模型。這些模型可以學習一個信息傳遞算法和聚合函數來計算它們整個輸入圖(input graph)的函數。到此,下一步就是找到這種通用方法的特別有效的變體並將其應用於化學預測基準,直到我們解決它們或達到這種方法的極限。在本論文中,我們將已有的模型重新形式化為了一個單一的共同框架,我們稱之為信息傳遞神經網絡(MPNN:Message Passing Neural Network),我們還在該框架內探索了其它全新的變體。使用 MPNN,我們在一個重要的分子性質預測基準上得到了當前最佳的結果;我們相信這個結果已經足夠好了,足以使該基準退休了。

圖 1:一個信息傳遞神經網絡(MPNN)通過建模高計算成本的 DFT 計算來預測一個有機分子的量子性質

原文連結:https://research.googleblog.com/2017/04/predicting-properties-of-molecules-with.html

相關焦點

  • 谷歌AI可準確預測化學分子性質
    新的化學分子預示著新的無限可能,因此尋找新分子一直是化學研究中令人激動的一環。在歷史上,化學家們往往使用薛丁格方程的數值近似來做計算化學上的研究,其中就包括了一種叫做「密度泛函理論」的量子力學方法。這種方法在化學上有重要價值——它能分析預測分子的性質,因此有著廣泛的應用價值。
  • 谷歌正訓練人工智慧預測分子氣味
    來源:獵雲網編譯:葉展盛一批人工智慧、生命科學和化學方面的專家正在通過圖神經網絡來識別分子、預測氣味。這批專家建立的模型性能已經超越了目前的所有方法,該模型誕生於DREAM嗅覺預測挑戰賽。這些研究員主要來自於谷歌、加拿大高等研究所、多倫多矢量人工智慧研究所、多倫多大學和亞利桑那州立大學。這些研究人員相信,隨著機器學習在分子識別領域應用水平的提高,機器智能將可以進行氣味識別,就像讓人工智慧模擬視覺、聽覺等其他感知能力。另外,研究人員還在嘗試讓機械臂獲得觸覺。
  • 圖神經網絡讓預估到達準確率提升50%,谷歌地圖實現新突破
    所以,預估到達時間(ETA)準確率成為非常實際的研究課題。近日,DeepMind 與谷歌地圖展開合作,利用圖神經網絡等 ML 技術,極大了提升了柏林、東京、雪梨等大城市的實時 ETA 準確率。很多人使用谷歌地圖(Google Maps)獲取精確的交通預測和預估到達時間(Estimated Time of Arrival,ETA)。
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 用神經網絡求解薛丁格方程,DeepMind開啟量子化學新道路
    選自i-programmer作者:Lucy Black機器之心編譯參與:熊貓、一鳴神經網絡因其強大的近似擬合能力,被廣泛應用在各種各樣的領域。現在,量子化學也在逐漸使用神經網絡進行相關的工作了。谷歌的 DeepMind 已經訓練出了一個能求解薛丁格方程的神經網絡。為什麼要計算薛丁格方程呢?這是因為求解薛丁格方程可以為化學反應提供線索。化學反應的結果基本上與電子以及它們環繞原子和分子的方式有關。而控制事物反應的能量以及電子在分子中的軌道的差異決定了化學物質的形狀,也由此決定了其性質。計算這一能量的方式就是求解薛丁格方程。
  • 機器學習新突破:谷歌研究人員利用AI自動重構大腦神經元
    >近日,谷歌與馬克斯·普朗克神經生物學研究所合作,在《Nature Methods》上發表了一篇重磅論文,使用一種循環神經網絡算法對神經元連接組進行自動重構,不僅可以對連接組進行高解析度的可視化成像,而且準確度提高了一個數量級,為連接組學的研究帶來了新的突破。
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    蛋白質結構是指蛋白質分子的空間結構。蛋白質主要由碳、氫、氧、氮等化學元素組成,是一類重要的生物大分子。 了解蛋白質結構在疾病診斷和治療中非常重要,它可以提高科學家對人體的認識,並有助於支持蛋白質設計和其它生物工程研究。
  • 將量子計算機當作神經網絡,首次模擬化學反應,谷歌新研究登上Science封面
    他們對兩個中等規模的化學問題進行了變分量子本徵求解器(VQE)模擬,分別求解了氫鏈的結合能(包括H6、H8、H10、H12)和二氮烯的異構化機制,相關研究論文《Hartree-Fock on a superconducting qubit quantum computer》刊登在Science封面上。
  • 大腦皮層神經網絡測量取得新突破
    德國馬普腦科學研究所的一項研究是繪製哺乳動物大腦的腦組織圖,記錄局部結締組織,並對其進行分析,以尋找之前學習過程的痕跡。研究成果發表在近期《科學》雜誌上。大腦研究到目前為止僅能檢查大腦網絡的一部分。「連接組學」這一新領域正致力於測量不同大腦區域和動物中更大的迴路。
  • MIT新突破:Nature Photonics揭秘新型光學深度神經網絡系統
    作者:David Chandler機器之心編譯參與:吳攀、黃小天、蔣思源儘管科學家和研究者一直在探索新型的計算形式,但目前電子計算仍然是絕對的主流。隨著以深度學習為代表的人工智慧技術的興起,人們也開始關注如何開發出能更有效、更高速地執行神經網絡運算的計算硬體。
  • JMC | 藥物化學中的分子表徵學習
    研究者討論了分子深度學習領域的積極研究將如何解決當前描述符和指紋的局限性,同時在化學信息學和虛擬篩選領域創造新的機遇。2. 研究者簡要概述了表徵在化學信息學中的作用,以及深度學習中的關鍵概念,並認為學習表徵提供了一種改進小分子生物活性和性質預測建模的新方法。背景介紹為什麼表徵重要?
  • JMC|賽諾菲研究基於AI的分子從頭設計
    本文介紹了基於強化學習來進行化學空間的探索的方案;同時,也對相關的評分方法進行了研究;最後,在對典型藥物研發項目的回顧性研究中,作者研究了如何生成項目進展所需的相關分子,以及如何定製方案以滿足分子合成和優化的相關需求。生成性神經網絡被訓練以用於從頭設計具有指定屬性的化合物。訓練過程主要包括兩個步驟。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來|Nature...
    比如,應用量子力學的基本原理和方法研究化學問題已形成一門『量子化學』基礎學科,其研究範圍包括分子的結構、分子結構與性能之間的關係;分子與分子之間的相互碰撞、相互作用等。也就是說,在量子化學中,通過求解薛丁格方程可以用來預測出分子的化學和物理性質。波函數( Wave Function)是求解薛丁格方程的關鍵。
  • 用深度神經網絡求解「薛丁格方程」,AI開啟量子化學新未來|Nature...
    比如,應用量子力學的基本原理和方法研究化學問題已形成一門『量子化學』基礎學科,其研究範圍包括分子的結構、分子結構與性能之間的關係;分子與分子之間的相互碰撞、相互作用等。也就是說,在量子化學中,通過求解薛丁格方程可以用來預測出分子的化學和物理性質。波函數( Wave Function)是求解薛丁格方程的關鍵。
  • 人工智慧是怎樣預測分子的氣味的
    打開APP 人工智慧是怎樣預測分子的氣味的 站長之家 發表於 2019-10-25 15:51:28 據TNW報導,谷歌的研究人員正試圖開發一種神經網絡,幫助人工智慧識別分子的氣味特徵。 谷歌認為,識彆氣味是一個多標籤分類問題,這意味著一種物質可以有多種氣味特徵。因此,為了識別分子的氣味特徵,研究人員使用了圖形神經網絡(GNNs),這是一種以圖形為輸入的深度學習模型。該團隊在香水專家的幫助下,製作了氣味標籤,可以用來識別分子的嗅覺特性。
  • 用深度神經網絡求解「薛丁格方程」,AI開啟量子化學新未來|Nature子刊
    該研究團隊的負責人弗蘭克·諾(FrankNoé)教授自信地表示:「相信我們提出的神經網絡計算方法可以極大地影響量子化學的未來。」他們將這種神經網絡命名為—PauliNet.在介紹它之前,我們先來簡單了解下薛丁格方程。什麼是薛丁格方程?
  • 用人工智慧預測有機化學反應——來自翻譯神經網絡的啟發
    通過將原子當作字母,分子當作單詞,IBM的人工智慧軟體正在借用機器原先翻譯語言的方法,來預測有機化學反應的產物,這可能會加快新藥開發的速度。」新的AI程序是一個人工神經網絡,在這個網絡中,數據被輸入至稱為「神經元」的組件上,這些組件再通過合作來解決問題,例如翻譯一句話。
  • 谷歌(GOOGL.US)AlphaFold點評:生命科學與人工智慧持續交叉,有望...
    行業近況11月30日,谷歌旗下人工智慧技術公司DeepMind宣布其開發的深度學習算法AlphaFold,在生物學領域重要的「蛋白質摺疊問題」上實現突破,其算法的預測精度首次達到了與人類實驗相當的準確率水平。
  • 前沿播報 | 新全光二極體、新型自旋閥結構、新型高效節能深度學習神經網絡、「神經網絡核磁共振成像」…
    新二極體能被用於微型光子電路中,有望為微納光子學晶片提供廉價高效的光二極體,從而對光子晶片和光子通信等領域產生重要影響。新二極體僅能在一個方向上傳輸光,且可集成到微納光子電路中,因此,克服了二極體需要大塊磁光晶體這一限制。
  • 「谷歌」一下癌症診斷新利器,AI顯微鏡開掛,AR瞬間識別癌細胞
    谷歌與Verily發布新研究,可通過視網膜圖像用AI檢測心臟病2017年,谷歌和其母公司Alphabet 旗下的生命科學公司Verily展示了一種能在視網膜圖像中發現心臟病風險的新研究。 這種方法對身體的侵入性較小、獲取容易,並且還能用 AI 快速分析結果。