業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究

2021-01-07 機器之心Pro

選自Google Research Blog作者:George Dahl機器之心編譯參與:吳攀

理論上講,由原子構成的分子種類的數量是無窮大的。要了解這些分子的性質,化學家往往要進行很多嚴格的實驗,隨著新分子的不斷出現,這樣的工作也是無窮無盡的。為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。

機器學習(ML)近來已經在化學領域實現了很多激動人心的應用,尤其是在化學搜索問題上——從藥物發現和電池設計到尋找更好的 OLED 和催化劑。歷史上,化學家曾經在這些化學搜索中使用過薛丁格方程的數值近似方法,比如密度泛函理論(DFT)。但是,這些近似方法的計算成本限制了搜索的規模。為了實現更大規模的搜索,一些研究組已經使用由 DFT 所生成的訓練數據創造了可用於預測化學性質的機器學習模型(如 Rupp et al. 和 Behler and Parrinello)。在這些之前的成果的基礎上,我們將多種現代機器學習方法應用到了 QM9 基準上。QM9 基準是一個公開的分子集合,其中的分子都配對了相應的 DFT 計算出的電子、熱力學和振動性質。

我們最近發表了兩篇介紹我們在這一領域的相關研究的論文,這些成果來自於谷歌大腦團隊、Google Accelerated Science 團隊、DeepMind 和巴塞爾大學之間的合作。

第一篇論文《電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)》包含了一種新的分子特徵化方法,並在 QM9 基準上對多種機器學習方法進行了一次系統性評估。在這個基準上嘗試了許多機器學習方法之後,我們開始努力改進最有潛力的深度神經網絡。

由此我們得到了第二篇論文《用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)》,該論文描述了一大類被稱為「信息傳遞神經網絡(MPNN:Message Passing Neural Network)」的模型,其定義比較抽象,足以囊括許多之前的圖對稱性(graph symmetries)不變的神經網絡模型。我們在 MPNN 類別中開發了全新的變體,其在 QM9 基準上的表現極大地超越了所有基線方法,並在其中一些目標上實現了近 4 倍的提升。

從機器學習的角度看,分子數據非常有趣的一個原因是:一個分子的自然表徵就像是一個圖(graph),其中原子是節點(node)、鍵是邊(edge)。能夠利用數據中固有的對稱性的模型往往能更好地進行歸納——卷積神經網絡在圖像上的成功的部分原因是它們有能力整合我們關於圖像數據的不變性(比如,將一張狗的圖像轉移到左邊,仍然還是一張狗的圖像)的先驗知識。圖對稱性的不變性是計算圖數據的機器學習模型尤其期望的性質,在這一領域也有大量有趣的研究(如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。但是,儘管已經取得了這些進展,但仍然還有許多工作要做。我們希望為化學(和其它)應用找到這些模型的最好版本,並描繪本文獻中所提出的不同模型之間的聯繫。

我們的 MPNN 在 QM9 中的所有 13 種化學性質上都達到了當前最佳的預測表現。在這個特定的分子集合上,我們的模型能以對化學家足夠有用的準確度預測其中的 11 種性質,而其速度可以達到使用 DFT 模擬的 300,000 倍。但是,在化學家可以實際應用 MPNN 之前,還有很多工作要做。特別地,MPNN 必須被應用到比 QM9 遠遠更加多樣化的分子集合上(比如,更大的或帶有更多變的重原子集合)。當然,即使有更接近真實情況的訓練集,也仍然難以很好地泛化到非常不同的分子上。克服這兩個難題將涉及到機器學習領域的核心問題(比如泛化)上的進步。

預測分子的性質是一個尤其重要的問題,需要先進的機器學習技術,也為學習算法提出了有趣的基礎研究難題。最終,分子預測將助力新藥物和新材料的設計,從而造福人類。在谷歌,我們認為傳播我們的研究並幫助訓練新的機器學習研究者是很重要的。因此,我們很高興我們的 MPNN 論文的第一和第二作者都是來自 Google Brain Residency Program。

以下是對上述谷歌兩篇論文的摘要介紹:

論文一:電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)

地址:https://arxiv.org/abs/1702.05532

我們研究了回歸子(regressor)選擇和分子表徵對快速機器學習模型的影響——用於預測有機分子的 13 種電子基態性質。每種「回歸子/表徵/性質」的組合的表現是通過一種學習曲線來評估的,該學習曲線將近似誤差(approximation error)報告為一個關於訓練集大小的函數。其訓練和測試使用了在混合密度泛函理論(DFT)的理論水平上的分子結構和性質,數據來自 QM9 資料庫 [Ramakrishnan et al, Scientific Data 1 140022 (2014)];這些結構和性質包含偶極矩、極化率、HOMO/LUMO 能級和能隙、電子的空間範圍、零點振動能、原子化(atomization)的焓和自由能、熱容和最高基本振動頻率。文獻中已經出現了多種表徵方法(Coulomb 矩陣、鍵袋(bag of bonds)、BAML and ECFP4、分子圖譜 (MG)),以及新開發出的基於分布的變體,包括距離直方圖(HD)、角度(HDA/MARAD)和二面(dihedrals)(HDAD)。回歸子包含線性模型(貝葉斯脊回歸(BR)和帶有彈性網絡正則化(EN)的線性回歸)、隨機森林(RF)、核脊回歸(KRR)和兩種神經網絡——圖卷積(GC)和門控圖(GG)網絡。我們提供了數值證據表明機器學習模型對所有這些性質的預測可以在化學準確度上達到與 DFT 相當的近似誤差。這些發現表明,如果提供了明確的與電子相關的量子(或實驗)數據,那麼機器學習模型可以更加準確。

論文二:用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)

地址:https://arxiv.org/abs/1704.01212

在分子上的監督學習在化學、藥物發現和材料科學領域有非常大的應用潛力。幸運的是,研究文獻中已經描述了一些有希望的與分子對稱性不變性緊密相關的神經網絡模型。這些模型可以學習一個信息傳遞算法和聚合函數來計算它們整個輸入圖(input graph)的函數。到此,下一步就是找到這種通用方法的特別有效的變體並將其應用於化學預測基準,直到我們解決它們或達到這種方法的極限。在本論文中,我們將已有的模型重新形式化為了一個單一的共同框架,我們稱之為信息傳遞神經網絡(MPNN:Message Passing Neural Network),我們還在該框架內探索了其它全新的變體。使用 MPNN,我們在一個重要的分子性質預測基準上得到了當前最佳的結果;我們相信這個結果已經足夠好了,足以使該基準退休了。

圖 1:一個信息傳遞神經網絡(MPNN)通過建模高計算成本的 DFT 計算來預測一個有機分子的量子性質

原文連結:https://research.googleblog.com/2017/04/predicting-properties-of-molecules-with.html

相關焦點

  • 用神經網絡求解薛丁格方程,DeepMind開啟量子化學新道路
    選自i-programmer作者:Lucy Black機器之心編譯參與:熊貓、一鳴神經網絡因其強大的近似擬合能力,被廣泛應用在各種各樣的領域。現在,量子化學也在逐漸使用神經網絡進行相關的工作了。谷歌的 DeepMind 已經訓練出了一個能求解薛丁格方程的神經網絡。為什麼要計算薛丁格方程呢?這是因為求解薛丁格方程可以為化學反應提供線索。化學反應的結果基本上與電子以及它們環繞原子和分子的方式有關。而控制事物反應的能量以及電子在分子中的軌道的差異決定了化學物質的形狀,也由此決定了其性質。計算這一能量的方式就是求解薛丁格方程。
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來|Nature...
    該研究團隊的負責人弗蘭克·諾(FrankNoé)教授自信地表示:「相信我們提出的神經網絡計算方法可以極大地影響量子化學的未來。」他們將這種神經網絡命名為—PauliNet.在介紹它之前,我們先來簡單了解下薛丁格方程。什麼是薛丁格方程?
  • 中國科大利用超冷原子分子量子模擬在化學物理研究中取得突破
    中國科學技術大學潘建偉、趙博等利用超冷原子分子量子模擬在化學物理研究中取得突破:他們通過對磁場的精確調控首次在實驗上觀測到超低溫度下基態分子與原子之間的散射共振,向基於超冷原子分子的超冷量子化學研究邁進了重要一步。1月18日,這一研究成果發表在國際學術期刊《科學》上。
  • 【VIP來稿】紐約大學Yingkai Zhang課題組JCTC論文:從分子能量預測到構象分析,看深度張量神經網絡和遷移學習大展身
    分子構象分析對於分子結構和性質關係的研究十分重要。
  • . | 用圖神經網絡預測均裂鍵能
    數據集及模型概況這篇文章的思路和Qu X的研究思路基本相同,主要在兩個方面加以改進:一是數據,計算了29w條鍵能數據;二是模型,使用了圖神經網絡。作者首先從IBOND資料庫裡收集了300多個均裂鍵能的實驗值,並在這些數據上測試了不同的基組,最後選擇了M062Xdef2-TZVP,並用該基組計算了4萬多個分子的能量及20多萬個片段的能量,組合得到了29萬條鍵能數據。這篇文章所使用的圖神經網絡模型是18年發表的一個GNN模型,是在MPNN的基礎上加上了邊的信息傳遞而建立的。
  • 超冷原子分子量子模擬在化學物理研究中取得實質性突破
    記者從中國科學技術大學獲悉,中國科學技術大學潘建偉、趙博等利用超冷原子分子量子模擬在化學物理研究中取得重大突破:他們通過對磁場的精確調控首次在實驗上觀測到超低溫度下基態分子與原子之間的散射共振,向基於超冷原子分子的超冷量子化學研究邁進了重要一步。
  • 用人工智慧預測有機化學反應——來自翻譯神經網絡的啟發
    通過將原子當作字母,分子當作單詞,IBM的人工智慧軟體正在借用機器原先翻譯語言的方法,來預測有機化學反應的產物,這可能會加快新藥開發的速度。」新的AI程序是一個人工神經網絡,在這個網絡中,數據被輸入至稱為「神經元」的組件上,這些組件再通過合作來解決問題,例如翻譯一句話。
  • 化學所在新型pi-分子材料的設計及應用研究中取得系列進展
    化學所在新型pi-分子材料的設計及應用研究中取得系列進展 2016-12-27 化學研究所 pi-分子材料並應用於太陽能電池、場效應電晶體和發光二極體等領域是有機光電子學的重要研究內容。
  • 將圖卷積神經網絡用於解碼分子生成
    由於分子本質上是組合在一起的,化學結構中的任何小擾動都可能導致所需分子性質的大變化。因此,這是一個極具挑戰性的數學和計算問題。此外,隨著原子和鍵的組合排列數量的不斷增加,有效分子的空間也越來越大。目前,大多數藥物都是經過化學和藥理學專家多年的反覆試驗而製作的。最近機器學習和深度學習的進展開闢了一個新的研究方向,有望學習這些分子空間來優化分子生成,減少實驗流程。
  • 深度學習可助力新型抗生素發現
    深度學習可助力新型抗生素發現 作者:小柯機器人 發布時間:2020/2/23 13:03:58 近日,美國麻省理工學院James J.
  • KDD20 | 圖神經網絡在生物醫藥領域的應用
    1 引言最近,越來越多的研究開始將深度學習方法應用到圖數據領域。圖神經網絡在數據具有明確關係的結構場景,如物理系統,分子結構和知識圖譜中有著廣泛的研究價值和應用前景,本文將介紹在KDD 2020上發表的兩個在這一場景下的最新工作。
  • 《AI+化學與製藥》論壇:有AI就不搬磚,化學逆合成也可以借鑑Alpha...
    在AI技術助力化學研究與新藥研發的進程下,化學科研仍需大量創新和跳躍性思維,為人工智慧提供創新策略,推進人工智慧系統不斷優化,後者再反過來推動化學研究人員進行更深入的研究。下面也提一下圖結構及圖神經網絡,也有不少工作。由於分子結構可以看成無向圖,所以利用圖神經網絡來學習,但是也要解決一些其中關鍵的問題。在實現分子結構的編碼及相關的性質/活性預測後,還需回答如何生成目標分子結構的問題。
  • 谷歌圖像識別神經網絡製造幻景
    今天36氪的一篇報導說:Faebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。 今後,我們在網絡上看到的圖片,哪些是人類的創造,哪些是機器的夢想?虛擬和現實之間,還會有明確的邊界麼?
  • AAAI2021 | 圖神經網絡研究進展解讀
    更加豐富的訓練策略:混合訓練/數據擴增/對比訓練更加多樣化的應用:推薦/藥物化學/物理系統/NLP/CV更加基礎的研究:表示能力/過平滑/傳播機制/災難性遺忘隨著GNN研究的深入,一些研究者不在僅僅關注於設計模型架構,而是試圖挖掘和解決GNN
  • Science封面:谷歌實現量子化學模擬,迄今為止全球首例!
    量子計算模擬化學反應值得一提的是,這已經是谷歌第二次因量子研究登上《自然》雜誌封面了。第一次是在去年10月,谷歌重磅發布量子優越性研究成果。在這篇的論文中,谷歌用54個量子比特的數組達到了量子優越性,並在200秒內完成了規定操作,與此相同的運算在當時世界最大的超算summit上也需要10000年才能完成。 可以說,此項研究在量子計算的歷史上將具有劃時代的意義。而在這項研究中發揮關鍵作用的Sycamore 處理器,也正是本次化學實驗中量子計算機所使用的處理器。
  • 百度飛槳PGL-UniMP刷新3項任務記錄 登頂圖神經網絡權威榜單OGB
    9月18日,百度正式公布在圖神經網絡領域取得新突破,提出融合標籤傳遞和圖神經網絡的統一模型UniMP(Unified Message Passing),在圖神經網絡權威榜單OGB(Open Graph Benchmark)取得多項榜首,引發業界關注。  Leaderboard for ogbn-products
  • 硬剛無限寬神經網絡後,谷歌大腦有了12個新發現
    那各位跑過最寬的神經網絡又有多寬呢?可能一層撐死有10個或20個神經元? 對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。 但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。作者聲稱,他們在該研究中解決了與無限寬神經網絡研究相關的各種開放性問題。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 谷歌DeepMind又在全球賽事中擊敗人類!AI成功預測蛋白質3D結構
    在 12 月 2 日坎昆舉行的會議上,組織者宣布,在第 13 屆全球蛋白質結構預測競賽(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智慧程序 AlphaFold 擊敗了所有人:成功預測生命基本分子——蛋白質的三維結構。