選自Google Research Blog作者:George Dahl機器之心編譯參與:吳攀
理論上講,由原子構成的分子種類的數量是無窮大的。要了解這些分子的性質,化學家往往要進行很多嚴格的實驗,隨著新分子的不斷出現,這樣的工作也是無窮無盡的。為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。
機器學習(ML)近來已經在化學領域實現了很多激動人心的應用,尤其是在化學搜索問題上——從藥物發現和電池設計到尋找更好的 OLED 和催化劑。歷史上,化學家曾經在這些化學搜索中使用過薛丁格方程的數值近似方法,比如密度泛函理論(DFT)。但是,這些近似方法的計算成本限制了搜索的規模。為了實現更大規模的搜索,一些研究組已經使用由 DFT 所生成的訓練數據創造了可用於預測化學性質的機器學習模型(如 Rupp et al. 和 Behler and Parrinello)。在這些之前的成果的基礎上,我們將多種現代機器學習方法應用到了 QM9 基準上。QM9 基準是一個公開的分子集合,其中的分子都配對了相應的 DFT 計算出的電子、熱力學和振動性質。
我們最近發表了兩篇介紹我們在這一領域的相關研究的論文,這些成果來自於谷歌大腦團隊、Google Accelerated Science 團隊、DeepMind 和巴塞爾大學之間的合作。
第一篇論文《電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)》包含了一種新的分子特徵化方法,並在 QM9 基準上對多種機器學習方法進行了一次系統性評估。在這個基準上嘗試了許多機器學習方法之後,我們開始努力改進最有潛力的深度神經網絡。
由此我們得到了第二篇論文《用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)》,該論文描述了一大類被稱為「信息傳遞神經網絡(MPNN:Message Passing Neural Network)」的模型,其定義比較抽象,足以囊括許多之前的圖對稱性(graph symmetries)不變的神經網絡模型。我們在 MPNN 類別中開發了全新的變體,其在 QM9 基準上的表現極大地超越了所有基線方法,並在其中一些目標上實現了近 4 倍的提升。
從機器學習的角度看,分子數據非常有趣的一個原因是:一個分子的自然表徵就像是一個圖(graph),其中原子是節點(node)、鍵是邊(edge)。能夠利用數據中固有的對稱性的模型往往能更好地進行歸納——卷積神經網絡在圖像上的成功的部分原因是它們有能力整合我們關於圖像數據的不變性(比如,將一張狗的圖像轉移到左邊,仍然還是一張狗的圖像)的先驗知識。圖對稱性的不變性是計算圖數據的機器學習模型尤其期望的性質,在這一領域也有大量有趣的研究(如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。但是,儘管已經取得了這些進展,但仍然還有許多工作要做。我們希望為化學(和其它)應用找到這些模型的最好版本,並描繪本文獻中所提出的不同模型之間的聯繫。
我們的 MPNN 在 QM9 中的所有 13 種化學性質上都達到了當前最佳的預測表現。在這個特定的分子集合上,我們的模型能以對化學家足夠有用的準確度預測其中的 11 種性質,而其速度可以達到使用 DFT 模擬的 300,000 倍。但是,在化學家可以實際應用 MPNN 之前,還有很多工作要做。特別地,MPNN 必須被應用到比 QM9 遠遠更加多樣化的分子集合上(比如,更大的或帶有更多變的重原子集合)。當然,即使有更接近真實情況的訓練集,也仍然難以很好地泛化到非常不同的分子上。克服這兩個難題將涉及到機器學習領域的核心問題(比如泛化)上的進步。
預測分子的性質是一個尤其重要的問題,需要先進的機器學習技術,也為學習算法提出了有趣的基礎研究難題。最終,分子預測將助力新藥物和新材料的設計,從而造福人類。在谷歌,我們認為傳播我們的研究並幫助訓練新的機器學習研究者是很重要的。因此,我們很高興我們的 MPNN 論文的第一和第二作者都是來自 Google Brain Residency Program。
以下是對上述谷歌兩篇論文的摘要介紹:
論文一:電子和能量性質的快速機器學習模型往往能達到優於 DFT 準確度的近似誤差(Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy)
地址:https://arxiv.org/abs/1702.05532
我們研究了回歸子(regressor)選擇和分子表徵對快速機器學習模型的影響——用於預測有機分子的 13 種電子基態性質。每種「回歸子/表徵/性質」的組合的表現是通過一種學習曲線來評估的,該學習曲線將近似誤差(approximation error)報告為一個關於訓練集大小的函數。其訓練和測試使用了在混合密度泛函理論(DFT)的理論水平上的分子結構和性質,數據來自 QM9 資料庫 [Ramakrishnan et al, Scientific Data 1 140022 (2014)];這些結構和性質包含偶極矩、極化率、HOMO/LUMO 能級和能隙、電子的空間範圍、零點振動能、原子化(atomization)的焓和自由能、熱容和最高基本振動頻率。文獻中已經出現了多種表徵方法(Coulomb 矩陣、鍵袋(bag of bonds)、BAML and ECFP4、分子圖譜 (MG)),以及新開發出的基於分布的變體,包括距離直方圖(HD)、角度(HDA/MARAD)和二面(dihedrals)(HDAD)。回歸子包含線性模型(貝葉斯脊回歸(BR)和帶有彈性網絡正則化(EN)的線性回歸)、隨機森林(RF)、核脊回歸(KRR)和兩種神經網絡——圖卷積(GC)和門控圖(GG)網絡。我們提供了數值證據表明機器學習模型對所有這些性質的預測可以在化學準確度上達到與 DFT 相當的近似誤差。這些發現表明,如果提供了明確的與電子相關的量子(或實驗)數據,那麼機器學習模型可以更加準確。
論文二:用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)
地址:https://arxiv.org/abs/1704.01212
在分子上的監督學習在化學、藥物發現和材料科學領域有非常大的應用潛力。幸運的是,研究文獻中已經描述了一些有希望的與分子對稱性不變性緊密相關的神經網絡模型。這些模型可以學習一個信息傳遞算法和聚合函數來計算它們整個輸入圖(input graph)的函數。到此,下一步就是找到這種通用方法的特別有效的變體並將其應用於化學預測基準,直到我們解決它們或達到這種方法的極限。在本論文中,我們將已有的模型重新形式化為了一個單一的共同框架,我們稱之為信息傳遞神經網絡(MPNN:Message Passing Neural Network),我們還在該框架內探索了其它全新的變體。使用 MPNN,我們在一個重要的分子性質預測基準上得到了當前最佳的結果;我們相信這個結果已經足夠好了,足以使該基準退休了。
圖 1:一個信息傳遞神經網絡(MPNN)通過建模高計算成本的 DFT 計算來預測一個有機分子的量子性質
原文連結:https://research.googleblog.com/2017/04/predicting-properties-of-molecules-with.html