Nat. Commun. | 用圖神經網絡預測均裂鍵能

2021-02-08 人工智慧藥物設計

今天為大家介紹一篇圖神經網絡(GNN)預測均裂鍵能的文章:「Predictionof organichomolytic bond dissociation enthalpies at near chemical accuracy withsub-second computational cost」[1]。該文章於2020年5月發表在Nature Communications上。

化學反應過程是舊鍵的斷裂與新鍵的形成。舊鍵斷裂的方式可以分為均裂和異裂。均裂是指成鍵電子對均勻地分配到斷鍵後的兩個片段上去,形成兩個自由基,後續可以發生自由基反應;異裂是指成鍵電子對全部分配到其中一個片段上,形成正負離子,後續可以發生親電和親核反應。

均裂鍵能的實驗測量相當困難,實驗數據較少。基於DTF的量化方法計算均裂鍵能的準確度可以接近實驗水平,但非常耗時。這篇文章旨在利用GNN模型模擬量化計算的結果,以實現對均裂鍵能快速準確的預測。

 相關研究在這篇論文發表之前,QuX(2013)[2]已進行過相關研究。其工作利用量化軟體計算了12000多個均裂鍵能,同時用一些鍵描述符結合機器學習模型對均裂鍵能進行預測。在該工作中,機器學習模型的預測值和量化軟體計算值的MAE(mean absolute error)是3.4kcal。

圖1 相關工作研究流程

數據集及模型概況

這篇文章的思路和Qu X的研究思路基本相同,主要在兩個方面加以改進:一是數據,計算了29w條鍵能數據;二是模型,使用了圖神經網絡。

作者首先從IBOND資料庫裡收集了300多個均裂鍵能的實驗值,並在這些數據上測試了不同的基組,最後選擇了M062Xdef2-TZVP,並用該基組計算了4萬多個分子的能量及20多萬個片段的能量,組合得到了29萬條鍵能數據。這篇文章所使用的圖神經網絡模型是18年發表的一個GNN模型,是在MPNN的基礎上加上了邊的信息傳遞而建立的。

作者建模的時候用了一個小技巧,並不使用這個模型直接預測鍵能,而是先統計訓練集中每類鍵的平均鍵能(如C-C,C-O,O-N鍵)。然後,把模型的預測值再加上對應的鍵的平均鍵能,當作最後的輸出。

圖2 數據集構建與GNN模型結構

模型表現

該模型的預測值和量化軟體計算值的MAE只有0.58kcal,相比於之前QuX等研究人員建立模型的3.4kcal,雖然數據集不同,但也可以看出非常明顯的進步。此外還可以注意到模型在不同類型的鍵上的表現差異相對明顯。

圖3 GNN模型預測量化計算的均裂鍵能值的表現

作者進一步測試了GNN模型在預測實驗測得的鍵能時的表現,GNN模型的MAE為3.4Kcal,和一些表現較差的量化基組的表現相當。

圖4 GNN模型和量化軟體預測均裂鍵能的實驗值的表現

因為模型的訓練數據都是很小的分子(重原子數小於10),為了測試了模型在更大的體系上的表現。作者對比了GNN模型和量化軟體在亞麻酸甲酯的鍵能預測上的結果。MAE為0.97kcal。這說明在一個小分子量很小的數據集上訓練出來的AI模型,在更大分子上也是可以正常工作的。

作者進一步做了該模型在反應預測上的實際應用。對於P450酶,它的氧化降解位點和各個位點的C-H鍵的強度相關性較強,所以作者用預測的C-H的均裂鍵能來預測代謝反應發生的位點,發現ML模型和量化軟體的預測能力相差無幾。

圖6 GNN模型在P450酶的氧化降解位點預測中的應用

其它相關工作

最近,Wen M.(2020)[3]也建立了一個相似的模型BonDNet。不同於Nat. Commun.刊文的訓練數據只有中性分子的均裂鍵能;Wen M.所建立模型的訓練數據同時包括了中性分子和帶電離子的均裂鍵能和異裂鍵能,但作者並沒有公開數據集。此外,Roszak R.(2019)[4]還通過預測C-H鍵的pKa來預測攫氫反應。他利用圖卷積模型預測DMSO中C-H鍵pKa的MAE約等於2.1個pKa單位,低於常用的商業軟體Schrodinger的3.3個pKa單位。
總結與討論

這類研究通過預測化合物的量化性質,再進一步預測其進行特定化學反應的傾向性。不同的方法有不同的局限性,比如量化計算的缺點是可計算體系小,圖模型的缺點是雖然局部性質學習能力較強,但全局性質欠佳。對於化學反應建模,由於一些反應本就是由特定官能團局部的化學環境所控制的,量化計算和圖模型的缺點可在一定程度上被規避掉。

對於這篇文章的數據來源,該文作者是從PubChem中挑選一些分子,用來計算單鍵鍵能。但如果是為了反應預測,筆者認為算一些常用化學試劑的鍵能可能具有普適性及實際應用意義。

圖7 量化計算的目標的選擇

Reference

[1] St. John, P.C., Guan, Y., Kim, Y. et al. Prediction of organic homolytic bond dissociation enthalpies at near chemical accuracy with sub-second computational cost.                    Nat Commun 11, 2328 (2020). https://doi.org/10.1038/s41467-020-16201-z

[2]Qu X, Latino D A R S, Aires-de-Sousa J. A big dataapproach to the ultra-fast prediction of DFT-calculated bond energies[J].Journal of cheminformatics, 2013, 5(1): 34.

[3] Wen, M., Blau, S.M., Spotte-Smith, E.W.C.,Dwaraknath, S. and Persson, K.A., 2020. BonDNet: a graph neural network for theprediction of bond dissociation energies for charged molecules. ChemicalScience.

[4]Roszak, R., Beker, W., Molga, K. and Grzybowski, B.A.,2019. Rapid and Accurate Prediction of p K a Values of C–H Acids Using GraphConvolutional Neural Networks. Journal of the American Chemical Society,141(43), pp.17142-17149.

作者:熊嘉誠

責任編輯:張澤弘
學術顧問:鄭明月

相關焦點

  • 從圖網絡表示到圖神經網絡
    而在更一般的情況下, 數字和數字之間,是一個互相聯繫的複雜網絡, 這時候我們用節點和連接它們的邊來描述這種數據類型, 這就是我們說的圖網絡結構。對於圖像CNN是目前深度學習的集大成者, 對於時間序列RNN, transformer是集大成者, 那麼對於圖結構呢?這就是當下的圖神經網絡崛起的背景。
  • 用神經網絡預測股票市場
    本文將介紹如何使用神經網絡預測股票市場,特別是股票的價格。這不需要使用任何平穩性的神經網絡來進行對抗。此外,神經網絡本質上在尋找數據之間的關係和使用它預測(或分類)新數據方面是有效的。典型的完整數據科學項目可以參考以下工作流程:神經網絡的輸入數據是過去十天的股價數據,我們用它來預測第二天的股價數據。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    該模型對輸入參數採用了指數滑動平均、合併最小分析周期等數據預處理技術進行降噪,在網絡訓練過程中採用 out技術防止過擬合。仿真結果對比現場數據表明,模型對漿液 pH 值、出口 SO2濃度和脫硫率均體現出良好的預測能力。
  • 圖神經網絡前沿綜述:動態圖網絡
    雪梨科技大學的 Katarzyna 團隊最近發表了預印本論文,對實際的複雜網絡以時間尺度進行分類,並以此為基礎總結了目前用於表徵動態複雜網絡數據的各種圖神經網絡架構。 本文首發自集智斑圖,完整論文資料清單請掃碼獲取: 動態網絡模型在靜態網絡的基礎上增加了時間維度,使其能同時表徵複雜系統的結構和時序信息,在生物、醫藥、社交網絡等領域被廣泛使用。另外,雖然圖神經網絡(GNN)在靜態複雜網絡的數據挖掘中披荊斬棘,但大多工作都不能處理這額外的時間維度。
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    由此我們得到了第二篇論文《用於量子化學的神經信息傳遞(Neural Message Passing for Quantum Chemistry)》,該論文描述了一大類被稱為「信息傳遞神經網絡(MPNN:Message Passing Neural Network)」的模型,其定義比較抽象,足以囊括許多之前的圖對稱性(graph symmetries)不變的神經網絡模型。
  • 深入淺出圖神經網絡實現方式,讓圖神經網絡不再難!
    文章《A Comprehensive Survey on Graph Neural Networks》[1]提供了一個全面的圖神經網絡(GNNs) 概述,並且將最新的圖神經網絡分為四類,即遞歸圖神經網絡(RecGNNs)、卷積圖神經網絡(ConvGNNs)、圖自動編碼器(GAEs)和時空圖神經網絡(STGNNs)。
  • 圖神經網絡的重要分支:時間圖網絡
    在本文中,我們將描述時間圖網絡(Temporal Graph Network,TGN),這是一個用於深度學習動態圖的通用框架。本文是 Michael Bronstein 與 Emanuele Rossi 共同撰寫的。圖神經網絡的研究已經成為今年機器學習領域 炙手可熱 的話題之一。
  • 簡單圖神經網絡(GNN)的基礎知識
    在社交網絡分析等一些應用中,圖神經網絡已經得到了廣泛的應用。新加坡科技研究局(A*STAR)的研究者 Rishabh Anand 近日通過圖解的方式介紹了圖與圖神經網絡的基本概念,或許能幫助初學者更直觀地理解圖神經網絡的內涵和價值。
  • 什麼是圖神經網絡?有什麼用?終於有人講明白了
    而能夠對結構信息進行學習,正是圖神經網絡的能力所在,下面我們就來看看圖神經網絡為什麼強大?02 圖神經網絡的強大能力現實生活中的大量的業務數據都可以用圖來表示。萬事萬物皆有聯繫,節點+關係這樣一種表示足以包羅萬象。
  • Nat. Mach. Intell. | 深層神經網絡識別序列背景特徵預測轉錄因子結合
    這些特徵中的許多特徵都與TF基序本身緊鄰的序列上下文有關,這意味著TF結合可以直接從序列信息中預測。有許多種機器學習方法已被證明可以成功地預測序列的TF結合,其中很多都依賴於卷積神經網絡CNN去推斷重要的序列上下文特徵並學習可以用來預測結合狀態的這些特徵的組合和方向,例如DeepSEA和DanQ。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    雷鋒網AI科技評論按:最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至於生命科學。GNN在對節點關係建模方面表現十分突出,使得相關的研究領域取得了一定突破。本文將就「為什麼圖有用」、「為什麼很難在圖上定義卷積」、「是什麼使神經網絡成為了圖神經網絡」這些問題進行討論。
  • 【神經網絡】神經網絡簡介
    這種網絡依靠系統的複雜程度,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的。剛剛入門神經網絡,往往會對眾多的神經網絡架構感到困惑,神經網絡看起來複雜多樣,但是這麼多架構無非也就是三類:前饋式網絡、反饋式網絡、圖網絡。
  • 用人工智慧預測有機化學反應——來自翻譯神經網絡的啟發
    通過將原子當作字母,分子當作單詞,IBM的人工智慧軟體正在借用機器原先翻譯語言的方法,來預測有機化學反應的產物,這可能會加快新藥開發的速度。本文圖片均來自附件視頻截圖過去50年來科學家們一直在嘗試教會電腦化學原理,這樣電腦就能幫助我們預測有機化學反應產物
  • 圖神經網絡入門(二)GRN圖循環網絡
    本文是清華大學劉知遠老師團隊出版的圖神經網絡書籍《Introduction to Graph Neural Networks》的部分內容翻譯和閱讀筆記
  • 圖神經網絡 | BrainGNN: 用於功能磁共振成像分析的可解釋性腦圖神經網絡
    GNN是Graph Neural Network的簡稱,是用於學習包含大量連接的圖的聯結主義模型。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統甚至生命科學等各個領域得到了越來越廣泛的應用。GNN在對圖節點之間依賴關係進行建模的強大功能,使得與圖分析相關的研究領域取得了突破。當信息在圖的節點之間傳播時GNN會捕捉到圖的獨立性。
  • Bioinformatics|用深度神經網絡結合局部和全局特徵預測蛋白質的...
    文章研究了如何利用蛋白質的局部和全局胺基酸序列來預測蛋白質的結合位點,作者用一個49維的向量(其中包括原始胺基酸、胺基酸的PSSM、胺基酸的二級結構狀態)來表示任意一個胺基酸,最後將得到的局部和全局胺基酸序列的向量表示連接起來,輸入到一個深度神經網絡做預測。1、研究背景PPI site背景:1、現存的方法主要使用局部上下文特徵來預測PPI site。
  • KDD20 | 圖神經網絡在生物醫藥領域的應用
    1 引言最近,越來越多的研究開始將深度學習方法應用到圖數據領域。圖神經網絡在數據具有明確關係的結構場景,如物理系統,分子結構和知識圖譜中有著廣泛的研究價值和應用前景,本文將介紹在KDD 2020上發表的兩個在這一場景下的最新工作。
  • 最新6篇ICLR2021篇圖神經網絡論文推薦
    CCF-S級會議ICLR剛剛放榜~(小編要是中了ICLR能吹一年😱😱😱這裡推薦幾篇ICLR 2021接收的最新GNN論文~1.時序網絡中的利用因果匿名遊走的歸納表示學習2.具有自監督能力的圖注意力機制3.圖神經網絡的瓶頸及其實踐意義4.ADAGCN:將圖卷積網絡轉換為深層模型5.通過圖多層池化準確學習圖表示
  • NeurIPS 2020|用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架。
  • NeurIPS 2020 | 用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架