今天為大家介紹一篇圖神經網絡(GNN)預測均裂鍵能的文章:「Predictionof organichomolytic bond dissociation enthalpies at near chemical accuracy withsub-second computational cost」[1]。該文章於2020年5月發表在Nature Communications上。
化學反應過程是舊鍵的斷裂與新鍵的形成。舊鍵斷裂的方式可以分為均裂和異裂。均裂是指成鍵電子對均勻地分配到斷鍵後的兩個片段上去,形成兩個自由基,後續可以發生自由基反應;異裂是指成鍵電子對全部分配到其中一個片段上,形成正負離子,後續可以發生親電和親核反應。
均裂鍵能的實驗測量相當困難,實驗數據較少。基於DTF的量化方法計算均裂鍵能的準確度可以接近實驗水平,但非常耗時。這篇文章旨在利用GNN模型模擬量化計算的結果,以實現對均裂鍵能快速準確的預測。
相關研究在這篇論文發表之前,QuX(2013)[2]已進行過相關研究。其工作利用量化軟體計算了12000多個均裂鍵能,同時用一些鍵描述符結合機器學習模型對均裂鍵能進行預測。在該工作中,機器學習模型的預測值和量化軟體計算值的MAE(mean absolute error)是3.4kcal。圖1 相關工作研究流程
這篇文章的思路和Qu X的研究思路基本相同,主要在兩個方面加以改進:一是數據,計算了29w條鍵能數據;二是模型,使用了圖神經網絡。
作者首先從IBOND資料庫裡收集了300多個均裂鍵能的實驗值,並在這些數據上測試了不同的基組,最後選擇了M062Xdef2-TZVP,並用該基組計算了4萬多個分子的能量及20多萬個片段的能量,組合得到了29萬條鍵能數據。這篇文章所使用的圖神經網絡模型是18年發表的一個GNN模型,是在MPNN的基礎上加上了邊的信息傳遞而建立的。
作者建模的時候用了一個小技巧,並不使用這個模型直接預測鍵能,而是先統計訓練集中每類鍵的平均鍵能(如C-C,C-O,O-N鍵)。然後,把模型的預測值再加上對應的鍵的平均鍵能,當作最後的輸出。
圖2 數據集構建與GNN模型結構
模型表現
該模型的預測值和量化軟體計算值的MAE只有0.58kcal,相比於之前QuX等研究人員建立模型的3.4kcal,雖然數據集不同,但也可以看出非常明顯的進步。此外還可以注意到模型在不同類型的鍵上的表現差異相對明顯。圖3 GNN模型預測量化計算的均裂鍵能值的表現
作者進一步測試了GNN模型在預測實驗測得的鍵能時的表現,GNN模型的MAE為3.4Kcal,和一些表現較差的量化基組的表現相當。
圖4 GNN模型和量化軟體預測均裂鍵能的實驗值的表現
因為模型的訓練數據都是很小的分子(重原子數小於10),為了測試了模型在更大的體系上的表現。作者對比了GNN模型和量化軟體在亞麻酸甲酯的鍵能預測上的結果。MAE為0.97kcal。這說明在一個小分子量很小的數據集上訓練出來的AI模型,在更大分子上也是可以正常工作的。
作者進一步做了該模型在反應預測上的實際應用。對於P450酶,它的氧化降解位點和各個位點的C-H鍵的強度相關性較強,所以作者用預測的C-H的均裂鍵能來預測代謝反應發生的位點,發現ML模型和量化軟體的預測能力相差無幾。
其它相關工作
這類研究通過預測化合物的量化性質,再進一步預測其進行特定化學反應的傾向性。不同的方法有不同的局限性,比如量化計算的缺點是可計算體系小,圖模型的缺點是雖然局部性質學習能力較強,但全局性質欠佳。對於化學反應建模,由於一些反應本就是由特定官能團局部的化學環境所控制的,量化計算和圖模型的缺點可在一定程度上被規避掉。
對於這篇文章的數據來源,該文作者是從PubChem中挑選一些分子,用來計算單鍵鍵能。但如果是為了反應預測,筆者認為算一些常用化學試劑的鍵能可能具有普適性及實際應用意義。
圖7 量化計算的目標的選擇
Reference
[1] St. John, P.C., Guan, Y., Kim, Y. et al. Prediction of organic homolytic bond dissociation enthalpies at near chemical accuracy with sub-second computational cost. Nat Commun 11, 2328 (2020). https://doi.org/10.1038/s41467-020-16201-z
[2]Qu X, Latino D A R S, Aires-de-Sousa J. A big dataapproach to the ultra-fast prediction of DFT-calculated bond energies[J].Journal of cheminformatics, 2013, 5(1): 34.
[3] Wen, M., Blau, S.M., Spotte-Smith, E.W.C.,Dwaraknath, S. and Persson, K.A., 2020. BonDNet: a graph neural network for theprediction of bond dissociation energies for charged molecules. ChemicalScience.
[4]Roszak, R., Beker, W., Molga, K. and Grzybowski, B.A.,2019. Rapid and Accurate Prediction of p K a Values of C–H Acids Using GraphConvolutional Neural Networks. Journal of the American Chemical Society,141(43), pp.17142-17149.
作者:熊嘉誠
責任編輯:張澤弘
學術顧問:鄭明月