作者 | 王玲,張城贇編輯 | 王建民
今天給大家介紹的是浙江工業大學智能製藥研究院的段宏亮教授研究團隊發表在Chemical Communications上的文章 "Heck reaction prediction using a transformer model based on a transfer learning strategy"。
遷移學習是一種將某個領域或任務中學習到的基礎知識或模式應用到不同但相關問題中的方法,可以有效緩解因目標任務訓練樣本過少造成的負面影響。由於該方法的強大應用性,因而引發了研究者對其在化學領域的應用探索。作者以經典的小數據-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴展了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限數據預測的難題,為後續的人工智慧輔助化學研發提供了重要的現實依據。
1
研究背景
Transformer模型是谷歌公司於2017年研發的一種語言翻譯模型。與經典的神經循環網絡(Recurrent Neural Network, RNN)不同,該模型完全依賴於注意力機制(attention mechanism)並且能夠更好地捕捉文字序列相關信息。近年來,化學家逐漸將目光投向這一模型的實際化學應用並取得重大的突破。但是受限於化學數據的規模較小,對於小數據反應transformer模型的預測效果並不顯著。該文研究者創新性地提出使用遷移學習(transfer learning)來突破這個困局,使小數據的高精度預測能夠成為現實。值得注意的是,該文所使用的遷移學習,是一類經典的機器學習優化手段。該方法通過將化學領域的基礎知識轉移到特定的小數據預測,可以有效地提高模型對於小數據集的知識理解和性能預測。
在該篇文章中,作者選擇Heck反應作為代表反應用於驗證transformer + 遷移學習這一實驗策略方案的有效性。雖然Heck反應具有的區域選擇性和位點選擇會大大增加反應預測任務的難度(如圖1),但是考慮其是一個經典的人名反應,並且對於構建碳-碳鍵相關反應的基礎研究具有重大的意義,因此該實驗圍繞Heck反應預測為中心任務,以transformer模型和遷移學習優化手段為兩大有力工具,展開小數據預測探索的研究工作。
圖1. Heck反應通式及反應機理。
2
方法
2.1 實驗流程
作者通過構建一系列的對比實驗來評估transformer模型在Heck反應預測這一目標任務的表現。在該文章中,加入遷移學習的模型命名transformer-transfer learning模型,未含有遷移學習的參照模型則稱為transformer-baseline模型。
圖 2. Transformer模型預測Heck反應產物的方法示意圖。淺綠色背景中顯示的是加入遷移學習的Heck反應預測過程,右側白色背景中展示的是未加入遷移學習的Heck反應預測過程。
Transformer-transfer learning模型的訓練步驟主要分為兩步:預訓練和遷移訓練。第一步,transformer模型首先在含有大量基礎化學反應的資料庫上進行端到端的訓練,從而獲得基礎的化學知識。第二步,transformer模型將所學的這些基礎化學知識遷移到Heck反應預測的目標任務中並且在Heck反應數據集上進一步訓練,從而結合基礎化學知識以及Heck特有的化學信息特徵。最後,模型根據預訓練和遷移訓練過程中學習到的知識要素做出相應的Heck反應產物的預測。而transformer-baseline模型作為對比組,僅僅在Heck反應數據集上進行訓練,然後做出相應的預測。具體的步驟如圖2所示。
2.2 實驗數據
該實驗涉及兩個數據集:預訓練數據集和Heck反應數據集。預訓練數據集是用於學習基礎的化學反應知識從而彌補目標小數據集因數據缺乏導致的基礎信息過少的缺陷。該數據集來源於美國專利資料庫,共包含37萬個實際應用化學反應,涵蓋大部分的基礎化學知識。而Heck反應數據集則是該文作者自己進行數據挖掘工作創建的。研究者從Rexays商業庫中下載實驗數據,經過一系列的數據清洗工作,最終獲得9959個符合要求的Heck反應用於驗證實驗的有效性。這裡值得注意的是,為了避免模型直接從預訓練數據中獲得關於Heck反應的信息導致對於遷移學習這一策略評估混淆,該實驗特地刪除了預訓練數據中關於Heck反應的有效信息,從而保證了評估模型性能的真實性。表1為具體的Heck反應數據集信息。
表1. Heck反應數據集分布。
3
研究結果
3.1 模型表現
Transformer-transfer learning模型無論對於分子間還是分子內Heck反應的預測都具有非常強大的預測性能:對於分子間的Heck反應預測,transformer-transfer learning模型的top-1準確率能達到95.3%,而對於數據量較少且更為複雜的分子內Heck反應預測,transformer-transfer learning模型的top-1準確率仍能達到87.7%。但是與之相比, transformer-baseline模型對於這兩類反應的預測表現並不使人滿意,分別只有66.7%和58.7%的準確率。表2為具體的結果分析,從這些結果中可以體現transformer + 遷移學習這一實驗策略方案的強大之處。同時,研究者也指出遷移學習的確能夠非常有效地增進transformer模型對於數據信息的提取。無論是化學信息還是序列之間的對應關係,transformer模型通過遷移學習能夠對其有更深刻的認識。
表2. Transformer-transfer learning模型和transformer-baseline模型對於分子間和分子內Heck反應預測的top-1準確率。
考慮到分子間Heck反應能為工業上和醫學上各種重要的取代烯烴和二烯烴的合成提供了簡便途徑,作者又根據反應物的類型(乙烯、單取代烯烴、二取代烯烴和三取代烯烴)來進一步展開討論transformer對於分子間Heck反應的預測性能,並且希望通過該分析能夠對於實際的合成產生現實意義的引導。
表3. Transformer-transfer learning模型和transformer-baseline模型對於一取代烯烴作為反應物參與的分子間Heck反應預測的top-1準確率。
如表3所示,對於以乙烯作為反應物的分子間Heck反應,transformer-transfer learning模型的top-1準確率達到97.1%,體現了該模型的高精度預測性能。雖然研究者指出一取代烯烴在發生分子間Heck反應的過程中會面臨區域選擇性問題,導致模型對於這一類反應的預測難度的增加,但是對於這一涉及複雜的區域選擇性反應的預測,transformer-transfer learning模型仍表現其強大的預測能力。此外針對涉及到以二取代和三取代烯烴作為反應物的分子間Heck反應, transformer-transfer learning 模型仍然能取得較好的預測效果。
與此同時,作者指出,含有多個滷素或雙鍵的反應物在發生Heck反應時也會涉及到位點選擇性問題。在Heck反應數據集中,共有375個Heck反應具有含多個雙鍵的反應物。對於這一類反應,transformer-transfer learning 模型也取得了不俗的成績,獲得了85.3%的top-1準確率。而對於反應物中含有多個滷素的Heck反應,transformer-transfer learning 模型的top-1準確率能達到91.9%。
圖3.Transformer-transfer learning模型預測正確的Heck反應示例。A, 涉及區域選擇性的反應例子:(a) β位插入,得到 (E)-1, 2-二取代烯烴;(b) α位插入以獲得1, 1-二取代烯烴;(c) β位插入以獲得 (Z)-1,2-二取代烯烴。B, 涉及位點選擇性的反應例子:(a) 烯烴反應物中存在多個碳-碳雙鍵;(b) 烯烴反應物中存在多種滷素。
3.2 實驗驗證
為了證明transformer-transfer learning模型的實際應用性,作者根據模型的預測方案進行化學實驗。根據實驗結果,該研究獲得了兩個文獻中未報導的Heck反應產物。作者指出transformer + 遷移學習這一策略方案的確可以作為化合物設計的先導手段對實驗合成提供有效的方向指導。
圖4. 化學實驗得到的產物與transformer-transfer learning模型預測產物的比較。
4
結論
在這項工作中,作者將遷移學習策略與transformer模型結合,以Heck反應作為代表,進行小數據的化學反應預測。經實驗證明,在引入遷移學習策略後,Heck反應預測的top-1準確率從66.3% 提高到94.9%,體現出遷移學習對於transformer模型強大的性能增強作用。同時,該研究也指出transformer + 遷移學習這一策略方案這種方式的確可以有效解決以數據為驅動的模型在小數據領域的應用困局。為了驗證這一方法的現實適用性,作者通過以模型給出的候選方案進行實驗合成,並且成功地獲得了兩個未報導的涉及區域選擇性和位點選擇性的Heck反應產物。通過理論和實驗的結合,該研究充分顯示了Transformer-transfer learning模型在現實上的應用價值。
在人工智慧輔助化學反應預測這一領域,化學數據的缺乏極大地阻礙了這一方向的進展,該研究創造性地提出使用遷移學習優化手段以及transformer模型來突破這一難關。我們有理由相信這一優化策略可以應用到更多的化學反應預測任務並且極大提高這類方法的實際應用能力。
參考資料
Ling Wang, Chengyun Zhang, Renren Bai, Jianjun Li and Hongliang Duan. Heck reaction prediction using a transformer model based on a transfer learning strategy, Chem. Commun., 2020, 56, 9368-9371.