...利用基於遷移學習策略的transformer 模型進行Heck反應預測

2021-01-07 DrugAI

作者 | 王玲,張城贇編輯 | 王建民

今天給大家介紹的是浙江工業大學智能製藥研究院的段宏亮教授研究團隊發表在Chemical Communications上的文章 "Heck reaction prediction using a transformer model based on a transfer learning strategy"。

遷移學習是一種將某個領域或任務中學習到的基礎知識或模式應用到不同但相關問題中的方法,可以有效緩解因目標任務訓練樣本過少造成的負面影響。由於該方法的強大應用性,因而引發了研究者對其在化學領域的應用探索。作者以經典的小數據-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴展了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限數據預測的難題,為後續的人工智慧輔助化學研發提供了重要的現實依據。

1

研究背景

Transformer模型是谷歌公司於2017年研發的一種語言翻譯模型。與經典的神經循環網絡(Recurrent Neural Network, RNN)不同,該模型完全依賴於注意力機制(attention mechanism)並且能夠更好地捕捉文字序列相關信息。近年來,化學家逐漸將目光投向這一模型的實際化學應用並取得重大的突破。但是受限於化學數據的規模較小,對於小數據反應transformer模型的預測效果並不顯著。該文研究者創新性地提出使用遷移學習(transfer learning)來突破這個困局,使小數據的高精度預測能夠成為現實。值得注意的是,該文所使用的遷移學習,是一類經典的機器學習優化手段。該方法通過將化學領域的基礎知識轉移到特定的小數據預測,可以有效地提高模型對於小數據集的知識理解和性能預測。

在該篇文章中,作者選擇Heck反應作為代表反應用於驗證transformer + 遷移學習這一實驗策略方案的有效性。雖然Heck反應具有的區域選擇性和位點選擇會大大增加反應預測任務的難度(如圖1),但是考慮其是一個經典的人名反應,並且對於構建碳-碳鍵相關反應的基礎研究具有重大的意義,因此該實驗圍繞Heck反應預測為中心任務,以transformer模型和遷移學習優化手段為兩大有力工具,展開小數據預測探索的研究工作。

圖1. Heck反應通式及反應機理。

2

方法

2.1 實驗流程

作者通過構建一系列的對比實驗來評估transformer模型在Heck反應預測這一目標任務的表現。在該文章中,加入遷移學習的模型命名transformer-transfer learning模型,未含有遷移學習的參照模型則稱為transformer-baseline模型。

圖 2. Transformer模型預測Heck反應產物的方法示意圖。淺綠色背景中顯示的是加入遷移學習的Heck反應預測過程,右側白色背景中展示的是未加入遷移學習的Heck反應預測過程。

Transformer-transfer learning模型的訓練步驟主要分為兩步:預訓練和遷移訓練。第一步,transformer模型首先在含有大量基礎化學反應的資料庫上進行端到端的訓練,從而獲得基礎的化學知識。第二步,transformer模型將所學的這些基礎化學知識遷移到Heck反應預測的目標任務中並且在Heck反應數據集上進一步訓練,從而結合基礎化學知識以及Heck特有的化學信息特徵。最後,模型根據預訓練和遷移訓練過程中學習到的知識要素做出相應的Heck反應產物的預測。而transformer-baseline模型作為對比組,僅僅在Heck反應數據集上進行訓練,然後做出相應的預測。具體的步驟如圖2所示。

2.2 實驗數據

該實驗涉及兩個數據集:預訓練數據集和Heck反應數據集。預訓練數據集是用於學習基礎的化學反應知識從而彌補目標小數據集因數據缺乏導致的基礎信息過少的缺陷。該數據集來源於美國專利資料庫,共包含37萬個實際應用化學反應,涵蓋大部分的基礎化學知識。而Heck反應數據集則是該文作者自己進行數據挖掘工作創建的。研究者從Rexays商業庫中下載實驗數據,經過一系列的數據清洗工作,最終獲得9959個符合要求的Heck反應用於驗證實驗的有效性。這裡值得注意的是,為了避免模型直接從預訓練數據中獲得關於Heck反應的信息導致對於遷移學習這一策略評估混淆,該實驗特地刪除了預訓練數據中關於Heck反應的有效信息,從而保證了評估模型性能的真實性。表1為具體的Heck反應數據集信息。

表1. Heck反應數據集分布。

3

研究結果

3.1 模型表現

Transformer-transfer learning模型無論對於分子間還是分子內Heck反應的預測都具有非常強大的預測性能:對於分子間的Heck反應預測,transformer-transfer learning模型的top-1準確率能達到95.3%,而對於數據量較少且更為複雜的分子內Heck反應預測,transformer-transfer learning模型的top-1準確率仍能達到87.7%。但是與之相比, transformer-baseline模型對於這兩類反應的預測表現並不使人滿意,分別只有66.7%和58.7%的準確率。表2為具體的結果分析,從這些結果中可以體現transformer + 遷移學習這一實驗策略方案的強大之處。同時,研究者也指出遷移學習的確能夠非常有效地增進transformer模型對於數據信息的提取。無論是化學信息還是序列之間的對應關係,transformer模型通過遷移學習能夠對其有更深刻的認識。

表2. Transformer-transfer learning模型和transformer-baseline模型對於分子間和分子內Heck反應預測的top-1準確率。

考慮到分子間Heck反應能為工業上和醫學上各種重要的取代烯烴和二烯烴的合成提供了簡便途徑,作者又根據反應物的類型(乙烯、單取代烯烴、二取代烯烴和三取代烯烴)來進一步展開討論transformer對於分子間Heck反應的預測性能,並且希望通過該分析能夠對於實際的合成產生現實意義的引導。

表3. Transformer-transfer learning模型和transformer-baseline模型對於一取代烯烴作為反應物參與的分子間Heck反應預測的top-1準確率。

如表3所示,對於以乙烯作為反應物的分子間Heck反應,transformer-transfer learning模型的top-1準確率達到97.1%,體現了該模型的高精度預測性能。雖然研究者指出一取代烯烴在發生分子間Heck反應的過程中會面臨區域選擇性問題,導致模型對於這一類反應的預測難度的增加,但是對於這一涉及複雜的區域選擇性反應的預測,transformer-transfer learning模型仍表現其強大的預測能力。此外針對涉及到以二取代和三取代烯烴作為反應物的分子間Heck反應, transformer-transfer learning 模型仍然能取得較好的預測效果。

與此同時,作者指出,含有多個滷素或雙鍵的反應物在發生Heck反應時也會涉及到位點選擇性問題。在Heck反應數據集中,共有375個Heck反應具有含多個雙鍵的反應物。對於這一類反應,transformer-transfer learning 模型也取得了不俗的成績,獲得了85.3%的top-1準確率。而對於反應物中含有多個滷素的Heck反應,transformer-transfer learning 模型的top-1準確率能達到91.9%。

圖3.Transformer-transfer learning模型預測正確的Heck反應示例。A, 涉及區域選擇性的反應例子:(a) β位插入,得到 (E)-1, 2-二取代烯烴;(b) α位插入以獲得1, 1-二取代烯烴;(c) β位插入以獲得 (Z)-1,2-二取代烯烴。B, 涉及位點選擇性的反應例子:(a) 烯烴反應物中存在多個碳-碳雙鍵;(b) 烯烴反應物中存在多種滷素。

3.2 實驗驗證

為了證明transformer-transfer learning模型的實際應用性,作者根據模型的預測方案進行化學實驗。根據實驗結果,該研究獲得了兩個文獻中未報導的Heck反應產物。作者指出transformer + 遷移學習這一策略方案的確可以作為化合物設計的先導手段對實驗合成提供有效的方向指導。

圖4. 化學實驗得到的產物與transformer-transfer learning模型預測產物的比較。

4

結論

在這項工作中,作者將遷移學習策略與transformer模型結合,以Heck反應作為代表,進行小數據的化學反應預測。經實驗證明,在引入遷移學習策略後,Heck反應預測的top-1準確率從66.3% 提高到94.9%,體現出遷移學習對於transformer模型強大的性能增強作用。同時,該研究也指出transformer + 遷移學習這一策略方案這種方式的確可以有效解決以數據為驅動的模型在小數據領域的應用困局。為了驗證這一方法的現實適用性,作者通過以模型給出的候選方案進行實驗合成,並且成功地獲得了兩個未報導的涉及區域選擇性和位點選擇性的Heck反應產物。通過理論和實驗的結合,該研究充分顯示了Transformer-transfer learning模型在現實上的應用價值。

在人工智慧輔助化學反應預測這一領域,化學數據的缺乏極大地阻礙了這一方向的進展,該研究創造性地提出使用遷移學習優化手段以及transformer模型來突破這一難關。我們有理由相信這一優化策略可以應用到更多的化學反應預測任務並且極大提高這類方法的實際應用能力。

參考資料

Ling Wang, Chengyun Zhang, Renren Bai, Jianjun Li and Hongliang Duan. Heck reaction prediction using a transformer model based on a transfer learning strategy, Chem. Commun., 2020, 56, 9368-9371.

相關焦點

  • |利用基於遷移學習策略的transformer 模型進行Heck...
    在該文章中,加入遷移學習的模型命名transformer-transfer learning模型,未含有遷移學習的參照模型則稱為transformer-baseline模型。圖 2. Transformer模型預測Heck反應產物的方法示意圖。淺綠色背景中顯示的是加入遷移學習的Heck反應預測過程,右側白色背景中展示的是未加入遷移學習的Heck反應預測過程。
  • 使用PyTorch進行主動遷移學習:讓模型預測自身的錯誤
    遷移學習的一個例子。這是主動遷移學習三個核心觀點中的第一個:觀點 1:你可以使用遷移學習,通過讓你的模型預測自己的錯誤,來發現模型哪裡被混淆了。這篇文章涵蓋了三種主動遷移學習的變體,最簡單的一種是二進位的「correct/incorrect」任務,用來預測模型可能在哪裡出錯:
  • 突破遷移學習局限!谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 官方解讀,谷歌「T5」模型,如何突破遷移學習局限,實現多基準測試SOTA
    過去幾年間,遷移學習給 NLP 領域帶來了豐碩的成果,掀起了新一波的發展浪潮。而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 帶你一文了解GPT-2模型(transformer語言模型可視化)
    其中OpenAI GPT-2能夠創作出邏輯清晰且激情盎然的文章,遠遠超出了人們對當前語言模型創造力的預期,給公眾留下了深刻的印象。GPT-2並不是專門寫小說的語言架構——結構與僅含解碼器的transformer相似,但它實則是基於transformer的語言模型,規模巨大,在海量的數據集上進行訓練。
  • 圖解OpenAI的秘密武器GPT-2:可視化Transformer語言模型
    其中OpenAI訓練的GPT-2模型就展示出了驚豔的能力,它能夠撰寫出連貫而富有激情的論文,比當下其他所有的語言模型寫的都好。GPT-2其實並不是一種特別新穎的架構,它的架構非常類似於Transformer模型的Decoder結構。然而,GPT2是一個非常大的基於Transformer的語言模型,需要基於大量數據集進行訓練。
  • Transformer在CV領域有可能替代CNN嗎?
    儘管這些方法具有以上的優勢,但是如何學習高效的學習出一組更合適的映射規則是關鍵。  對於高效性來說,以感知機為例, 它利用多個MLP來進行特徵的學習從而來表徵輸入數據 。但是這樣有很明顯的缺陷,一方面計算量是非常龐大的,另一方面直接將輸入flatten為一個列向量,會破壞圖像中目標原有的結構和上下文聯繫。
  • 【可解釋學習】利用SHAP對分子活性預測機器學習模型進行解釋
    文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。目前,模型解釋的方法可以分為模型依賴(Model-specific)方法和模型不可知(Model-agnostic)方法。二者主要的區別在於是否限定使用模型的種類。前者主要指的是利用簡單的可解釋模型(例如線性回歸等)來進行學習,從而可以直接對模型進行解釋,但是這種方法常常會限制了模型的預測效果。後者不依賴於所使用的模型的限制,通過敏感性分析等方法對模型進行解釋,更具通用性。
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    模型將其展平並在將其傳遞到 transformer 編碼器之前進行位置編碼補充。然後,transformer 解碼器將少量固定數量的學得位置嵌入作為輸入,稱為對象查詢,並另外參與編碼器的輸出。將解碼器的每個輸出嵌入傳遞到預測檢測(類和邊界框)或無對象類的共享前饋網絡(FFN)。
  • Facebook AI的DETR:一種基於Transformer的目標檢測方法
    目標檢測在計算機視覺中,目標檢測是一項將對象與背景區分開,並預測圖像中存在的對象的位置和類別的任務。當前的深度學習方法試圖將其作為分類問題或回歸問題或綜合兩者的目標檢測任務來解決。例如,在RCNN算法中,從輸入圖像中識別出幾個感興趣的區域,然後將這些區域分類為對象或背景,最後使用回歸模型為所標識的對象生成邊界框。
  • TinyBERT:模型小7倍,速度快8倍,華中科大、華為出品
    為此,來自華中科技大學、華為諾亞方舟實驗室的研究者提出了 TinyBERT,這是一種為基於 transformer 的模型專門設計的知識蒸餾方法,模型大小還不到 BERT 的 1/7,但速度是 BERT 的 9 倍還要多,而且性能沒有出現明顯下降。目前,該論文已經提交機器學習頂會 ICLR 2020。
  • XLM —— 基於BERT的跨語言模型
    BERT利用Transformer的編碼器學習一個語言模型,通過遮住(捨棄)一些詞再試著去預測這些詞。這使得模型可以學習全篇內容,也就是被遮住詞的前序和後續詞。因為在注意力模塊中所有詞都是同時處理的,所以模型還需要考慮額外的位置信息。模型網絡通過給每個token加一個基於位置的固定值(例如正弦函數),可以成功學習到token間的聯繫,這一步叫位置編碼。
  • 圖解當前最強語言模型BERT:NLP是如何攻克遷移學習的?
    ULM-FiT:解決 NLP 中的遷移學習ULM-FiT 引入了新的方法,可有效利用模型在預訓練階段學習到的很多東西ULM-FiT 引入了一種新語言模型和新處理過程,可針對多種任務對語言模型進行調整。NLP 終於有一種做遷移學習的方法了,或許就像計算機視覺一樣。
  • 超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...
    機器之心報導機器之心編輯部在本文中,來自哈佛大學、Facebook AI 研究院的研究者提出了一種基於殘差能量模型的文本生成方法,效果超過 state-of-the-art 的 transformer 語言模型。
  • A Survey on Visual Transformer及引文理解
    Revisiting Transformers for NLPTransformers出現後,克服了RNN訓練速度慢的缺陷,使得大規模預訓練模型成為可能。BETR及其變種(SpanBERT,RoBERTa)等都是基於transformer的模型。
  • 圖模型+Bert香不香?完全基於注意力機制的圖表徵學習模型Graph-Bert
    模型假死和過於平滑都可以歸結於傳統 GNN 的類卷積特徵學習方式以及基於聚合操作(mean,max,sum)的信息更新方式,這會導致隨著模型層數加深,模型會逐漸喪失對輸入的響應,因此一般GNN都是只堆疊不超過兩層。同時,模型學習到的不同節點的表徵信息也會愈發相似,從而變得無法區分。此外,由於傳統GNN都考慮圖中的固有內在連接(即邊),因此無法對圖數據進行並行化處理。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    本文還結合某 2×350MW 燃煤電廠提供的實際工數據,以石灰石供漿密度對系統脫硫性能的影響為例,詳細介紹了利用所建立的深度神經網絡模型測試溼法脫硫系統各參數指標對脫硫效果的影響,並結合化學機理和工業實際進行的診斷過程。
  • 遷移學習中如何利用權值調整數據分布?DATL、L2TL兩大方法解析
    解決這類跨領域學習問題的一種有效方法就是遷移學習:首先在一個大的標記源數據集(如 ImageNet)上訓練模型,然後在目標數據集上進行模型調整更新,從而實現將已訓練好的模型參數遷移到新的模型來幫助新模型訓練。
  • 向圖像進擊的Transformer! OpenAI提出Image GPT實現高質量圖像補全和樣本生成
    在使用GPT-2類似的架構時,雖然需要更多的計算來達到基於卷積的非監督學習水平,然而這種方法在面對全新領域時,大型的GPT-2模型無需針對特定領域架構進行設計就可以學習出非常有效的特徵和優異的性能。下面先讓我們來看看iGPT應用於圖像補全和樣本生成任務下的一些結果,下圖中紅色框是原始圖像,藍色框中是模型補全的結果。
  • NLP領域中的遷移學習現狀
    圖2:遷移學習過程的說明在過去一年多的時間裡,以預訓練的語言模型形式進行的遷移學習已經在NLP領域中普及,為許多不同的任務帶來了新的最好成績。然在當前的自然語言處理領域中,普遍存在著不同類型的遷移學習。它們可以按照三個維度進行分類:1、源設定和目標設定是否處理相同的任務;2、源域和目標域的性質;3、學習任務的順序。這樣就可以把各種遷移學習分為圖中的幾類。