作者 | 王豫編輯 | 李昊錦校對 | 李仲深
今天給大家介紹的是韓國科學技術學院Sungsoo.ahn等人在NeurIPS2020上發表了一篇名為「Guiding Deep Molecular Optimization with Genetic Exploration」的文章。從頭開始的分子設計試圖在化學空間中尋找具有理想性質的分子。最近,深度學習作為一種很有前途的解決這一問題的方法得到了相當多的關注。在這篇文章中,作者提出了一個簡單而新穎的框架——遺傳專家指導學習(GEGL),該框架通過訓練深度神經網絡(DNN)產生高回報的分子。作者的主要想法是設計一個遺傳專家改進程序,產生高質量的目標,模仿學習的DNN。通過實驗表明,GEGL顯著改進了最先進的方法。
一、研究背景
1.1 從頭分子設計
發現具有理想性質的分子在藥物發現和材料設計等方面有著重要的應用。但是因為分子空間很大,這個任務很有挑戰性;例如,可合成的類藥物化合物的數目估計在1060個左右。為了解決這個問題,從頭分子設計的目標是從零開始產生具有理想性質的新分子,而不是直白地在分子空間上羅列。
1.2 分子生成深度神經網絡
在過去的幾年裡,分子生成深度神經網絡(DNNs)已經證明了在解決分子設計的生成問題上取得了成功。例如,Gomez-Bombarelli等人在分子生成變量自動編碼器的嵌入空間上執行貝葉斯優化以最大化期望的性質。另一方面,Guimaraes等人利用強化學習來訓練分子生成策略,並將期望的特性制定為獎勵。
1.3 傳統遺傳算法
有趣的是,最近有幾項研究證明,基於遺傳算法(GA)的傳統框架可以與最近提出的深度學習方法競爭,甚至超過後者。它們揭示了遺傳算法是有效的,這要感謝用於探索化學空間的強大的特定領域遺傳算子。例如,Jensen通過將現有分子的子圖組合在一起生成新的分子,從而達到卓越的性能。這樣的觀察也強調了領域知識如何在從頭分子設計中發揮重要作用。相反,目前基於DNN的方法含蓄地概括高回報分子的信息,並沒有明確地利用這些域知識。值得注意的是,DNN的表達能力允許它自己靈活地參數化整個分子空間的分布。
1.4 遺傳專家指導學習
在文章中,作者提出遺傳專家指導學習(GEGL),這是一個訓練分子生成DNN指導遺傳探索的新框架。作者的主要想法(如圖1)是通過對DNN生成的分子應用特定領域的遺傳操作(變異和交叉),來制定一個專家策略。然後DNN成為一個學習模仿專家策略所發現的高回報分子的學徒策略。由於專家策略通過設計改進了學徒策略,所以前一個策略始終如一地指導後一個策略產生高回報的分子。
圖1. 遺傳專家指導學習框架說明
二、模型與方法
2.1 遺傳專家指導學習(GEGL)
為了發現高回報的分子,GEGL的目標是訓練一個產生分子的深度神經網絡(DNN)。特別地,作者設計了一個額外的遺傳專家策略框架,它生成神經學徒策略的模仿學習目標,即DNN。該方法的主要思想是將專家策略作為遺傳改良算子應用於學徒策略;這允許我們通過模仿更好的專家策略來引導學徒策略生5子x的組合優化,使回報(期望的性質) r(x) 最大化。為了解決這個問題,作者在整個學習過程中,從神經學徒策略 和遺傳專家策略 中收集高回報值的分子。其中 θ 表示表示學徒策略的DNN參數,X表示一組將遺傳算子應用於專家策略的種子分子。最後,作者引入了固定大小的最大獎勵優先隊列和,這兩個緩衝區只保留固定數量的具有最高獎勵的分子。
圖2. GEGL框架三步過程
實際上可以將GEGL解釋為一種深度強化學習算法。從這個角度來看,響應的馬爾可夫決策過程具有一個固定步長,其行為對應於一個分子的生成。
2.2 遺傳專家策略
遺傳專家策略
是通過將遺傳算子(突變和交叉)應用到一組分子X上而產生的分布。作者使用經過優化的遺傳操作(帶有領域知識)在分子空間上進行搜索;因此,專家策略在探索方面有效地改進了學徒策略。
遺傳算子的適當選擇對專家策略至關重要。為此,作者選擇了基於圖的突變和交叉的算法,因為該算法最近在分子設計方面表現出了優異的性能在高層,遺傳專家策略
分兩步生成一個分子。首先,專家策略通過將交叉應用於從X中隨機抽取的一對分子來生成一個子分子。接下來,專家策略以很小的概率通過原子或化學鍵方面的修改(比如添加一個原子)對子圖進行變異。
圖3.遺傳算子突變(a)與交叉(b)方法舉例
需要注意的是,如果直白地應用遺傳算子可能導致提出的分子是不穩定的或無法在實際中合成。考慮到這一點,作者考慮了分子化學有效性的勘探操作符。
2.3 神經學徒策略
作者使用長-短期記憶(LSTM)網絡來參數化神經學徒策略,並採用簡化分子輸入進線系統(SMILES)格式。在此設計下,將學徒策略
生成分子的概率分解為
,在這裡,
,…,
是對應於給定分子的標準SMILES表示的字符。
但是,作者選擇使用LSTM網絡來生成分子的SMILES表示似乎並不明顯。特別是分子圖表示可以交替表達分子,許多研究都提出了新的分子生成圖神經網絡(GNNs)。然而,沒有特定的GNN架構明顯優於其他架構。據最近的分子生成基準報告,LSTM網絡匹配(或改進)了GNN的性能。因此,尋找最好的分子生成DNN 架構是一個重要的研究方向,作者將其留給未來的工作。相反,作者為致力於為學徒策略選擇完善的LSTM體系結構。
圖4.學徒策略生成一個分子的SMILES表示
2.4 最大回報優先隊列
在遺傳專家指導框架中,最大獎勵優先隊列的作用是雙重的。首先,優先隊列為專家和學徒策略提供了高回報的分子。此外,它們可以防止政策「忘記」先前觀察到的高回報的分子。
作者選擇優先隊列
來訓練學徒策略而沒有單獨使用優先隊列
,這是因為專家策略並不總是在回報方面改善學徒策略,儘管專家策略在探索方面總是如此。因此,對於學徒策略來說,模仿學徒策略和專家策略產生的高回報分子是有益的。這促進了學徒被訓練的分子與改進的獎勵。
三、實驗處理
作者將GEGL與現有的工作進行了廣泛的比較,以優化辛醇-水分配係數和GuacaMol基準。為了比較,文章考慮了基於深度強化學習(DRL)、深度嵌入優化(DEO)、遺傳算法(GA)和深度監督學習(DSL)的從頭分子設計的各種現有工作。除非另有說明,文章默認報告現有工程所取得的結果。所有的實驗都使用單個GPU (NVIDIA RTX 2080Ti)和一個虛擬CPU系統(Intel Xeon E5-2630 v4)的8個實例進行處理。
為了實現GEGL,作者使用容量K=1024的優先隊列。在每一步中,從學徒策略和專家策略中抽取8192個分子來更新特定優先級隊列。使用學習率為0.001的亞當優化器對容量為256的迷你批處理神經網絡進行優化。以1.0的標準進行梯度裁剪。學徒策略採用隱藏狀態為1024維、退出概率為0.2的三層LSTM構造。在生成的示例中,將從學徒策略的輸出中過濾掉無效的分子,例如違反價規則的分子。接下來,專家策略從優先級隊列中選擇8192對分子通過交叉操作生成分子。對交叉操作生成的每一個有效分子,以0.01的概率進行變異。與學徒策略類似,從專家策略的輸出中過濾出無效的分子。
四、實驗結果
4.1 辛醇-水分配係數優化
辛醇-水分配係數在表徵藥物相似性方面起著重要的作用,這項工作的目標是使辛醇-水分配係數()評分最大化,其定義如下:
這裡LogP、SynthetiAaccessibility(x)、RingPenalty(x)分別代表了辛醇-水分配係數、考慮人工合成可行性下的懲罰和成環原子數目大於6的生成分子的懲罰。在對ZINC數據集預訓練後,作者進行了無約束和相似性約束兩類優化任務。
表1.無約束條件下各算法優化表現
表2.相似性約束條件下各算法表現
通過表1,表2可以觀察到GEGL取得了優於現有算法的性能。還可以注意到,GEGL算法總是成功地提高了相關分子的懲罰對數P分數,即成功率為1.00。
4.2 GuacaMol基準
作者提供了GuacaMol基準的經驗結果,該基準是專門設計來衡量新分子設計算法的性能。它由20個具有化學意義的分子設計任務組成,這些任務已經被領域專家在過去的文獻中仔細設計和研究過了。值得注意的是,GuacaMol基準測試是對一組分子而不是單個分子進行評分,以評估算法產生不同分子的能力。為此,給定一組分子
和一組正整數,在GuacaMol基準測試中任務的評分如下:
其中r是特定於任務的教導分子的分數,表示一組以分子度量為基準的降序排列。在實驗中,作者使用Brown等人提供的權重初始化學徒策略,該權重是在ChEMBL數據集上預先訓練的。對於每個任務,作者運行GEGL 200個步驟,其中SMILES的最大長度限制為100。
表3. GuacaMol基準(左)和經過事後過濾的GuacaMol基準實驗結果
在表3左半部分中,可以觀察到GEGL比現有基線的性能好了很多。也就是說,GEGL在20個任務中獲得了19個任務的最高分。此外,該算法完美地解決了13個任務,其中有3個任務還沒有被完美地解決。這樣的結果證明了GEGL算法能夠有效地產生一個高回報和多樣化的分子集合。然而,新的分子設計算法可能會導致有問題的結果。例如,生成的分子可能不具有生物活性,難以合成,或者被領域專家認為是「不現實的」。考慮到這一點,作者使用了專家設計的過濾器,來排除具有不良特徵的分子。由於過濾過程是事後的,重新設計的分子算法將不能積極地利用過濾過程中可能存在的分歧。
如表3右半部分所示,即使將不合格的分子過濾掉,GEGL仍然優於基線。這驗證了GEGL算法生成有化學意義的結果的能力。因此,可以得出結論,GEGL可以靈活地使用各種新的分子設計過程的選擇。
4.3 消融研究
最後,為了研究算法中每個組件的行為,作者對其算法進行消融研究。為此,作者在GuacaMol基準測試中的Sitagliptin MPO和Zaleplon MPO任務上進行了實驗。這裡的Sitagliptin MPO和Zaleplon MPO任務分別對應於表2中的15號和16號任務。
圖5. 消融研究的四類任務結果
作者首先考察了DNN和遺傳算子在算法中的貢獻。為此,如圖5所示,作者將GEGL與(a)沒有專家策略
的GEGL和(b)沒有學徒策略
的GEGL以及(c)使用改進操作符的遺傳算法進行比較。具體來說,(a)訓練學徒策略模仿自身產生的高回報分子。其次,(b)通過ChEMBL數據集中的高獎勵樣本凍結最大獎勵優先隊列Q,然後僅根據專家策略更新
。最後,(c)與表3中報告的算法相同,但使用了遺傳專家的超參數。在圖(a)和(b)中,可以觀察到所有消融算法的性能都比GEGL差。這一結果證實了神經學徒策略和遺傳專家策略在GEGL框架中是雙贏的。
接下來,為了單獨評估最大回報優先隊列,作者比較了優先隊列Q和
的GuacaMol得分,這兩個隊列是由原始GEGL得分標準化的。例如,考慮
來評估,其中GuacaMolScore()是對一組分子的GaucaMol評分。在圖6c和6d中,可以觀察到,在訓練的早期階段,遺傳專家策略(
)收集的樣本確實比學徒策略(
)有所改進。但是,隨著訓練的進行,學徒策略學習產生的分子質量高於專家策略。由於表(a)和(b)表明,沒有專家策略,學徒策略無法達到相同的性能,因此可以得出學徒策略通過學習有效地包含了遺傳算子的好處的結論。
五、總結
作者提出了一個基於深度神經網絡(DNNs)的新框架來解決新的分子設計問題。主要思想是用領域知識來加強對DNN的訓練,利用專家設計的強大的遺傳算子來指導對DNN的訓練。通過廣泛的實驗,GEGL算法演示了在各種任務中最先進的性能。作者預測,將該框架擴展到存在強遺傳算子的組合搜索問題,如生物序列設計、程序合成和車輛路徑問題將有光明的前途。
代碼
https://github.com/sungsoo-ahn/genetic-expert-guided-learning.
參考文獻
Guiding Deep Molecular Optimizationwith Genetic Exploration,Sungsoo Ahn, Junsu Kim, Hankook Lee, Jinwoo Shin,arXiv:2007.04897 [q-bio.QM],Tue, 27 Oct 2020 10:49:47 UTC .
轉載或合作請聯繫郵箱 intbioinfo@163.com
轉載時請註明出處