作者 | 龐超編輯 | 戴遲遲校對 | 李仲深
分子優化是在輸入分子X的基礎上產生具有更理想性質的分子Y。目前最先進的方法是將分子劃分成一組大的子結構集S,並通過迭代預測從S中選擇子結構添加來產生新的分子結構。 然而,由於可用子結構S集很大,這樣的迭代預測任務往往是不準確的,特別是對於訓練數據中不常見的子結構。
為了應對這一挑戰,作者提出了一種新的生成策略,稱為 「Copy&Refine」 (CORE),在此方法中,生成器首先決定是從輸入X複製現有的子結構還是生成新的子結構,然後將最優的子結構添加到新分子中。與骨架樹生成和對抗性訓練相結合,CORE可以在藥物相似性 (QED)、多巴胺受體 (DRD2) 和懲罰LogP等多種測試中顯著改進幾種最新的分子優化方法。
一、研究背景
近年來,通過直接生成分子圖,人們提出了繞過生成SMILES字符串的方法。這些基於圖的方法將分子生成任務重新定義為圖到圖的轉換問題,從而避免了生成SMILES字符串的需要。此方法的關鍵策略是將輸入分子圖劃分為一個由子結構(如環、原子和鍵)組成的骨架樹,並學會生成這樣的樹。所有可能的樹節點都指向大量的子結構。
然而,圖生成方法仍然表現出不理想的行為,例如生成不準確的子結構,因為所有可能的子結構集都很大,特別是對於不頻繁的子結構。在每個生成步驟中,模型必須決定從一組可能的子結構中決定添加哪個子結構。
另一方面,從作者觀察到的真實數據來看,目標分子的子結構服從兩個原則:
(1) 穩定原則:目標分子中的大部分子結構來自輸入分子。圖1的第一行顯示了大約80%以上的子結構來自四個數據集/任務中的輸入分子。
(2) 新穎性原則:大多數目標分子中存在新的子結構。圖1的第二行顯示,與相應的輸入分子相比,80%的目標分子具有新的子結構。
圖1. 在4個數據集/任務上的輸入分子和目標分子之間的比較
基於這些觀察,作者提出了一種新的分子優化策略,稱為複製和改進(CORE)。關鍵的想法是在每個生成步驟,CORE將決定是從輸入分子複製子結構,或從子結構的整個空間採樣新的子結構。
二、模型與方法
給定一個分子對 (輸入X和目標Y),首先通過圖(或樹)上的消息傳遞算法訓練編碼器,將輸入X嵌入到向量表示中。然後引入兩級解碼器,建立了一種新的骨架樹和相應的分子圖。(此部分方法與之前發表的工作相同,不作介紹,具體算法見論文原文)
圖2. 編碼器與解碼器
作者的主要方法貢獻在於解碼器模塊,在該模塊中,作者提出了一種複製和改進策略,從輸入分子中創建新的但穩定的分子。該模型是用一組分子對(X,Y)訓練的,其中Y是基於輸入分子X的目標分子,它具有更好的化學性質。
2.1 子結構預測
一旦節點擴展被決定,則必須找到要添加的子結構。這一步驟是最具挑戰性的,因為它導致了最大的錯誤率。例如,在QED數據集的訓練過程中,拓撲預測和圖形解碼分別可以達到99%和98%的分類精度,相比之下,子結構預測最多只能達到90%的精度,要低得多。所以作者設計了CORE策略來增強這一環節。
首先,作者使用注意力機制,基於當前消息向量hit,jt、和節點嵌入、XT、XG來計算上下文向量:
具體來說,首先通過以下公式計算注意力權重:
其中g4( · )是點積函數。{αG}以相同的方式生成。然後通過連接樹級上下文向量和圖級上下文向量生成上下文向量:
在注意向量ctsub和消息向量hit,jt的基礎上,加入softmax函數激活的全連接神經網絡g5( · )來預測子結構:
其中qtsub是所有子結構上的分布。
然而,所有可能的子結構的數量通常是相當大的,這使得預測更具挑戰性,特別是對於罕見的子結構。受指針網絡(pointer network)的啟發,作者設計了類似的策略,將一些輸入序列複製到輸出中。但是,指針網絡不能處理目標分子包含OOI(Out-of-Input)子結構,即新的子結構不是輸入分子的一部分的情況。借用sequence-to-sequence模型的思想,作者設計了一種方法來預測生成的新OOI子結構的權重。
2.2 用新的子結構進行改進
首先,作者使用上下文向量ctsub以及輸入分子圖和骨架樹的嵌入來確定在當前步驟中生成的新子結構的權重。
其中g6( · )是一個使用sigmoid激活的完全連接的神經網絡。因此,權重範圍為從0到1。wtOOI表示模型在第t步生成OOI(Out-of-Input)子結構的概率。假設權重不僅取決於輸入分子(全局信息)和解碼器中的當前位置(局部信息)。作者使用表示z來表示輸入分子的全局信息。
其中z是所有骨架樹節點的平均嵌入和所有圖節點的平均嵌入的級聯。局部信息由通過注意機制計算出的上下文向量ctsub表示。
2.3 複製已存在的子結構
在獲得OOI子結構的權重後,CORE考慮是否從輸入分子複製子結構與複製哪個子結構。輸入分子中的每個子結構都有一個注意力權重(已歸一化,所以總和為1),它衡量子結構對解碼器的貢獻。然後CORE會用它表示每個子結構的選擇概率。具體來說,作者定義了一個稀疏向量a:
其中a∈R|S|,{ai}代表a的第i個元素,|S|是其大小。由於注意力權重的歸一化,a也被歸一化。第t步的預測公式為:
其中wtOOI在第t步平衡了兩個分布的貢獻。如果生成新的子結構,則根據分布qtsub從所有子結構中選擇子結構。否則,將使用指針網絡從輸入分子中複製某個子結構。輸入分子中子結構的選擇準則為概率與注意力權重{αT}成正比。
三、實驗結果
3.1 數據集
作者使用了Learning Multimodal Graph-to-Graph Translation for Molecular Optimization一文中的公共數據集與分子對(X,Y)構造訓練數據集,其中X是輸入分子,Y是具有期望性質的目標分子。
X和Y都來自整個數據集,滿足兩個規則:(1)它們足夠相似,即sim(X,Y)≥η1;(2)Y比X具有顯著的屬性改進,即屬性(Y)屬性(X)≥η2,屬性( · )可以是DRD2 (Dopamine Receptor,多巴胺受體2型)、QED (Quantity estimate of drug-likeness,定量評估類藥性)、LogP (評估環的大小與合成可達性)分數。對於LogP04,η1=0.4,對於LogP06,η1=0.6。
3.2 實驗結果與對比
作者將CORE方法與JTVAE,Graph-to-Graph,GCPN方法在相似性、生成分子的性質(Y)、成功率(SR)三個維度上進行了比較。其中,相似性使用摩根指紋上的Tanimoto相似性測量。性質(Y)包括QEDscore、DRD2-score和LogP-score,使用Rdkit包進行評估。在SR1情況下,對於QED和DRD2,當輸入和生成分子之間的相似性大於0.3(λ1),生成分子的性質大於0.6(λ2)時,則認為它是「成功的」。對於LogP04和LogP06,λ3=0.4,λ4=0.8。在SR2情況下,λ1-λ4分別為0.4,0.8,0.4,1.2。結果如下:
圖3. 用相似性測量不同數據集上各種方法的經驗結果
圖4. 用性質(Y)測量不同數據集上各種方法的經驗結果
圖5. 用SR1測量不同數據集上各種方法的經驗結果
圖6. 用SR2測量不同數據集上各種方法的經驗結果
作者的方法在所有測試中都優於基線方法,而且當在具有不頻繁子結構的測試子集上測量時,與完整的測試集相比,CORE獲得了更顯著的改進。
四、總結
在本文中,作者提出了一個深度生成模型,用於創建擁有比輸入分子更理想性質的分子。最先進的圖到圖的方法迭代地從一組大的子結構集中選擇子結構來產生新的分子,這對於不頻繁的子結構來說效果並不盡如人意。為了解決這一挑戰,作者提出了一種新的生成策略CORE,在每一步中,生成器首先決定是從輸入X複製現有的子結構,還是從子結構集中生成新的子結構。由此產生的CORE機制在各種測試中,特別是在稀有子結構上,可以顯著地優於幾個最新的分子優化基線方法。
代碼
https://github.com/futianfan/CORE
參考文獻
Fu, T., Xiao, C., & Sun, J. (2020). CORE: Automatic Molecule Optimization Using Copy & Refine Strategy. Proceedings of the AAAI Conference on Artificial Intelligence, 34(01), 638-645.