AAAI 2020|CORE:利用複製和改進策略自動優化分子

2021-01-18 DrugAI

作者 | 龐超編輯 | 戴遲遲校對 | 李仲深

分子優化是在輸入分子X的基礎上產生具有更理想性質的分子Y。目前最先進的方法是將分子劃分成一組大的子結構集S,並通過迭代預測從S中選擇子結構添加來產生新的分子結構。 然而,由於可用子結構S集很大,這樣的迭代預測任務往往是不準確的,特別是對於訓練數據中不常見的子結構。

為了應對這一挑戰,作者提出了一種新的生成策略,稱為 「Copy&Refine」 (CORE),在此方法中,生成器首先決定是從輸入X複製現有的子結構還是生成新的子結構,然後將最優的子結構添加到新分子中。與骨架樹生成和對抗性訓練相結合,CORE可以在藥物相似性 (QED)、多巴胺受體 (DRD2) 和懲罰LogP等多種測試中顯著改進幾種最新的分子優化方法。

一、研究背景

近年來,通過直接生成分子圖,人們提出了繞過生成SMILES字符串的方法。這些基於圖的方法將分子生成任務重新定義為圖到圖的轉換問題,從而避免了生成SMILES字符串的需要。此方法的關鍵策略是將輸入分子圖劃分為一個由子結構(如環、原子和鍵)組成的骨架樹,並學會生成這樣的樹。所有可能的樹節點都指向大量的子結構。

然而,圖生成方法仍然表現出不理想的行為,例如生成不準確的子結構,因為所有可能的子結構集都很大,特別是對於不頻繁的子結構。在每個生成步驟中,模型必須決定從一組可能的子結構中決定添加哪個子結構。

另一方面,從作者觀察到的真實數據來看,目標分子的子結構服從兩個原則:

(1) 穩定原則:目標分子中的大部分子結構來自輸入分子。圖1的第一行顯示了大約80%以上的子結構來自四個數據集/任務中的輸入分子。

(2) 新穎性原則:大多數目標分子中存在新的子結構。圖1的第二行顯示,與相應的輸入分子相比,80%的目標分子具有新的子結構。

圖1. 在4個數據集/任務上的輸入分子和目標分子之間的比較

基於這些觀察,作者提出了一種新的分子優化策略,稱為複製和改進(CORE)。關鍵的想法是在每個生成步驟,CORE將決定是從輸入分子複製子結構,或從子結構的整個空間採樣新的子結構。

二、模型與方法

給定一個分子對 (輸入X和目標Y),首先通過圖(或樹)上的消息傳遞算法訓練編碼器,將輸入X嵌入到向量表示中。然後引入兩級解碼器,建立了一種新的骨架樹和相應的分子圖。(此部分方法與之前發表的工作相同,不作介紹,具體算法見論文原文)

圖2. 編碼器與解碼器

作者的主要方法貢獻在於解碼器模塊,在該模塊中,作者提出了一種複製和改進策略,從輸入分子中創建新的但穩定的分子。該模型是用一組分子對(X,Y)訓練的,其中Y是基於輸入分子X的目標分子,它具有更好的化學性質。

2.1 子結構預測

一旦節點擴展被決定,則必須找到要添加的子結構。這一步驟是最具挑戰性的,因為它導致了最大的錯誤率。例如,在QED數據集的訓練過程中,拓撲預測和圖形解碼分別可以達到99%和98%的分類精度,相比之下,子結構預測最多只能達到90%的精度,要低得多。所以作者設計了CORE策略來增強這一環節。

首先,作者使用注意力機制,基於當前消息向量hit,jt、和節點嵌入、XT、XG來計算上下文向量:

具體來說,首先通過以下公式計算注意力權重:

其中g4( · )是點積函數。{αG}以相同的方式生成。然後通過連接樹級上下文向量和圖級上下文向量生成上下文向量:

在注意向量ctsub和消息向量hit,jt的基礎上,加入softmax函數激活的全連接神經網絡g5( · )來預測子結構:

其中qtsub是所有子結構上的分布。

然而,所有可能的子結構的數量通常是相當大的,這使得預測更具挑戰性,特別是對於罕見的子結構。受指針網絡(pointer network)的啟發,作者設計了類似的策略,將一些輸入序列複製到輸出中。但是,指針網絡不能處理目標分子包含OOI(Out-of-Input)子結構,即新的子結構不是輸入分子的一部分的情況。借用sequence-to-sequence模型的思想,作者設計了一種方法來預測生成的新OOI子結構的權重。

2.2 用新的子結構進行改進

首先,作者使用上下文向量ctsub以及輸入分子圖和骨架樹的嵌入來確定在當前步驟中生成的新子結構的權重。

其中g6( · )是一個使用sigmoid激活的完全連接的神經網絡。因此,權重範圍為從0到1。wtOOI表示模型在第t步生成OOI(Out-of-Input)子結構的概率。假設權重不僅取決於輸入分子(全局信息)和解碼器中的當前位置(局部信息)。作者使用表示z來表示輸入分子的全局信息。

其中z是所有骨架樹節點的平均嵌入和所有圖節點的平均嵌入的級聯。局部信息由通過注意機制計算出的上下文向量ctsub表示。

2.3 複製已存在的子結構

在獲得OOI子結構的權重後,CORE考慮是否從輸入分子複製子結構與複製哪個子結構。輸入分子中的每個子結構都有一個注意力權重(已歸一化,所以總和為1),它衡量子結構對解碼器的貢獻。然後CORE會用它表示每個子結構的選擇概率。具體來說,作者定義了一個稀疏向量a:

其中a∈R|S|,{ai}代表a的第i個元素,|S|是其大小。由於注意力權重的歸一化,a也被歸一化。第t步的預測公式為:

其中wtOOI在第t步平衡了兩個分布的貢獻。如果生成新的子結構,則根據分布qtsub從所有子結構中選擇子結構。否則,將使用指針網絡從輸入分子中複製某個子結構。輸入分子中子結構的選擇準則為概率與注意力權重{αT}成正比。

三、實驗結果

3.1 數據集

作者使用了Learning Multimodal Graph-to-Graph Translation for Molecular Optimization一文中的公共數據集與分子對(X,Y)構造訓練數據集,其中X是輸入分子,Y是具有期望性質的目標分子。

X和Y都來自整個數據集,滿足兩個規則:(1)它們足夠相似,即sim(X,Y)≥η1;(2)Y比X具有顯著的屬性改進,即屬性(Y)屬性(X)≥η2,屬性( · )可以是DRD2 (Dopamine Receptor,多巴胺受體2型)、QED (Quantity estimate of drug-likeness,定量評估類藥性)、LogP (評估環的大小與合成可達性)分數。對於LogP04,η1=0.4,對於LogP06,η1=0.6。

3.2 實驗結果與對比

作者將CORE方法與JTVAE,Graph-to-Graph,GCPN方法在相似性、生成分子的性質(Y)、成功率(SR)三個維度上進行了比較。其中,相似性使用摩根指紋上的Tanimoto相似性測量。性質(Y)包括QEDscore、DRD2-score和LogP-score,使用Rdkit包進行評估。在SR1情況下,對於QED和DRD2,當輸入和生成分子之間的相似性大於0.3(λ1),生成分子的性質大於0.6(λ2)時,則認為它是「成功的」。對於LogP04和LogP06,λ3=0.4,λ4=0.8。在SR2情況下,λ1-λ4分別為0.4,0.8,0.4,1.2。結果如下:

圖3. 用相似性測量不同數據集上各種方法的經驗結果

圖4. 用性質(Y)測量不同數據集上各種方法的經驗結果

圖5. 用SR1測量不同數據集上各種方法的經驗結果

圖6. 用SR2測量不同數據集上各種方法的經驗結果

作者的方法在所有測試中都優於基線方法,而且當在具有不頻繁子結構的測試子集上測量時,與完整的測試集相比,CORE獲得了更顯著的改進。

四、總結

在本文中,作者提出了一個深度生成模型,用於創建擁有比輸入分子更理想性質的分子。最先進的圖到圖的方法迭代地從一組大的子結構集中選擇子結構來產生新的分子,這對於不頻繁的子結構來說效果並不盡如人意。為了解決這一挑戰,作者提出了一種新的生成策略CORE,在每一步中,生成器首先決定是從輸入X複製現有的子結構,還是從子結構集中生成新的子結構。由此產生的CORE機制在各種測試中,特別是在稀有子結構上,可以顯著地優於幾個最新的分子優化基線方法。

代碼

https://github.com/futianfan/CORE

參考文獻

Fu, T., Xiao, C., & Sun, J. (2020). CORE: Automatic Molecule Optimization Using Copy & Refine Strategy. Proceedings of the AAAI Conference on Artificial Intelligence, 34(01), 638-645.

相關焦點

  • NeurIPS2020|用遺傳探索指導深層分子優化
    1.2 分子生成深度神經網絡在過去的幾年裡,分子生成深度神經網絡(DNNs)已經證明了在解決分子設計的生成問題上取得了成功。例如,Gomez-Bombarelli等人在分子生成變量自動編碼器的嵌入空間上執行貝葉斯優化以最大化期望的性質。
  • 科學家利用單分子操縱技術觀測DNA複製
    這些損傷可以造成DNA複製過程停滯,從而導致細胞死亡。為了避免它,細胞利用幾個信號通路來繞過損傷繼續DNA複製過程。近日來自西班牙巴塞隆納大學的研究人員利用一些單分子操縱技術在體外重現了其中的一個過程。相關研究發表在11月30日的《科學》(Science)雜誌上。 「早在上世紀70年代人們就提出了這一信號通路,現在通過操縱單分子我們在噬菌體上證實了它。
  • Windows 10 October 2020功能更新改進一覽
    Windows 10 October 2020(20H2/Version 2009)功能更新已經於今天正式發布。本次更新引入了一些新的功能,包括簡化開始菜單設計,優化 Alt+Tab 體驗等等。本次更新還為 IT 管理員帶來了一些改進。
  • AAAI 2019 | 自動機器學習計算量大!這種多保真度優化技術是走向...
    近日南京大學、第四範式和香港科技大學提出了一種多保真度自動機器學習方法,其在優化過程中利用修正後低保真度評價來代替原始的高保真度評價,而大大減少了總體評價的代價。自動機器學習能夠大幅度降低機器學習門檻,使非機器學習甚至非計算機領域能夠快速使用機器學習算法,因而越來越受到關注。
  • 利用深度變體自動編碼器改進宏基因組的組裝
    利用深度變體自動編碼器改進宏基因組的組裝 作者:小柯機器人 發布時間:2021/1/5 16:19:03 丹麥哥本哈根大學Simon Rasmussen課題組的最新研究利用深度變體自動編碼器改進了宏基因組的組裝。
  • 即時配送的訂單分配策略:從建模和優化
    騎手的位置、訂單狀態、天氣數據、LBS數據,利用這些數據輔以相關數學工具使得實現計算機系統的自動派單成為可能。即時配送大數據平臺實現對騎手軌跡數據、配送業務數據、特徵數據、指標數據的全面管理和監控,並通過模型平臺、特徵平臺支持相關算法策略的快速迭代和優化。
  • Cell:開發出利用CRISPR抵抗流感病毒和SARS-CoV-2的新型抗病毒策略
    靶向正義基因組和病毒mRNA以同時降解用於病毒複製和基因表達的病毒基因組模板,這將有望穩健地限制病毒複製。相關研究結果以論文手稿的形式在線發表在Cell期刊上,論文標題為「Development of CRISPR as an antiviral strategy to combat SARS-CoV-2 and influenza」。
  • 【第65期】(第34屆) AAAI-2020 Accept-paper List(662篇) ​
    Parkes,Barbara Grosz,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/6545[1216].Fern,Fuxin Li,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/6806[1401].
  • 【第63期】(第34屆) AAAI-2020 Accept-paper List(部分602篇)
    Gummadi,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/5349[24].Carbonell,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/5382[57].
  • 《科學》突破性研究:多種癌細胞利用DNA複製出錯產生耐藥性
    《科學》突破性研究:多種癌細胞利用DNA複製出錯產生耐藥性  Emma Chou • 2020-06-05 16:09:14
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    關鍵詞和疑問詞錯誤的基線實驗表 2. 複製機制錯誤的基線實驗作者認為,現有的基於神經網絡的問題生成模型之所以出現上述兩個問題是因為:(1)解碼器在生成過程中可能只關注局部詞語義而忽略全局問題語義;(2)複製機制沒有很好地利用答案位置感知特徵,導致從輸入中複製與答案無關的上下文單詞。
  • 魅族Flyme 7體驗版12.25更新 優化應用凍結策略
    以下為本次版本更新日誌:   功能調整   系統   優化應用凍結策略,改善應用無響應、黑屏、閃退等問題   導航和多任務   優化魅族16th、魅族16th Plus的手勢導航策略,輕鬆應對每一個操作,體驗更美好   路徑:設置-導航和多任務-導航欄-簡易手勢   操作方式:
  • [ICML 2018]用於分子圖生成的聯結樹變分自動編碼器
    原文地址 : https://arxiv.org/pdf/1802.04364.pdf1摘要文章提出了一種基於聯結樹的變分自動編碼器,第一步將分子以子結構為單元轉為樹狀圖,第二步將連結樹餵入圖信息傳遞網絡
  • DNA分子的複製學習
    DNA分子的複製【學習目標】1、理解證明DNA分子是半保留複製的方法和過程2、概述DNA分子複製的過程及特點3、探討DNA複製的生物學意義(4)將Ⅰ代DNA分子繼續在含14N的培養基上繁殖,得到Ⅱ代DNA分子,同樣用密度梯度離心分離,發現Ⅱ代DNA分子在離心管中的位置是輕帶和中帶。
  • 【第33期】(第6屆) AAAI-1987 Accept-paper List(149篇)
    Miranker,論文連結: http://www.aaai.org/Library/AAAI/1987/aaai87-008.php[9].Korf,論文連結: http://www.aaai.org/Library/AAAI/1987/aaai87-016.php[17].
  • 【第45期】(第18屆) AAAI-2002 Accept-paper List(180篇)
    作者: Ping Chen,Zhaohui Fu,Andrew Lim,論文連結: http://www.aaai.org/Library/AAAI/2002/aaai02-001.php[2].作者: Paolo Liberatore,論文連結: http://www.aaai.org/Library/AAAI/2002/aaai02-041.php[42].
  • Survey | 基於生成模型的分子設計
    文章對分子生成模型進行了分類,並介紹了各類模型的發展和性能。最後,作者總結了生成模型作為分子設計前沿工具的前景和挑戰。材料創新是許多技術進步的關鍵驅動力。從清潔能源、航天工業到藥物發現,化學和材料科學的研究不斷向前推進,以開發新用途、低成本和高性能的分子。材料發現的傳統方法是從一組具有特定性質的分子開始,深入研究其結構與性質之間的關係並以此為依據對化合物的結構進行改進。
  • 【第42期】(第15屆) AAAI-1998 Accept-paper List(206篇)
    Lester,論文連結: http://www.aaai.org/Library/AAAI/1998/aaai98-016.php[17].作者: Neil Smith,論文連結: http://www.aaai.org/Library/AAAI/1998/aaai98-031.php[32].
  • 【第43期】(第16屆) AAAI-1999 Accept-paper List(193篇)
    Constable,論文連結: http://www.aaai.org/Library/AAAI/1999/aaai99-041.php[42].Hendler,論文連結: http://www.aaai.org/Library/AAAI/1999/aaai99-076.php[77].
  • 【第41期】(第14屆) AAAI-1997 Accept-paper List(213篇)
    作者: Juan David Velásquez,論文連結: http://www.aaai.org/Library/AAAI/1997/aaai97-002.php[3].Clancy,Benjamin Kuipers,論文連結: http://www.aaai.org/Library/AAAI/1997/aaai97-020.php[21].