Survey | 基於生成模型的分子設計

2021-01-21 DrugAI

作者 | 陸豐慶

審稿 | 羅瀟澧


今天給大家介紹MIT的Rafeal Gomez-Bombarelli教授發表在arXiv上的綜述文章。文章對分子生成模型進行了分類,並介紹了各類模型的發展和性能。最後,作者總結了生成模型作為分子設計前沿工具的前景和挑戰。

材料創新是許多技術進步的關鍵驅動力。從清潔能源、航天工業到藥物發現,化學和材料科學的研究不斷向前推進,以開發新用途、低成本和高性能的分子。

材料發現的傳統方法是從一組具有特定性質的分子開始,深入研究其結構與性質之間的關係並以此為依據對化合物的結構進行改進。這種基於「試錯」的創新方法往往成本高昂且少有成效,一種新材料的研發可能需要數十億美元的投資和長達20年的時間。

分子的反向設計方法與傳統方法不同的是,其不再從結構推導性質,而是預先選擇屬性參數,通過結構和屬性之間的反向映射來推斷出滿足這些屬性的未知分子。早期的分子反向設計通常是分子性質相對於給定參數的極值優化問題,研究人員將蒙特卡洛採樣與遺傳算法等優化算法結合,避免隨機搜索或對化學空間進行枚舉。即便如此,這些採樣-優化相結合的方法需要在每一步中對分子的屬性進行計算和評估,依然有「試錯」的味道,而不是一個可逆的結構-屬性映射。

近幾年,基於數據驅動的人工智慧方法,尤其是生成模型,逐漸被用於解決各個領域的逆向設計,並在分子反向設計和藥物發現中展現出了光明的前景。

簡而言之,生成模型的作用是捕獲數據分布的潛在規則。取給定空間中的部分數據點集合{Xi}作為訓練集,訓練生成模型匹配真實數據分布,使生成的數據Y∼類似於實際數據X∼。

圖1 三種流行的生成模型的原理圖 (A) 變分自編碼器 (B) 生成對抗網絡 (C) 自回歸模型

在生成模型中,變分自動編碼器(VAE)是一種具有魯棒性的體系結構,其通過將數據X映射到隱變量Z的隱式空間上來耦合推理和生成兩個過程。為此,模型需在受隱式空間約束的情況下學習恆等映射,如圖1(A)。數據首先由編碼器編碼為隱變量z的概率分布,並使其逼近預先設定的先驗分布。隨後,從隱式空間中採樣z,利用解碼器將其重構。VAE的目標函數為

利用梯度上升算法,編碼器將由KL散度正則化使隱變量的後驗分布逼近先驗分布,解碼器由重構誤差懲罰。

第二種生成模型是生成對抗網絡(GAN),該模型是通過兩個神經網絡相互競爭,直到二者達到納什均衡來實現的。其中,一個網絡生成候選數據(生成網絡),另一個評估這些數據(判別網絡)。生成對抗網絡GAN通過對先驗概率分布Pz進行一系列的非線性變換,以逼近真實數據分布Px。然而,生成網絡G只接收先驗分布作為輸入而不接觸任何真實數據,它只能通過判別網絡D進行訓練,如圖1(B)。判別網絡以完美區分真實數據X∼Px和被生成的數據G(z) ∼PG,達到最大化分類準確度為目標進行訓練。生成網絡試圖生成看起來像真實數據X的數據G(z)來欺騙判別網絡,從而最大程度地降低判別網絡的分類準確度。GAN目標函數被寫為

儘管GAN有著相當不錯的性能,但其訓練過程非常不穩定。min-max問題要求兩個網絡平衡訓練,以確保模型收斂。此外,GAN容易進入mode collapse,即生成的樣本不具有多樣性。

第三種生成模型是自回歸模型,例如PixelRNN和PixelCNN,已經被用於生成圖片,視頻和文本。與VAE和GAN不同的是,這類模型通過易解因式分解Px來近似真實數據分布。例如,在一張nxn的圖片中,生成模型P(x)可寫為

其中每個xi都是模型生成的一個像素,如圖1(C)。這類顯式分布模型生成的樣本具有很好的負對數似然得分和多樣性。然而,由於依賴於順序生成,這類模型生成樣本速度較慢。

在這一章中,作者主要關注兩種常用的分子表示方法,SMILES字符串和分子圖,如圖2,以及這些方法對應的生成模型。

圖2 兩種常用的表示分子的方法:(a)SMILES字符串與其對應的one-hot編碼 (b)由Lewis結構得到的分子圖。

通過graph to text的映射算法得到的SMILES(簡化分子線性輸入規範)字符串已被廣泛用於分子的表示。同一個分子可以由SMILES微笑字符串表示,因此通常選擇canonical表示(一種規範表示),而non-canonical字符串可以用於數據增強。由於SMILES依賴於基於序列的表示,自然語言處理算法可以自然地被移植到分子生成領域。最近一些研究提出利用LSTM、GRU或stack-augmented memory等RNN自回歸生成模型,基於之前生成的字符逐個生成下一個字符,最後生成任意長度的字符串。

RNN架構在分子設計最簡單的應用形式為利用分子資料庫中的有效SMILES對RNN進行訓練並生成大量有效分子,隨後根據分子的物理化學性質進行篩選。為了引導模型生成特定化學空間中的分子,Segler等人採用遷移學習策略,首先在整個分子數據集上訓練RNN,然後對模型進行微調,以生成具有特定物理化學性質的分子。在藥物發現中,對化學空間的搜索通常從具有某些預期功能的分子結構開始,因此遷移學習的方法較為常用。

強化學習是用於解決動態決策問題的一類人工智慧算法。由於RNN架構在生成分子時根據已生成字符串逐個生成下一個字符,該模式類似強化學習的決策過程:已經生成的字符串對應環境,生成下一個字符對應動作。Jaques等人將RNN架構與強化學習結合,在序列生成中懲罰大環,短序列和長碳鏈,促使模型生成有效分子。類似地,Popova等人使用stack-augmented RNN結合強化學習設計藥物分子,通過設計合理的獎勵函數,可生成易合成、易溶解、可用藥的分子。

VAE可將分子映射為一個連續、可微的隱空間,並包含了關於分子的重要信息。Gomez-Bombarelli等人利用RNN構建VAE的編碼器和解碼器,在QM9和ZINC數據集進行性質預測和重構任務的訓練。隱空間不僅用於分子的採樣生成,還允許使用一個訓練在隱空間上的預測器進行插值、重構和優化,如圖3。Kang等人利用部分標註的數據集半監督訓練VAE,以減少性質預測的誤差,並根據特定條件生成分子。

圖3 用於分子設計的變分自編碼器。(a)中的架構允許隱空間中進行屬性優化,如(b)中所示。

在分子生成領域,GAN通常與強化學習緊密結合。Guimaraes等人採用了WGAN和隨機策略,在保持生成分子的類藥性的前提下提高了生成分子的多樣性,優化了分子的物理化學性質。MendezLucio等人使用GAN根據基因表達特徵進行條件生成,生成針對特定靶標的活性化合物。然而,在生成分子的同時避免不穩定的訓練和mode collapse仍然是GAN應用與分子設計的一大障礙。

表示分子更直觀的方法是根據分子的路易斯結構將其轉化成一個分子圖。給定一個圖G = (V,E),將原子表示為節點vi∈V,化學鍵表示為邊(vi, vj)∈E,並根據原子類型和化學鍵類型為節點和邊賦值對應的標籤。大量的研究如Graph RNN,GCN,GNN等方法探索了分子圖在分子性質預測任務中的傑出性能,這些研究為基於圖的分子生成奠定了基礎。

與生成SMILES字符串相似,生成分子圖的一種方法是順序地向圖中添加節點和邊。研究者使用RNN順序生成任意大小的分子,如圖4(a),特別的,Li等人使用解碼器策略來改善模型的結果。基於圖的條件生成模型可以生成具有類藥性,可合成性,甚至具有特定骨架的分子。然而,這種逐個節點生成的方法依賴於分子圖中節點的排列順序,因此受到節點隨機排列的影響。

圖4 基於圖的分子生成模型 (a)一種基於RNN的分子圖生成決策過程 (b)JT-VAE

在VAE領域,研究者已經提出了多種直接從隱變量生成分子圖的方法。然而,VAE在進行重構時,需要昂貴的算力才能解決圖的同構問題,並且在不施加約束的情況下,圖重構的有效性和準確性極低。當前,將分子圖轉化為有意義的隱變量,同時避免順序生成的最成功的方法之一是聯結樹變分自編碼器(JT-VAE)。該方法首先將分子圖分解為分子的子結構,其中包括環、官能團和各類原子,如圖4(b)。然後,對模型進行訓練,將分解得到的圖和樹結構編碼到兩個隱空間中,再通過這兩個隱變量重構回原來的分子。作者還利用圖到圖的轉換和自回歸方法改進了JT-VAE,使其能夠進行分子性質優化。

有研究者將VAE與基於自回歸的圖生成方法結合,用於生成和優化分子。Assouel等人提出了一種基於圖表示的解碼策略來輸出生成任意大小的分子,即使對於含有約25個重原子的分子,也能達到較高的重構精度。儘管仍然存在節點排列的限制,該模型允許直接優化分子性質。

基於圖的自回歸模型也可以和強化學習結合,Zhou等人建立了一個馬爾科夫決策過程,通過多目標強化學習生成具有目標性質的分子。該方法順序添加原子和化學鍵,由於強化學習施加的約束,該模型可生成分子有高達100%的有效性。

基於圖的生成對抗模型還處於初級階段,Kipf等人提出了了MolGAN,其結合強化學習訓練GAN生成分子圖,但是該模型容易進入mode collapse。Wachinger等人在MolGAN的基礎上增加了一種對抗訓練,以避免計算重構損失。


此外,基於圖的GAN的輸出結構可以通過Gumbel-softmax可微離散化,但對抗訓練與對分子約束平衡需要更多的研究。

圖5 分子生成模型的概要和時間線。較新的模型位於圖的底部。

在分子設計領域,生成模型還處於起步階段(見圖5的時間線總結),雖然已經有諸多研究成果,但在實現「閉環」生成之前,分子生成模型仍面臨著以下挑戰:(1)如何提高模型的泛化能力,(2)如何提高對真實數據進行推斷的能力,(3)如何提高生成新分子的能力。雖然SMILES能夠有效表示分子,分子圖也充分包含分子的結構信息和化學特徵,但是,其他信息豐富的分子表示方法,例如用三維原子坐標表示分子,仍需被繼續關注並應用於生成模型。此外,分子生成模型的性能難以評估。如何建立基準以便於量化比較模型性能,而非通過預測分子溶解度或藥物相似性等方法進行比較仍充滿挑戰。

總之,生成模型有望徹底改變分子設計領域。其不僅允許優化分子或直接從數據學習特徵,還繞過了人工監督分子設計的必要性。直面這些模型存在的挑戰,可以極大縮短新材料的發現周期,甚至揭開自然真理的面紗。

Daniel Schwalbe-Koda, Rafael Gómez-Bombarelli. Generative Models for Automatic Chemical Design. arXiv:1907.01632v1 [cs.LG] 2 Jul 2019

相關焦點

  • GraphNVP | 用於分子圖生成的可逆流模型
    具有理想藥理特性新分子的發現是計算藥物發現中的關鍵問題。傳統上,這項任務是通過臨床合成候選化合物並對其進行實驗來完成的。但是,由於化學空間是巨大的,合成分子並對其進行廣泛的實驗是非常耗時的任務。從頭設計藥物不是在分子中尋找具有所需特性的空間,而是設計具有我們感興趣特性的新化合物。
  • JMC|賽諾菲研究基於AI的分子從頭設計
    AI的從頭分子設計研究結果。本文介紹了基於強化學習來進行化學空間的探索的方案;同時,也對相關的評分方法進行了研究;最後,在對典型藥物研發項目的回顧性研究中,作者研究了如何生成項目進展所需的相關分子,以及如何定製方案以滿足分子合成和優化的相關需求。生成性神經網絡被訓練以用於從頭設計具有指定屬性的化合物。訓練過程主要包括兩個步驟。
  • arXiv | 藥物組合的深度生成模型
    作者將藥物組合設計問題設計為基於網絡原則的圖集生成問題。將藥物用藥物分子圖來表示,不斷學習強化學習的智能體(agent),使它能夠在化學感知和系統感知的環境中迭代地向每個分子圖添加子結構和邊。狀態空間(state space) G是K個圖的集合,每個圖有不同數目和類型的節點或邊。迭代過程中中記錄圖集的中間變化狀態Gt。
  • 藥物發現 | 基於分子晶體形狀與分子間相互作用的藥物發現方法
    他們的研究結果表明,在藥物發現階段,充分利用小分子晶體結構所包含的大量化學信息十分重要,這種基於配體的篩選方法有較好的應用前景。分子形狀(對於結合口袋而言是其互補形狀)對於確定有效的小分子調節劑至關重要,因此許多計算機輔助藥物設計/發現方法都側重於分析分子形狀和/或靜電特性,為了識別用於藥物發現的「藥效團」,還使用了不同的數學描述或與分子形狀相關的指紋。
  • 技術乾貨|基於模型的機電一體化設計(附白皮書下載)
    Simulink 作為一個基於模型設計的平臺,結合 Simscape 物理建模軟體,從而為機電一體化系統設計提供了便利。本文試圖用一個 Drawworks (石油鑽井絞車)的例子,來闡述如何在基於模型設計的基礎上,進行機電一體化開發。◆◆◆ ◆上圖中鑽井絞車系統為一個 Simulink 仿真模型,由物理模型、控制部分和操作界面組成。
  • 石油分子的模型表示
    目前,對於沸點高於汽油的組分,主流的分析方法無法給出所有分子細節上的定性與定量信息。為了在缺乏完整實驗數據的情況下,仍能得到油品的分子組成信息,對石油混合物進行相平衡和物性計算,學術界先是發展了不同的石油組分特徵化方法,後又逐漸摸索出了一條石油分子組成模型的技術路線,即基於模型化合物的虛擬分子集的方法。
  • JMC|基於結構的exportin-1小分子共價拮抗劑的發現
    LFS-06的苯環生成由2025個在苯環上具有雙取代基的分子組成虛擬組合庫。通過口服LFS-01可以逆轉模型小鼠的結腸炎。本文通過基於結構的藥物設計,發現了一種新的基於LFS-01的有效拮抗劑LFS-829,並評估其在結腸炎模型中的功效。首先,為了增加與CRM1的NES結合位點的非共價相互作用,在LFS-01的母體結構的亞碸部分旁邊接了一個苯環得到化合物LFS-06。通過基於細胞的表型核輸出功能試驗測定的IC50值為1.5 M,比LFS-01的值高3倍。
  • 關於基於模型的設計開發月球探測器的機載飛行軟體分析和介紹
    為了在有限的項目成本和時間條件下開發太空飛行器的飛行軟體,美國宇航局艾姆斯研究中心的工程師採取了一種基於模型設計的低成本、快速原型方法。 LADEE 飛行軟體負責人 Karen Gundy-Burlet 博士表示:「在Simulink中對太空飛行器的高級控制功能進行建模和仿真,然後利用這些模型生成 C 代碼,最大限度地減少了算法設計人員與軟體開發人員之間的溝通差錯。基於模型的設計使得我們能夠在早期確定需求原型,並在開發的初期階段進行驗證和確認。」
  • 日本研究員提出​圖模型新方法,助力化學合成新分子
    但由於化學分子構成的空間十分龐大, 合成分子進行廣泛實驗的成本十分巨大。為了替代在分子空間中搜索期待特性的方法,研究人員提出了新的思路,將人們希望得到的藥物特性加入到重頭開始設計新藥的過程中去。來自日本PFN的研究人員們提出了一種基於可逆流模型的圖生成方法GraphNVP用於高效的合成有效藥物分支結構,並在實驗中取得了良好的效果。
  • 中國藥物分子設計40年發展成就
    2010年代,進入了醫藥研發大數據時代,伴隨著科研信息化設施的升級以及組學數據的爆炸式增長,藥物設計領域也逐漸向智能化邁進。 我國從事藥物分子設計的研究機構也在不斷增多,形成了許多以藥物分子設計為特色的研究方向如網絡藥理學、系統生物學等,研究成果在國內外產生了重要的影響。
  • ICLR2020 | 分類器其實是基於能量的模型?判別式分類器設計新思路
    今天要介紹的這篇論文來自多倫多大學、Vector Institute 和谷歌,該論文獲得了ICLR 2020 會議 6-8-8 的高分,提出了一種設計判別式分類器的新思路:把判別式分類器重新解讀為基於能量的模型
  • 淺談基於模型的系統工程(MBSE)技術
    基於模型的系統工程將系統的設計過程分解為需求(requirements)定義-功能(function)分析-邏輯(logical)設計-3D物理(physical)設計過程,簡稱為RFLP。RFLP貫穿於產品概念設計、方案設計、詳細初步設計以及詳細設計整個研製階段中,對應於每個階段、每個設計層級(飛機級、系統級、分系統級、設備級)、每個系統(燃油系統、環控系統、液壓系統、電氣系統等)構建相應的R模型、F模型、L模型和P模型,從而實現對複雜系統需求、架構、功能、行為等不同層面的建模,基於模型支撐整個系統的需求、設計、分析、驗證和確認等活動,實現整個設計過程的數據追溯。
  • 基於事例的減速器的設計
    給出了以AutoCAD for Windows 為支撐平臺的減速器CAD 系統的總體結構與實現方法,對系統的設計思想進行了詳細的描述,採用模塊化結構對整個系統軟體進行設計,使整個系統便於修改和移植。討論了減速器裝配模型的建立,分析了各部件的裝配關係,提出基於信息共享生成裝配圖的方法。同時對系統中其他的開發問題與解決方法進行了討論。
  • [ICML 2018]用於分子圖生成的聯結樹變分自動編碼器
    原文地址 : https://arxiv.org/pdf/1802.04364.pdf1摘要文章提出了一種基於聯結樹的變分自動編碼器,第一步將分子以子結構為單元轉為樹狀圖,第二步將連結樹餵入圖信息傳遞網絡
  • ICML論文解讀|北大本科生提出基於圖到圖翻譯的分子逆合成預測框架
    逆合成預測示意圖 現有的關於逆合成分析的機器學習算法主要有兩類:基於反應模版的方法和不依賴反應模版的方法。前者將目標分子與許多反應模版進行匹配,每個反應模版定義了一系列類似的化學反應的子圖特徵。雖然基於模版的方法有較好的可解釋性,但是它們需要昂貴的子圖匹配,並且一旦匹配失敗,則模型不能給出任何的預測。
  • 基於MBD的產品設計製造技術研究
    現有的基於二維工程圖的、卡片式的工藝規程已無法繼承上遊的MBD模型,也無法有效地將設計信息傳遞至製造後端,因此,現有的工藝設計模式和方式已經很難滿足基於MBD模型的工藝設計要求,並將直接影響到產品的工藝設計周期和產品製造質量。
  • CAD建築設計高級教程:自動生成三維組合模型
    在建築設計中,圖紙後期的檢查非常重要。如何查看建築設施三維關係?如何結合動態觀察效果?如何與水暖電專業協同,排除管線立體交叉現象?最好的方法就是在圖紙中生成三維組合模型。下面以中望CAD建築版為例,詳細教大家如何操作。
  • 生成式模型入門:訓練似然模型的技巧 - 機器之心Pro
    機器之心編譯參與:李志偉、Geek AI生成模型不止有 GAN,本教程討論了數學上最直接的生成模型(易處理的密度估計模型)。讀罷本文,你將了解如何定量地比較似然模型。散度最小化:生成模型的一般框架生成模型(其實都是統計機器學習模型)旨在從一些(可能是條件的)概率分布 p(x) 中取樣本數據,並學習對 p(x) 進行近似的模型 pθ(x)。建模過程使我們可以基於給定的原始數據外推觀察到的信息。
  • ...分子人工受體的設計合成與分子識別、核酸酶模型設計和酶模擬...
    所在院校: 南京大學       所在院系: 化學化工學院 職稱: 教授       招生專業: 有機化學 研究領域: 生物有機化學和超分子化學,涉及生物分子人工受體的設計合成與分子識別
  • 基於生成對抗網絡的三維點雲自動修復
    論文信息 基於生成對抗網絡的點雲形狀保結構補全 繆永偉1*, 劉家宗1, 陳佳慧1, 舒振宇2 1.浙江理工大學信息學院, 杭州 310018 2.浙江大學寧波理工學院 計算機與數據工程學院