作者 | 陸豐慶
審稿 | 羅瀟澧
今天給大家介紹MIT的Rafeal Gomez-Bombarelli教授發表在arXiv上的綜述文章。文章對分子生成模型進行了分類,並介紹了各類模型的發展和性能。最後,作者總結了生成模型作為分子設計前沿工具的前景和挑戰。
材料創新是許多技術進步的關鍵驅動力。從清潔能源、航天工業到藥物發現,化學和材料科學的研究不斷向前推進,以開發新用途、低成本和高性能的分子。
材料發現的傳統方法是從一組具有特定性質的分子開始,深入研究其結構與性質之間的關係並以此為依據對化合物的結構進行改進。這種基於「試錯」的創新方法往往成本高昂且少有成效,一種新材料的研發可能需要數十億美元的投資和長達20年的時間。
分子的反向設計方法與傳統方法不同的是,其不再從結構推導性質,而是預先選擇屬性參數,通過結構和屬性之間的反向映射來推斷出滿足這些屬性的未知分子。早期的分子反向設計通常是分子性質相對於給定參數的極值優化問題,研究人員將蒙特卡洛採樣與遺傳算法等優化算法結合,避免隨機搜索或對化學空間進行枚舉。即便如此,這些採樣-優化相結合的方法需要在每一步中對分子的屬性進行計算和評估,依然有「試錯」的味道,而不是一個可逆的結構-屬性映射。
近幾年,基於數據驅動的人工智慧方法,尤其是生成模型,逐漸被用於解決各個領域的逆向設計,並在分子反向設計和藥物發現中展現出了光明的前景。
簡而言之,生成模型的作用是捕獲數據分布的潛在規則。取給定空間中的部分數據點集合{Xi}作為訓練集,訓練生成模型匹配真實數據分布,使生成的數據Y∼類似於實際數據X∼。
圖1 三種流行的生成模型的原理圖 (A) 變分自編碼器 (B) 生成對抗網絡 (C) 自回歸模型
在生成模型中,變分自動編碼器(VAE)是一種具有魯棒性的體系結構,其通過將數據X映射到隱變量Z的隱式空間上來耦合推理和生成兩個過程。為此,模型需在受隱式空間約束的情況下學習恆等映射,如圖1(A)。數據首先由編碼器編碼為隱變量z的概率分布,並使其逼近預先設定的先驗分布。隨後,從隱式空間中採樣z,利用解碼器將其重構。VAE的目標函數為
利用梯度上升算法,編碼器將由KL散度正則化使隱變量的後驗分布逼近先驗分布,解碼器由重構誤差懲罰。
第二種生成模型是生成對抗網絡(GAN),該模型是通過兩個神經網絡相互競爭,直到二者達到納什均衡來實現的。其中,一個網絡生成候選數據(生成網絡),另一個評估這些數據(判別網絡)。生成對抗網絡GAN通過對先驗概率分布Pz進行一系列的非線性變換,以逼近真實數據分布Px。然而,生成網絡G只接收先驗分布作為輸入而不接觸任何真實數據,它只能通過判別網絡D進行訓練,如圖1(B)。判別網絡以完美區分真實數據X∼Px和被生成的數據G(z) ∼PG,達到最大化分類準確度為目標進行訓練。生成網絡試圖生成看起來像真實數據X的數據G(z)來欺騙判別網絡,從而最大程度地降低判別網絡的分類準確度。GAN目標函數被寫為
儘管GAN有著相當不錯的性能,但其訓練過程非常不穩定。min-max問題要求兩個網絡平衡訓練,以確保模型收斂。此外,GAN容易進入mode collapse,即生成的樣本不具有多樣性。
第三種生成模型是自回歸模型,例如PixelRNN和PixelCNN,已經被用於生成圖片,視頻和文本。與VAE和GAN不同的是,這類模型通過易解因式分解Px來近似真實數據分布。例如,在一張nxn的圖片中,生成模型P(x)可寫為
其中每個xi都是模型生成的一個像素,如圖1(C)。這類顯式分布模型生成的樣本具有很好的負對數似然得分和多樣性。然而,由於依賴於順序生成,這類模型生成樣本速度較慢。
在這一章中,作者主要關注兩種常用的分子表示方法,SMILES字符串和分子圖,如圖2,以及這些方法對應的生成模型。
圖2 兩種常用的表示分子的方法:(a)SMILES字符串與其對應的one-hot編碼 (b)由Lewis結構得到的分子圖。
通過graph to text的映射算法得到的SMILES(簡化分子線性輸入規範)字符串已被廣泛用於分子的表示。同一個分子可以由SMILES微笑字符串表示,因此通常選擇canonical表示(一種規範表示),而non-canonical字符串可以用於數據增強。由於SMILES依賴於基於序列的表示,自然語言處理算法可以自然地被移植到分子生成領域。最近一些研究提出利用LSTM、GRU或stack-augmented memory等RNN自回歸生成模型,基於之前生成的字符逐個生成下一個字符,最後生成任意長度的字符串。
RNN架構在分子設計最簡單的應用形式為利用分子資料庫中的有效SMILES對RNN進行訓練並生成大量有效分子,隨後根據分子的物理化學性質進行篩選。為了引導模型生成特定化學空間中的分子,Segler等人採用遷移學習策略,首先在整個分子數據集上訓練RNN,然後對模型進行微調,以生成具有特定物理化學性質的分子。在藥物發現中,對化學空間的搜索通常從具有某些預期功能的分子結構開始,因此遷移學習的方法較為常用。
強化學習是用於解決動態決策問題的一類人工智慧算法。由於RNN架構在生成分子時根據已生成字符串逐個生成下一個字符,該模式類似強化學習的決策過程:已經生成的字符串對應環境,生成下一個字符對應動作。Jaques等人將RNN架構與強化學習結合,在序列生成中懲罰大環,短序列和長碳鏈,促使模型生成有效分子。類似地,Popova等人使用stack-augmented RNN結合強化學習設計藥物分子,通過設計合理的獎勵函數,可生成易合成、易溶解、可用藥的分子。
VAE可將分子映射為一個連續、可微的隱空間,並包含了關於分子的重要信息。Gomez-Bombarelli等人利用RNN構建VAE的編碼器和解碼器,在QM9和ZINC數據集進行性質預測和重構任務的訓練。隱空間不僅用於分子的採樣生成,還允許使用一個訓練在隱空間上的預測器進行插值、重構和優化,如圖3。Kang等人利用部分標註的數據集半監督訓練VAE,以減少性質預測的誤差,並根據特定條件生成分子。
圖3 用於分子設計的變分自編碼器。(a)中的架構允許隱空間中進行屬性優化,如(b)中所示。
在分子生成領域,GAN通常與強化學習緊密結合。Guimaraes等人採用了WGAN和隨機策略,在保持生成分子的類藥性的前提下提高了生成分子的多樣性,優化了分子的物理化學性質。MendezLucio等人使用GAN根據基因表達特徵進行條件生成,生成針對特定靶標的活性化合物。然而,在生成分子的同時避免不穩定的訓練和mode collapse仍然是GAN應用與分子設計的一大障礙。
表示分子更直觀的方法是根據分子的路易斯結構將其轉化成一個分子圖。給定一個圖G = (V,E),將原子表示為節點vi∈V,化學鍵表示為邊(vi, vj)∈E,並根據原子類型和化學鍵類型為節點和邊賦值對應的標籤。大量的研究如Graph RNN,GCN,GNN等方法探索了分子圖在分子性質預測任務中的傑出性能,這些研究為基於圖的分子生成奠定了基礎。
與生成SMILES字符串相似,生成分子圖的一種方法是順序地向圖中添加節點和邊。研究者使用RNN順序生成任意大小的分子,如圖4(a),特別的,Li等人使用解碼器策略來改善模型的結果。基於圖的條件生成模型可以生成具有類藥性,可合成性,甚至具有特定骨架的分子。然而,這種逐個節點生成的方法依賴於分子圖中節點的排列順序,因此受到節點隨機排列的影響。
圖4 基於圖的分子生成模型 (a)一種基於RNN的分子圖生成決策過程 (b)JT-VAE
在VAE領域,研究者已經提出了多種直接從隱變量生成分子圖的方法。然而,VAE在進行重構時,需要昂貴的算力才能解決圖的同構問題,並且在不施加約束的情況下,圖重構的有效性和準確性極低。當前,將分子圖轉化為有意義的隱變量,同時避免順序生成的最成功的方法之一是聯結樹變分自編碼器(JT-VAE)。該方法首先將分子圖分解為分子的子結構,其中包括環、官能團和各類原子,如圖4(b)。然後,對模型進行訓練,將分解得到的圖和樹結構編碼到兩個隱空間中,再通過這兩個隱變量重構回原來的分子。作者還利用圖到圖的轉換和自回歸方法改進了JT-VAE,使其能夠進行分子性質優化。
有研究者將VAE與基於自回歸的圖生成方法結合,用於生成和優化分子。Assouel等人提出了一種基於圖表示的解碼策略來輸出生成任意大小的分子,即使對於含有約25個重原子的分子,也能達到較高的重構精度。儘管仍然存在節點排列的限制,該模型允許直接優化分子性質。
基於圖的自回歸模型也可以和強化學習結合,Zhou等人建立了一個馬爾科夫決策過程,通過多目標強化學習生成具有目標性質的分子。該方法順序添加原子和化學鍵,由於強化學習施加的約束,該模型可生成分子有高達100%的有效性。
基於圖的生成對抗模型還處於初級階段,Kipf等人提出了了MolGAN,其結合強化學習訓練GAN生成分子圖,但是該模型容易進入mode collapse。Wachinger等人在MolGAN的基礎上增加了一種對抗訓練,以避免計算重構損失。
此外,基於圖的GAN的輸出結構可以通過Gumbel-softmax可微離散化,但對抗訓練與對分子約束平衡需要更多的研究。
圖5 分子生成模型的概要和時間線。較新的模型位於圖的底部。
在分子設計領域,生成模型還處於起步階段(見圖5的時間線總結),雖然已經有諸多研究成果,但在實現「閉環」生成之前,分子生成模型仍面臨著以下挑戰:(1)如何提高模型的泛化能力,(2)如何提高對真實數據進行推斷的能力,(3)如何提高生成新分子的能力。雖然SMILES能夠有效表示分子,分子圖也充分包含分子的結構信息和化學特徵,但是,其他信息豐富的分子表示方法,例如用三維原子坐標表示分子,仍需被繼續關注並應用於生成模型。此外,分子生成模型的性能難以評估。如何建立基準以便於量化比較模型性能,而非通過預測分子溶解度或藥物相似性等方法進行比較仍充滿挑戰。
總之,生成模型有望徹底改變分子設計領域。其不僅允許優化分子或直接從數據學習特徵,還繞過了人工監督分子設計的必要性。直面這些模型存在的挑戰,可以極大縮短新材料的發現周期,甚至揭開自然真理的面紗。
Daniel Schwalbe-Koda, Rafael Gómez-Bombarelli. Generative Models for Automatic Chemical Design. arXiv:1907.01632v1 [cs.LG] 2 Jul 2019