作者 | 賴樂珊審稿 | 李芬
今天給大家介紹一篇喬治亞理工學院Tianfan Fu等人發表在AAAI 2021上的文章「MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization」。分子優化促進藥物發現,其目標是產生新的有效分子,使藥物特性最大化,同時保持與輸入分子的相似性。現有的生成模型和強化學習方法在同時優化多種藥物屬性方面仍面臨一定困難。為此,本文提出多約束分子採樣框架—MIMOSA,使用輸入分子作為初始採樣框架,並從目標分布中採樣分子。MIMOSA首先預先訓練兩個屬性不可知圖神經網絡(GNN),分別用於分子拓撲和子結構類型預測,其中子結構可以是原子或單環。MIMOSA用GNN進行迭代預測,並且採用三種基本的子結構操作(添加、替換、刪除)來生成新的分子和相關的權重。權重可以編碼多個約束,包括相似性約束和藥物屬性約束,在此基礎上選擇有前途的分子進行下一次預測。MIMOSA能夠靈活地對多種屬性和相似性約束進行編碼,且高效地生成滿足各種屬性約束的新分子,在成功率方面比最佳基線改進高達49.6%。
1
背景
分子生成和分子優化是目前針對設計理想性能的藥物分子這一目標的重要機器學習任務,現有的工作可以歸類為生成模型和強化學習(RL)這2種方法,但目前大多數模型只優化了單一的性質,而開發可行的候選藥物需要優化多個屬性。
分子優化生成模型
將輸入的分子投影到潛在空間,然後在潛在空間中搜索新的和更好的分子。比如利用SMILES字符串作為分子表示來生成分子;用遺傳算法(RA)探索分子生成;也有與分子圖形表示的相關工作如Molgan、CGV AE、JTV AE等,儘管它們在生成有效分子方面近乎完美,但它們中的大多數都依賴配對數據作為訓練數據。
分子優化強化學習
也是在分子生成器的基礎上發展起來的。比如最近有利用深度強化學習來生成分子圖並取得了完美的有效性。然而,這些方法都需要在特定的數據集上進行預訓練,這使得它們的探索能力受到訓練數據中存在的偏差的限制。
2
方法
2.1 基於採樣的分子優化
與一般的分子生成略有不同,分子優化以一個分子X為輸入,目的是獲得一個新的分子Y,它與X相似且具有比X更理想的藥物特性。
本文提出了一種基於馬爾可夫鏈蒙特卡羅(MCMC)的採樣策略。MCMC方法是估計後驗分布常用的貝葉斯採樣方法,該方法在得到樣本非歸一化概率密度的情況下允許從複雜的具有理想採樣效率的分布中提取樣本。
2.2 分子採樣的MIMOSA方法
圖1說明了MIMOSA的整個過程,該過程可以分解為以下步驟:
(1)預訓練GNN:MIMOSA使用大量未標記的分子對兩個圖形神經網絡(GNN)進行預訓練,這些分子將在採樣過程中使用。然後,MIMOSA迭代以下兩個步驟:
(2)候選分子生成:通過對當前分子的修飾操作(添加、刪除、替換)生成候選分子並評分。
(3)挑選候選分子:通過重複步驟2和3進行MCMC採樣,為下一次採樣迭代選擇有希望的候選分子。所有的修飾操作都是在子結構(原子或單環)水平上進行的,亞結構集包括全部118個原子和31個單環。
圖1
(I)用於子結構類型和分子拓撲預測的預訓練GNN
為了準確地表示分子,在大分子數據集上預先訓練分子嵌入。用圖表示分子,其中每個子結構都是一個節點,作者建立了兩個基於GNN的預訓練任務來輔助分子修飾,這兩個GNN將評估每個子結構受分子圖中所有其他子結構制約的概率。選擇訓練兩個單獨的GNN是因為存在很多未標記分子樣本,而且這兩個任務在本質上差異很大。兩個GNN模型中,一個用於子結構類型預測,稱為mGNN,另一個用於分子拓撲預測,稱為bGNN。
mGNN模型:以多類分類為目標,用於預測掩碼節點的子結構類型。mGNN模型根據其他子結構和連接來輸出單個子結構的類型。用一個特殊的掩碼指示器單獨掩碼子結構。
bGNN模型:旨在對分子拓撲結構進行二分類預測。bGNN的目標是預測節點是否會擴展。
(II)通過子結構修改操作來生成候選對象
藉助於mGNN和bGNN定義子結構修飾操作,即對輸入分子Y進行替換、添加或刪除操作。
(III)通過MCMC採樣進行候選分子選擇
生成的候選分子集合可以根據它們接受的子結構修飾的類型被分組為三個集合,即替換集合Splace、添加集合Sadd和刪除集合Sdelete。MIMOSA使用MCMC的一種特殊類型Gibbs採樣,用於候選分子選擇。Gibbs採樣算法根據其他變量的當前值,按順序或隨機順序從每個變量的分布中生成一個實例(見算法1)。
算法1
2.4實驗
數據集和分子屬性使用ZINC資料庫中的200萬個分子來訓練mGNN和bGNN。關注分子屬性藥物相似性定量評估(QED)、多巴胺受體(DRD)和受罰LogP(PLogP),它們得分越高越好。對於化學上有效的分子,它們的QED、DRD2和LogP分數可以使用RDkit包來評估。
基線方法將MIMOSA與聯合樹變分自動編碼器(JTVAE)、變分聯合樹編碼解碼器(VJTNN)、圖卷積策略網絡(GCPN)和遺傳算法(GA)三種分子優化基線進行比較。
指標考慮輸入和生成的分子之間的相似性、QED、DRD和PLogP中生成分子的屬性改善以及基於輸入分子X和生成分子Y之間的相似性和屬性改善的成功率(SR)。
3
結果
實驗1 優化多個屬性
為了評估模型在優化多個藥物屬性上的性能,考慮了以下屬性約束的組合:(1)優化QED和PLogP;(2)優化DRD和PLogP。從表2看,MIMOSA在所有指標上都有明顯更好和更穩定的性能。
表2
實驗2 優化單屬性
由於大多數基線模型都是為優化單藥屬性而設計的,所以本實驗比較了MIMOSA和它們在優化以下單屬性方面的差異:(1)DRD;(2)QED和(3)PLogP。從表3中的結果可以看出,在優化單個藥物屬性時,MIMOSA仍然取得了最好的整體性能。輸出和輸入分子之間的高度相似性是分子優化任務的關鍵,在這方面MIMOSA的表現明顯優於其他基線。
表3
實驗3 案例研究:對局部結構變化敏感的屬性
MIMOSA對局部結構變化敏感屬性的改善效果如圖2所示,通過原子的取代增加了輸入分子的PLogP(降低了極性),同時提高了藥物的相似性(QED)。
圖2
採樣效率。採樣複雜度為O(N N2),其中N表示候選集合的大小,N2是可能的提出集合的大小(<200)。整個採樣過程中,大約需要10-20分鐘的時間來優化一個源分子,這對於分子優化來說是可觀的。並且MCMC有效率更高的直接以非歸一化分布的操作。所有分子優化方法都在它們的學習過程中使用RDKit。
4
結論
本文的主要貢獻如下:
1)一種新的採樣框架,可靈活地對多個約束進行編碼。在採樣框架下重新制定了分子優化任務,以從目標分布(等式)中提取分子。該框架提供靈活高效的多屬性和相似性約束編碼作為目標分布。
2)通過GNN預訓練增強有效採樣。在兩個預先訓練的GNN模型的幫助下,設計了一種基於馬爾可夫鏈蒙特卡羅(MCMC)的分子採樣方法,該方法能夠從目標分布中進行有效的採樣。這使得MIMOSA能夠以無監督的方式利用海量分子數據,而不需要像許多現有方法那樣了解任何分子對(即輸入分子和增強分子)。
3)保證無偏採樣。給出了理論分析,表明所提出的MCMC方法從目標分布中提取無偏樣本,即表現出遍歷性和收斂性。
參考資料
原文:https://arxiv.org/abs/2010.02318