今天給大家介紹的是雅蓋隆大學數學與計算機科學學院的學生Łukasz Maziarka和Agnieszka Pocha於2020年1月8日發表在Journal of Cheminformatics的一篇論文,他們受現Adobe公司研究學者朱俊彥在2017年提出的無關聯圖像生成模型CyCleGAN啟發,提出了一種新的基於Graph的分子圖生成優化模型——Mol-CycleGAN,該模型可生成與原始化合物具有高度結構相似性的優化化合物,並且Mol-CycleGAN是基於CycleGAN架構進行分子生成的第一種方法。
藥物設計的主要目標之一是找到能夠以所需方式調節給定靶標(通常是蛋白質),所以在設計分子時需要針對許多複雜特性優化化合物,使得在藥物發展中設計具有所需特性的分子具有一定挑戰性。相對於傳統的實驗方法,計算機輔助設計使得分子設計更為便捷,目前有兩種方法,一種是通過判別模型篩選資料庫的虛擬篩選技術,一種是用生成模型做分子的從頭設計。而分子生成模型主要分為基於SMILES的和基於Graph的,兩者都各有優點,其中所使用的深度學習框架包括了VAE,GAN,RNN等。
為了解決難以合成化合物的問題,作者提出了Mol-CycleGAN, 給定一種起始分子,它會產生結構相似的分子並且具有所需的特性。此外,由於結合了基於Graph表示形式的JT-VAE模型而不是SMILES,所以該模型始終生成有效的化合物。
Mol-CycleGAN: 首先將分子分為兩個集合X和Y, 對於X、Y的要求是分別不具有和具有某種所需分子特性,例如X中的分子無活性,Y中的分子有活性,訓練模型完成從X到Y的轉換G,從而進行分子優化。為了表示集合X和Y,該方法需要分子嵌入是可逆的,即既可以編碼又可以解碼分子,所以採用JT-VAE模型的潛在空間,將每個分子視為潛在空間中的一個點。在分子映射上,如同CycleGAN,設計兩個生成器G、F和兩個判別器,其中生成器G: X → Y,F: Y → X;在損失函數上,為了保證生成的分子與原始分子相似,比CycleGAN多了一個特性映射損失,具體公式如下:
進行分子優化的主要思想是1)從集合X中選取分子x,要求不具有特定特徵(例如特定數目的芳香環,水溶性,活性等),並計算其潛在空間的embedding,2)使用生成神經網絡G獲得分子G(x)的embedding,要求具有此特定特徵並且和原始分子相似,3)解碼由G(x)給出的潛在空間坐標,以獲得優化的分子。
作者在三個方面評估提出的模型是否能夠生成具有所需特性並接近起始分子的分子,即影響化合物整體特性的辛醇-水分配係數(logP),合成可達性得分(SA)和對DRD2受體的活性影響。logP使用在JT-VAE模型中的懲罰公式,即對於分子m而言,懲罰logP表示為logP(m)-SA(m),訓練數據從ZINC數據集上提取,而DRD2任務使用隨機森林分類算法在ECFP分子指紋上訓練,活性數據從CHEMBL數據集獲取。整個任務大體上分為兩類,一類與結構特性相關,一類與理化特性相關。
測試分子簡單結構轉換的能力,因此選擇在某些結構方面有所不同的X和Y,繼而測試模型是否可以學習轉化規則並將其應用於模型未使用的分子。主要訓練以下任務,(i)滷素,將數據集分為兩個子集X和Y。集合Y的分子至少包含以下SMATRS中的一個:'[!#1] Cl','[!#1] F','[!#1] I','C#N',而集合X不包含這些。在該實驗中選擇的SMARTS指示滷素部分和腈基。它們在分子中的存在和位置會對化合物的活性產生巨大影響。(ii)生物電子等排體,X中的分子是有「CN」而沒有「CF3」基團,Y由有「CF3」沒有「CN」基團的分子組成,該任務測試模型是否可以學習在任何位置生成基團。(iii)芳香環,X中的分子正好具有兩個芳香環,而Y中的分子具有一個或三個芳香環。
優化懲罰logP,同時約束與起始分子的偏離程度。分子之間的相似性是用Morgan Fingerprints上的Tanimoto相似性來衡量的。X和Y集ZINC-250K的隨機樣本,其中化合物的懲罰logP值分別低於中位數和高於中位數。
對懲罰logP執行不受約束的優化。X是來自ZINC-250K的隨機樣本,Y是來自ZINC-250K中具有最高logP的前20%分子的隨機樣本。
使用Mol-CycleGAN從非活性分子中創建活性分子,其中DRD2(多巴胺受體D2)被選作生物學靶標。具有注釋活性的化合物從ChEMBL25中提取目標。將數據集分為兩個子集,即活性(Y)和無活性(X)。集合Y由
的分子組成,而所有剩餘的分子都劃分給集合X。
具體任務的數據集劃分如下表1,2所示:
在下表中,顯示了分子結構轉換任務的成功率。改變芳香環的數量比改變滷素部分的存在更加困難。
為了確認生成的分子與起始分子接近,作者在下圖中生成了ZINC-250K數據集中起始分子與隨機分子之間的Tanimoto相似性分布。
在更為複雜的生物電子等排體替換實驗中,表4,5是作者定量總結了生物電子等排體代換的結果。所有產生的分子保持高度多樣性,並且逆向優化(用CN取代CF3)是一項更容易的任務,可能是CF3片段包含更多原子,因此其解碼過程更加複雜。
在優化類藥分子的懲罰logP任務中,該模型在性能平均改善方面明顯優於以前的結果(請參見表6)。在受約束的情況下(對於δ> 0),它獲得了可比的平均相似度。對於δ= 0,0.2,成功率是可比的,不過對於更嚴格的約束條件(δ= 0.4,0.6),模型的成功率較低。
不受約束的分子優化的結果如下圖所示。在圖a,c中,可以觀察到連續的迭代使目標的分布(懲罰的logP)不斷向更高的值移動。但是,進一步迭代的改進正在減少。令人驚訝的是,分布的最大值不斷增加(儘管以某種隨機的方式)。經過10–20次迭代後,從非類姚分子觀察到的logP值非常高,與RL獲得的相似。
下表8顯示,基於生物活性模型的預測,Mol-CycleGAN能夠顯著提高所選非活性藥物的活性。
下圖顯示了優化化合物與起始分子的相似性,並比較了它們的預測活性。為驗證實驗結果,作者對許多生成的化合物進行了對接程序,發現平均而言,優化後的化合物比其祖先具有更好的對接能。
Mol-CycleGAN-一種基於CycleGAN的新模型,可用於從頭生成分子。該模型可以生成具有所需特性的分子並接近起始分子,並且可以通過超參數控制相似度。在未來的工作中,作者計劃使用StarGAN將方法擴展到分子的多參數優化。在小的結構變化導致難以建模的特性(例如,活性懸崖)急劇變化的情況下測試模型也受人關注。
https://github.com/ardigen/mol-cycle-gan
Maziarka, Ł., Pocha, A., Kaczmarczyk, J. et al. Mol-CycleGAN: a generative model for molecular optimization. J Cheminform 12, 2 (2020).
https://doi.org/10.1186/s13321-019-0404-1