J. Cheminform.| Mol-CycleGAN:基於Graph的分子生成優化模型

2021-02-20 DrugAI

今天給大家介紹的是雅蓋隆大學數學與計算機科學學院的學生Łukasz Maziarka和Agnieszka Pocha於2020年1月8日發表在Journal of Cheminformatics的一篇論文,他們受現Adobe公司研究學者朱俊彥在2017年提出的無關聯圖像生成模型CyCleGAN啟發,提出了一種新的基於Graph的分子圖生成優化模型——Mol-CycleGAN,該模型可生成與原始化合物具有高度結構相似性的優化化合物,並且Mol-CycleGAN是基於CycleGAN架構進行分子生成的第一種方法。

藥物設計的主要目標之一是找到能夠以所需方式調節給定靶標(通常是蛋白質),所以在設計分子時需要針對許多複雜特性優化化合物,使得在藥物發展中設計具有所需特性的分子具有一定挑戰性。相對於傳統的實驗方法,計算機輔助設計使得分子設計更為便捷,目前有兩種方法,一種是通過判別模型篩選資料庫的虛擬篩選技術,一種是用生成模型做分子的從頭設計。而分子生成模型主要分為基於SMILES的和基於Graph的,兩者都各有優點,其中所使用的深度學習框架包括了VAE,GAN,RNN等。

為了解決難以合成化合物的問題,作者提出了Mol-CycleGAN, 給定一種起始分子,它會產生結構相似的分子並且具有所需的特性。此外,由於結合了基於Graph表示形式的JT-VAE模型而不是SMILES,所以該模型始終生成有效的化合物。

Mol-CycleGAN: 首先將分子分為兩個集合X和Y, 對於X、Y的要求是分別不具有和具有某種所需分子特性,例如X中的分子無活性,Y中的分子有活性,訓練模型完成從X到Y的轉換G,從而進行分子優化。為了表示集合X和Y,該方法需要分子嵌入是可逆的,即既可以編碼又可以解碼分子,所以採用JT-VAE模型的潛在空間,將每個分子視為潛在空間中的一個點。在分子映射上,如同CycleGAN,設計兩個生成器G、F和兩個判別器,其中生成器G: X → Y,F: Y → X;在損失函數上,為了保證生成的分子與原始分子相似,比CycleGAN多了一個特性映射損失,具體公式如下:

進行分子優化的主要思想是1)從集合X中選取分子x,要求不具有特定特徵(例如特定數目的芳香環,水溶性,活性等),並計算其潛在空間的embedding,2)使用生成神經網絡G獲得分子G(x)的embedding,要求具有此特定特徵並且和原始分子相似,3)解碼由G(x)給出的潛在空間坐標,以獲得優化的分子。

作者在三個方面評估提出的模型是否能夠生成具有所需特性並接近起始分子的分子,即影響化合物整體特性的辛醇-水分配係數(logP),合成可達性得分(SA)和對DRD2受體的活性影響。logP使用在JT-VAE模型中的懲罰公式,即對於分子m而言,懲罰logP表示為logP(m)-SA(m),訓練數據從ZINC數據集上提取,而DRD2任務使用隨機森林分類算法在ECFP分子指紋上訓練,活性數據從CHEMBL數據集獲取。整個任務大體上分為兩類,一類與結構特性相關,一類與理化特性相關。

測試分子簡單結構轉換的能力,因此選擇在某些結構方面有所不同的X和Y,繼而測試模型是否可以學習轉化規則並將其應用於模型未使用的分子。主要訓練以下任務,(i)滷素,將數據集分為兩個子集X和Y。集合Y的分子至少包含以下SMATRS中的一個:'[!#1] Cl','[!#1] F','[!#1] I','C#N',而集合X不包含這些。在該實驗中選擇的SMARTS指示滷素部分和腈基。它們在分子中的存在和位置會對化合物的活性產生巨大影響。(ii)生物電子等排體,X中的分子是有「CN」而沒有「CF3」基團,Y由有「CF3」沒有「CN」基團的分子組成,該任務測試模型是否可以學習在任何位置生成基團。(iii)芳香環,X中的分子正好具有兩個芳香環,而Y中的分子具有一個或三個芳香環。

優化懲罰logP,同時約束與起始分子的偏離程度。分子之間的相似性是用Morgan Fingerprints上的Tanimoto相似性來衡量的。X和Y集ZINC-250K的隨機樣本,其中化合物的懲罰logP值分別低於中位數和高於中位數。

對懲罰logP執行不受約束的優化。X是來自ZINC-250K的隨機樣本,Y是來自ZINC-250K中具有最高logP的前20%分子的隨機樣本。

使用Mol-CycleGAN從非活性分子中創建活性分子,其中DRD2(多巴胺受體D2)被選作生物學靶標。具有注釋活性的化合物從ChEMBL25中提取目標。將數據集分為兩個子集,即活性(Y)和無活性(X)。集合Y由

的分子組成,而所有剩餘的分子都劃分給集合X。

具體任務的數據集劃分如下表1,2所示:

在下表中,顯示了分子結構轉換任務的成功率。改變芳香環的數量比改變滷素部分的存在更加困難。

為了確認生成的分子與起始分子接近,作者在下圖中生成了ZINC-250K數據集中起始分子與隨機分子之間的Tanimoto相似性分布。

在更為複雜的生物電子等排體替換實驗中,表4,5是作者定量總結了生物電子等排體代換的結果。所有產生的分子保持高度多樣性,並且逆向優化(用CN取代CF3)是一項更容易的任務,可能是CF3片段包含更多原子,因此其解碼過程更加複雜。

在優化類藥分子的懲罰logP任務中,該模型在性能平均改善方面明顯優於以前的結果(請參見表6)。在受約束的情況下(對於δ> 0),它獲得了可比的平均相似度。對於δ= 0,0.2,成功率是可比的,不過對於更嚴格的約束條件(δ= 0.4,0.6),模型的成功率較低。

不受約束的分子優化的結果如下圖所示。在圖a,c中,可以觀察到連續的迭代使目標的分布(懲罰的logP)不斷向更高的值移動。但是,進一步迭代的改進正在減少。令人驚訝的是,分布的最大值不斷增加(儘管以某種隨機的方式)。經過10–20次迭代後,從非類姚分子觀察到的logP值非常高,與RL獲得的相似。

下表8顯示,基於生物活性模型的預測,Mol-CycleGAN能夠顯著提高所選非活性藥物的活性。

下圖顯示了優化化合物與起始分子的相似性,並比較了它們的預測活性。為驗證實驗結果,作者對許多生成的化合物進行了對接程序,發現平均而言,優化後的化合物比其祖先具有更好的對接能。

Mol-CycleGAN-一種基於CycleGAN的新模型,可用於從頭生成分子。該模型可以生成具有所需特性的分子並接近起始分子,並且可以通過超參數控制相似度。在未來的工作中,作者計劃使用StarGAN將方法擴展到分子的多參數優化。在小的結構變化導致難以建模的特性(例如,活性懸崖)急劇變化的情況下測試模型也受人關注。

https://github.com/ardigen/mol-cycle-gan

Maziarka, Ł., Pocha, A., Kaczmarczyk, J. et al. Mol-CycleGAN: a generative model for molecular optimization. J Cheminform 12, 2 (2020). 

https://doi.org/10.1186/s13321-019-0404-1

相關焦點

  • DGL | 基於深度學習框架DGL的分子圖初探
    個人關注的是藥物模型,用於分子性質預測,生成和優化的各種模型,DGL 致力於將GNN(圖形神經網絡)應用於化學領域,並且作為分子生成模型,DGMG(圖形的深度生成模型)和JT-VAE(連接樹變分自動編碼器),並且發行說明中有一個使用DGMG的非常簡單的示例。為了評估候選藥物分子,我們需要了解其性質和活性。實際上,這主要是通過溼實驗室實驗來實現的。
  • MIMOSA: 用於分子優化的多約束分子採樣
    1背景分子生成和分子優化是目前針對設計理想性能的藥物分子這一目標的重要機器學習任務,現有的工作可以歸類為生成模型和強化學習(RL)這2種方法,但目前大多數模型只優化了單一的性質,而開發可行的候選藥物需要優化多個屬性。
  • 深度圖生成模型綜述:5類模型及前景(附PDF下載)
    得益於基於圖的深度學習技術的進步,圖生成模型有了發現新穎的分子結構、建模社交網絡等在圖上的新應用。近日arXiv的一篇綜述文章對基於深度學習的圖生成模型進行了全面的調查,將現有模型劃分為五大類,並分別進行了詳盡的描述,本文是對該文章內容的整體介紹。
  • tensorflow機器學習模型的跨平臺上線
    ,這個方法當然也適用於tensorflow生成的模型,但是由於tensorflow模型往往較大,使用無法優化的PMML文件大多數時候很笨拙,因此本文我們專門討論下tensorflow機器學習模型的跨平臺上線的方法。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 基於深度學習的三大生成模型:VAE、GAN、GAN的變種模型
    這種生成模型相當於構建了圖像的分布,因此利用這類模型,我們可以完成圖像自動生成(採樣)、圖像信息補全等工作。在深度學習之前已經有很多生成模型,但苦於生成模型難以描述難以建模,科研人員遇到了很多挑戰,而深度學習的出現幫助他們解決了不少問題。本章介紹基於深度學習思想的生成模型——VAE和GAN,以及GAN的變種模型。
  • 「深度學習」基於RNN實現特定庫的分子生成的遷移學習指南
    在本工作中,作者利用基於SMILES的GRU-RNN模型對18個小數據的藥化分子庫進行分子生成。通過對不同的遷移學習的配置實驗,作者提出了在基於RNN的分子生成任務中使用遷移學習的經驗性原則和建議。對於藥物設計來說,具有特定功能的分子才是我們所需要的。但是相應的特定功能的分子資料庫往往數據量比較小,因此針對於小數據任務的遷移學習經常被應用到其中。常用的操作是讓模型首先在龐大初始分子資料庫上學習基本知識,確保生成分子的有效性,隨後再遷移到作為目標的小資料庫上學習特定的功能。本文的作者試圖通過計算實驗探究目標數據集如何影響模型的遷移學習的表現。
  • 【VIP來稿】紐約大學Yingkai Zhang課題組JCTC論文:從分子能量預測到構象分析,看深度張量神經網絡和遷移學習大展身
    在分子能量的預測上面,訓練好的神經網絡可以在非常短的計算時間下實現QM級別的準確度。但容易忽視的一點是,其準確的預測值是基於費時的QM優化結構基礎之上的。作者通過使用改進的深度張量神經網絡(deep tensor neural network,DTNN)來學習原子的向量表達(atomic vector representation),並使用遷移學習(transfer learning)實現了基於MMFF優化結構的QM能量預測,從而解決了實際預測中對QM優化結構的依賴問題。除了對不同分子能量的預測,作者同時討論了該模型在分子構象分析中的應用。
  • 圖模型+Bert香不香?完全基於注意力機制的圖表徵學習模型Graph-Bert
    模型假死和過於平滑都可以歸結於傳統 GNN 的類卷積特徵學習方式以及基於聚合操作(mean,max,sum)的信息更新方式,這會導致隨著模型層數加深,模型會逐漸喪失對輸入的響應,因此一般GNN都是只堆疊不超過兩層。同時,模型學習到的不同節點的表徵信息也會愈發相似,從而變得無法區分。此外,由於傳統GNN都考慮圖中的固有內在連接(即邊),因此無法對圖數據進行並行化處理。
  • 入門 | 深度學習模型的簡單優化技巧
    以下是我與同事和學生就如何優化深度模型進行的對話、消息和辯論的摘要。如果你發現了有影響力的技巧,請分享。首先,為什麼要改進模型?像卷積神經網絡(CNN)這樣的深度學習模型具有大量的參數;實際上,我們可以調用這些超參數,因為它們原本在模型中並沒有被優化。
  • 微軟分享史上最大基於Transformer架構的語言生成模型
    微軟AI&Research今天分享了有史以來最大的基於Transformer架構的語言生成模型Turing NLG(下文簡稱為T-NLG),並開源了一個名為DeepSpeed的深度學習庫,以簡化對大型模型的分布式培訓。
  • 【論文】基於計算圖的移動通信網絡物聯網業務覆蓋優化算法及實現
    精細化網絡優化算法支持更逼近真實環境的應用場景、路徑損耗模型以及基站天線模型等,極大地增加了移動通信網絡射頻仿真和優化計算的運算量,對計算能力提出了更高要求[8]。本文提出了一種基於計算圖(computational graph)的移動通信網絡信號覆蓋評估方法,計算圖也稱為數據流圖,是一種描述計算間依賴關係的有向圖,可以指導計算過程的並行化和流水線化。同時,利用計算圖給出了覆蓋結果對天線參數的梯度計算方法,利用梯度指導工作參數的優化,減少了優化過程的計算開銷,並在此基礎上引入動量法(momentum method)進行進一步優化,提高了網絡優化的時間效率。
  • 異構圖注意力網絡 Heterogeneous Graph Attention Network
    節點級別的Attention主要學習節點及其臨近節點間的權重,語義級別的Attention是來學習基於不同meta-path的權重。這就需要新的方法來解決這個問題,論文提出了HAN模型(Heterogeneous graph Attention Network)。RELATED WORKGraph Neural Network GNN作為深度學習領域的擴展,用來處理無規則圖結構數據。GCN可以分為兩類,分別是譜域和非譜域。
  • JUST技術:基於無參生成模型的行人軌跡生成
    作者認為,馬爾科夫模型的有限階依賴關係無法學習長軌跡的先後位置關聯關係;而基於循環神經網絡如LSTM的做法,由於也被發現在長序列生成中會出現偏離[1],也不能很好適用於軌跡生成。軌跡表徵這裡介紹論文的軌跡表徵方式。
  • 一文直擊Graph Embedding圖表示學習的原理及應用
    ,拓撲排序,關鍵路徑等概率圖模型,涉及圖的表示,推斷和學習,詳細可以參考 Koller 的書或者公開課圖神經網絡,主要包括 Graph Embedding (基於隨機遊走)和 Graph CNN (基於鄰居匯聚)兩部分。這裡先看下 Graph Embedding 的相關內容。
  • ...科學家用原子分子物理與分子動力學方法研究AGB恆星拱星包層中c...
    實驗中,課題組通過YAG雷射消融矽棒製備Si(3P)原子束,以及通過ArF準分子雷射解離Si2H6分子製備Si(3P)、Si(1D)和SiH(X2Π)三種原子或分子束,相應的量子態由雷射誘導螢光光譜標定;之後脈衝原子/分子束通過機械斬束生成速度分布僅為20m/s的束源,並進一步與丙二烯(CH2CCH2)或丙炔(CH3CCH)在4K溫度下的銅壁內進行單分子碰撞,生成的中性分子產物由可旋轉的超高真空
  • 【歸納綜述】Graph Neural Network: An Introduction Ⅰ
    例如,化學分子結構、知識圖譜、電子商務等。由於圖可能是不規則的,節點大小、鄰居數量不同,從而傳統深度學習難以應用於圖域。此外,現有機器學習算法的核心假設是實例彼此獨立。這種假設不再適用於圖數據,因為每個實例(節點)通過各種類型的連接與其他節點相關聯。圖神經網絡主要解決 表示對象之間複雜關係的非歐氏域數據處理問題。
  • 生成式模型入門:訓練似然模型的技巧
    散度最小化:生成模型的一般框架生成模型(其實都是統計機器學習模型)旨在從一些(可能是條件的)概率分布 p(x) 中取樣本數據,並學習對 p(x) 進行近似的模型 pθ(x)。建模過程使我們可以基於給定的原始數據外推觀察到的信息。
  • JMC|基於結構的exportin-1小分子共價拮抗劑的發現
    LFS-06的苯環生成由2025個在苯環上具有雙取代基的分子組成虛擬組合庫。通過口服LFS-01可以逆轉模型小鼠的結腸炎。本文通過基於結構的藥物設計,發現了一種新的基於LFS-01的有效拮抗劑LFS-829,並評估其在結腸炎模型中的功效。首先,為了增加與CRM1的NES結合位點的非共價相互作用,在LFS-01的母體結構的亞碸部分旁邊接了一個苯環得到化合物LFS-06。
  • NeurIPS2020|用遺傳探索指導深層分子優化
    1.2 分子生成深度神經網絡在過去的幾年裡,分子生成深度神經網絡(DNNs)已經證明了在解決分子設計的生成問題上取得了成功。例如,Gomez-Bombarelli等人在分子生成變量自動編碼器的嵌入空間上執行貝葉斯優化以最大化期望的性質。