MIMOSA: 用於分子優化的多約束分子採樣

2020-12-25 DrugAI

作者 | 賴樂珊審稿 | 李芬

今天給大家介紹一篇喬治亞理工學院Tianfan Fu等人發表在AAAI 2021上的文章「MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization」。分子優化促進藥物發現,其目標是產生新的有效分子,使藥物特性最大化,同時保持與輸入分子的相似性。現有的生成模型和強化學習方法在同時優化多種藥物屬性方面仍面臨一定困難。為此,本文提出多約束分子採樣框架—MIMOSA,使用輸入分子作為初始採樣框架,並從目標分布中採樣分子。MIMOSA首先預先訓練兩個屬性不可知圖神經網絡(GNN),分別用於分子拓撲和子結構類型預測,其中子結構可以是原子或單環。MIMOSA用GNN進行迭代預測,並且採用三種基本的子結構操作(添加、替換、刪除)來生成新的分子和相關的權重。權重可以編碼多個約束,包括相似性約束和藥物屬性約束,在此基礎上選擇有前途的分子進行下一次預測。MIMOSA能夠靈活地對多種屬性和相似性約束進行編碼,且高效地生成滿足各種屬性約束的新分子,在成功率方面比最佳基線改進高達49.6%。

1

背景

分子生成和分子優化是目前針對設計理想性能的藥物分子這一目標的重要機器學習任務,現有的工作可以歸類為生成模型和強化學習(RL)這2種方法,但目前大多數模型只優化了單一的性質,而開發可行的候選藥物需要優化多個屬性。

分子優化生成模型

將輸入的分子投影到潛在空間,然後在潛在空間中搜索新的和更好的分子。比如利用SMILES字符串作為分子表示來生成分子;用遺傳算法(RA)探索分子生成;也有與分子圖形表示的相關工作如Molgan、CGV AE、JTV AE等,儘管它們在生成有效分子方面近乎完美,但它們中的大多數都依賴配對數據作為訓練數據。

分子優化強化學習

也是在分子生成器的基礎上發展起來的。比如最近有利用深度強化學習來生成分子圖並取得了完美的有效性。然而,這些方法都需要在特定的數據集上進行預訓練,這使得它們的探索能力受到訓練數據中存在的偏差的限制。

2

方法

2.1 基於採樣的分子優化

與一般的分子生成略有不同,分子優化以一個分子X為輸入,目的是獲得一個新的分子Y,它與X相似且具有比X更理想的藥物特性。

本文提出了一種基於馬爾可夫鏈蒙特卡羅(MCMC)的採樣策略。MCMC方法是估計後驗分布常用的貝葉斯採樣方法,該方法在得到樣本非歸一化概率密度的情況下允許從複雜的具有理想採樣效率的分布中提取樣本。

2.2 分子採樣的MIMOSA方法

圖1說明了MIMOSA的整個過程,該過程可以分解為以下步驟:

(1)預訓練GNN:MIMOSA使用大量未標記的分子對兩個圖形神經網絡(GNN)進行預訓練,這些分子將在採樣過程中使用。然後,MIMOSA迭代以下兩個步驟:

(2)候選分子生成:通過對當前分子的修飾操作(添加、刪除、替換)生成候選分子並評分。

(3)挑選候選分子:通過重複步驟2和3進行MCMC採樣,為下一次採樣迭代選擇有希望的候選分子。所有的修飾操作都是在子結構(原子或單環)水平上進行的,亞結構集包括全部118個原子和31個單環。

圖1

(I)用於子結構類型和分子拓撲預測的預訓練GNN

為了準確地表示分子,在大分子數據集上預先訓練分子嵌入。用圖表示分子,其中每個子結構都是一個節點,作者建立了兩個基於GNN的預訓練任務來輔助分子修飾,這兩個GNN將評估每個子結構受分子圖中所有其他子結構制約的概率。選擇訓練兩個單獨的GNN是因為存在很多未標記分子樣本,而且這兩個任務在本質上差異很大。兩個GNN模型中,一個用於子結構類型預測,稱為mGNN,另一個用於分子拓撲預測,稱為bGNN。

mGNN模型:以多類分類為目標,用於預測掩碼節點的子結構類型。mGNN模型根據其他子結構和連接來輸出單個子結構的類型。用一個特殊的掩碼指示器單獨掩碼子結構。

bGNN模型:旨在對分子拓撲結構進行二分類預測。bGNN的目標是預測節點是否會擴展。

(II)通過子結構修改操作來生成候選對象

藉助於mGNN和bGNN定義子結構修飾操作,即對輸入分子Y進行替換、添加或刪除操作。

(III)通過MCMC採樣進行候選分子選擇

生成的候選分子集合可以根據它們接受的子結構修飾的類型被分組為三個集合,即替換集合Splace、添加集合Sadd和刪除集合Sdelete。MIMOSA使用MCMC的一種特殊類型Gibbs採樣,用於候選分子選擇。Gibbs採樣算法根據其他變量的當前值,按順序或隨機順序從每個變量的分布中生成一個實例(見算法1)。

算法1

2.4實驗

數據集和分子屬性使用ZINC資料庫中的200萬個分子來訓練mGNN和bGNN。關注分子屬性藥物相似性定量評估(QED)、多巴胺受體(DRD)和受罰LogP(PLogP),它們得分越高越好。對於化學上有效的分子,它們的QED、DRD2和LogP分數可以使用RDkit包來評估。

基線方法將MIMOSA與聯合樹變分自動編碼器(JTVAE)、變分聯合樹編碼解碼器(VJTNN)、圖卷積策略網絡(GCPN)和遺傳算法(GA)三種分子優化基線進行比較。

指標考慮輸入和生成的分子之間的相似性、QED、DRD和PLogP中生成分子的屬性改善以及基於輸入分子X和生成分子Y之間的相似性和屬性改善的成功率(SR)。

3

結果

實驗1 優化多個屬性

為了評估模型在優化多個藥物屬性上的性能,考慮了以下屬性約束的組合:(1)優化QED和PLogP;(2)優化DRD和PLogP。從表2看,MIMOSA在所有指標上都有明顯更好和更穩定的性能。

表2

實驗2 優化單屬性

由於大多數基線模型都是為優化單藥屬性而設計的,所以本實驗比較了MIMOSA和它們在優化以下單屬性方面的差異:(1)DRD;(2)QED和(3)PLogP。從表3中的結果可以看出,在優化單個藥物屬性時,MIMOSA仍然取得了最好的整體性能。輸出和輸入分子之間的高度相似性是分子優化任務的關鍵,在這方面MIMOSA的表現明顯優於其他基線。

表3

實驗3 案例研究:對局部結構變化敏感的屬性

MIMOSA對局部結構變化敏感屬性的改善效果如圖2所示,通過原子的取代增加了輸入分子的PLogP(降低了極性),同時提高了藥物的相似性(QED)。

圖2

採樣效率。採樣複雜度為O(N N2),其中N表示候選集合的大小,N2是可能的提出集合的大小(<200)。整個採樣過程中,大約需要10-20分鐘的時間來優化一個源分子,這對於分子優化來說是可觀的。並且MCMC有效率更高的直接以非歸一化分布的操作。所有分子優化方法都在它們的學習過程中使用RDKit。

4

結論

本文的主要貢獻如下:

1)一種新的採樣框架,可靈活地對多個約束進行編碼。在採樣框架下重新制定了分子優化任務,以從目標分布(等式)中提取分子。該框架提供靈活高效的多屬性和相似性約束編碼作為目標分布。

2)通過GNN預訓練增強有效採樣。在兩個預先訓練的GNN模型的幫助下,設計了一種基於馬爾可夫鏈蒙特卡羅(MCMC)的分子採樣方法,該方法能夠從目標分布中進行有效的採樣。這使得MIMOSA能夠以無監督的方式利用海量分子數據,而不需要像許多現有方法那樣了解任何分子對(即輸入分子和增強分子)。

3)保證無偏採樣。給出了理論分析,表明所提出的MCMC方法從目標分布中提取無偏樣本,即表現出遍歷性和收斂性。

參考資料

原文:https://arxiv.org/abs/2010.02318

相關焦點

  • 將圖卷積神經網絡用於解碼分子生成
    由於分子本質上是組合在一起的,化學結構中的任何小擾動都可能導致所需分子性質的大變化。因此,這是一個極具挑戰性的數學和計算問題。此外,隨著原子和鍵的組合排列數量的不斷增加,有效分子的空間也越來越大。目前,大多數藥物都是經過化學和藥理學專家多年的反覆試驗而製作的。最近機器學習和深度學習的進展開闢了一個新的研究方向,有望學習這些分子空間來優化分子生成,減少實驗流程。
  • .| Mol-CycleGAN:基於Graph的分子生成優化模型
    Mol-CycleGAN: 首先將分子分為兩個集合X和Y, 對於X、Y的要求是分別不具有和具有某種所需分子特性,例如X中的分子無活性,Y中的分子有活性,訓練模型完成從X到Y的轉換G,從而進行分子優化。為了表示集合X和Y,該方法需要分子嵌入是可逆的,即既可以編碼又可以解碼分子,所以採用JT-VAE模型的潛在空間,將每個分子視為潛在空間中的一個點。
  • 新型微針注射器可用於口服遞送大分子
    新型微針注射器可用於口服遞送大分子 作者:小柯機器人 發布時間:2019/10/9 11:07:18 美國麻省理工學院Giovanni Traverso和Robert Langer等研究人員合作開發了可用於大分子口服遞送的腔內展開微針注射器
  • NeurIPS2020|用遺傳探索指導深層分子優化
    1.2 分子生成深度神經網絡在過去的幾年裡,分子生成深度神經網絡(DNNs)已經證明了在解決分子設計的生成問題上取得了成功。例如,Gomez-Bombarelli等人在分子生成變量自動編碼器的嵌入空間上執行貝葉斯優化以最大化期望的性質。
  • 研究發現氨氣分子擴散存在同位素分餾效應
    過去幾十年,基於擴散吸附原理的被動採樣器被廣泛用於大氣氨濃度測量。由於造價低廉、操作簡單等優點,被動採樣器已成為全球大氣氨觀測網絡的標配。近年來,被動採樣器開始用於氨同位素溯源研究。然而,被動採樣器表徵大氣氨同位素的可靠性一直懸而未決。
  • LAMMPS分子動力學核心技術實戰培訓班
    >各企事業單位、高等院校及科研院所:分子動力學模擬被廣泛用於生命科學、化學工程、物理、醫藥、材料科學等領域。,以及分子模擬計算的廣大愛好者。、分子模擬的優勢和局限3,分子模擬的基本框架:建模(前處理)、採樣(模擬)、分析(後處理)4,基本動力學方程:分子動力學的基本假設和理論框架5,數值算法:分子動力學常用的數值算法及選擇它們的理由6,運動方程/邊界/截斷/長程作用/系綜/控溫控壓等一系列基本概念介紹7,力場(經驗勢函數):如何針對不同系統選用不同的勢函數,此部分為分子動力學的核心
  • 幾何深度學習可用於破譯蛋白分子相互作用
    幾何深度學習可用於破譯蛋白分子相互作用 作者:小柯機器人 發布時間:2019/12/10 15:33:57 瑞士洛桑生物信息學研究所B. E.
  • 談談分子模擬中的能量最小化,弛豫和平衡態
    Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) 是目前材料領域應用廣泛的分子模擬工具包;而Gromacs則是生物體系模擬的一把利器。根據統計熱力學的要求,只有對平衡後結構做分析才能得到合理的結果。[1] 平衡態分子模擬的一般運行流程是能量最小化,弛豫、平衡模擬及採樣。下面我們將詳細介紹這三個流程。
  • Bray博士JCIM發文:利用機器學習方法自動尋找粗粒化模型分子力場參數
    圖-1 CAROL和貝葉斯優化(Bayesian Optimization,BO)組合用於DPD力場參數化工作流程。(左)起始過程:在參數空間中隨機採樣,選取一組隨機點,進行模擬、分析,並且評價力場。(右)優化過程:一旦優化器開始工作,其會根據已有的力場表現情況重新選取參數點,隨後進行迭代優化。耗散粒子動力學(Dissipative Particle Dynamic,DPD)是一種介觀尺度的無網格粒子類模擬算法,用於模擬複雜流體的行為。
  • arXiv | TorchMD:一種用於分子模擬的深度學習框架
    文章中提出了」TorchMD「,一個混合經典和機器學習勢的分子模擬的框架。文章中所有的力計算,包括鍵、角、二面體、Lennard-Jones和庫侖相互作用,都用PyTorch數組和運算表示。此外,TorchMD 還支持學習和模擬神經網絡勢。使用了標準的Amber全原子模擬進行驗證,學習從頭算勢,執行端到端訓練,最後學習和模擬了一個蛋白質摺疊的粗粒度模型。
  • 分子量測試在工業生產中的重要性
    材料的分子量測試非常重要什麼是分子量?分子量(MW)是分子的總原子量。MW通過將分子中所有單個原子的質量相加來確定。每種聚合物都具有理想的分子量,在該分子量下,不同性能(如可加工性,強度,脆性等)的平衡得到優化。為什麼這會在生物製藥和生物醫學設備上產生影響?許多裝置和生物製藥產品使用聚合物生產。如果用於構建這些產品的聚合物的分子量不正確,則可能發生器件故障。用於測量分子量的不同方法有哪些?
  • 分子螢光和分子磷光
    分子和原子一樣,也有它的特徵分子能級,分子內部的運動可分為價電子運動、分子內原子在平衡位置附近的振動和分子繞其重心的轉動。
  • 如何計算分子尺寸?
    分子尺寸作為分子的屬性之一,在評估分子應用時具有重要意義,例如催化過程的擴散動力學、吸附動力學,以及兩親分子形成膠束/液晶的能力等等。因此,分子尺寸的獲得技巧應該略有掌握。一、晶體結構法       眾所周知,X-射線單晶解析是能明確分子結構最可靠、最重要的方法。單晶結構也就順理成章地成了各種分子的身份證照片。下面以辛胺分子為例。
  • 分子量計算
    特別是如果正在研究可以形成同二聚體或更高階低聚物的系統,則SAXS分子量計算應足夠準確,以表明要測量的低聚物狀態。因此,分子量是一種重要的診斷方法,可用於驗證溶液中的成分。 如何計算分子量?因為有很多方法可以根據SAXS數據計算分子量,所以這裡僅列出上面提到的方法的簡短摘要。
  • 共價分子的分子構型
    >二、價層電子對互斥理論(VSEPR) 1.基本觀點: 分子的共價鍵(單鍵、雙鍵、叄鍵)中的電子對以及孤電子對由於相對排斥作用而趨向儘可能遠離彼此,分子儘可能採取對稱的結構。
  • 【乾貨】分子光譜分析法第四彈—分子螢光和分子磷光
    分子和原子一樣,也有它的特徵分子能級,分子內部的運動可分為價電子運動、分子內原子在平衡位置附近的振動和分子繞其重心的轉動。因此分子具有電子能級、振動能級和轉動能級。分子從外界吸收能量後,就能引起分子能級的躍遷,即從基態躍遷到激發態,分子吸收能量同樣具有量子化的特徵,即分子只能吸收等於二個能級之差的能量,符合:⊿E=E2-E1=hν=hc/λ由於三種能級躍遷所需能量不同,所以需要不同波長的電磁輻射使它們躍遷,即在不同的光學區域出現吸收或發射譜帶。
  • 生物分子模擬應用研究取得系列進展
    儘管有了單體和複合物的晶體結構,但是由於得到的是靜態結構,構象變化不明顯,無法闡明輔助蛋白以及MLL甲基化酶修飾底物過程的動態學分子機制。為了回答這一關鍵科學問題,李國輝與實驗合作者密切合作,提出和設計了結合增強型採樣技術的分子動力學模擬方案,以及利用QM/MM/MD方法計算底物結合和催化過程自由能的研究思路。通過動態學模擬發現,MLL酶家族不同成員都具有類似的動態學特性。
  • Flavor DB: 風味分子的資料庫
    對於剩下的9472個分子,無法確定具體的來源。作為這些化合物詳細分子和風味特徵的一部分,這些特徵通過味覺和嗅覺機制對它們的味道和氣味產生影響。FlavorDB提供了一個用戶友好的界面,用於查詢和瀏覽風味分子、實體/成分、自然來源,以及執行風味配對。提供交互式數據可視化,例如風味網絡和相互連結的搜索選項,以檢索相關信息。
  • Open Chemistry:尿液分子可用於檢測皮膚癌
    2020年8月12日訊/生物谷BIOON/---在最近一項研究中,來自斯洛伐克的Pavol Jozef Šafárik等人發現尿液中的螢光分子有助於檢測惡性黑色素瘤患者的進展。追蹤癌症的進展非常重要,因為它使醫生可以查看是否有人對治療有反應。目前,惡性黑色素瘤患者需要進行侵入性活檢以診斷和追蹤其癌症的進展。
  • IVD新星--分子診斷產業解析
    分子診斷——監管與分類監管體系根據下遊應用領域的不同,分子診斷監管分為醫療器械和藥品兩種。臨床分子診斷產品按照第三類醫療器械(共三類,第三類是最嚴格的一類)監管。用於紅十字血液中心血源篩查的產品按照藥品監管。預計未來衛計委在應用層面逐漸推開LDT模式。