GraphNVP | 用於分子圖生成的可逆流模型

2021-01-19 DrugAI

具有理想藥理特性新分子的發現是計算藥物發現中的關鍵問題。傳統上,這項任務是通過臨床合成候選化合物並對其進行實驗來完成的。但是,由於化學空間是巨大的,合成分子並對其進行廣泛的實驗是非常耗時的任務。從頭設計藥物不是在分子中尋找具有所需特性的空間,而是設計具有我們感興趣特性的新化合物。


事實證明,深度學習的最新進展,尤其是深度生成模型在從頭藥物設計中具有不可估量的價值。

將深度學習應用於分子生成的重要步驟是如何表示化合物。早期的模型依賴於SMILES的基於字符串的表示形式  。基於RNN的語言模型或變分自動編碼器(VAE)用於生成SMILES字符串,然後將其轉換為分子。使用SMILES的一個主要問題是,儘管相應的SMILES幾乎相似,但它們對SMILES的細微變化並不穩健,從而導致分子截然不同。這些問題促使最近的研究依靠分子的更具表現力的圖形表示。因此,這個問題被稱為  分子圖生成。


分子由無向圖表示,其中原子和鍵分別表示節點和邊緣。分子的結構由鄰接張量表示和節點特徵矩陣 X 用於表示原子的類型(例如,氧,氟等)。分子生成問題簡化為可以表示有效分子的圖的生成,可以利用諸如GAN或VAE之類的深度生成模型的問題。可以根據以前的工作如何生成圖形將其分為兩類。一些模型順序生成分子圖   ,從而以逐步的方式添加節點(原子)和邊緣(鍵)。替代方法很簡單,只需一步  即可以與圖像生成模型類似的方式生成圖形  。

與上面介紹的VAE和GAN相比,使用可逆流的模型的優勢在於可以直接使可能性最大化。


精確的優化 對於藥物的分子生成至關重要,因為它們對單個原子(節點)的微小替換高度敏感。流模型的另一個優點是,由於它們是設計可逆的,因此可以保證完美的重構,並且不需要耗時的過程。只需在潛在矢量上運行模型的相反步驟,即可生成分子圖。此外,GAN模型中缺少編碼器,這使操作樣本生成具有挑戰性。例如,使用GAN模型生成類似於查詢分子的分子(例如,用於藥物發現的前導優化)並不容易,而基於流的模型則很容易。

GraphNVP

GraphNVP是第一個基於可逆流的圖形生成模型,該模型遵循一次生成策略。引入了兩種潛在表示,一種用於節點分配,另一種用於鄰接張量,以分別捕獲圖結構及其節點分配的未知分布。使用兩種新類型的耦合層:鄰接耦合 和 節點特徵耦合, 以獲取這兩個潛在表示。在圖生成過程中,首先生成鄰接張量,然後使用圖卷積網絡生成節點特徵張量  。

從訓練集中隨機選擇一個分子並將其編碼為潛在載體 ž0 使用提出的模型。然後,選擇兩個彼此正交的隨機軸。解碼位於這兩個軸跨越的二維網格上的潛點 ž0 作為起源。下面的可視化表示所學習的潛在空間是平滑的,因此相鄰的潛在點對應於具有微小變化的分子。

作者&編輯丨王建民

研究方向丨藥物設計、生物醫藥大數據

相關焦點

  • 日本研究員提出​圖模型新方法,助力化學合成新分子
    但由於化學分子構成的空間十分龐大, 合成分子進行廣泛實驗的成本十分巨大。為了替代在分子空間中搜索期待特性的方法,研究人員提出了新的思路,將人們希望得到的藥物特性加入到重頭開始設計新藥的過程中去。來自日本PFN的研究人員們提出了一種基於可逆流模型的圖生成方法GraphNVP用於高效的合成有效藥物分支結構,並在實驗中取得了良好的效果。
  • Survey | 基於生成模型的分子設計
    這類顯式分布模型生成的樣本具有很好的負對數似然得分和多樣性。然而,由於依賴於順序生成,這類模型生成樣本速度較慢。在這一章中,作者主要關注兩種常用的分子表示方法,SMILES字符串和分子圖,如圖2,以及這些方法對應的生成模型。圖2 兩種常用的表示分子的方法:(a)SMILES字符串與其對應的one-hot編碼 (b)由Lewis結構得到的分子圖。
  • 圖神經網絡 Graph Neural Network (GNN)
    傳統的神經網絡比較適合用於歐式空間的數據,而圖神經網絡 GNN 可以把神經網絡用在圖結構 (Graph) 中。圖神經網絡的種類很多,包括圖卷積網絡 GCN、圖注意力網絡 GAT、圖自編碼器 GAE 等。本文介紹最早被提出的圖神經網絡 (Graph Neural Network) GNN。
  • arXiv | 藥物組合的深度生成模型
    作者 | 陳雨潔單位 | 湖南大學研究方向 | 藥物組合今天給大家介紹後續的一個研究工作「 Network-principled deep generative models for designing drug combinations as graph sets 」,德州農機大學的Yang Shen課題組首次提出藥物組合的深度生成模型
  • [ICML 2018]用於分子圖生成的聯結樹變分自動編碼器
    原文地址 : https://arxiv.org/pdf/1802.04364.pdf1摘要文章提出了一種基於聯結樹的變分自動編碼器,第一步將分子以子結構為單元轉為樹狀圖,第二步將連結樹餵入圖信息傳遞網絡
  • 圖論Graph theory
    圖論也被用來研究化學和物理中的分子。摘要在凝聚態物理中,通過收集與原子拓撲有關的圖論性質的統計量,可以定量地研究複雜的模擬原子結構的三維結構。在化學中,圖是分子的自然模型,頂點表示原子,邊表示鍵。這種方法特別用於分子結構的計算機處理,從化學編輯器到資料庫搜索。在統計物理學中,圖可以表示系統相互作用部分之間的局部連接,以及系統上物理過程的動態。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 百度安全開源大規模圖資料庫HugeGraph
    圖資料庫的數據模型由頂點(Vertex)、邊(Edge)和屬性來體現。其基本數據類型可表示為G=(V, E)。其中V={v1, v2, …, vn}表示一系列頂點 , E={ e1, e2, …, en }={{v1, v2 }, {v3, v4 }, {vn-1, vn}}表示一系列邊。
  • 石油分子的模型表示
    目前,對於沸點高於汽油的組分,主流的分析方法無法給出所有分子細節上的定性與定量信息。為了在缺乏完整實驗數據的情況下,仍能得到油品的分子組成信息,對石油混合物進行相平衡和物性計算,學術界先是發展了不同的石油組分特徵化方法,後又逐漸摸索出了一條石油分子組成模型的技術路線,即基於模型化合物的虛擬分子集的方法。
  • NeurIPS 2020|用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架。
  • GPT-GNN:圖神經網絡的生成式預訓練方法
    在以往的相關工作中,一般對圖模型進行的預訓練往往針對的是圖中節點的表示,通過圖嵌入(graph embedding)或者隨機遊走(random walk)的方式。但是以這類方式學習到的嵌入模型不能用於初始化其他預訓練任務的fine-tuning。考慮到上述存在的問題,本文作者貢獻了預訓練一個通用的GNN的方法,並可以用這種預訓練模型得到的GNN處理不同的任務。
  • 圖論與圖學習(一):圖的基本概念
    圖可能包含一些擴展:加權的邊節點/邊上加標籤加上與節點/邊相關的特徵向量圖的類型在這一節,我們將介紹兩種主要的圖類型:Erdos-RényiBarabasi-AlbertErdos-Rényi 模型定義在 Erdos-Rényi 模型中,我們構建一個帶有 n 個節點的隨機圖模型。
  • 初識分布式圖資料庫 Nebula Graph 2.0 Query Engine
    一、概述分布式圖資料庫 Nebula Graph 2.0 版本相比 1.0 有較大改動,最明顯的變化便是,在 1.0 版本中 Query、Storage 和 Meta 模塊代碼不作區分放在同一個代碼倉中,而 Nebula Graph 2.0 開始在架構上先解耦成三個代碼倉:nebula-graph、nebula-common 和 nebula-storage,其中 nebula-common
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    為了實現更大規模的搜索,一些研究組已經使用由 DFT 所生成的訓練數據創造了可用於預測化學性質的機器學習模型(如 Rupp et al. 和 Behler and Parrinello)。在這些之前的成果的基礎上,我們將多種現代機器學習方法應用到了 QM9 基準上。QM9 基準是一個公開的分子集合,其中的分子都配對了相應的 DFT 計算出的電子、熱力學和振動性質。
  • 全面回顧2020年圖機器學習進展,12位大神論道、寄望2021年大爆發!
    在 2021 年,我們希望看到研究社區在「條理化的圖生成模型方法」,「基於 GNN 的圖匹配與 GNN 的表達能力之間的聯繫」,「學習圖像、音頻等結構化數據的圖」等方面取得進展。此外,我們還期待 GNN 研究社區和計算機視覺研究社區在場景圖領域有更深入的合作。
  • Python語言中使用pyqtgraph庫實現數據可視化
    背景在Python程式語言中,matplotlib是一種常用的用於數據可視化的繪圖庫,它提供了一套和matlab相似的命令API,開發者可以僅需幾行代碼,便可生成如直方圖,功率譜,條形圖,錯誤圖,散點圖等圖形,適用於交互式繪圖,而且也可以方便地將它作為繪圖控制項嵌入到GUI應用程式中
  • 假期薦讀:一文看盡2019-2020各大頂會 Graph Neural Network 論文(附連結)
    ,作者們提出了一種新的CRF層用於圖卷積神經網絡,以使得相似節點具有相似的隱藏特徵。神經網絡包括圖神經網絡在很多領域都得到了應用也取得了很好的效果,但是如何對神經網絡的預測結果進行解釋是一個問題。很多工作嘗試利用注意力機制來對模型預測結果進行解釋。該論文提出的GNN Explainer可以從網絡結構和節點屬性的角度來對任意圖神經網絡和任意圖挖掘任務生成解釋,可以為 GNN 的判斷結果提供重要依據。
  • 谷歌推出新框架:只需5行代碼,就能提高模型準確度和魯棒性
    曉查 發自 凹非寺量子位 出品 | 公眾號 QbitAI今天,谷歌推出了新開源框架——神經結構學習(NSL),它使用神經圖學習方法,來訓練帶有圖(Graph)和結構化數據的神經網絡,可以帶來更強大的模型。現在,通過TensorFlow就能獲取和使用。NSL有什麼用?
  • 圖網絡未來幾何?12位學者寄望2021大爆發
    2021年,我希望看到的進展包括: 圖生成模型的原理方法; 使用GNN的圖匹配和GNN的表達能力之間的聯繫; 學習圖像、語音等結構數據的圖; 在scene graphs上,GNN社區和CV社區能夠建立更多的合作。
  • 為什麼深度模型在 CV 領域好使,但用在圖網絡上就這麼難呢?
    為什麼深度模型在 CV 領域好使,但用在圖網絡上就這麼難呢?深度學習,特別是 CV 領域的模型,往往有數十上百層,與此相比,在圖「深度學習」中(大部分工作都 ≤5 層,談不上深,所以加個引號吧),大部分模型架構都是淺層的,設計深度模型到底有沒有用呢?