「深度學習」運用多通道亞結構圖進行分子性質預測

2020-12-13 DrugAI

隨著人工智慧技術的發展,深度學習方法在藥物分子設計中的應用愈發廣泛。分子性質的預測在藥物發現過程中起著很大作用。為了對分子性質進行預測,首先需要對分子進行表徵。應用深度學習對分子進行表徵有多種途徑,例如SMILES將分子編碼成一個字符串序列,根據成環結構斷開的位置不同,同一分子可能得到不同的SMILES。而使用圖表徵能夠保留更多的分子結構和拓撲信息,通常處理方式是將分子轉變為一個無向圖。今年年初,來自中國海洋大學的魏志強教授和李臻副教授的課題組在IEEE Access 發表了使用Multichannel Substructure Graph的分子表徵對分子性質進行預測的工作[1]。和傳統的圖卷積方法不同的是,作者藉助Junction Tree VAE將分子轉變成基於亞結構的圖(S-Graph),從而儘可能保留分子的亞結構信息,並通過將連接處的原子作為邊存儲亞結構間的拓撲關係,使用雙向門控遞歸單元(Bi-GRU)來依序提取亞結構的信息。

——方法——

Junction Tree VAE能夠根據分子亞結構形成樹形結構支架,組成了S-Graph的各個節點[2]。在分子中,每個節點表示一個亞結構,而每條邊表示亞結構之間公用的原子。特別的,當一個原子為三個以上亞結構共用時,單獨成為一個節點(圖1中1184)。而對於取代基位置不同的苯環結構,儘管節點中的原子、鍵類型相同,但仍然處理成兩種節點(圖1中662和675)。

圖1 分子到S-Graph的映射關係和構成

接著,對每個節點進行特徵提取,這其中包含了三個層面信息:節點中的原子、鍵、節點之間連接的「關節」。原子特徵通過以下方式提取:

其中a表示亞結構中各個原子,都用one-hot向量表示,使用全連接層輸出成一個個向量並連接。類似的,鍵信息通過以下方式提取:

其中d表示鍵的向量,和成鍵的兩個原子向量相連接,再經過全連接層提取鍵的特徵向量。最後,關節本身也是原子,因此同樣是將原子向量進行特徵提取:

其中N(s)表示構成關節的原子集合。之後,將節點的信息Xa,Xd,Xj進行合併,提取得到節點特徵向量Xo。此外,S-Graph中的邊信息儲存了節點之間的拓撲信息,作者根據節點間共有原子的原子類型進行特徵提取,得到邊向量:

值得注意的是,關節向量是對於節點而言,可能包括不止一個原子的特徵,由此區別於邊向量和原子的一對一關係。

圖2 節點層面的分子特徵

在節點層面進行信息提取後,需要在分子層面進行更複雜的信息提取,而這需要對節點信息進行拼接。通常的處理是根據SMILES起始的原子所在亞結構作為根節點,通過廣度搜索S-Graph得到節點的序列。之後,通過節點的特徵向量得到節點、鄰接和邊通道的向量組。其中節點通道向量組由以下方式獲得:

其中X0(s)表示分子的亞結構序列。鄰接通道向量組由以下特徵向量拼接而成:

其中H(s)表示該亞結構及其相鄰亞結構的特徵向量。類似於節點層面的bond特徵,邊通道的向量組包含了邊(共用原子)以及相鄰亞結構的向量,拼接成邊通道向量組:

圖3 表徵分子水平特徵的三個通道

得到三個通道的特徵向量後,作者分別將三個通道的向量通過Bi-GRU進行輸出,由於有兩層GRU,每個通道輸入的n個節點輸出的2n個隱藏層向量,合併後通過attention層進行輸出,得到最後的分子圖輸出Y,最後通過多層感知器進行各個任務的學習。

——數據集——

上述模型應用於多種回歸任務和分類任務中。回歸任務包括四個數據集:Free Solvation Database、ESOL、Lipophilicity、PDBBind。包含小分子水合自由能、溶解度、油水分配係數以及與蛋白形成複合物親和力的數據。分類任務包含BBBP、BACE數據集,分別評估血腦屏障穿透能力和與BACE-1抑制性能。

——模型表現與評價——

該模型主要與目前基於圖卷積的深度學習算法,如GC、DAG、Weave以及傳統的機器學習算法進行比較。結果顯示,該模型在各個任務上均表現出更好的性能,誤差更小,下圖展示了在FreeSolv和BBBP上的預測結果。作者還對網絡結構進行了調整,印證了三個通道輸入、雙向GRU結構對性能的改善,說明其必要性。

圖4 FreeSolv(左)和BBBP(右)數據集不同算法性能

作者在這裡利用S-Graph的框架提出了新的分子表徵方法。通過從節點到分子不同層級的特徵提取過程,認為同時提取了fine-grained和coarse-grained水平的信息。Bi-GRU的應用有助於節點間傳遞信息,使信息更為詳盡。筆者認為,S-Graph處理的最大優勢在於對成環結構進行了簡化,能夠從整體的角度提取苯環等結構的特徵。但其他亞結構劃分過細,容易大幅增加計算成本。此外S-graph的處理方式容易對分子較大的官能團進行拆分,如何進一步根據官能團,甚至更宏觀的藥效團信息進行信息提取,也是作者試圖進一步探索的問題。

參考文獻:

[1] Wang, Shuang, et al. "Molecular property prediction based on a multichannel substructure graph." IEEE Access 8(2020): 18601-18614.

DOI: 10.1109/ACCESS.2020.2968535

[2] Jin, Wengong, Regina Barzilay, and Tommi Jaakkola."Junction tree variational autoencoder for molecular graph generation." arXiv preprint arXiv:1802.04364 (2018).

相關焦點

  • 氣象預測:從物理過程到深度學習
    一個基本的問題在於支配大氣的偏微分方程的混沌性質,不可能精確地求解這些方程,並且小誤差會隨著時間而增長(大約每五天增加一倍)。即使輸入數據準確且模型無誤,這種混沌性質也會將準確的預測限制在14天左右。一種思路是使用神經網絡來對複雜的物理方程進行擬合學習,這樣不僅可以使用離散的方式對連續物理過程仿真預測,而且可以對現有數值方式進行加速。
  • 澳門大學陳俊龍:顛覆縱向的「深度」學習,寬度學習系統如何用橫向...
    圖片由受訪者提供寬度學習系統(BLS)是作為一種「深度學習網絡的替代方法」被提出的,它基於將映射特徵作為 RVFLNN(隨機向量函數連結神經網絡,random vector functional link neural network)輸入的思想而設計。
  • 深度| 超越DQN和A3C:深度強化學習領域近期新進展概覽
    在這篇文章中,我希望探討深度強化學習領域內試圖解決這些挑戰的幾個近期研究方向,並且還會將其與人類認知進行優雅簡潔的對比。FeUdal 網絡是一種更早的相關研究(https://arxiv.org/pdf/1703.01161.pdf),其使用了一個學習到的「目標」表徵而不是原始的狀態觀察。實際上,研究中的很多變體都源自學習有用的低層子策略的不同方法;很多論文都使用了輔助的或「代理的」獎勵,還有一些其它研究實驗了預訓練或多任務訓練。
  • ...之父」親筆萬字長文,只為向世人證明:深度學習不是在母語為英語...
    由於文章較長,且多為歷史,如果您對過往並不感興趣,也可以只看目錄,然後迅速翻到最後的「結論」部分。Jürgen :我們團隊的深度學習(DL)神經網絡(NN)技術推動了模式識別和機器學習的巨大變革,如今,這些技術被學術界和工業界廣泛應用。
  • 專訪MIT教授Tomaso Poggio:表達、優化與泛化——數學視角裡的深度...
    三月,受騰訊 AI Lab 學術論壇邀請,機器之心在深圳採訪了深度學習理論研究著名學者 Tomaso Poggio。他以平直易懂的語言介紹了自己的「長篇系列工作」,也談了談他對理論指導實踐以及仿生學指導深度學習算法發展等觀點的看法。
  • 重磅| Edge 2017年度人工智慧話題預測:從算法、遷移學習到自產生...
    大腦中的學習與記憶是由算法控制的,該算法根據神經元活動的歷史來改變神經元之間突觸的強度。學習算法最近也被用於訓練深度神經網絡模型來識別語音、翻譯語言、為照片添加說明以及進行錦標賽水平的圍棋對弈。獲得這些驚人能力的方法就是將同一個簡單的學習算法應用到不同類型的數據上。生成複雜性的算法有多常見?
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    「符號回歸」(Symbolic regression)正是用於此類符號模型的機器學習算法,這種監督方法可以聚集多個解析函數來建模數據集。但是,機器學習領域通常使用遺傳算法來學習符號模型,遺傳算法本質上類似於 Schmidt & Lipson (2009) 提出的強力程序(brute force procedure),但它無法針對輸入特徵的數量進行很好地縮放。
  • 學界| 點內科技、華東醫院及上海交大合著論文:3D深度學習在CT影像...
    機器之心發布來源:點內科技本研究利用高效的、多任務的 3D 卷積神經網絡 DenseSharp,同時進行分類和分割,旨在研究從 CT 影像預測早期腫瘤病理浸潤深度學習和放射專家的準確度。點內科技、復旦大學附屬華東醫院「張國楨肺微小結節診治中心」和上海交通大學「SJTU-UCLA 機器感知與推理聯合研究中心」組成的聯合研究團隊共同合作的科研成果「3D Deep Learning from CT Scans Predicts Tumor Invasiveness of Subcentimeter Pulmonary Adenocarcinomas」發表於美國癌症研究協會
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    如今,該公司已將人工智慧技術應用到最具挑戰性的科學研究問題中,其剛剛推出的 AlphaFold 可以僅根據基因「代碼」預測生成蛋白質的 3D 形狀。DeepMind 表示,AlphaFold 是「該公司首個證明人工智慧研究可以驅動和加速科學新發現的重要裡程碑」。
  • 深度學習平臺飛槳獲「創新之星」;通過網絡解剖解釋深層視覺表徵
    【今日資訊頭條 | 百度斬獲首屆多媒體信息識別技術競賽3項A級大獎,飛槳獲頒「創新之星」】來源:機器之心百度飛槳獲頒「創新之星」8 月 9 日,「中國人工智慧高峰論壇」在廈門召開,首屆「中國人工智慧·多媒體信息識別技術競賽」成果也在會上進行頒獎。
  • 騰訊「雲深智藥」用AI持續助力藥物發現
    為了提升「從頭摺疊」方法(又稱「自由建模」)的精度,tFold 工具通過三項技術創新,實現了蛋白結構預測精度的大幅提升。 首先,實驗室研發了「多數據來源融合」(multi-source fusion)技術,來挖掘多組多序列聯配(multiplesequence alignment, MSA)中的共進化信息。
  • 什麼是深度學習(科普)
    吳恩達如今,各類技術公司將深度學習成熟運用於我們生活方方面面當中,科大訊飛公司的語言識別技術,曠視face++公司的人臉識別技術,Google公司深度學習框架的開源和業界內大量人工智慧的應用等等對應監督學習是需要用給定有標籤的數據集進行訓練,訓練出來的模型,使用測試數據集進行測試,得到的誤差進行迭代測試,最終將模型調試成得到的預測數與實際的數據誤差更小的過程[7]。目的就是根據實際應用場景選擇合適的學習方法,然後使用對應的訓練和測試數據集進行模型的構造。
  • 「產品.02」從 0 到 1,搭建產品原型框架
    之前學習的更多是當前需求文檔的規範,而不少規範是「文檔」 + 「口頭描述」,如果「口頭描述」佔比多,同時加上「不同人迭代」以及「時間維度」這 2 個變量,原型內容會越來越鬆散。甚至是無法追溯。那麼,如何把 PRD「系統規範化」?
  • 2D轉3D,在《流浪地球》中感受太空漂浮,愛奇藝推出「會動的海報」
    模型框架解析想要把 2D 內容轉換為「真假難辨」的 3D 內容,前提是要了解真實人眼的 3D 感知:「為什麼在人眼中,世界是立體的?」對於 3D 介質來說,越是符合真實世界中人眼的 3D 感知,就會越受到用戶的喜愛。
  • 張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?
    張亞勤表示,數位化的 3.0 時期已經到來,數位化的範圍已從內容、社交和企業服務領域向物理和生物世界進行延伸,將我們熟悉的城市、工廠、電網、家庭向智慧交通、工業網際網路、智慧醫療等方向進行升級,為了完成物理世界的「數位化」,數據需要更清晰地讓數字世界和現實世界一一對應,通過深度學習,計算機不斷加深著對於人類世界的認知。
  • 「熊貓」變「長臂猿」,「烏龜」變「來復槍」,深度學習模型被攻擊...
    圖:研究人員在 3D 列印的烏龜上添加一些顏色,AI 的識別結果為「來復槍」。藉助符號AI,機器就可以使用關於世界如何運作的硬編碼規則進行推理,比如說這個世界涵蓋了離散目標,而這些離散目標又彼此以各種方式相互關聯。一些研究人員,例如紐約大學的心理學家 Gary Marcus 認為,混合 AI 模型才是深度學習未來發展的方向。「深度學習在短期內是如此有用,以至於人們對它的長期發展視而不見。」長期以來對當前深度學習方法持批判態度的 Marcus 如是說道。
  • 深度學習可助力新型抗生素發現
    深度學習可助力新型抗生素發現 作者:小柯機器人 發布時間:2020/2/23 13:03:58 近日,美國麻省理工學院James J.
  • 你吃的燒烤、花甲、小龍蝦,都是如假包換的「分子料理」
    真正「分子」料理的重頭,就是現代食品科技與工業本身,以及各種你願意或不願意見到的生產手段。這些技術對我們的日常飲食正產生難以想像的影響——包括對你嘬的小龍蝦的影響。不管喜不喜歡,你的生活都已經被「分子料理」所包圍。你以為,像烤紅薯這麼質樸的食物,肯定沒有接受過現代食品科學的改造吧?
  • 他想治好你對植物的「臉盲症」
    相比於人工識別,通過計算機深度學習來識別植物是很多創業者希望達成的目標。此前市面上也有一些針對「植物識別」的應用,如Like the garden, Leafsnap,花滿城,發現識花等,但辨別率還不夠高,使用體驗並不理想。 看了一圈,陳明權決定自行開啟攻關模式。
  • HyperFoods:基於機器學習智能繪製食物中抗癌分子的圖譜
    文章中作者介紹了一個獨特的基於網絡的機器學習平臺HyperFoods,以識別推定的基於食物的抗癌分子。作者還評估了單個基因對最終分類的影響,即通過發現基因水平和優化模型預測結果之間的相關性來確定基因的重要度。結果表明佔比最高的基因參與細胞增殖控制,其突變通常與癌症有關,其為基於機器學習的藥物抗癌特性預測提供了透明度。