「深度學習」運用多通道亞結構圖進行分子性質預測

2021-01-13 DrugAI

隨著人工智慧技術的發展,深度學習方法在藥物分子設計中的應用愈發廣泛。分子性質的預測在藥物發現過程中起著很大作用。為了對分子性質進行預測,首先需要對分子進行表徵。應用深度學習對分子進行表徵有多種途徑,例如SMILES將分子編碼成一個字符串序列,根據成環結構斷開的位置不同,同一分子可能得到不同的SMILES。而使用圖表徵能夠保留更多的分子結構和拓撲信息,通常處理方式是將分子轉變為一個無向圖。今年年初,來自中國海洋大學的魏志強教授和李臻副教授的課題組在IEEE Access 發表了使用Multichannel Substructure Graph的分子表徵對分子性質進行預測的工作[1]。和傳統的圖卷積方法不同的是,作者藉助Junction Tree VAE將分子轉變成基於亞結構的圖(S-Graph),從而儘可能保留分子的亞結構信息,並通過將連接處的原子作為邊存儲亞結構間的拓撲關係,使用雙向門控遞歸單元(Bi-GRU)來依序提取亞結構的信息。

——方法——

Junction Tree VAE能夠根據分子亞結構形成樹形結構支架,組成了S-Graph的各個節點[2]。在分子中,每個節點表示一個亞結構,而每條邊表示亞結構之間公用的原子。特別的,當一個原子為三個以上亞結構共用時,單獨成為一個節點(圖1中1184)。而對於取代基位置不同的苯環結構,儘管節點中的原子、鍵類型相同,但仍然處理成兩種節點(圖1中662和675)。

圖1 分子到S-Graph的映射關係和構成

接著,對每個節點進行特徵提取,這其中包含了三個層面信息:節點中的原子、鍵、節點之間連接的「關節」。原子特徵通過以下方式提取:

其中a表示亞結構中各個原子,都用one-hot向量表示,使用全連接層輸出成一個個向量並連接。類似的,鍵信息通過以下方式提取:

其中d表示鍵的向量,和成鍵的兩個原子向量相連接,再經過全連接層提取鍵的特徵向量。最後,關節本身也是原子,因此同樣是將原子向量進行特徵提取:

其中N(s)表示構成關節的原子集合。之後,將節點的信息Xa,Xd,Xj進行合併,提取得到節點特徵向量Xo。此外,S-Graph中的邊信息儲存了節點之間的拓撲信息,作者根據節點間共有原子的原子類型進行特徵提取,得到邊向量:

值得注意的是,關節向量是對於節點而言,可能包括不止一個原子的特徵,由此區別於邊向量和原子的一對一關係。

圖2 節點層面的分子特徵

在節點層面進行信息提取後,需要在分子層面進行更複雜的信息提取,而這需要對節點信息進行拼接。通常的處理是根據SMILES起始的原子所在亞結構作為根節點,通過廣度搜索S-Graph得到節點的序列。之後,通過節點的特徵向量得到節點、鄰接和邊通道的向量組。其中節點通道向量組由以下方式獲得:

其中X0(s)表示分子的亞結構序列。鄰接通道向量組由以下特徵向量拼接而成:

其中H(s)表示該亞結構及其相鄰亞結構的特徵向量。類似於節點層面的bond特徵,邊通道的向量組包含了邊(共用原子)以及相鄰亞結構的向量,拼接成邊通道向量組:

圖3 表徵分子水平特徵的三個通道

得到三個通道的特徵向量後,作者分別將三個通道的向量通過Bi-GRU進行輸出,由於有兩層GRU,每個通道輸入的n個節點輸出的2n個隱藏層向量,合併後通過attention層進行輸出,得到最後的分子圖輸出Y,最後通過多層感知器進行各個任務的學習。

——數據集——

上述模型應用於多種回歸任務和分類任務中。回歸任務包括四個數據集:Free Solvation Database、ESOL、Lipophilicity、PDBBind。包含小分子水合自由能、溶解度、油水分配係數以及與蛋白形成複合物親和力的數據。分類任務包含BBBP、BACE數據集,分別評估血腦屏障穿透能力和與BACE-1抑制性能。

——模型表現與評價——

該模型主要與目前基於圖卷積的深度學習算法,如GC、DAG、Weave以及傳統的機器學習算法進行比較。結果顯示,該模型在各個任務上均表現出更好的性能,誤差更小,下圖展示了在FreeSolv和BBBP上的預測結果。作者還對網絡結構進行了調整,印證了三個通道輸入、雙向GRU結構對性能的改善,說明其必要性。

圖4 FreeSolv(左)和BBBP(右)數據集不同算法性能

作者在這裡利用S-Graph的框架提出了新的分子表徵方法。通過從節點到分子不同層級的特徵提取過程,認為同時提取了fine-grained和coarse-grained水平的信息。Bi-GRU的應用有助於節點間傳遞信息,使信息更為詳盡。筆者認為,S-Graph處理的最大優勢在於對成環結構進行了簡化,能夠從整體的角度提取苯環等結構的特徵。但其他亞結構劃分過細,容易大幅增加計算成本。此外S-graph的處理方式容易對分子較大的官能團進行拆分,如何進一步根據官能團,甚至更宏觀的藥效團信息進行信息提取,也是作者試圖進一步探索的問題。

參考文獻:

[1] Wang, Shuang, et al. "Molecular property prediction based on a multichannel substructure graph." IEEE Access 8(2020): 18601-18614.

DOI: 10.1109/ACCESS.2020.2968535

[2] Jin, Wengong, Regina Barzilay, and Tommi Jaakkola."Junction tree variational autoencoder for molecular graph generation." arXiv preprint arXiv:1802.04364 (2018).

相關焦點

  • 圖靈獎「擁抱」深度學習
    「人工智慧是現在所有科學中發展最快的領域之一,也是社會上談論最多的話題之一。」ACM 主席 Cerri M. Pancake 說,「人工智慧的發展很大程度上歸功於由三位奠定基礎的深度學習領域內的最新成就。」「只要口袋裡有智慧型手機的人都可以切實體會到自然語言處理和計算機視覺方面的技術進步,這在十年前是無法想像的。
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    選自Google Research Blog作者:George Dahl機器之心編譯參與:吳攀理論上講,由原子構成的分子種類的數量是無窮大的。要了解這些分子的性質,化學家往往要進行很多嚴格的實驗,隨著新分子的不斷出現,這樣的工作也是無窮無盡的。
  • 「可解釋學習」利用SHAP對分子活性預測機器學習模型進行解釋
    文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。——背景——眾所周知,機器學習模型在藥物研究中取得了許多優秀的成果,其中包括分子性質預測、從頭藥物設計、分子合成分析等多個方面。
  • 用深度學習對抗癌症:從分子層面研究到大規模人口建模
    他說:「英特爾非常想嘗試確定一種戰略,以區分訓練和推理平臺之間的某些級別。大多數深度學習系統現在在『quasi』上做推理,它比用於訓練的平臺更小。英特爾希望確保『未來的 IA 架構擅長推理』」。不足為奇的是現在人們花費了大量的精力用於評估來自谷歌、微軟、Facebook 等公司的深度學習框架。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    無論是 DeepMind 星際2 AI 「AlphaStar」血虐人類玩家,還是 OpenAI 最終因太過強大而被認為可能有風險所以不公開發布的語言模型 GPT-2,無疑都在過去一年中最轟動的 AI 大事件之列,也吸引了 AI 社區的越來越多的研究者投身深度強化學習研究之列。然而,也有很多反對的聲音認為深度強化學習現在的一系列成果,其實更像是一種虛假的「繁榮」。
  • 谷歌AI可準確預測化學分子性質
    在這篇文章中,谷歌與DeepMind以及瑞士巴塞爾大學(University of Basel)一同做出了突破——利用機器學習的方法,他們能準確預測分子的性質!這對於藥物發現來說,有著重要的裡程碑意義。新的化學分子預示著新的無限可能,因此尋找新分子一直是化學研究中令人激動的一環。
  • 深度學習的可解釋性研究(一):讓模型「說人話」
    總結一下就是「說人話」,「說人話」,「說人話」,不以人類可以理解的方式給出的解釋都叫耍流氓,記住這三個字,你就差不多把握了可解釋性的精髓所在。我們為什麼需要可解釋性?廣義上來說我們對可解釋性的需求主要來源於對問題和任務了解得還不夠充分。
  • ...新冠藥物研發,「Insilico Medicine」設計出百餘個新穎分子結構
    36氪獲悉,人工智慧新藥研發公司「Insilico Medicine」 ,宣布運用其專利的AI藥物研發平臺,設計了新冠病毒的3CL蛋白酶靶向小分子的結構。藉助生成化學方法,該公司能以分子的特定性質作為生成條件,設計出眾多具有各種特性的分子。 接下來,該公司將運用自有資源,及國際大型公開研究平臺的各團隊,合成並測試其中100個分子,推進相關藥物研發。
  • 還不會使用PyTorch框架進行深度學習的小夥伴,看過來
    選自heartbeat.fritz.ai作者:Derrick Mwiti機器之心編譯參與:Geek AI、王淑婷這是一篇關於使用 PyTorch 框架進行深度學習的教程,讀完以後你可以輕鬆地將該框架應用於深度學習模型。
  • 人類首次完全利用AI發現「迄今最強抗生素」,登《細胞》雜誌封面
    機器之心報導機器之心編輯部MIT 科學家用深度學習模型發現的「halicin」抗生素分子展示了前所未有的廣譜抗菌能力,這是人類首次完全使用人工智慧的方法發現新抗生素。研究人員表示,halicin 可以消滅一些世界上最危險的細菌。他們的這一研究登上了生命科學頂級期刊《Cell》。自青黴素出現以來,抗生素已經成為現代醫學的基石。
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    「蛋白質摺疊是近半個世紀以來生物化學家研究的重要問題之一,此次提出的方法為解決這一問題提供了全新的思路,」AlQuraishi 說道。「現在我們有了一個探索蛋白質摺疊的全新方法,我覺得我們現在的研究不過是冰山一角。」
  • CVPR 2018 中國論文分享會 之「深度學習」
    CVPR 2018 中國論文宣講研討會中「Deep Learning」環節的四場論文報告,分別針對Deep Learning的冗餘性、可解釋性、遷移學習和全局池化做了深入分享。(系列工作)2、如何打開深度學習黑箱?第二個報告由來自清華大學的蘇航介紹了他們在可解釋性方面的工作。他們通過在網絡層之間加入 control gate (即權值)來顯式化每個神經元在模型預測中所起到的作用。3、什麼是部分遷移學習?
  • 使用PyTorch進行主動遷移學習:讓模型預測自身的錯誤
    模型預測標籤為「a」、「B」、「C」或「D」,單獨的數據集標籤為「W」、「X」、「Y」和「Z」。再訓練模型的最後一層模型現在能夠預測標籤「W」、「X」、「Y」和「Z」。遷移學習的最大優點是,與從頭開始訓練一個模型相比,你需要更少的人工標記的示例,這意味著你可以用更少的數據獲得更高精度的模型。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。在論壇中,北京大學董彬副教授、林偉研究院和張志華教授等研究者從基礎出發介紹了「數學」眼中的機器學習是什麼樣的。
  • 一場深度學習引發的圖像壓縮革命
    AlexNet 開啟了深度學習黃金時代,隨之而來是深度學習在圖像識別上的蓬勃發展:2013 年,ZF Net 以 11.2% 的低失誤率奪得 ILSVRC 冠軍;2014 年,VGG Net 在ILSVRC「分類及定位」比賽單項賽上的失誤率為 7.3%,同年,GoogLeNet以 6.7% 的失誤率取得 ILSVRC 冠軍
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。
  • Nature 深度學習解碼腦掃描圖像:預測嬰兒自閉症
    但是行為判定對預測哪些兒童將會有自閉症並沒有多大作用,北卡萊羅納教堂山分校的精神病學家 Joseph Piven 說,他也是這項發表在《自然》研究的聯合領導人。「那些在 2 歲或 3 歲被確定有自閉症的兒童,在他們 1 歲的時候是看不出來他們有自閉症傾向的,」他說。有沒有遺傳學特徵或者生物標記能夠幫助預測做出自閉症的診斷?
  • JMC | 藥物化學中的分子表徵學習
    研究者討論了分子深度學習領域的積極研究將如何解決當前描述符和指紋的局限性,同時在化學信息學和虛擬篩選領域創造新的機遇。2. 研究者簡要概述了表徵在化學信息學中的作用,以及深度學習中的關鍵概念,並認為學習表徵提供了一種改進小分子生物活性和性質預測建模的新方法。背景介紹為什麼表徵重要?
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。