「深度學習」通過學習勢能函數實現蛋白質的結構預測

2021-01-16 DrugAI

對於宏觀生命體系的研究離不開對於微觀結構及其相互作用的理解。為了更好的理解這些微觀結構,如蛋白質的生物學功能,我們需要分析其三維結構信息。然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。

圖1:NEMO模型的蛋白構象預測過程

本文向大家介紹另外一種較為獨特的蛋白構象學習策略,名為Neural energy modeling and optimization(NEMO)。該方法由哈佛醫學院的John Ingraham等人提出,並於2019年發表於ICLR(International Conference on Learning Representations)。不同於contact map以及扭轉角預測,NEMO的目標是學習一個使用DNN表示的勢能函數Uθ,使得蛋白在該力場作用下,經過有限步的動力學模擬後能夠到達接近真實結構的狀態(如圖1所示)。下面我們將分別介紹該工作的基本思路和方法,使用的數據,模型的表現以及該方法的優勢和弊端。

——思路與方法——

Ingraham等人假定蛋白質的構象(x)服從如下分布:

其中Uθ(x)是使用DNN構造的勢能函數,在構架上採用了Message Passing Neural Network(MPNN)。NEMO訓練的目標是通過優化Uθ(x),使從分布pθ(x)中採樣得到的構象能夠與真實結構類似。

為了訓練Uθ(x),Ingraham等人提出了以下損失函數:(1)基於負對數似然值的損失函數(negative likelihood loss,NLL)以及(2)基於經驗的損失函數。對於NLL,Ingraham等人使用如下方式估計其梯度:

我們發現等式右側第一項需要從分布pθ採樣。此處作者使用了Langevin dynamics,並且將採樣步數限制在250步。

作者還採取了一系列「經驗損失函數」,這些損失函評價了真實和生成結構之間的(1)距離矩陣差別、(2)扭轉角差別、(3)氫鍵形成情況的一致性、(4)三維結構一致性(TM-score)以及(5)二級結構一致性等。由於Langevin dynamics過程可微分,所以上述損失均可以通過反向傳播的方法進行優化。

——數據集——

模型的訓練和評價均使用CATH數據集,該數據集是一個層級化蛋白質結構資料庫,C、A、T、H分別代表四個分類層級:Class、Architecture、Toplogy以及Homologous superfamily(見圖2)。我們可以根據不同的層級劃分訓練集、驗證集和測試集,從而模擬不同的任務難度(難度:C>A>T>H)。John Ingraham等人選擇CATH release 4.1 (2015)作為模型的訓練集和驗證集,CATH release 4.2 (2017)中新增加的fold結構作為測試集。

——模型表現評價——

圖2:CATH資料庫的層級以及模型表現

對於測試集中的每一段序列,作者使用該模型生成100個候選構象,對其進行聚類選擇代表性結構,並比較該結構與真實結構之間的三維相似性。文中使用TM-score作為相似性的度量。

模型對於輸出結構的置信度:模型在輸出過程中能夠一次生成多種構象,這些構象之間的一致性可以作為模型對於輸出結果的置信度。作者考察了模型輸出的置信度與真實誤差,發現兩者存在正相關關係(見圖2,左側散點圖)。對於難度更高的任務而言(如C水平),模型的輸出置信度更低。

模型的泛化能力:根據作者的觀察,對於難度較高的任務(C以及A水平)或與訓練集差別較大的序列,模型依然可以做出一些準確的判斷。從圖2中央的散點圖中可以看出,儘管難度更高的任務(如C和A),TM-score水平相對更低,但是不同難度TM-score的整體分布差異不是特別顯著。同樣,對於與訓練集差別較大的序列,模型的預測準確性也並沒有顯著降低(圖中橫坐標與TM-score未展現顯著的相關性)。

與基準模型進行對比:作者使用RNN構建了基準模型,該模型通過雙向LSTM直接輸出蛋白分子內坐標,不經過動力學模擬過程。作者發現NEMO在C、A、T三種難度的任務上表優於基準模型(見圖3,右側散點圖)。

——模型的優勢和缺點——

Ingraham等人提出了一種新穎的基於力場的蛋白結構預測方法NEMO。相比起利用傳統力場進行物理模擬,NEMO學習到的立場能夠使用更短的步數得到可靠的蛋白構象。但是相比其他的基於深度學習的方法,例如文中提到的RNN基準模型,該方法的速度優勢並不顯著。NEMO的主要缺點在於其訓練難度。在訓練過程,梯度信息需要穿過T=250步的Langevin dynamics,造成顯著的不穩定性。文中採取了諸如Lyapunov regularization以及gradient damping的方法以維持訓練的穩定性,但是這些方法會降低模型的訓練速度。

參考文獻:

Ingraham, John, et al. "Learning Protein Structure with a Differentiable Simulator." ICLR. 2019.

相關焦點

  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。17年4月,在Cell Systems上的一篇文章中,系統生物學家Mohammed AIQuraishi闡述了一種可以用來預測蛋白質結構的新計算方法,不但達到現在計算方法準確性,而且速度可以提高到一百萬倍以上。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    現在,哈佛醫學院的一位科學家使用了一種稱為深度學習的人工智慧來預測基於其胺基酸序列的任何蛋白質的三維結構。系統生物學家Mohammed AlQuraishi於4月17日在Cell Systems上在線報導,詳細介紹了一種計算確定蛋白質結構的新方法 - 實現與當前最先進方法相當的精確度,但速度提高了一百萬倍。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    最近,哈佛大學醫學院 Blavatnik 研究所系統生物學家 Mohammed AlQuraishi 發布了一項新的研究,他根據胺基酸序列,利用深度學習實現了任意蛋白質 3D 結構的高效預測。蛋白質摺疊方式的計算方法有可能大大降低確定蛋白質結構的成本和時間。但經過近四十年的不懈努力,這個難題仍未解決。可視化模擬 AlQuraishi 的蛋白質摺疊深度學習方法。模型通過反覆預測某個結構(彩色)並將其預測與真實結構(灰色)對比來實現自訓練。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    用更傳統的機器學習術語來說,獎勵函數就是目標函數,指的是算法利用獎勵函數來了解系統是否朝著正確的方向運行,模型得到的獎勵越多,它就「越好」。比如教一支機械臂疊衣服,假如說你有一堆褲子,那麼你如何編寫獎勵函數來讓機械臂正確地疊這些褲子呢?當向另外一個人解釋這一點時,聽起來很簡單,只是「把褲子疊成整齊的一堆」,但是計算機並不知道這些規則的含義。
  • 圖靈獎「擁抱」深度學習
    除了我們每天使用的產品,深度學習的新進展為科學家們帶來強大的新工具—從醫學、天文學到材料科學。」神經網絡是一種運算模型,由大量簡單的神經元之間相互連接構成。通過改變連接點上的權重(weight),可以改變神經網絡執行的計算。Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun 認識到了構建多層網絡的重要性,「深度學習」的概念由此誕生。
  • 揭秘深度學習成功的數學原因:從全局最優性到學習表徵不變性
    本文的目的正是要揭示深度學習成功的奧秘。通過圍繞著深度學習的三個核心要素——架構、正則化技術和優化算法,並回顧近期研究,作者為深層網絡的若干屬性,如全局最優性、幾何穩定性、學習表徵不變性,提供了一個數學證明。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。符號模型是自然科學的語言。
  • 深度學習「賦能」光子結構設計
    其中重要的一個方向就是不再為完成某項特定任務為機器設定生硬的執行代碼,而是讓機器通過模擬人的決策模式來完成任務,即所謂的機器學習。而實現機器學習的手段之一便是深度學習。 簡而言之深度學習是實現機器學習的一種手段,而機器學習是實現人工智慧的一個研究方向。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。在論壇中,北京大學董彬副教授、林偉研究院和張志華教授等研究者從基礎出發介紹了「數學」眼中的機器學習是什麼樣的。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    如今,該公司已將人工智慧技術應用到最具挑戰性的科學研究問題中,其剛剛推出的 AlphaFold 可以僅根據基因「代碼」預測生成蛋白質的 3D 形狀。DeepMind 表示,AlphaFold 是「該公司首個證明人工智慧研究可以驅動和加速科學新發現的重要裡程碑」。
  • 機器學習遇見生物學:詳解蛋白質摺疊預測中的算法
    這時問題也就提出來了,即所謂的「蛋白質摺疊問題」——預測這些鏈(一級結構)是如何摺疊成複雜的 3D 結構的。依賴於基因組數據的用於預測問題的深度學習方法變得越來越流行。這樣任務就變成了:輸入胺基酸序列,通過 BERT 獲得蛋白質嵌入,通過蛋白質嵌入預測蛋白質結構。
  • 還不會使用PyTorch框架進行深度學習的小夥伴,看過來
    這個張量的梯度將在「.grad」屬性中積累。如果你想要從計算歷史中分離出一個張量,請調用「.detach()」函數。這也可以防止將來對張量的計算被跟蹤。另一種防止歷史跟蹤的方法是用「torch.no_grad()」方法封裝代碼。你可以將張量「Tensor」和函數「Function」類相連接,構建一個編碼了完整計算歷史的無環圖。
  • 澳門大學陳俊龍:無需深度結構的高效增量學習系統
    其中最主要的原因是,上述深度網絡都結構複雜並且涉及到大量的超參數。另外,這種複雜性使得在理論上分析深層結構變得極其困難。另一方面,為了在應用中獲得更高的精度,深度模型不得不持續地增加網絡層數或者調整參數個數。因此近年來,一系列以提高訓練速度為目的的深度網絡以及相應的結合方法逐漸引起人們關注。
  • 李沐《動手學深度學習》第一章:機器學習簡介
    《動手學深度學習》是一本深度學習在線書,其使用 Apache MXNet 的最新 gluon 接口來演示如何從 0 開始實現深度學習的各個算法。作者利用 Jupyter notebook 能將文檔、代碼、公式和圖形統一在一起的優勢,提供了一個交互式的學習體驗。
  • 深度森林第三彈:周志華組提出可做表徵學習的多層梯度提升決策樹
    自去年周志華等研究者提出了「深度森林」以後,這種新型的層級表徵方式吸引了很多研究者的關注。今日,南京大學的馮霽、俞揚和周志華提出了多層梯度提升決策樹模型,它通過堆疊多個回歸 GBDT 層作為構建塊,並探索了其學習層級表徵的能力。此外,與層級表徵的神經網絡不同,他們提出的方法並不要求每一層都是可微,也不需要使用反向傳播更新參數。
  • 沒有完整圖時,如何使用圖深度學習?你需要了解流形學習2.0版本
    圖神經網絡(GNN)是一種特別流行的圖學習方法,該算法通過在相鄰節點之間交換信息的共享參數進行局部操作。然而,在某些情況下,沒有現成的圖可以作為輸入。在生物學中尤其如此,諸如蛋白質 - 蛋白質相互作用的圖只有部分已知,因為發現蛋白質相互作用的實驗費用昂貴,而且噪聲很大。因此,研究者從數據中推斷出圖並在其上應用 GNN,並將其稱為「潛圖學習」。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • 神經網絡和深度學習簡史(全)
    在聽了數節機器學習課堂,甚至在本科研究中使用它以後,我不禁好奇:這個新的「深度學習」會不會是一個幻想,抑或上世紀80年代已經研發出來的「人工智慧神經網絡」擴大版?讓我告訴你,說來話長——這不僅僅是一個有關神經網絡的故事,也不僅僅是一個有關一系列研究突破的故事,這些突破讓深度學習變得比「大型神經網絡」更加有趣,而是一個有關幾位不放棄的研究員如何熬過黑暗數十年,直至拯救神經網絡,實現深度學習夢想的故事。