對於宏觀生命體系的研究離不開對於微觀結構及其相互作用的理解。為了更好的理解這些微觀結構,如蛋白質的生物學功能,我們需要分析其三維結構信息。然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。
圖1:NEMO模型的蛋白構象預測過程
本文向大家介紹另外一種較為獨特的蛋白構象學習策略,名為Neural energy modeling and optimization(NEMO)。該方法由哈佛醫學院的John Ingraham等人提出,並於2019年發表於ICLR(International Conference on Learning Representations)。不同於contact map以及扭轉角預測,NEMO的目標是學習一個使用DNN表示的勢能函數Uθ,使得蛋白在該力場作用下,經過有限步的動力學模擬後能夠到達接近真實結構的狀態(如圖1所示)。下面我們將分別介紹該工作的基本思路和方法,使用的數據,模型的表現以及該方法的優勢和弊端。
——思路與方法——
Ingraham等人假定蛋白質的構象(x)服從如下分布:
其中Uθ(x)是使用DNN構造的勢能函數,在構架上採用了Message Passing Neural Network(MPNN)。NEMO訓練的目標是通過優化Uθ(x),使從分布pθ(x)中採樣得到的構象能夠與真實結構類似。
為了訓練Uθ(x),Ingraham等人提出了以下損失函數:(1)基於負對數似然值的損失函數(negative likelihood loss,NLL)以及(2)基於經驗的損失函數。對於NLL,Ingraham等人使用如下方式估計其梯度:
我們發現等式右側第一項需要從分布pθ採樣。此處作者使用了Langevin dynamics,並且將採樣步數限制在250步。
作者還採取了一系列「經驗損失函數」,這些損失函評價了真實和生成結構之間的(1)距離矩陣差別、(2)扭轉角差別、(3)氫鍵形成情況的一致性、(4)三維結構一致性(TM-score)以及(5)二級結構一致性等。由於Langevin dynamics過程可微分,所以上述損失均可以通過反向傳播的方法進行優化。
——數據集——
模型的訓練和評價均使用CATH數據集,該數據集是一個層級化蛋白質結構資料庫,C、A、T、H分別代表四個分類層級:Class、Architecture、Toplogy以及Homologous superfamily(見圖2)。我們可以根據不同的層級劃分訓練集、驗證集和測試集,從而模擬不同的任務難度(難度:C>A>T>H)。John Ingraham等人選擇CATH release 4.1 (2015)作為模型的訓練集和驗證集,CATH release 4.2 (2017)中新增加的fold結構作為測試集。
——模型表現評價——
圖2:CATH資料庫的層級以及模型表現
對於測試集中的每一段序列,作者使用該模型生成100個候選構象,對其進行聚類選擇代表性結構,並比較該結構與真實結構之間的三維相似性。文中使用TM-score作為相似性的度量。
模型對於輸出結構的置信度:模型在輸出過程中能夠一次生成多種構象,這些構象之間的一致性可以作為模型對於輸出結果的置信度。作者考察了模型輸出的置信度與真實誤差,發現兩者存在正相關關係(見圖2,左側散點圖)。對於難度更高的任務而言(如C水平),模型的輸出置信度更低。
模型的泛化能力:根據作者的觀察,對於難度較高的任務(C以及A水平)或與訓練集差別較大的序列,模型依然可以做出一些準確的判斷。從圖2中央的散點圖中可以看出,儘管難度更高的任務(如C和A),TM-score水平相對更低,但是不同難度TM-score的整體分布差異不是特別顯著。同樣,對於與訓練集差別較大的序列,模型的預測準確性也並沒有顯著降低(圖中橫坐標與TM-score未展現顯著的相關性)。
與基準模型進行對比:作者使用RNN構建了基準模型,該模型通過雙向LSTM直接輸出蛋白分子內坐標,不經過動力學模擬過程。作者發現NEMO在C、A、T三種難度的任務上表優於基準模型(見圖3,右側散點圖)。
——模型的優勢和缺點——
Ingraham等人提出了一種新穎的基於力場的蛋白結構預測方法NEMO。相比起利用傳統力場進行物理模擬,NEMO學習到的立場能夠使用更短的步數得到可靠的蛋白構象。但是相比其他的基於深度學習的方法,例如文中提到的RNN基準模型,該方法的速度優勢並不顯著。NEMO的主要缺點在於其訓練難度。在訓練過程,梯度信息需要穿過T=250步的Langevin dynamics,造成顯著的不穩定性。文中採取了諸如Lyapunov regularization以及gradient damping的方法以維持訓練的穩定性,但是這些方法會降低模型的訓練速度。
參考文獻:
Ingraham, John, et al. "Learning Protein Structure with a Differentiable Simulator." ICLR. 2019.