蛋白質結構預測的突破

2022-01-04 DrugAI

了解一個生物過程所需的關鍵信息之一是其組成蛋白的結構,但結構測定的實驗方法往往耗時費力,而且結果不確定,需要投入大量的時間和資源。相比之下,蛋白質序列很容易通過翻譯基因組序列獲得,並且可以獲得大量的蛋白質。由於蛋白質的結構是由其序列決定,因此試圖從另一個序列中推導出蛋白質的摺疊問題--已經持續了半個世紀,其重要性隨著序列資料庫的指數增長而上升,並對連續的方法未能帶來決定性的進展感到沮喪。事實上,從本世紀的第一個十年開始,蛋白質科學界越來越意識到這個問題是計算生物學的巨大挑戰之一。

事情並不是這樣開始的。萊納斯-鮑林從多肽鏈的立體化學考慮建立的二級結構模型,以及不久之後證明這種二級結構可以被組裝成α-角蛋白和膠原蛋白的三維模型,導致人們期待幾何考慮、模型建立和參數方程的結合可以解決蛋白質結構的原理,正如他們已經為核酸做的那樣。然而,第一個蛋白質晶體結構及其驚人的不規則性使人們認識到,這些原理可能比預期的要複雜得多。

儘管如此,在20世紀90年代初,人們對通過簡化多肽鏈的生物物理表徵和線程所取得的進展感到興奮,認為在從胺基酸序列推斷結構方面取得了快速、決定性的進展。然而,這些方法在現實生活中的應用與此並不匹配,而且很明顯,一些報告的成功可能是由於 "後預測",即預測者已經知道其結構的目標。為了獲得對蛋白質結構預測技術水平的客觀評估,由馬裡蘭大學的John Moult領導的一組科學家在1994年組織了一次實驗,即CASP(結構預測的關鍵評估),預測者可以在一個雙盲框架內評估他們的方法。組織者將收集結構尚未公布(在某些情況下甚至尚未完全確定)的蛋白質序列,並將其作為預測目標提供給計算科學家。然後,組織者將把提交的預測和已解決的結構交給評估者,評估者對參與預測的團隊不了解,只知道組號。在實驗結束時(每兩年重複一次),將舉行一次會議,討論結果。

CASP1是一個令人清醒的經驗,因為結構預測的工具被證明是非常鈍的。用組織者的話說:"這些預測出了很多問題,這也是實驗的主要價值所在。一個可靠的信息來源是與目標蛋白相關的結構,具有已知結構的親屬的目標被歸類為最簡單的,可以通過同源模板上的建模獲得。然而,由於檢測和目標與模板比對的錯誤,要建立一個比最近的可用模板更接近目標的模型是相當困難的。應用生物物理方法,如能量最小化,似乎只會使錯誤更嚴重。相應地,CASP2增加了對更遠的同源物的檢測、建模和細化的投入。CASP2比CASP1更成功,特別是在CASP1預測基本上是隨機的、結構資料庫中缺乏可檢測模板的較難目標,但進展仍然有限。《紐約時報》以 "蛋白質1,計算機0 "作為著名的報導標題,並引用了一位組織者的話,他看到了一些小的進展跡象,"這是令人鼓舞的,但離有用的東西還有很長的路要走",而一位評估員則誇獎說 "不能再保證失敗了"。

在此基礎上,CASP3-5實驗提供了進一步的改進,然而,主要是在中等難度的靶標領域,通過一系列日益強大的序列搜索工具,可以檢測到更加遙遠的同源物。事實證明,同源蛋白基本上保持著相同的摺疊,即使它們的序列似乎已經分化到了不相似的 "午夜區"。相比之下,將生物物理參數納入預測方法的努力,雖然為較小的靶標提供了一些令人印象深刻的成功,但並沒有擴展到較大的靶標,使進化相關度的統計檢測成為結構預測的主要工具。

CASP3中引入的模型準確性測量方法GDT-TS(全局距離測試-總分),可以比較實驗內部和實驗之間的結果。在對兩個具有相同序列的結構進行迭代疊加後,該方法比較了同源的Cα碳的位置,統計了在1、2、4和8Å的距離分界線內的配對百分比,將百分比相加並除以4。這種對相似性的關注使該測量方法能夠將那些差的、但包含局部正確片段的模型與全局錯誤的模型區分開來,這是其他相關測量方法(如均方根偏差)所不能實現的。非常粗略的說,GDT-TS的得分在20分左右,表示大體上是隨機的模型,得分在50分左右,具有整體正確拓撲結構的模型,得分在70分左右,具有準確的全局和局部拓撲結構的模型。超過80分,結構細節的建模越來越正確,超過95分,模型就像根據實驗數據建立的模型一樣準確。

John Moult在CASP14會議的介紹中提出了CASP單個實驗中GDT-TS得分的概述,顯示為通過該實驗中每個目標取得的最佳得分的多項式擬合(https://en.wikipedia.org/wiki/AlphaFold#/media/File:CASP_results_2020.png)。這一概述表明,在CASP5之後,整體進展基本上停滯不前,直到CASP12,導致該領域的一些人懷疑我們是否會得到問題的解決。然而,下一步進展的種子已經播下。

從CASP實驗開始,科學家們就想知道是否有可能從同源蛋白質的多序列比對中的相關突變計算出殘基間的接觸圖,以獲得摺疊的指紋並指導結構預測。研究人員的想法是,如果突變是相關的,那麼這些位置的殘基很可能是物理接觸的,提供的信息可以通過核磁共振確定結構。然而,多年來,這種接觸圖的準確性仍然很低,因為以成對的方式分析相關性,無法區分直接的、結構性的相關性和間接的、功能性的相關性。從2010年左右開始,通過使用直接耦合分析進行全局接觸預測,可以更好地區分不同的共同演化的殘基,該方法同時考慮了所有成對的相互作用,並根據觀察到的成對的相關性對接觸圖進行全局優化。這種方法在2017年又向前邁進了一大步,證明了深度學習方法不僅可以通過這種方式從多個排列中提取高質量的接觸圖,甚至在同源物很少的情況下也可以將預測的接觸解釋為一組距離,從而為基礎摺疊提供更精細的幾何指紋。卷積神經網絡在距離圖預測中的應用被領先的結構預測小組在CASP13(2018)中使用,並對硬產生了強大的影響,對於這些目標,最佳模型的GDT-TS從40左右上升到60以上。

在CASP13的高分小組中,有一個出乎意料的新成員AlphaFold,由Alphabet公司的領先人工智慧實驗室DeepMind派出。令所有人驚訝的是,這個小組以其關鍵的洞察力擊敗了所有參賽者,即距離圖的概率分布可以轉換為特定蛋白質的統計潛力,從而通過最小化生成蛋白質摺疊。雖然AlphaFold在CASP13中的領先優勢比以往CASP實驗中排名第一和第二的小組之間的典型距離要大,但它的總體表現是遞增性的,而不是變革性的,只在大約三分之一的情況下提供了最佳模型,儘管對較難的目標的領先優勢大於對較易的目標的領先優勢。

因此,沒有人準備好迎接AlphaFold的第二個化身AlphaFold2在CASP14上的變革性表現,它遠遠領先於所有其他參與者,其預測的GDT-TS中值達到了92.4! 回顧一下,這是在實驗結構的範圍內,導致許多人得出結論,單條蛋白質鏈的結構預測問題現在已經解決了,正如John Moult在CASP14會議的總結髮言中所說。將AlphaFold2的預測結果與其他研究小組提交的最佳模型進行比較,可以清楚地看到進步的程度,因為AlphaFold2的預測結果通常是GDT-TS得分>80,即使是最難的目標,而這些目標的第二好的模型都低於60。

為了說明這一點,簡單介紹一下目標T1100的情況,這是一個古生物跨膜受體,AlphaFold2為其提交了一個GDT-TS約為80的模型,而接下來最好的一組模型的GDT-TS約為55。研究人員的小組進入這個目標是由於2020年8月組織者和評審員的一次在線會議,在這次會議上,評審員之一Nick Grishin將427小組(後來發現是AlphaFold2)的驚人預測簡潔地提到了一個點上。所以,要麼這個小組接近解決摺疊問題,要麼他們以某種方式作弊"。作為回應,研究者提到有一個跨膜受體的衍射數據,由於相位問題,幾乎十年都沒有解決這個問題。427組文件模型是否足以通過分子置換解決該數據集?當然,這是不可能作弊的。簡而言之,用AlphaFold2模型可以很容易地解決這個結構。其他提交的模型有很好的整體拓撲結構,但有很多地方偏離了結構,使它們成為分子置換的不良模板。作為一個有趣的側面,在這個20個排名最高的小組中,有12個server提交了一個公共預測伺服器的預測坐標作為他們的最佳答案,偶爾也有一些細化的嘗試。其中一個伺服器名為tFold,由中國科技公司騰訊的人工智慧實驗室運營,這表明DeepMind並不是唯一有興趣加入這一戰局的公司實驗室。

是什麼讓AlphaFold2建立了這種領先優勢?更詳細的評估要等CASP14論文集中的方法發表後才能進行,但從John Jumper代表AlphaFold2團隊在CASP14會議上的發言以及該領域專家的意見來看,預測網絡的架構已經發生了根本性的變化。AlphaFold使用卷積神經網絡進行距離圖預測,並應用梯度下降優化法從這些約束條件中構建模型,而AlphaFold2構建了一個端到端的網絡,從序列輸入到結構輸出,模型參數可以共同調整,以優化最終模型,而不是沿途的代理措施。這種用於網絡優化的端到端訓練是由Mohammed Al Quraishi在CASP13之後提出的,在這裡被證明是預測成功的一個重要組成部分。此外,AlphaFold2使用注意力模塊來推導距離約束,並通過三維等價變換器神經網絡從中建立結構模型,該網絡直接在三維空間的原子上操作。起源於自然語言處理的注意力模塊並不從輸入的多序列排列中得出匯總統計,而是選擇一個序列子集來關注,並得出第一個距離圖,在此基礎上決定在下一次迭代中關注哪些序列。這樣,通過迭代優化,該網絡甚至可以從含有少量全長同源物的序列排列中提取更豐富的約束條件,這也是其相對於所有其他方法在硬目標上的表現尤為突出的原因。這個網絡結構的總體戰略似乎是以最佳的局部解決方案為目標,以便從這些解決方案中組合出全局模型,這顯然是非常成功的。

那麼,DeepMind解決了蛋白質摺疊問題嗎?就其基本形式而言--從一個蛋白質的胺基酸序列推導出它的原生結構--CASP14的答案對大多數蛋白質來說似乎是肯定的,只要程序能夠訪問蛋白質序列和結構資料庫,並且目標蛋白質是摺疊的。在研究人員看來,關於解決方案意味著理解或預測不是從單一的胺基酸序列進行的反對意見歸結為語義學。然而,蛋白質摺疊問題比僅僅從序列中推斷出靜態三維結構要複雜得多。一個蛋白質序列不僅包含了結構的信息,而且還包含了達到這個結構的路徑,以及它在應對不斷變化的條件和結合夥伴時所經歷的動態調整,以及它需要參與的細胞機器的組件,以達到其原生位置。從其序列中的信息,一個蛋白質可以識別其結合夥伴,並知道它是否會通過催化或構象變化來改變這些夥伴,以及它是否會在遇到它們時有條件地摺疊或展開。所有這些方面,目前都不在AlphaFold2的範圍內,但對於蛋白質的生物功能來說是至關重要的,科學家們對這些方面最感興趣是可以理解的。因此,研究人員會得出這樣的結論:不,AlphaFold2不是解決蛋白質摺疊問題的最後一步,而是在實現蛋白質結構預測目標的一條非常令人興奮的新道路上邁出的第一步,現在可能已經觸手可及了。

這是否意味著AlphaFold2獲得的進步被誇大了,事實上並不盡如人意?對這一點也肯定是否定的。研究人員發現,這一進展絕對是令人震驚的,這一點我們在CASP14的媒體報導中反覆強調。研究人員認為,實現這一突破的漫長而艱辛的歷程,涉及到生物物理學和計算生物學中一些最聰明的頭腦,充分證明了這一成就的巨大。事實上,這一進展需要引入深度學習方法,這促使我們問道,結構預測問題對於人類的大腦來說是否太難解決。套用J.B.S. Haldane的話,他懷疑宇宙不僅比我們想像的要奇怪,而且比我們能想像的要奇怪,這個問題可能比我們能解決的要難?

研究人員擔心情況確實如此,端到端訓練成功的原因之一是消除了人類的偏見。訓練有素的科學家數十年的努力和許多數十億美元的公共投資顯然產生了突破問題所需的數據,但這一突破需要計算網絡,而計算網絡與人腦不同,是為分析非線性相關關係而優化。就像許多其他群體一樣--運動員和西洋棋選手就是其中之一--我們將不得不習慣於機器擁有超出我們生物範圍的能力這一事實。我們期待著我們認為將是一波先進的預測伺服器,既來自領先的學術團體,也來自具有先進機器學習能力的公司,這將使蛋白質的結構空間像25年前BLAST對序列空間所做的那樣廣泛而迅速地被訪問,標誌著生命科學的類似革命。

Andrei N. Lupas, Joana Pereira, Vikram Alva, Felipe Merino, Murray Coles, Marcus D. Hartmann; The breakthrough in protein structure prediction. Biochem J 28 May 2021; 478 (10): 1885–1890. 

doi: https://doi.org/10.1042/BCJ20200963

相關焦點

  • 顏寧等點評:AI 精準預測蛋白質結構,結構生物學何去何從?
    >張陽(ITASSER 創造者,美國密西根大學教授)AlphaFold2 顯然是蛋白質結構預測領域的重大突破。這可能是從 1969 年第一篇 Journal of Molecular Biology 用比較建模方法預測蛋白質結構發表 51 年以來最大的突破。這個領域過去 20 年來,進展一直比較緩慢,但最近幾年,隨著共同進化、接觸圖預測以及引入深度學習之後,很多軟體,比如 I-TASSER 和 Rosetta 等,都有了很大進步。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智慧系統在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美。(詳見《解決生物學50年來的重大挑戰!
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    張陽 (ITASSER創造者,美國密西根大學教授) AlphaFold2顯然是個大突破,這是從1969年第一篇Journal of MolecularBiology論文用比較建模方法預測蛋白質結構的51年來的真正突破。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。 具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。 其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。
  • AlphaFold成功預測蛋白質結構
    DeepMind的這個程序叫做「AlphaFold」,在名為「蛋白質結構預測關鍵評估」(CASP)的蛋白質結構預測雙年賽上,擊敗了其他百來支團隊。11月30日,賽事盤點大會(今年改為線上舉辦)開幕,公布了上述結果。一個蛋白質的功能由它的3D結構決定。來源:DeepMind「這非常了不起。」馬裡蘭大學計算生物學家John Moult說。
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。
  • 生物界「AlphaGo」精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • DeepMind精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。今天,我們非常興奮地與大家分享 DeepMind 在展示人工智慧研究如何推動和加速新的科學發現方面的第一個重要裡程碑。
  • 漫談蛋白質結構預測問題
    近日,谷歌旗下DeepMind公司所開發的新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了所有選手,預測準確性可以跟人類實驗測得的結果相媲美
  • 攻克生物學難題,「阿爾法摺疊」精準預測蛋白質三維結構
    據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。17年4月,在Cell Systems上的一篇文章中,系統生物學家Mohammed AIQuraishi闡述了一種可以用來預測蛋白質結構的新計算方法,不但達到現在計算方法準確性,而且速度可以提高到一百萬倍以上。
  • AlphaFold+RoseTTAFold的最新蛋白質預測 | 核心真核蛋白質複合物的計算結構
    文章的研究使現在的深度學習,不僅能預測蛋白質單體結構,還能成功預測蛋白質複合物的結構以及之間的相互作用。文章是基於蛋白質預測的AlphaFold和RoseTTAFold的2種AI模型的最新研究成果來探索的。
  • 一文了解如何利用同源建模預測蛋白質三級結構
    結構生物學領域的科學家們能夠利用掃描電鏡,核磁共振以及X衍射等手段獲得絕大多數蛋白質的結構。但解析蛋白質結構畢竟是一個專門的領域,對於「門外漢」,同時又沒有資金委託他人來解析結構的研究者來說,就只能自己預測了。預測分為從頭預測和同源建模。同源建模預測的準確度高於從頭預測,儘管依然沒有真實測定來的準確。
  • 綜述 | DescribePROT:胺基酸水平蛋白質結構和功能預測資料庫
    通訊作者單位:美國維吉尼亞州里奇蒙,維吉尼亞聯邦大學計算機科學系現有的大多數資料庫及軟體對蛋白質的預測都將重點放在胺基酸(AA)級描述符的特定類別上,例如PSIPRED、SCRATCH和MULTICOM資料庫主要關注蛋白質結構描述符,而DEPICTER數據裡既覆蓋結構和功能特性,又覆蓋無序區域。
  • 在線預測蛋白質三級結構,讓文章提升逼格的策略!(附攻略)
    而要更好地從空間結構的觀點來理解蛋白質相應的生物機制,就需要解析蛋白的具體分子結構,因此,採用計算機模擬( in silico) 的方法進行蛋白的結構預測就顯得十分必要。目前,計算機模擬來預測蛋白質結構主要是基於兩種思想:1)  同源模建(homology modelling)目前,已解析的蛋白結構都保存於PDB( http://www.rcsb.org/ ) 資料庫中。基於序列決定結構的基本思想,通過對預模擬的蛋白序列與PDB資料庫中的序列進行相似性搜索,根據相似序列的結構來測序。
  • 高效預測幾乎所有人類蛋白質結構,AlphaFold再登Nature,資料庫全部免費開放
    龔海鵬副教授表示,對於計算化學領域和生物信息學領域的研究者來說,這項研究給出了很好的蛋白質初始結構信息,可以基於此進行分子動力學模擬以及計算機輔助藥物設計等工作。研究蛋白質功能和機理的學者,也可以根據預測的結構解釋實驗中胺基酸殘基突變對蛋白質功能的影響,有助於更深入和更準確地理解蛋白質的工作機理。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    但是在人工智慧進入這個領域後,預測蛋白質摺疊的準確性很快獲得提升。3 AI出手精確預測蛋白質結構人工智慧(AI)的一種實現手段是時下流行的機器學習。2016年打敗人類圍棋冠軍的AlphaGo和此次預測蛋白質結構的AlphaFold,利用的都是機器學習算法。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。