了解一個生物過程所需的關鍵信息之一是其組成蛋白的結構,但結構測定的實驗方法往往耗時費力,而且結果不確定,需要投入大量的時間和資源。相比之下,蛋白質序列很容易通過翻譯基因組序列獲得,並且可以獲得大量的蛋白質。由於蛋白質的結構是由其序列決定,因此試圖從另一個序列中推導出蛋白質的摺疊問題--已經持續了半個世紀,其重要性隨著序列資料庫的指數增長而上升,並對連續的方法未能帶來決定性的進展感到沮喪。事實上,從本世紀的第一個十年開始,蛋白質科學界越來越意識到這個問題是計算生物學的巨大挑戰之一。
事情並不是這樣開始的。萊納斯-鮑林從多肽鏈的立體化學考慮建立的二級結構模型,以及不久之後證明這種二級結構可以被組裝成α-角蛋白和膠原蛋白的三維模型,導致人們期待幾何考慮、模型建立和參數方程的結合可以解決蛋白質結構的原理,正如他們已經為核酸做的那樣。然而,第一個蛋白質晶體結構及其驚人的不規則性使人們認識到,這些原理可能比預期的要複雜得多。
儘管如此,在20世紀90年代初,人們對通過簡化多肽鏈的生物物理表徵和線程所取得的進展感到興奮,認為在從胺基酸序列推斷結構方面取得了快速、決定性的進展。然而,這些方法在現實生活中的應用與此並不匹配,而且很明顯,一些報告的成功可能是由於 "後預測",即預測者已經知道其結構的目標。為了獲得對蛋白質結構預測技術水平的客觀評估,由馬裡蘭大學的John Moult領導的一組科學家在1994年組織了一次實驗,即CASP(結構預測的關鍵評估),預測者可以在一個雙盲框架內評估他們的方法。組織者將收集結構尚未公布(在某些情況下甚至尚未完全確定)的蛋白質序列,並將其作為預測目標提供給計算科學家。然後,組織者將把提交的預測和已解決的結構交給評估者,評估者對參與預測的團隊不了解,只知道組號。在實驗結束時(每兩年重複一次),將舉行一次會議,討論結果。
CASP1是一個令人清醒的經驗,因為結構預測的工具被證明是非常鈍的。用組織者的話說:"這些預測出了很多問題,這也是實驗的主要價值所在。一個可靠的信息來源是與目標蛋白相關的結構,具有已知結構的親屬的目標被歸類為最簡單的,可以通過同源模板上的建模獲得。然而,由於檢測和目標與模板比對的錯誤,要建立一個比最近的可用模板更接近目標的模型是相當困難的。應用生物物理方法,如能量最小化,似乎只會使錯誤更嚴重。相應地,CASP2增加了對更遠的同源物的檢測、建模和細化的投入。CASP2比CASP1更成功,特別是在CASP1預測基本上是隨機的、結構資料庫中缺乏可檢測模板的較難目標,但進展仍然有限。《紐約時報》以 "蛋白質1,計算機0 "作為著名的報導標題,並引用了一位組織者的話,他看到了一些小的進展跡象,"這是令人鼓舞的,但離有用的東西還有很長的路要走",而一位評估員則誇獎說 "不能再保證失敗了"。
在此基礎上,CASP3-5實驗提供了進一步的改進,然而,主要是在中等難度的靶標領域,通過一系列日益強大的序列搜索工具,可以檢測到更加遙遠的同源物。事實證明,同源蛋白基本上保持著相同的摺疊,即使它們的序列似乎已經分化到了不相似的 "午夜區"。相比之下,將生物物理參數納入預測方法的努力,雖然為較小的靶標提供了一些令人印象深刻的成功,但並沒有擴展到較大的靶標,使進化相關度的統計檢測成為結構預測的主要工具。
CASP3中引入的模型準確性測量方法GDT-TS(全局距離測試-總分),可以比較實驗內部和實驗之間的結果。在對兩個具有相同序列的結構進行迭代疊加後,該方法比較了同源的Cα碳的位置,統計了在1、2、4和8Å的距離分界線內的配對百分比,將百分比相加並除以4。這種對相似性的關注使該測量方法能夠將那些差的、但包含局部正確片段的模型與全局錯誤的模型區分開來,這是其他相關測量方法(如均方根偏差)所不能實現的。非常粗略的說,GDT-TS的得分在20分左右,表示大體上是隨機的模型,得分在50分左右,具有整體正確拓撲結構的模型,得分在70分左右,具有準確的全局和局部拓撲結構的模型。超過80分,結構細節的建模越來越正確,超過95分,模型就像根據實驗數據建立的模型一樣準確。
John Moult在CASP14會議的介紹中提出了CASP單個實驗中GDT-TS得分的概述,顯示為通過該實驗中每個目標取得的最佳得分的多項式擬合(https://en.wikipedia.org/wiki/AlphaFold#/media/File:CASP_results_2020.png)。這一概述表明,在CASP5之後,整體進展基本上停滯不前,直到CASP12,導致該領域的一些人懷疑我們是否會得到問題的解決。然而,下一步進展的種子已經播下。
從CASP實驗開始,科學家們就想知道是否有可能從同源蛋白質的多序列比對中的相關突變計算出殘基間的接觸圖,以獲得摺疊的指紋並指導結構預測。研究人員的想法是,如果突變是相關的,那麼這些位置的殘基很可能是物理接觸的,提供的信息可以通過核磁共振確定結構。然而,多年來,這種接觸圖的準確性仍然很低,因為以成對的方式分析相關性,無法區分直接的、結構性的相關性和間接的、功能性的相關性。從2010年左右開始,通過使用直接耦合分析進行全局接觸預測,可以更好地區分不同的共同演化的殘基,該方法同時考慮了所有成對的相互作用,並根據觀察到的成對的相關性對接觸圖進行全局優化。這種方法在2017年又向前邁進了一大步,證明了深度學習方法不僅可以通過這種方式從多個排列中提取高質量的接觸圖,甚至在同源物很少的情況下也可以將預測的接觸解釋為一組距離,從而為基礎摺疊提供更精細的幾何指紋。卷積神經網絡在距離圖預測中的應用被領先的結構預測小組在CASP13(2018)中使用,並對硬產生了強大的影響,對於這些目標,最佳模型的GDT-TS從40左右上升到60以上。
在CASP13的高分小組中,有一個出乎意料的新成員AlphaFold,由Alphabet公司的領先人工智慧實驗室DeepMind派出。令所有人驚訝的是,這個小組以其關鍵的洞察力擊敗了所有參賽者,即距離圖的概率分布可以轉換為特定蛋白質的統計潛力,從而通過最小化生成蛋白質摺疊。雖然AlphaFold在CASP13中的領先優勢比以往CASP實驗中排名第一和第二的小組之間的典型距離要大,但它的總體表現是遞增性的,而不是變革性的,只在大約三分之一的情況下提供了最佳模型,儘管對較難的目標的領先優勢大於對較易的目標的領先優勢。
因此,沒有人準備好迎接AlphaFold的第二個化身AlphaFold2在CASP14上的變革性表現,它遠遠領先於所有其他參與者,其預測的GDT-TS中值達到了92.4! 回顧一下,這是在實驗結構的範圍內,導致許多人得出結論,單條蛋白質鏈的結構預測問題現在已經解決了,正如John Moult在CASP14會議的總結髮言中所說。將AlphaFold2的預測結果與其他研究小組提交的最佳模型進行比較,可以清楚地看到進步的程度,因為AlphaFold2的預測結果通常是GDT-TS得分>80,即使是最難的目標,而這些目標的第二好的模型都低於60。
為了說明這一點,簡單介紹一下目標T1100的情況,這是一個古生物跨膜受體,AlphaFold2為其提交了一個GDT-TS約為80的模型,而接下來最好的一組模型的GDT-TS約為55。研究人員的小組進入這個目標是由於2020年8月組織者和評審員的一次在線會議,在這次會議上,評審員之一Nick Grishin將427小組(後來發現是AlphaFold2)的驚人預測簡潔地提到了一個點上。所以,要麼這個小組接近解決摺疊問題,要麼他們以某種方式作弊"。作為回應,研究者提到有一個跨膜受體的衍射數據,由於相位問題,幾乎十年都沒有解決這個問題。427組文件模型是否足以通過分子置換解決該數據集?當然,這是不可能作弊的。簡而言之,用AlphaFold2模型可以很容易地解決這個結構。其他提交的模型有很好的整體拓撲結構,但有很多地方偏離了結構,使它們成為分子置換的不良模板。作為一個有趣的側面,在這個20個排名最高的小組中,有12個server提交了一個公共預測伺服器的預測坐標作為他們的最佳答案,偶爾也有一些細化的嘗試。其中一個伺服器名為tFold,由中國科技公司騰訊的人工智慧實驗室運營,這表明DeepMind並不是唯一有興趣加入這一戰局的公司實驗室。
是什麼讓AlphaFold2建立了這種領先優勢?更詳細的評估要等CASP14論文集中的方法發表後才能進行,但從John Jumper代表AlphaFold2團隊在CASP14會議上的發言以及該領域專家的意見來看,預測網絡的架構已經發生了根本性的變化。AlphaFold使用卷積神經網絡進行距離圖預測,並應用梯度下降優化法從這些約束條件中構建模型,而AlphaFold2構建了一個端到端的網絡,從序列輸入到結構輸出,模型參數可以共同調整,以優化最終模型,而不是沿途的代理措施。這種用於網絡優化的端到端訓練是由Mohammed Al Quraishi在CASP13之後提出的,在這裡被證明是預測成功的一個重要組成部分。此外,AlphaFold2使用注意力模塊來推導距離約束,並通過三維等價變換器神經網絡從中建立結構模型,該網絡直接在三維空間的原子上操作。起源於自然語言處理的注意力模塊並不從輸入的多序列排列中得出匯總統計,而是選擇一個序列子集來關注,並得出第一個距離圖,在此基礎上決定在下一次迭代中關注哪些序列。這樣,通過迭代優化,該網絡甚至可以從含有少量全長同源物的序列排列中提取更豐富的約束條件,這也是其相對於所有其他方法在硬目標上的表現尤為突出的原因。這個網絡結構的總體戰略似乎是以最佳的局部解決方案為目標,以便從這些解決方案中組合出全局模型,這顯然是非常成功的。
那麼,DeepMind解決了蛋白質摺疊問題嗎?就其基本形式而言--從一個蛋白質的胺基酸序列推導出它的原生結構--CASP14的答案對大多數蛋白質來說似乎是肯定的,只要程序能夠訪問蛋白質序列和結構資料庫,並且目標蛋白質是摺疊的。在研究人員看來,關於解決方案意味著理解或預測不是從單一的胺基酸序列進行的反對意見歸結為語義學。然而,蛋白質摺疊問題比僅僅從序列中推斷出靜態三維結構要複雜得多。一個蛋白質序列不僅包含了結構的信息,而且還包含了達到這個結構的路徑,以及它在應對不斷變化的條件和結合夥伴時所經歷的動態調整,以及它需要參與的細胞機器的組件,以達到其原生位置。從其序列中的信息,一個蛋白質可以識別其結合夥伴,並知道它是否會通過催化或構象變化來改變這些夥伴,以及它是否會在遇到它們時有條件地摺疊或展開。所有這些方面,目前都不在AlphaFold2的範圍內,但對於蛋白質的生物功能來說是至關重要的,科學家們對這些方面最感興趣是可以理解的。因此,研究人員會得出這樣的結論:不,AlphaFold2不是解決蛋白質摺疊問題的最後一步,而是在實現蛋白質結構預測目標的一條非常令人興奮的新道路上邁出的第一步,現在可能已經觸手可及了。
這是否意味著AlphaFold2獲得的進步被誇大了,事實上並不盡如人意?對這一點也肯定是否定的。研究人員發現,這一進展絕對是令人震驚的,這一點我們在CASP14的媒體報導中反覆強調。研究人員認為,實現這一突破的漫長而艱辛的歷程,涉及到生物物理學和計算生物學中一些最聰明的頭腦,充分證明了這一成就的巨大。事實上,這一進展需要引入深度學習方法,這促使我們問道,結構預測問題對於人類的大腦來說是否太難解決。套用J.B.S. Haldane的話,他懷疑宇宙不僅比我們想像的要奇怪,而且比我們能想像的要奇怪,這個問題可能比我們能解決的要難?
研究人員擔心情況確實如此,端到端訓練成功的原因之一是消除了人類的偏見。訓練有素的科學家數十年的努力和許多數十億美元的公共投資顯然產生了突破問題所需的數據,但這一突破需要計算網絡,而計算網絡與人腦不同,是為分析非線性相關關係而優化。就像許多其他群體一樣--運動員和西洋棋選手就是其中之一--我們將不得不習慣於機器擁有超出我們生物範圍的能力這一事實。我們期待著我們認為將是一波先進的預測伺服器,既來自領先的學術團體,也來自具有先進機器學習能力的公司,這將使蛋白質的結構空間像25年前BLAST對序列空間所做的那樣廣泛而迅速地被訪問,標誌著生命科學的類似革命。
Andrei N. Lupas, Joana Pereira, Vikram Alva, Felipe Merino, Murray Coles, Marcus D. Hartmann; The breakthrough in protein structure prediction. Biochem J 28 May 2021; 478 (10): 1885–1890.
doi: https://doi.org/10.1042/BCJ20200963