2020年11月30日,谷歌旗下DeepMind公司研發的人工智慧系統AlphaFold在第14屆國際蛋白質結構預測競賽(CASP)中摘得桂冠。
當日,DeepMind在官網發布新聞稿,稱對於困擾生物學界50年的 「蛋白質摺疊」 難題,AlphaFold系統已成為業內專家認可的解決方案;Nature新聞更是以 「it will change everything」(將改變一切)作為標題,指出DeepMind在解決蛋白結構問題上「邁出一大步」。
這些激動人心的表述,讓網友們驚呼:如果機器預測蛋白結構這麼準,結構生物學家們的飯碗,要被機器搶走了嗎?
1
AlphaFold預測結構奪冠,再次名聲大噪
了解一種新的蛋白結構有兩條路,一是靠實驗去 「看」,二是根據胺基酸序列用計算機去 「算」。
可以說,AlphaFold是目前 「算」 這條路上的冠軍。
利用計算預測蛋白質結構的CASP競賽創始於1994年,如今已成為評估預測技術的黃金標準,也是這一領域交流新技術的國際平臺。該競賽以全局距離測試(Global Distance Test,GDT)計分,滿分100分,分數越高,意味著每個胺基酸殘基(蛋白鏈上的小球)離實驗測得的正確位置越接近。用於競賽的蛋白質均為新近實驗破解的、且未公開發表的研究。
自由建模環節中AlphaFold的模型與實驗數據高度貼合。藍色為計算預測,綠色為實驗結果。
在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。
最終,DeepMind 旗下AlphaFold系統拿下中位數92.4GDT的高分,就是在難度較高的自由建模環節也達到了87分的中位數,比第二名高出了25分。
馬裡蘭大學教授、競賽創始人之一的約翰·蒙特(John Moult)教授認為,90 GDT左右的分數可認為與實驗方法獲得的結果相競爭。
「這絕對是驚人的突破。對於超大分子量的單一蛋白,體外表達上就存在困難,更別提更大的複合物,所以在獲得高質量的樣品用於結構解析是具有挑戰性,以及費時費力費錢。能夠利用準確預測的結構進行分析,對於相應的研究意義非凡。」 對於AlphaFold的成績,清華大學生命科學學院研究員李賽不吝讚美。結構生物學家李賽的研究方向是用冷凍電鏡解析生物樣本,而清華大學擁有國際一流的冷凍電鏡平臺。
AlphaFold預測的效果如此之好,與實驗結果只有小幅差異,甚至讓人懷疑差異是否源於實驗結果不夠精細。「跟實驗方法對比的話,有時候說,解析度如此之高,有時候並不知道這個誤差是來自於結構的預測,還是來自於實驗方法解析度的限制。所以這個消息是讓人很振奮的。」 李賽告訴《知識分子》。
蛋白質由長長的胺基酸鏈組成,而僅有正確的胺基酸是不夠的,這些鏈條必須扭捲成特定的三維結構,蛋白質才有活性,這一物理過程被稱為蛋白質摺疊。胺基酸鏈未摺疊或摺疊錯誤的蛋白質,都不能正常發揮生理功能。因此,探究蛋白質的結構對於研究其功能十分重要。
1972年,美國生物化學家克裡斯迪安·安芬森(Christian Boehmer Anfinsen)提出假設,胺基酸序列能完全決定蛋白質結構。但胺基酸序列摺疊的可能性多到數以億計,僅通過胺基酸序列,並不能得到完整的蛋白質結構,因此在過去幾十年裡,計算預測只是實驗手段的輔助。
解析蛋白質結構,現有的常用實驗方法有三種:核磁共振、X射線晶體學和冷凍電鏡。
如今,已有約17萬蛋白質的結構經實驗破解,並上傳至蛋白質數據銀行(Protein Data Bank,PDB)公開。
隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。
2018年,DeepMind 推出 AlphaFold1 參加第13屆CASP競賽,今年的系統則是新版本AlphaFold2,使用了大約128個TPUv3核(相當於100-200個gpu)進行數周運算,算力更強。
相比於上一代AlphaFold,新版本在中位數準確性上更進一步。
2
結構生物學家:
AlphaFold目前適用於理想環境的小型結構
李賽表示,新聞中的AlphaFold建模的對象都是一些分子量較小的或較基礎的結構。
從簡單到複雜、分子量從低到多,蛋白質結構可分為四級。其中,一級結構指線性的胺基酸序列;二級是形成穩定結構的胺基酸鏈,比如線圈狀的α螺旋、鋸齒狀的β摺疊;三級是幾個二級結構形成的三維結構;四級結構是蛋白質複合物。
目前DeepMind展示的建模模型處於二級結構到三級結構之間。
展示的可能是(分子量)比較小的,可能是由幾個α螺旋或者幾個β摺疊這樣的二級結構,或者是一些結構域(超二級結構)、小蛋白質結構。」 李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。
清華大學生命科學院院長王宏偉表示,「AlphaFold目前還主要是預測單鏈蛋白或結構域,無法預測較大的蛋白質複合體,尤其是包含很多不同組分的生物大分子機器的結構。」 他解釋說,這主要是因為蛋白和蛋白的相互作用非常複雜,存在極多的可能性,即使實驗手段也只揭示出冰山一角。
對於複雜的蛋白質或蛋白複合物,科學家們現在主要通過冷凍電鏡來解析。在核磁共振、X射線晶體學、冷凍電鏡三種方法裡,最初用於核物理的核磁共振要求生物樣本分子量最小(15~25Kd),解析度最高,達1埃以下;X射線衍射法對樣本大小(不超過200Kd)的要求和解析度都居中,但樣本必須結晶;冷凍電鏡的解析度原不如前兩者,適用於研究單個較大的生物分子,但2013年後技術革命,解析度已達到原子級。
李賽告訴《知識分子》,結構生物學和冷凍電鏡方法現在的研究重點依然是蛋白質三維結構,包括蛋白蛋白複合物、蛋白核酸複合物、糖蛋白等等。
除了可能的蛋白大小和結構複雜度的區別,李賽認為人工智慧預測蛋白結構更依賴於比較理想化的環境。
而理想狀態與蛋白質的自然狀態是不同的。
李賽解釋說,「結構生物學發展的大的趨勢是做原位蛋白結構,這個就更複雜了。比如說一個病毒,(想研究)嵌在膜上的蛋白與另外一個蛋白的關係,要把結構解析出來。除非計算的方法能在哪一天模擬整個病毒、細菌、細胞,並把所有複雜因素都考慮,不然無法做到接近自然。」
3
機器預測比實驗省時省錢?
從時間上看,實驗方法破解一個蛋白質結構,根據研究的緊急程度、樣本可獲得性、蛋白複雜程度等等因素,用時短則幾周幾月,長達數年也不稀奇。相比而言,計算預測是要快一些,畢竟AlphaFold運算訓練只花費了數周,而CASP競賽全套建模項目也只有5個月。
除了省時,也可能更省錢。
冷凍電鏡、核磁共振、X射線衍射三種實驗方法探測蛋白結構的原理不同,設備也全然不同。冷凍電鏡是用電鏡觀察經特殊冷凍後的樣本;核磁共振是通過分析原子對能量的吸收情況反推物質的構成;X射線衍射法是利用晶體的X射線衍射結果計算晶體中原子排布。
硬體成本上,一臺冷凍電鏡根據規格型號不同,設備價格約在2000萬到6000萬之間,這還不算運行和維護費用。
而核磁共振和晶體學的設備價格也很高昂。特別是晶體學的同步輻射設備,佔地可達數平方公裡,建設費用數以億計,李賽介紹說。
陳勇是清華大學生命科學學院博士後,博士期間在中科院生物物理所研究晶體學,他表示X射線晶體學的設施建設費用可達百億,一般由政府主導,比如中國的上海同步輻射光源。這些平臺除了服務生物學,還用於材料科學、物理學等。雖然造價上天,陳勇解釋,同步輻射設備通常全球共享,並不是每個研究單位都要自己有。
而如果用計算機預測蛋白結構,硬體 「主要是高性能GPU計算平臺的投入」,李賽表示,一個滿足學院規模計算需求的平臺建設大概需要千萬級別,每年維護費用相對實驗設施投入較低,電費開支每年在百萬。
陳勇認為,計算機預測蛋白結構的成本理論上還是有優勢——雖然預測需要高性能計算機,但冷凍電鏡也需要高性能計算,而且還要加上前期設備費用。
4
機器預測能否代替實驗?
即使計算的成本優於實驗,但有了預測還做不做實驗呢?
「AlphaFold確實是有劃時代意義的工作,因為過去幾十年科學家們一直努力實現能不能通過計算預測。這個是計算模擬或者是預測,實驗性科學永遠是實驗性科學,我不知道計算預測出來的結果還要實驗科學去驗證嗎?」 陳勇說,「這是個有意思的問題,我也不知這會不會出現重複性工作,你預測出來一個,我還要去驗證一下?」
對於結構生物學研究,預測並不陌生,並一直作為實驗科學的輔助存在。
李賽告訴《知識分子》,在AlphaFold之前很多年就有了一些預測蛋白質結構的算法。「密西根大學的張陽實驗室在這個上面比較領先,我們有時候會用他們的伺服器預測一些結構,用來和電鏡結構做參照。」 至於預測與實驗的結果,有時候一樣,很多時候是不一樣。
不過,對於從零開始的研究,預測可以幫助實驗科學找找思路。陳勇表示,有許多未知的蛋白結構,在前期沒有任何東西參考的情況下,「可以通過序列計算出來一個模型,然後實驗性科學正好又得到了一個蛋白結構的電子密度,這樣在解析度沒那麼高的情況下,可能有助於我們從頭建模,去搭原子模型。」
對於AlphaFold這樣高準確性的算法,「我覺得這是一個蠻好的事情,非常厲害,」陳勇說,預測能輔助搭模,幫助在做表達的時候做一些優化和改造,「這樣可能會加速實驗性科學的腳步。」
實驗受益於預測,而預測的算法是基於實驗科學的結果。
或許蛋白質摺疊存在某種可靠的規律,但這種規律需要參考的生理因素實在太多太多。實驗科學尚在探索冰山一角,構築在實驗之上的算法能形成理論閉環嗎?
「完全基於物理學和化學第一性原理的結構預測還沒有出現。實驗科學永遠是探索未知的必要手段。」王宏偉指出。AlphaFold系統對蛋白結構精準預測的算法不是憑空成立的,而來自對17萬實驗確定的蛋白結構和序列的學習。
所有實驗解出蛋白結構會上傳PDB資料庫並擁有編號。「這周放出來的晶體結構的量是兩百多個,電鏡(實驗獲得的)大概是五十多個。」陳勇介紹說。另外,資料庫裡約10~15%的結果來自核磁共振。
創建於1971年的全球共享的蛋白結構檔案庫——PDB現孜孜不倦地每周二更新。截至2020年12月2日,共收錄171916個蛋白結構。
但更多的蛋白質結構仍然未知。
「對這些蛋白進行結構預測具有極大的重要性,同時預測的結構也有助於實驗解析未知蛋白結構。」 李賽表示。
DeepMind表示,在未確定的蛋白質中,可能有一些具有令人興奮的新功能,像AlphaFold這樣的技術可能會幫助我們找到它們——就像望遠鏡幫助我們看到未知宇宙的更深處一樣。
探索更多的未知結構,這大概是 AlphaFold(們)和結構生物學家的共識吧。#木木西裡#
內容來源:知識分子
博士勸退文(肺腑之言)
5個地球之外的實驗
20 歲感染 HIV,病情被醫院判死刑後:什麼才是「活著」?
特別聲明:本文發布僅僅出於傳播信息需要,並不代表本公共號觀點;如其他媒體、網站或個人從本公眾號轉載使用,請向原作者申請,並自負版權等法律責任。