精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?

2020-12-06 木木西裡科技
pixabay.com

2020年11月30日,谷歌旗下DeepMind公司研發的人工智慧系統AlphaFold在第14屆國際蛋白質結構預測競賽(CASP)中摘得桂冠。

當日,DeepMind在官網發布新聞稿,稱對於困擾生物學界50年的 「蛋白質摺疊」 難題,AlphaFold系統已成為業內專家認可的解決方案;Nature新聞更是以 「it will change everything」(將改變一切)作為標題,指出DeepMind在解決蛋白結構問題上「邁出一大步」。

這些激動人心的表述,讓網友們驚呼:如果機器預測蛋白結構這麼準,結構生物學家們的飯碗,要被機器搶走了嗎?

1

AlphaFold預測結構奪冠,再次名聲大噪

了解一種新的蛋白結構有兩條路,一是靠實驗去 「看」,二是根據胺基酸序列用計算機去 「算」。

可以說,AlphaFold是目前 「算」 這條路上的冠軍。

利用計算預測蛋白質結構的CASP競賽創始於1994年,如今已成為評估預測技術的黃金標準,也是這一領域交流新技術的國際平臺。該競賽以全局距離測試(Global Distance Test,GDT)計分,滿分100分,分數越高,意味著每個胺基酸殘基(蛋白鏈上的小球)離實驗測得的正確位置越接近。用於競賽的蛋白質均為新近實驗破解的、且未公開發表的研究。

圖源:deepmind.com

自由建模環節中AlphaFold的模型與實驗數據高度貼合。藍色為計算預測,綠色為實驗結果。

在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。

最終,DeepMind 旗下AlphaFold系統拿下中位數92.4GDT的高分,就是在難度較高的自由建模環節也達到了87分的中位數,比第二名高出了25分。

馬裡蘭大學教授、競賽創始人之一的約翰·蒙特(John Moult)教授認為,90 GDT左右的分數可認為與實驗方法獲得的結果相競爭。

「這絕對是驚人的突破。對於超大分子量的單一蛋白,體外表達上就存在困難,更別提更大的複合物,所以在獲得高質量的樣品用於結構解析是具有挑戰性,以及費時費力費錢。能夠利用準確預測的結構進行分析,對於相應的研究意義非凡。」 對於AlphaFold的成績,清華大學生命科學學院研究員李賽不吝讚美。結構生物學家李賽的研究方向是用冷凍電鏡解析生物樣本,而清華大學擁有國際一流的冷凍電鏡平臺。

AlphaFold預測的效果如此之好,與實驗結果只有小幅差異,甚至讓人懷疑差異是否源於實驗結果不夠精細。「跟實驗方法對比的話,有時候說,解析度如此之高,有時候並不知道這個誤差是來自於結構的預測,還是來自於實驗方法解析度的限制。所以這個消息是讓人很振奮的。」 李賽告訴《知識分子》。

蛋白質由長長的胺基酸鏈組成,而僅有正確的胺基酸是不夠的,這些鏈條必須扭捲成特定的三維結構,蛋白質才有活性,這一物理過程被稱為蛋白質摺疊。胺基酸鏈未摺疊或摺疊錯誤的蛋白質,都不能正常發揮生理功能。因此,探究蛋白質的結構對於研究其功能十分重要。

1972年,美國生物化學家克裡斯迪安·安芬森(Christian Boehmer Anfinsen)提出假設,胺基酸序列能完全決定蛋白質結構。但胺基酸序列摺疊的可能性多到數以億計,僅通過胺基酸序列,並不能得到完整的蛋白質結構,因此在過去幾十年裡,計算預測只是實驗手段的輔助。

解析蛋白質結構,現有的常用實驗方法有三種:核磁共振、X射線晶體學和冷凍電鏡。

如今,已有約17萬蛋白質的結構經實驗破解,並上傳至蛋白質數據銀行(Protein Data Bank,PDB)公開。

隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。

2018年,DeepMind 推出 AlphaFold1 參加第13屆CASP競賽,今年的系統則是新版本AlphaFold2,使用了大約128個TPUv3核(相當於100-200個gpu)進行數周運算,算力更強。

圖源:deepmind.com

相比於上一代AlphaFold,新版本在中位數準確性上更進一步。

2

結構生物學家:

AlphaFold目前適用於理想環境的小型結構

李賽表示,新聞中的AlphaFold建模的對象都是一些分子量較小的或較基礎的結構。

從簡單到複雜、分子量從低到多,蛋白質結構可分為四級。其中,一級結構指線性的胺基酸序列;二級是形成穩定結構的胺基酸鏈,比如線圈狀的α螺旋、鋸齒狀的β摺疊;三級是幾個二級結構形成的三維結構;四級結構是蛋白質複合物。

目前DeepMind展示的建模模型處於二級結構到三級結構之間。

展示的可能是(分子量)比較小的,可能是由幾個α螺旋或者幾個β摺疊這樣的二級結構,或者是一些結構域(超二級結構)、小蛋白質結構。」 李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。

清華大學生命科學院院長王宏偉表示,「AlphaFold目前還主要是預測單鏈蛋白或結構域,無法預測較大的蛋白質複合體,尤其是包含很多不同組分的生物大分子機器的結構。」 他解釋說,這主要是因為蛋白和蛋白的相互作用非常複雜,存在極多的可能性,即使實驗手段也只揭示出冰山一角。

對於複雜的蛋白質或蛋白複合物,科學家們現在主要通過冷凍電鏡來解析。在核磁共振、X射線晶體學、冷凍電鏡三種方法裡,最初用於核物理的核磁共振要求生物樣本分子量最小(15~25Kd),解析度最高,達1埃以下;X射線衍射法對樣本大小(不超過200Kd)的要求和解析度都居中,但樣本必須結晶;冷凍電鏡的解析度原不如前兩者,適用於研究單個較大的生物分子,但2013年後技術革命,解析度已達到原子級。

李賽告訴《知識分子》,結構生物學和冷凍電鏡方法現在的研究重點依然是蛋白質三維結構,包括蛋白蛋白複合物、蛋白核酸複合物、糖蛋白等等。

除了可能的蛋白大小和結構複雜度的區別,李賽認為人工智慧預測蛋白結構更依賴於比較理想化的環境。

而理想狀態與蛋白質的自然狀態是不同的。

李賽解釋說,「結構生物學發展的大的趨勢是做原位蛋白結構,這個就更複雜了。比如說一個病毒,(想研究)嵌在膜上的蛋白與另外一個蛋白的關係,要把結構解析出來。除非計算的方法能在哪一天模擬整個病毒、細菌、細胞,並把所有複雜因素都考慮,不然無法做到接近自然。」

3

機器預測比實驗省時省錢?

從時間上看,實驗方法破解一個蛋白質結構,根據研究的緊急程度、樣本可獲得性、蛋白複雜程度等等因素,用時短則幾周幾月,長達數年也不稀奇。相比而言,計算預測是要快一些,畢竟AlphaFold運算訓練只花費了數周,而CASP競賽全套建模項目也只有5個月。

除了省時,也可能更省錢。

冷凍電鏡、核磁共振、X射線衍射三種實驗方法探測蛋白結構的原理不同,設備也全然不同。冷凍電鏡是用電鏡觀察經特殊冷凍後的樣本;核磁共振是通過分析原子對能量的吸收情況反推物質的構成;X射線衍射法是利用晶體的X射線衍射結果計算晶體中原子排布。

硬體成本上,一臺冷凍電鏡根據規格型號不同,設備價格約在2000萬到6000萬之間,這還不算運行和維護費用。

而核磁共振和晶體學的設備價格也很高昂。特別是晶體學的同步輻射設備,佔地可達數平方公裡,建設費用數以億計,李賽介紹說。

陳勇是清華大學生命科學學院博士後,博士期間在中科院生物物理所研究晶體學,他表示X射線晶體學的設施建設費用可達百億,一般由政府主導,比如中國的上海同步輻射光源。這些平臺除了服務生物學,還用於材料科學、物理學等。雖然造價上天,陳勇解釋,同步輻射設備通常全球共享,並不是每個研究單位都要自己有。

而如果用計算機預測蛋白結構,硬體 「主要是高性能GPU計算平臺的投入」,李賽表示,一個滿足學院規模計算需求的平臺建設大概需要千萬級別,每年維護費用相對實驗設施投入較低,電費開支每年在百萬。

陳勇認為,計算機預測蛋白結構的成本理論上還是有優勢——雖然預測需要高性能計算機,但冷凍電鏡也需要高性能計算,而且還要加上前期設備費用。

4

機器預測能否代替實驗?

即使計算的成本優於實驗,但有了預測還做不做實驗呢?

「AlphaFold確實是有劃時代意義的工作,因為過去幾十年科學家們一直努力實現能不能通過計算預測。這個是計算模擬或者是預測,實驗性科學永遠是實驗性科學,我不知道計算預測出來的結果還要實驗科學去驗證嗎?」 陳勇說,「這是個有意思的問題,我也不知這會不會出現重複性工作,你預測出來一個,我還要去驗證一下?」

對於結構生物學研究,預測並不陌生,並一直作為實驗科學的輔助存在。

李賽告訴《知識分子》,在AlphaFold之前很多年就有了一些預測蛋白質結構的算法。「密西根大學的張陽實驗室在這個上面比較領先,我們有時候會用他們的伺服器預測一些結構,用來和電鏡結構做參照。」 至於預測與實驗的結果,有時候一樣,很多時候是不一樣。

不過,對於從零開始的研究,預測可以幫助實驗科學找找思路。陳勇表示,有許多未知的蛋白結構,在前期沒有任何東西參考的情況下,「可以通過序列計算出來一個模型,然後實驗性科學正好又得到了一個蛋白結構的電子密度,這樣在解析度沒那麼高的情況下,可能有助於我們從頭建模,去搭原子模型。」

對於AlphaFold這樣高準確性的算法,「我覺得這是一個蠻好的事情,非常厲害,」陳勇說,預測能輔助搭模,幫助在做表達的時候做一些優化和改造,「這樣可能會加速實驗性科學的腳步。」

實驗受益於預測,而預測的算法是基於實驗科學的結果。

或許蛋白質摺疊存在某種可靠的規律,但這種規律需要參考的生理因素實在太多太多。實驗科學尚在探索冰山一角,構築在實驗之上的算法能形成理論閉環嗎?

「完全基於物理學和化學第一性原理的結構預測還沒有出現。實驗科學永遠是探索未知的必要手段。」王宏偉指出。AlphaFold系統對蛋白結構精準預測的算法不是憑空成立的,而來自對17萬實驗確定的蛋白結構和序列的學習。

所有實驗解出蛋白結構會上傳PDB資料庫並擁有編號。「這周放出來的晶體結構的量是兩百多個,電鏡(實驗獲得的)大概是五十多個。」陳勇介紹說。另外,資料庫裡約10~15%的結果來自核磁共振。

創建於1971年的全球共享的蛋白結構檔案庫——PDB現孜孜不倦地每周二更新。截至2020年12月2日,共收錄171916個蛋白結構。

但更多的蛋白質結構仍然未知。

「對這些蛋白進行結構預測具有極大的重要性,同時預測的結構也有助於實驗解析未知蛋白結構。」 李賽表示。

DeepMind表示,在未確定的蛋白質中,可能有一些具有令人興奮的新功能,像AlphaFold這樣的技術可能會幫助我們找到它們——就像望遠鏡幫助我們看到未知宇宙的更深處一樣。

探索更多的未知結構,這大概是 AlphaFold(們)和結構生物學家的共識吧。#木木西裡#

內容來源:知識分子

博士勸退文(肺腑之言)

5個地球之外的實驗

20 歲感染 HIV,病情被醫院判死刑後:什麼才是「活著」?

特別聲明:本文發布僅僅出於傳播信息需要,並不代表本公共號觀點;如其他媒體、網站或個人從本公眾號轉載使用,請向原作者申請,並自負版權等法律責任。

相關焦點

  • 預測蛋白結構的AlphaFold,會砸了結構生物學家飯碗嗎?
    這些激動人心的表述,讓網友們驚呼:如果機器預測蛋白結構這麼準,結構生物學家們的飯碗,要被機器搶走了嗎?李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。
  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    這些激動人心的表述,讓網友們驚呼:如果機器預測蛋白結構這麼準,結構生物學家們的飯碗,要被機器搶走了嗎? 展示的可能是(分子量)比較小的,可能是由幾個α螺旋或者幾個β摺疊這樣的二級結構,或者是一些結構域(超二級結構)、小蛋白質結構。」 李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    研究人員使用蛋白質資料庫中接近17萬個不同的蛋白質結構,通過不斷地迭代,AlphaFold系統學習到了基於胺基酸序列精確預測蛋白結構的能力。這一基於原子坐標近乎「暴力」的算法是全新的途徑,是全新算法與強大算力的強強聯合。  正如馬裡蘭大學帕克分校計算生物學家,CASP共同創始人John Moult所言,從某種程度上而言,結構預測問題得到了解決。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    通常情況下,蛋白質會呈現出能量效率最高的任何形狀,但它們可能會糾纏在一起或者摺疊錯誤,導致糖尿病、帕金森和阿茨海默症等疾病。如果科學家可以根據蛋白質的化學構成來預測其形狀,他們就能知道它是做什麼的,會如何出錯並造成傷害,並設計新的蛋白質來對抗疾病或履行其它職責,比如分解環境中的塑料汙染。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    人工智慧的「進擊」對生物學、對其他學科會有什麼影響?網絡上有人提出:AI都能解蛋白質結構了,結構生物學家是不是該失業了?《返樸》總編、結構生物學家顏寧特邀幾位同仁對這一新聞各抒己見, 回答大家的疑問。最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • 谷歌開發AI系統預測蛋白結構取得革命性突破
    相關結果在11月30日CASP舉行的會議上予以總結和展示,AlphaFold預測的蛋白結構可以與使用X射線晶體衍射、核磁共振(NMR)或冷凍電鏡(CryoEM)等實驗技術解析的3D結構相媲美。「這是個巨大的進步」,馬裡蘭大學計算生物學家John Moult說。他於1994年與他人共同創立了CASP,致力於改進精確預測蛋白質結構的計算方法。「從某種意義上說,問題已經解決。」
  • AI精準預測蛋白質結構,結構生物學何去何從? | 返樸
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    生物界「AlphaGo」精準預測蛋白質結構》)這一消息引發了全球媒體關注,前Genentech執行長Arthur D. Levinson博士盛讚這一成就是「劃時代的進步」。人工智慧的「進擊」對生物學、對其他學科會有什麼影響?
  • AlphaFold2是什麼狗?(會後解讀)
    (我活久見了)Osnat Herzberg(結構生物學家):」預測的結果好像和我做的結構不大一樣,咦?我怎麼解析錯了。結構生物學家Petr Leiman,我用著價值一千萬美元的電鏡,還這麼努力地嘗試了好幾年,這就一下就給我算出來了??」
  • AlphaFold成功預測蛋白質結構
    每屆CASP會持續好幾個月。比賽中會定期給出目標蛋白質或蛋白質結構域——總共100個左右,讓團隊有幾周的時間來提交他們預測的結構。隨後,一支由獨立科學家組成的團隊利用各類指標對預測結果進行評估,這些指標主要判斷團隊預測的蛋白質與實驗解析的結構有多相似。評審專家並不知道預測是誰做的。
  • 生物界AlphaGo精準預測蛋白質結構
    通過不斷地迭代,AlphaFold系統學習到了基於胺基酸序列,精確預測蛋白結構的能力。CASP選擇已經通過實驗手段解析,但是尚未公布的蛋白質結構作為目標,讓世界各地的研究團隊運用自己的計算手段預測它們的結構。一個獨立的團隊會評估預測結構與通過實驗手段解析的蛋白結構之間的差異。2018年,DeepMind開發的第一代AlphaFold首次參加CASP並且拔得頭籌。而今年,新一代的AlphaFold在CASP中的表現更為驚豔。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • AlphaFold蛋白結構預測擊敗人類奪冠
    AI如何成功預測蛋白質3D結構?此次讓DeepMind再一次嶄露頭角的CASP, 被認為是蛋白質結構領域「奧林匹克競賽」。在這次比賽上,DeepMind團隊(參賽名為「A7D」)成功在43個參賽蛋白中拿到25個單項最佳模型,累計總分120.35排名第一。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • 預測新冠病毒「蛋白質摺疊」重磅武器:AlphaFold!精度碾壓生物與...
    DeepMind:COVID-19相關蛋白結構的計算預測「人類對冠狀病毒的研究已經有幾十年的歷史,所以利用以往的資料庫對COVID-19疫情能做出較快的反應,短短幾天就研究出了新病毒的檢測方法。我們分享了幾種模型預測的病毒蛋白質結構,希望能為廣大研究人員提供一些幫助。我們相信新系統比我們早期的CASP13系統更準確。 此前,我們成功預測了一個蛋白質資料庫中經過實驗驗證的SARS-CoV-2棘突蛋白結構,這給了我們足夠的信心,新系統預測其他蛋白質結構也是有可能的。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。 GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。 我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    「在共享的蛋白質資料庫中,我們的系統準確地為SARS-CoV-2刺突蛋白提供了預測實驗,這使我們相信,我們對其他蛋白質的模型預測可能是有用的。」DeepMind在博客文章中寫道。DeepMind的底氣,來自於AlphaFold——這個2018年12月問世便驚呆科學家的系統,它主要功能是用人工智慧加速科學發現。
  • 你會預測蛋白的三級結構嗎?
    的操作使用進行詳細介紹,見《SWISS-MODEL預測蛋白三級結構》。Phyre2是一個可以對蛋白結構、功能和變異進行預測和分析的在線工具,Phyre2是Phyre的升級版本,主要使用遠程同源檢測的方法進行3D建模,預測配體結合位點和胺基酸變異影響(e.g., nonsynonymous SNPs)。據作者稱,每天有700~1000個用戶在用Phyre2分析預測(Kelley, 2015)。