解決生物學50年來的重大挑戰!生物界「AlphaGo」精準預測蛋白質結構

2020-12-07 儀器信息網

提到DeepMind公司,我們首先想到的可能是幾年前,它開發的人工智慧AlphaGo「橫掃」頂尖人類圍棋職業選手,變革了圍棋的思考方式。除了在棋類比賽中所向披靡以外,DeepMind也在加速科學發現上邁出了重要一步。今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。前基因泰克(Genentech)執行長Arthur D. Levinson博士稱這一成就為「劃時代的進步」(once in a generation advance)。

圖片來源:DeepMind Blog


生物學50年來的重大挑戰


我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。


在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。1972年,諾貝爾化學獎得主Christian Anfinsen博士表示,理論上,蛋白質的胺基酸序列應該能夠完全決定它的3D結構。這一假說激發了50年來基於胺基酸序列,通過計算方法預測蛋白質3D結構的探索。


然而,這一領域面臨的重大挑戰是理論上,胺基酸鏈可能形成的蛋白質構象的數目是個非常龐大的天文數字。有學者估計,一個典型的蛋白質理論上可以形成10的300次方(1後面加300個0)個可能構象。然而在自然界,蛋白質能夠自發地在幾毫秒內,迅速摺疊成其中一個構象。用什麼樣的計算方法,才能從10的300次方的可能構象中找到那個正確的構象?


AlphaFold:生物界的「AlphaGo」


DeepMind的研究人員把摺疊好的蛋白質設想成一幅具有3D結構的「空間圖畫」(spatial graph),而胺基酸則是這副「空間圖畫」中節點和線條。基於神經網絡系統,他們設計了AlphaFold系統來解析這一空間圖畫的結構。它使用了進化相關的胺基酸序列,多序列對比(multiple sequence alignment, MSA)以及對胺基酸對(amino acid pairs)的評估來優化「空間圖畫「的描繪。

▲AlphaFold的神經網絡模型構架(圖片來源:DeepMind Blog)


研究人員使用蛋白質資料庫中接近17萬個不同的蛋白質結構,以及包含未知結構的蛋白序列資料庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold系統學習到了基於胺基酸序列,精確預測蛋白結構的能力。


與實驗結果相差無幾的蛋白質結構預測


國際蛋白質結構預測競賽(CASP)是由馬裡蘭大學的John Moult教授和加州大學戴維斯分校的Krzysztof Fidelis教授聯合創建的國際性比賽,旨在評估、促進和確認最佳的蛋白質結構預測手段。CASP選擇已經通過實驗手段解析,但是尚未公布的蛋白質結構作為目標,讓世界各地的研究團隊運用自己的計算手段預測它們的結構。一個獨立的團隊會評估預測結構與通過實驗手段解析的蛋白結構之間的差異。


2018年,DeepMind開發的第一代AlphaFold首次參加CASP並且拔得頭籌。而今年,新一代的AlphaFold在CASP中的表現更為驚豔。CASP使用稱為GDT的評分系統來評估預測蛋白結構的精確性。這個評分從0到100,如果評分達到90分以上,可以認為預測的結構與實驗手段獲得的結構相當。

▲2006-2020年CASP比賽中最佳蛋白摺疊預測系統的評分表現(圖片來源:DeepMind Blog)


在今年的CASP中,AlphaFold系統對所有蛋白靶點3D結構預測的中位GDT評分為92.4分。即便是針對最難解析的蛋白靶點,AlphaFold的中位GDT評分也達到了87.0分。在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創始人Moult教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。


▲AlphaFold根據胺基酸序列預測的蛋白結構與實驗手段解析的結果幾乎完全重合(綠色,實驗結果;藍色,計算預測結果;圖片來源:DeepMind Blog)


對真實世界的影響


在今年早些時候,DeepMind已經利用這一系統預測了多種新冠病毒蛋白的結構。後續的實驗顯示,AlphaFold預測的新冠病毒Orf3a蛋白結構與冷凍電鏡解析的結構非常相似。


雖然,AlphaFold不見得會取代冷凍電子顯微鏡等其它實驗手段,但是DeepMind的研究人員表示,這一令人興奮的結果表明,生物學家們可以使用計算結構預測作為科學研究的核心工具之一。這一手段對於特定類型的蛋白來說可能尤為便利,例如膜蛋白一直非常難於結晶,因此很難用實驗手段獲得它們的結構。


而對於從事計算和機器學習研究的DeepMind團隊來說,AlphaFold的表現證明了AI在輔助基礎科學發現方面驚人的潛力。該團隊在公司發布的博文中表示,他們相信,AI將成為人類拓展科學知識前沿最有力的工具之一!


相關焦點

  • 解決生物學的重大挑戰!生物界AlphaGo精準預測蛋白質結構
    50年來的重大挑戰我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。 GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。
  • AI破解生物界50年重大挑戰!DeepMind精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • 破解生物界50年重大挑戰!DeepMind用AI精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    2020-12-05 12:23:34 來源: BioArt 舉報   蛋白質三維結構預測是生物學最嚴峻的挑戰之一
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    編·譯作者 | 王建民科學家們表示,谷歌用於預測蛋白質3D形狀的深度學習計劃有望改變生物學。前言蛋白質是生命的基石,負責細胞內發生的大部分事情。蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。
  • AI解決生物學50年來重大難題:破解蛋白質摺疊,顛覆結構生物學
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    (詳見《解決生物學50年來的重大挑戰!生物界「AlphaGo」精準預測蛋白質結構》)這一消息引發了全球媒體關注,前Genentech執行長Arthur D. Levinson博士盛讚這一成就是「劃時代的進步」。人工智慧的「進擊」對生物學、對其他學科會有什麼影響?
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • 解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平
    」馬克斯-普朗克發育生物學研究所的進化生物學家Andrei Lupas說[2]。「我之前認為這個問題在我有生之年不會得到解決。」歐洲分子生物學實驗室的結構生物學家Janet Thornton說[3]。「它的發生比該領域的許多人預測的要早幾十年。
  • 解決生物學50年來的重大挑戰,AI能根據胺基酸序列精確預測蛋白結構?
    iNature(ID:Plant_ihuman)由 Google AI 開發的人工智慧(AI)網絡使DeepMind脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • 生物學50年的難題:被解決了
    如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    Journal of Molecular Biology論文用比較建模方法預測蛋白質結構的51年來的真正突破。最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • AI精準預測蛋白質結構,結構生物學何去何從? | 返樸
    Journal of Molecular Biology論文用比較建模方法預測蛋白質結構的51年來的真正突破。當然,他們不訓練contact map,直接訓練結構中的原子坐標,這是新的想法,以前沒人成功過。我很高興他們取得了突破,因為證明了蛋白質結構預測問題是可以解決的,我在15年前的PNAS論文上提出,用PDB庫中的模板在理論上可以解決這個問題,他們這次用暴力實現了。 但基於商業或其它考慮,他們還不會公開代碼或server,所以要依靠我們科學界來做出讓公眾受益的方法。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。很多困擾全人類的重大問題(如尋找分解工業廢料的酶)基本上都與蛋白質及其扮演的角色有關。多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質結構。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    2018年,上一代的 AlphaFold得分一下子突破了50。 而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。 除了解決的問題值得我們關注,其實研究方法也更有思考價值。 畢竟,AlphaFold的結構預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測並無區別,只是後者更加費力、更加昂貴。
  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • DeepMind:通過摺疊蛋白質的AI,解決了50年的「巨大挑戰」
    這一人工智慧軟體可以在幾天之內準確預測蛋白質將摺疊的結構,從而解決了已有50年歷史的「巨大挑戰」,可以為更好地理解鋪平道路疾病和藥物發現。每個活細胞內部都有成千上萬種不同的蛋白質,這些蛋白質可以使它們保持健康。預測蛋白質摺疊的形狀非常重要,因為它決定了蛋白質的功能,幾乎所有疾病(包括癌症和痴呆症)都與蛋白質的功能有關。