解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平

2021-01-17 騰訊網

今天,一條重磅消息引爆科技圈。

昨晚國際蛋白質結構預測競賽CASP公布的數據顯示,谷歌旗下人工智慧技術公司DeepMind開發的深度學習算法AlphaFold的表現令人瞠目結舌

Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題

將改變醫學。它將改變研究。它將改變生物工程。它將改變一切。」馬克斯-普朗克發育生物學研究所的進化生物學家Andrei Lupas說[2]。

我之前認為這個問題在我有生之年不會得到解決。」歐洲分子生物學實驗室的結構生物學家Janet Thornton說[3]。

它的發生比該領域的許多人預測的要早幾十年。」2009年諾貝爾化學獎得主、英國劍橋MRC分子生物學實驗室結構生物學家Venki Ramakrishnan說[4]。

這麼說吧:AlphaFold或許會像「天文望遠鏡」一樣幫助人類了解生命「宇宙」的未知領域。

我們都知道,蛋白質是生命的承載者,對生命至關重要,幾乎支撐著生命的所有功能,細胞內發生的大部分反應都依賴於蛋白質。

蛋白質的工作方式和功能取決於它獨特的三維結構,也就是我們常說的「結構即功能」。因此,了解蛋白質的三維結構,是理解生命與疾病的關鍵。可以毫不誇張地說,搞清楚了蛋白質的三維結構,就拿到了打開生命的鑰匙

那蛋白質的三維結構是如何形成的呢?

目前學界一致認為,蛋白質的一級結構,即胺基酸的排列決定了蛋白質的三維結構。也就是說,蛋白質會根據胺基酸的排列信息,自動摺疊成正確的三維結構。這一過程只受物理定律的指導。

一直以來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。

在1950年代,利用X射線束照射結晶蛋白質,並將衍射光轉化為蛋白質原子坐標的技術,首次確定了蛋白質的完整結構。目前已知的絕大部分的蛋白質結構都是通過X射線確定的。在過去的十年裡,低溫電鏡逐漸成為許多結構生物學實驗室的首選工具。

不過,傳統的實驗室方法費時(數月到數年)、費力、燒錢,很多人在嘗試尋找新的方法預測蛋白質的三級結構

複雜蛋白質的摺疊過程(圖源:deepmind.com)

實際上,咱們現在耳熟能詳的「一級結構決定三級結構」的假說,最早是Christian Anfinsen在1972年諾貝爾化學獎的獲獎感言中提出的,他認為:理論上,蛋白質的胺基酸序列應該完全決定其結構。

Christian Anfinsen的這一假設引發了長達50年的探索,很多研究人員希望能夠僅根據蛋白質的胺基酸序列來計算預測蛋白質的三維結構,作為那些昂貴且耗時的實驗方法的補充。

然而,這一設想面臨一個主要的挑戰:從理論上講,一條胺基酸鏈在形成最終的三維結構之前可能會有許多種摺疊方式。這裡說的「許多」可是一個天文數字。試想,給你一串珍珠項鍊,你是不是能摺疊出數不清的三維結構。

在1969年,Cyrus Levinthal就指出,通過蠻力計算來列舉一個典型蛋白質的所有可能構型所需要的時間比已知宇宙的年齡還要長。然而在自然界中,蛋白質會自發地摺疊,有的在幾毫秒內就摺疊完畢。這就是生命的奇妙之處。

到1994年,為了推動蛋白質結構預測技術的進展,John Moult教授和Krzysztof Fidelis教授創立了CASP。

CASP很有特色,它選擇那些最近才通過實驗確定的蛋白質結構(有些結構在評估時仍在等待確定)作為團隊測試其結構預測方法的對象所有參賽者都是根據對一級結構的計算,預測蛋白質的結構,隨後將這些預測結構拿去與實驗室獲得的真實數據做比較

正是基於這種盲測的方法,CASP才被譽為評估預測技術的金標準。

CASP用來衡量預測準確性的主要指標是GDT(Global Distance Test),其範圍為0-100。簡單來說,GDT可以大致認為是胺基酸殘基與正確位置閾值距離內的百分比。Moult教授表示,如果一個預測工具的GDT得分在90分左右,可以認為與通過實驗方法得到的結果不相上下

據了解,即使是在1994年的時候,對於小型、簡單的蛋白質,算法預測的結構也能與實驗結果相匹配。但是對於較大的、具有挑戰性的蛋白質,預測工具的GDT分數約為20分。用Lupas的話說,在當時的條件下,預測複雜蛋白的結構簡直就是一場災難。

到2016年,對於最難的蛋白質,計算預測的GDT分數才達到40分左右。粗粗看來,22年的時間只提高了20分左右。

點擊播放 GIF 0.0M

圖源:deepmind.com

時隔兩年之後的2018年,DeepMind開發的AlphaFold首次參加比賽,表現亮眼,在每個結構上平均超出對手15%,在最難的蛋白結構上也贏得了高達60左右的GDT分數。AlphaFold的實力可見一斑。

但是,對於這個分數,AlphaFold開發負責人John Jumper顯然不滿意。因為這些預測仍然太粗糙,沒有用處,離真實的蛋白結構還差很遠。

為了提高預測的準確性,Jumper和他的同事將深度學習與「tension algorithm」結合起來,這種算法模仿了組裝拼圖的方式:首先將小塊的碎片連接起來,然後尋找將小塊連接成一個更大的整體的方法。隨後在由128個處理器組成的計算機網絡上,用17萬個已知的蛋白質結構訓練了該算法

訓練的結果就是今年AlphaFold的亮眼表現。

在所有的目標蛋白中,AlphaFold取得了92.4分的GDT中值,而其他團隊開發的算法最好表現也就是得到75分左右。這意味著AlphaFold的預測平均誤差(RMSD)約為1.6埃,與一個原子的寬度(或0.1納米)相當。

AlphaFold取得的成就,足以與實驗室方法抗衡。

Moult甚至說,在某些情況下,他們並不清楚AlphaFold的預測結果和實驗結果之間的差異,究竟是預測錯誤,還是實驗過程中的人為因素

這就很厲害了。

難怪《科學》雜誌毫不吝嗇地說[3],「人工智慧(AI)已經解決了生物學的宏大挑戰之一:預測蛋白質如何從一條線性胺基酸鏈捲曲成3D形狀,使它們能夠執行生命的任務。」

此外,對於最具挑戰性的蛋白質,AlphaFold的中位數GDT為87分,比排名第二的預測方法高出25分

還有一點值得一提的是,AlphaFold甚至很擅長解決那些被夾在細胞膜中的蛋白質的結構,這些結構很難用X射線晶體學解決,然而這些蛋白質結構又是許多疾病的關鍵所在。

點擊播放 GIF 0.0M

AlphaFold預測結構與實驗結果的比較(圖源:deepmind.com)

在今年的CASP中,還有一個小插曲。

由於AlphaFold的表現過於優異,主辦方甚至擔心DeepMind可能以某種方式作弊。所以Lupas設置了一個特殊的挑戰:預測一種古菌的一個特殊膜蛋白結構。

Lupas和他的團隊與這個蛋白死磕了10年時間,雖然也得到了一些X射線數據,但是他們沒能理解這些數據,更沒有搞清楚這個蛋白的結構。

Lupas把這個難題甩給了AlphaFold。

沒想到這對於AlphaFold而言不是難題。AlphaFold提供的預測模型讓Lupas和他的同事理解了他們之前得到的X射線數據。隨後的分析結果證實,AlphaFold預測的結構與實驗室的數據相吻合。

「這幾乎是完美的,」Lupas說。「他們不可能在這方面作弊。我不知道他們是怎麼做到的。」

至於AlphaFold對真實世界的影響,那有可能是翻天覆地。

要知道,科學家在自然界中發現了1.8億個蛋白序列,而且這一數據目前還在快速增長。然而人類只搞清楚了其中17萬個蛋白的結構。在未知的蛋白中,究竟還隱藏這多少未知的秘密,想想就讓人興奮。

AlphaFold或許就像一個天文望遠鏡,幫助我們更深入地觀察生命宇宙中的未知。

基於AlphaFold,科學家或許能在更快的時間內闡明人類基因組中數千種未解決的蛋白質的功能,並理解人與人之間不同的致病基因變異,相關藥物的開發或許也會變得更快

當然,AlphaFold的出現不可能完全取代實驗室方法,這兩種方法在未來可能趨向於取長補短,使新一代的分子生物學家有能力提出更高級的問題,更深入地理解生命和疾病。

此外,AlphaFold還有很多東西需要學習,包括多種蛋白質如何形成複合物,蛋白質如何與DNA、RNA或小分子相互作用,以及如何確定所有胺基酸側鏈的精確位置等等問題。

相關焦點

  • 解決生物學50年來的重大挑戰,AI能根據胺基酸序列精確預測蛋白結構?
    iNature(ID:Plant_ihuman)由 Google AI 開發的人工智慧(AI)網絡使DeepMind脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的
  • 解決生物學50年來的重大挑戰!生物界「AlphaGo」精準預測蛋白質結構
    圖片來源:DeepMind Blog生物學50年來的重大挑戰這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    編·譯作者 | 王建民科學家們表示,谷歌用於預測蛋白質3D形狀的深度學習計劃有望改變生物學。前言蛋白質是生命的基石,負責細胞內發生的大部分事情。蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。 GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。
  • 解決生物學的重大挑戰!生物界AlphaGo精準預測蛋白質結構
    50年來的重大挑戰我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • AI解決生物學50年來重大難題:破解蛋白質摺疊,顛覆結構生物學
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    研究人員使用蛋白質資料庫中接近17萬個不同的蛋白質結構,通過不斷地迭代,AlphaFold系統學習到了基於胺基酸序列精確預測蛋白結構的能力。這一基於原子坐標近乎「暴力」的算法是全新的途徑,是全新算法與強大算力的強強聯合。  正如馬裡蘭大學帕克分校計算生物學家,CASP共同創始人John Moult所言,從某種程度上而言,結構預測問題得到了解決。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    而哥大生物學助理教授Mohammed AlQuraishi,更是評價道:蛋白質結構AI進入「ImageNet時代」。如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。
  • 生物學50年的難題:被解決了
    甚至很少露面的DeepMind創始人哈薩比斯,也親自出面介紹:DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。
  • 人工智慧破解生物學50年大難題,一切早已被頂尖科學家預言
    CASP開始於20世紀90年代,全名為「蛋白質結構預測的關鍵評估」,它是一項非常縝密的實驗,致力於讓科學家們設計出能夠預測蛋白質摺疊的深奧謎團的系統。在過去的50年,研究人員一直在努力預測蛋白質是如何實現它的三維結構,這其實並不是一個容易解決的問題。蛋白質的功能是由它的3D形狀決定。
  • 最近,人工智慧解決了長達50年的生物學難題,一個巨大的突破
    ——比如,通過預測人類生物學極其微小但至關重要的方面,找到對抗疾病的新方法。50年來,研究人員一直在努力預測蛋白質是如何實現它們的三維結構的,但這並不是一個容易解決的問題。事實上,所有可能的分子結構的數量大得令人難以置信,研究人員推測,要對所有可能的分子結構進行採樣,需要比宇宙年齡更長的時間。
  • 人工智慧破解生物學50年大難題!這一切早已被頂尖科學家預言
    CASP開始於20世紀90年代,全名為「蛋白質結構預測的關鍵評估」,它是一項非常縝密的實驗,致力於讓科學家們設計出能夠預測蛋白質摺疊的深奧謎團的系統。 在過去的50年,研究人員一直在努力預測蛋白質是如何實現它的三維結構,這其實並不是一個容易解決的問題。蛋白質的功能是由它的3D形狀決定。
  • 人工智慧破解生物學50年大難題!這一切早已被頂尖科學家預言
    在過去的50年,研究人員一直在努力預測蛋白質是如何實現它的三維結構,這其實並不是一個容易解決的問題。,它的預測戰勝了25年來所有的參賽者。因此,哈特爾教授強調我們需要非常強大的計算機能力來解決這個問題。
  • 最新消息,人工智慧解決了長達50年的生物學難題,一個巨大的突破
    50年來,研究人員一直在努力預測蛋白質是如何實現它們的三維結構的,但這並不是一個容易解決的問題。事實上,所有可能的分子結構的數量大得令人難以置信,研究人員推測,要對所有可能的分子結構進行採樣,需要比宇宙年齡更長的時間。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    (詳見《解決生物學50年來的重大挑戰!這可能是從1969年第一篇 Journal of Molecular Biology用比較建模方法預測蛋白質結構發表51年以來最大 的突破。這個領域過去20年來,進展一直比較緩慢。但是最近幾年,隨著共同進化 接觸圖預測以及引入深度學習之後,很多軟體,比如I-TASSER和Rosetta等都有了 很大進步。
  • 人工智慧攻克生物界50年重大難題!
    來自Science最新(11月30日)消息,人工智慧(AI)已經解決了生物學的一個重大挑戰:預測蛋白質如何從胺基酸線性鏈捲曲成3D形狀,從而使它們能夠執行生命任務。遊戲發生了變化,人工智慧(AI)成功地解決了蛋白質結構問題,在解決蛋白質結構方面取得了勝利!
  • AI破解生物界50年重大挑戰!DeepMind精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。膜蛋白很難結晶,因此很難通過實驗方法來確定其結構。該計算工作代表了在蛋白質摺疊這一具備 50 年歷史的生物學問題上的驚人進展,比該領域人士成功預測蛋白質摺疊結構早了幾十年。我們將很興奮,它能從多個方面對生物學研究帶來基礎性改變。