解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平

2020-12-22 騰訊網

今天,一條重磅消息引爆科技圈。

昨晚國際蛋白質結構預測競賽CASP公布的數據顯示,谷歌旗下人工智慧技術公司DeepMind開發的深度學習算法AlphaFold的表現令人瞠目結舌

Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題

將改變醫學。它將改變研究。它將改變生物工程。它將改變一切。」馬克斯-普朗克發育生物學研究所的進化生物學家Andrei Lupas說[2]。

我之前認為這個問題在我有生之年不會得到解決。」歐洲分子生物學實驗室的結構生物學家Janet Thornton說[3]。

它的發生比該領域的許多人預測的要早幾十年。」2009年諾貝爾化學獎得主、英國劍橋MRC分子生物學實驗室結構生物學家Venki Ramakrishnan說[4]。

這麼說吧:AlphaFold或許會像「天文望遠鏡」一樣幫助人類了解生命「宇宙」的未知領域。

圖源:deepmind.com

我們都知道,蛋白質是生命的承載者,對生命至關重要,幾乎支撐著生命的所有功能,細胞內發生的大部分反應都依賴於蛋白質。

蛋白質的工作方式和功能取決於它獨特的三維結構,也就是我們常說的「結構即功能」。因此,了解蛋白質的三維結構,是理解生命與疾病的關鍵。可以毫不誇張地說,搞清楚了蛋白質的三維結構,就拿到了打開生命的鑰匙

那蛋白質的三維結構是如何形成的呢?

目前學界一致認為,蛋白質的一級結構,即胺基酸的排列決定了蛋白質的三維結構。也就是說,蛋白質會根據胺基酸的排列信息,自動摺疊成正確的三維結構。這一過程只受物理定律的指導。

一直以來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。

在1950年代,利用X射線束照射結晶蛋白質,並將衍射光轉化為蛋白質原子坐標的技術,首次確定了蛋白質的完整結構。目前已知的絕大部分的蛋白質結構都是通過X射線確定的。在過去的十年裡,低溫電鏡逐漸成為許多結構生物學實驗室的首選工具。

不過,傳統的實驗室方法費時(數月到數年)、費力、燒錢,很多人在嘗試尋找新的方法預測蛋白質的三級結構

複雜蛋白質的摺疊過程(圖源:deepmind.com)

實際上,咱們現在耳熟能詳的「一級結構決定三級結構」的假說,最早是Christian Anfinsen在1972年諾貝爾化學獎的獲獎感言中提出的,他認為:理論上,蛋白質的胺基酸序列應該完全決定其結構。

Christian Anfinsen的這一假設引發了長達50年的探索,很多研究人員希望能夠僅根據蛋白質的胺基酸序列來計算預測蛋白質的三維結構,作為那些昂貴且耗時的實驗方法的補充。

然而,這一設想面臨一個主要的挑戰:從理論上講,一條胺基酸鏈在形成最終的三維結構之前可能會有許多種摺疊方式。這裡說的「許多」可是一個天文數字。試想,給你一串珍珠項鍊,你是不是能摺疊出數不清的三維結構。

在1969年,Cyrus Levinthal就指出,通過蠻力計算來列舉一個典型蛋白質的所有可能構型所需要的時間比已知宇宙的年齡還要長。然而在自然界中,蛋白質會自發地摺疊,有的在幾毫秒內就摺疊完畢。這就是生命的奇妙之處。

圖源:deepmind.com

到1994年,為了推動蛋白質結構預測技術的進展,John Moult教授和Krzysztof Fidelis教授創立了CASP。

CASP很有特色,它選擇那些最近才通過實驗確定的蛋白質結構(有些結構在評估時仍在等待確定)作為團隊測試其結構預測方法的對象所有參賽者都是根據對一級結構的計算,預測蛋白質的結構,隨後將這些預測結構拿去與實驗室獲得的真實數據做比較

正是基於這種盲測的方法,CASP才被譽為評估預測技術的金標準。

CASP用來衡量預測準確性的主要指標是GDT(Global Distance Test),其範圍為0-100。簡單來說,GDT可以大致認為是胺基酸殘基與正確位置閾值距離內的百分比。Moult教授表示,如果一個預測工具的GDT得分在90分左右,可以認為與通過實驗方法得到的結果不相上下

據了解,即使是在1994年的時候,對於小型、簡單的蛋白質,算法預測的結構也能與實驗結果相匹配。但是對於較大的、具有挑戰性的蛋白質,預測工具的GDT分數約為20分。用Lupas的話說,在當時的條件下,預測複雜蛋白的結構簡直就是一場災難。

到2016年,對於最難的蛋白質,計算預測的GDT分數才達到40分左右。粗粗看來,22年的時間只提高了20分左右。

圖源:deepmind.com

時隔兩年之後的2018年,DeepMind開發的AlphaFold首次參加比賽,表現亮眼,在每個結構上平均超出對手15%,在最難的蛋白結構上也贏得了高達60左右的GDT分數。AlphaFold的實力可見一斑。

但是,對於這個分數,AlphaFold開發負責人John Jumper顯然不滿意。因為這些預測仍然太粗糙,沒有用處,離真實的蛋白結構還差很遠。

為了提高預測的準確性,Jumper和他的同事將深度學習與「tension algorithm」結合起來,這種算法模仿了組裝拼圖的方式:首先將小塊的碎片連接起來,然後尋找將小塊連接成一個更大的整體的方法。隨後在由128個處理器組成的計算機網絡上,用17萬個已知的蛋白質結構訓練了該算法

訓練的結果就是今年AlphaFold的亮眼表現。

在所有的目標蛋白中,AlphaFold取得了92.4分的GDT中值,而其他團隊開發的算法最好表現也就是得到75分左右。這意味著AlphaFold的預測平均誤差(RMSD)約為1.6埃,與一個原子的寬度(或0.1納米)相當。

歷年GDT得分(圖源:deepmind.com)

AlphaFold取得的成就,足以與實驗室方法抗衡。

Moult甚至說,在某些情況下,他們並不清楚AlphaFold的預測結果和實驗結果之間的差異,究竟是預測錯誤,還是實驗過程中的人為因素

這就很厲害了。

難怪《科學》雜誌毫不吝嗇地說[3],「人工智慧(AI)已經解決了生物學的宏大挑戰之一:預測蛋白質如何從一條線性胺基酸鏈捲曲成3D形狀,使它們能夠執行生命的任務。」

此外,對於最具挑戰性的蛋白質,AlphaFold的中位數GDT為87分,比排名第二的預測方法高出25分

還有一點值得一提的是,AlphaFold甚至很擅長解決那些被夾在細胞膜中的蛋白質的結構,這些結構很難用X射線晶體學解決,然而這些蛋白質結構又是許多疾病的關鍵所在。

AlphaFold預測結構與實驗結果的比較(圖源:deepmind.com)

在今年的CASP中,還有一個小插曲。

由於AlphaFold的表現過於優異,主辦方甚至擔心DeepMind可能以某種方式作弊。所以Lupas設置了一個特殊的挑戰:預測一種古菌的一個特殊膜蛋白結構。

Lupas和他的團隊與這個蛋白死磕了10年時間,雖然也得到了一些X射線數據,但是他們沒能理解這些數據,更沒有搞清楚這個蛋白的結構。

Lupas把這個難題甩給了AlphaFold。

沒想到這對於AlphaFold而言不是難題。AlphaFold提供的預測模型讓Lupas和他的同事理解了他們之前得到的X射線數據。隨後的分析結果證實,AlphaFold預測的結構與實驗室的數據相吻合。

「這幾乎是完美的,」Lupas說。「他們不可能在這方面作弊。我不知道他們是怎麼做到的。」

神經網絡(圖源:deepmind.com)

至於AlphaFold對真實世界的影響,那有可能是翻天覆地。

要知道,科學家在自然界中發現了1.8億個蛋白序列,而且這一數據目前還在快速增長。然而人類只搞清楚了其中17萬個蛋白的結構。在未知的蛋白中,究竟還隱藏這多少未知的秘密,想想就讓人興奮。

AlphaFold或許就像一個天文望遠鏡,幫助我們更深入地觀察生命宇宙中的未知。

基於AlphaFold,科學家或許能在更快的時間內闡明人類基因組中數千種未解決的蛋白質的功能,並理解人與人之間不同的致病基因變異,相關藥物的開發或許也會變得更快

當然,AlphaFold的出現不可能完全取代實驗室方法,這兩種方法在未來可能趨向於取長補短,使新一代的分子生物學家有能力提出更高級的問題,更深入地理解生命和疾病。

此外,AlphaFold還有很多東西需要學習,包括多種蛋白質如何形成複合物,蛋白質如何與DNA、RNA或小分子相互作用,以及如何確定所有胺基酸側鏈的精確位置等等問題。

相關焦點

  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    而哥大生物學助理教授Mohammed AlQuraishi,更是評價道:蛋白質結構AI進入「ImageNet時代」。如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    這可能是從1969年第一篇 Journal of Molecular Biology用比較建模方法預測蛋白質結構發表51年以來最大 的突破。這個領域過去20年來,進展一直比較緩慢,但最近幾年,隨著共同進化、接觸圖預測以及引入深度學習之後,很多軟體,比如I-TASSER和Rosetta等,都有了很大進步。
  • 人工智慧破解生物學50年大難題,一切早已被頂尖科學家預言
    CASP開始於20世紀90年代,全名為「蛋白質結構預測的關鍵評估」,它是一項非常縝密的實驗,致力於讓科學家們設計出能夠預測蛋白質摺疊的深奧謎團的系統。在過去的50年,研究人員一直在努力預測蛋白質是如何實現它的三維結構,這其實並不是一個容易解決的問題。蛋白質的功能是由它的3D形狀決定。
  • 人工智慧在生物學上的重大突破,比肩DNA的發現,或徹底改變醫學
    DeepMind可能剛剛攻克了生物學領域最大的挑戰之一。一個可以與DNA雙螺旋結構的發現相媲美的發現。它可能永遠改變生物醫學、藥物發現和疫苗開發。乍一看,遊戲的實際成就遠沒有那麼吸引人。DeepMind強大的人工智慧算法之一AlphaFold利用其深度學習能力預測蛋白質的三維形狀,精確到一個原子的寬度。
  • 人工智慧破解生物學50年大難題!這一切早已被頂尖科學家預言
    CASP開始於20世紀90年代,全名為「蛋白質結構預測的關鍵評估」,它是一項非常縝密的實驗,致力於讓科學家們設計出能夠預測蛋白質摺疊的深奧謎團的系統。 在過去的50年,研究人員一直在努力預測蛋白質是如何實現它的三維結構,這其實並不是一個容易解決的問題。蛋白質的功能是由它的3D形狀決定。
  • 顛覆生物學!AlphaFold成功預測蛋白質結構
    原文作者:Ewen Callaway科學家認為,谷歌預測蛋白質3D結構的深度學習程序將顛覆生物學。谷歌旗下人工智慧(AI)公司DeepMind的一個AI網絡朝著解決生物學領域最大的挑戰之一邁出了一大步,這裡的挑戰是:根據一個蛋白質的胺基酸序列來確定它的3D結構。
  • 人工智慧攻克生物界50年重大難題!
    來自Science最新(11月30日)消息,人工智慧(AI)已經解決了生物學的一個重大挑戰:預測蛋白質如何從胺基酸線性鏈捲曲成3D形狀,從而使它們能夠執行生命任務。遊戲發生了變化,人工智慧(AI)成功地解決了蛋白質結構問題,在解決蛋白質結構方面取得了勝利!
  • 破解生物界50年重大挑戰!DeepMind用AI精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • AlphaFold蛋白結構預測擊敗人類奪冠
    因此,蛋白質摺疊(Protein Folding)問題被列為「21世紀的生物物理學」的重要課題,它是分子生物學中心法則尚未解決的一個重大生物學問題。蛋白質可在短時間中從一級結構摺疊至立體結構,研究者卻無法在短時間中從胺基酸序列計算出蛋白質結構,甚至無法得到準確的三維結構。
  • AI再發力,解決困擾生物學家近50年的一個基本問題
    蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。 可是,蛋白質如何摺疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。而就在最近,谷歌開發的人工智慧系統 AlphaFold 將蛋白質結構預測的準確度提高到了原子水平,可以說基本解決了這個「蛋白質摺疊問題」。
  • 谷歌人工智慧再次創造奇蹟,生物學上最大的謎團之一基本被破解
    迄今為止,弱人工智慧已經取得了初步成果,在諸如圖像識別、語言分析、棋類遊戲等單方面的能力達到甚至超越了人類的水平。而人工智慧的通用性,意味著能解決上述問題的是一樣的人工智慧程序,無須重新開發算法便可直接應用現有的人工智慧完成任務,與人類的處理能力相同,但是,開發出具備思考能力的強人工智慧還需要一段相當長的時間。
  • 50年難遇AI「諾獎級」裡程碑:DeepMind攻破生物學界重大難題
    近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。 剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    當日,DeepMind在官網發布新聞稿,稱對於困擾生物學界50年的 「蛋白質摺疊」 難題,AlphaFold系統已成為業內專家認可的解決方案;Nature新聞更是以 「it will change everything」(將改變一切)作為標題,指出DeepMind在解決蛋白結構問題上「邁出一大步」。
  • 德興匯平臺:谷歌DeepMind重大突破
    德興匯平臺報導,德興匯平臺指出總部位於倫敦的實驗室DeepMind研發的人工智慧系統已經分別在圍棋(AlphaGo)、西洋棋(AlphaZero)和星際爭霸(AlphaStar)等一系列競技領域戰勝最頂尖的人類選手。現在,該實驗室又在生物學領域取得突破,基本解決困擾研究人員半個世紀的一大難題。
  • 科學家50年沒解決的問題,或將被打敗柯潔的AI系統攻克
    上個世紀90年代,科學家們展開了一項名為蛋白質結構預測關鍵評估(Critical Assessment of protein Structure Prediction,CASP)的項目,其主要目的就是通過挑戰賽的模式,促進科學家們設計出一套能夠預測蛋白質摺疊的複雜系統,解決這個困擾了人類數十年的難題。
  • 阿爾法狗團隊公布6種新冠病毒蛋白質結構預測,助力疫苗研發
    這一結果可能對新冠病毒疫苗研發等工作起到推動AlphaFold預測的一種蛋白結構說到AlphaFold,可能大家都不陌生,它由曾開發出阿爾法狗的研究團隊研發,是Alpha家族的新成員。在2018年12月一問世就引起科學界關注。它可以僅根據基因代碼預測蛋白質的3D結構。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    2018年,上一代的 AlphaFold得分一下子突破了50。 而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。 除了解決的問題值得我們關注,其實研究方法也更有思考價值。 畢竟,AlphaFold的結構預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測並無區別,只是後者更加費力、更加昂貴。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    【新智元導讀】近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。剛剛,一個困擾生物學家50年的難題,被AI解決了。