解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構

2020-12-09 騰訊網

作者 | 陳彩嫻、蔣寶尚

近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。

具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。

前基因泰克(Genentech)執行長Arthur D. Levinson博士稱這一成就為「劃時代的進步」(once in a generation advance)。

從CASP14,這項權威的蛋白質結構預測競賽結果中,可以看到AlphaFold2排名第一(總分遠高於第二),排名前六位的分別是David Barke lab的兩個工具(第二、第三位)、密西根州立大學的 Michael Feig和密西根大學Yang Zhang排名在第四位、第五位,而騰訊AI lab 的tFold_human 排名第六。

這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。

第二代AlphaFold做了什麼?

在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。

評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。

GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。

圖註:不僅僅遠超今年的競爭對手,相比於2018年版的AlphaFold第一代,AlphaFold2的表現也如脫胎換骨一般。

更直觀一些。拿它預測的結構與實際結構對比,可以看到基本完全吻合(下圖,綠色是實驗得到的實際結構,藍色是計算預測結構)。

圖註:在兩年一次的蛋白質結構預測關鍵評估(CASP)競賽中,AlphaFold今年擊敗了所有其他小組,並在準確率方面與實驗結果相匹配。隨著預測難度增加,AlphaFold的準確率保持在穩定的高水平,表現遠超其它團隊以及往屆競賽的水平。

但是對此結果,也有不少人存在疑問,主要在準確性。首先,17萬的數據應該遠遠不夠,準確性存疑;再者,蛋白質結構摺疊問題太過高深,如果真能夠破解,DeepMind很快就能獲得諾貝爾獎。

因此,在驚嘆AlphaFold取得成果的同時,我們還需要冷靜等待生物學家的實驗驗證。

除了解決的問題值得我們關注,其實研究方法也更有思考價值。

畢竟,AlphaFold的結構預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測並無區別,只是後者更加費力、更加昂貴。科學家表示,AlphaFold的出現也許並不會完全替代這些實驗方法,但確實為人們提供了研究生物的新方式。

蛋白質結構:生物學五十年來的挑戰

蛋白質是生命的基礎,與細胞組成內容緊密相關。而蛋白質的功能取決於其3D結構。

一直以來,生物學家投入實驗,致力於尋找生命的奧秘,即:胺基酸序列(蛋白質的組成部分)是如何繪製出最終的形狀。

在過去,人們一直是通過實驗室來了解蛋白質的結構。比如,使用X射線束照射結晶的蛋白質,並將衍射光轉化為蛋白質原子坐標,由此掌握蛋白質的第一個完整結構。

除了實驗,隨著計算機的發展,該項技術在上世紀末便已用於預測蛋白質的結構,但效果並不理想。

計算機技術用於蛋白質結構預測的困境,直到AlphaFold在2018年現身於CASP,才讓科學家重新燃起了信心與希望。

AlphaFold的第一次迭代將深度學習應用於結構和遺傳數據,以預測蛋白質中胺基酸對之間的距離。根據AlphaFold的主要負責人之一John Jumper介紹,在第二個步驟中,雖然沒有使用AI技術,但AlphaFold使用結構與遺傳數據得出了蛋白質的外觀模型,與之前的研究達成一致。

但第一次迭代存在缺陷。因此,該團隊開發了一個AI網絡。該網絡結合了有關確定蛋白質如何摺疊的物理和幾何約束的信息。他們設立了一項艱巨的目標:該網絡能夠預測目標蛋白質序列的最終結構,而不僅是預測胺基酸之間的關係。

驚人的準確性

CASP的進行歷時數月。

1994年,Moult及其同事發起了CASP,每兩年召開一次。比賽團隊獲得約100種蛋白質的胺基酸序列,其結構未知。一些小組計算每個序列的結構,而另一些小組則通過實驗確定它。然後,組織者將計算預測結果與實驗室結果進行比較,並為預測結果提供全球距離測試(GDT)分數。

研究小組有數周的時間來提交其結構預測。然後,一組獨立的科學家使用度量標準來評估預測的蛋白質與實驗確定的結構的相似程度,以此評估各個研究小組的預測結果。研究小組的名稱為匿名。

在今年的比賽中,AlphaFold的稱號是「427組」。其預測的許多條目具有驚人的準確性,將近三分之二的預測與實驗所得的結構相當。

針對各種目標蛋白,AlphaFold的GDT中位數得分為92.4。在難度中等的蛋白質上,其他團隊的最佳表現通常在預測準確度上得分75(滿分100),而在AlphaFold則得分大約90,中位數為87,比下一個最佳預測高25分。

AlphaFold甚至擅長解決楔入細胞膜中的蛋白質結構,這是許多人類疾病的核心,但眾所周知,這個問題用X射線晶體學都很難解決。醫學研究理事會分子生物學實驗室的結構生物學家Venki Ramakrishnan稱該結果「在蛋白質摺疊問題上取得了驚人的進步。」

Moult介紹,90分以上得分的預測結果與實驗方法相當。

不過,AlphaFold並非完美勝任所有的預測。在一種由52個小重複片段組成、組裝時會扭曲彼此位置的蛋白質上,AlphaFold的預測與實驗結果之間存在部分差異。

CASP的負責人Moult介紹,無法確定是因為AlphaFold的預測誤差,還是因為實驗的偽像。

此外,AlphaFold的預測與通過核磁共振成像技術確定的實驗結構的匹配度差,可能是因為AlphaFold將原始數據轉換為模型的方法需要改進。

再如,AlphaFold的網絡嘗試為蛋白質複合物或組中的單個結構建模,因此,與其他蛋白質的相互作用扭曲了它們的形狀。

應用

AlphaFold的預測有助於確定Lupas實驗室多年來試圖破解的細菌蛋白質的結構。

Lupas的研究小組以前曾收集過原始的X射線衍射數據,但要將這些類似Rorschach的圖案轉換為結構,則需要了解蛋白質的結構信息。Lupas介紹:「在我們花了十年時間嘗試一切之後,427組的模型在半小時內為我們提供了結構。」

DeepMind的聯合創始人兼執行長Demis Hassabis介紹,AlphaFold可能需要幾天的時間才能預測出蛋白質的結構,包括對蛋白質不同區域的可靠性估計。但AlphaFold將開放給科學家使用。

Hassabis認為,AlphaFold有望應用於藥物發現和蛋白質設計。

藉助AlphaFold,藥物設計人員能夠快速確定危險的新病原體(如SARS-CoV-2)中各種蛋白質的結構,這是尋找分子以阻止疾病產生的關鍵步驟。

加州大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種叫做Orf3a的蛋白質的預測最終與後來通過cryo-EM確定的蛋白質非常相似。

AlphaFold的出現,可能意味著獲得良好的蛋白質結構,不再局限於實驗室,而只需要低質量的、易於收集的實驗數據。比方說,類似蛋白質的進化分析等方向之所以能蓬勃發展,便是因為有大量的基因組數據能夠被轉化為結構。

科學家評論,AlphaFold能夠幫助人類了解生命基因組中數千種未溶解蛋白質的功能,了解人與人之間因為疾病而產生的基因變異。

AlphaFold的出現也改寫了外界對DeepMind的印象。此前,大家知道DeepMind,一般是因為該團隊使用AI來玩遊戲,比如AlphaGo。但如今,AlphaFold涉足生物學領域,例如進行蛋白質結構預測,DeepMind也因此向外界傳達了自己的另一種聲音:

不僅能玩圍棋,還能使用AI幫助生命科學的長遠發展。

參考連結:

2、https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures

3、https://www.newscientist.com/article/2261156-deepminds-ai-biologist-can-decipher-secrets-of-the-machinery-of-life/

4、https://www.deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

5、https://predictioncenter.org/casp14/doc/CASP14_press_release.html

6、https://predictioncenter.org/casp14/zscores_final.cgi

7、https://m.weibo.cn/1907380525/4577229730744076

相關焦點

  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    2018年,上一代的 AlphaFold得分一下子突破了50。 而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。 除了解決的問題值得我們關注,其實研究方法也更有思考價值。 畢竟,AlphaFold的結構預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測並無區別,只是後者更加費力、更加昂貴。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • 顛覆生物學!AlphaFold成功預測蛋白質結構
    原文作者:Ewen Callaway科學家認為,谷歌預測蛋白質3D結構的深度學習程序將顛覆生物學。谷歌旗下人工智慧(AI)公司DeepMind的一個AI網絡朝著解決生物學領域最大的挑戰之一邁出了一大步,這裡的挑戰是:根據一個蛋白質的胺基酸序列來確定它的3D結構。
  • 周四直播預告:AlphaFold會顛覆生物學嗎?漫談蛋白質結構預測問題
    近日,谷歌旗下DeepMind公司所開發的新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了所有選手,預測準確性可以跟人類實驗測得的結果相媲美
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。了解這些三維形狀有助於研究人員設計出能在蛋白質縫隙內滯留的藥物。此外,合成出擁有所需結構的蛋白質,還可以加快酶的研製進程,讓生物燃料領域受益。幾十年來,研究人員利用X射線晶體學或低溫電子顯微鏡(cryo-EM)等實驗技術來破譯蛋白質的三維結構,但這種方法可能需要數月甚至數年,且未必見效。目前,在生命體內發現的2億多個蛋白質中,只有17萬個蛋白質的結構被破解。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。
  • DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題
    DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題過去推動的Folding@home計劃,就是希望透過使用者貢獻空閒運算效能,透過連網協作方式組成龐大運算資源,藉此研究蛋白質摺疊結構,就連NVIDIA過去也曾藉由GPU
  • 谷歌人工智慧解決蛋白質摺疊問題,結束人類50年困擾
    DeepMind於12月初宣布了一項重大突破,他們的AI系統AlphaFold已經解決了「蛋白質摺疊問題」,這是生物學中已經困擾了科學家50年的巨大難題。蛋白質摺疊問題的突破可以幫助我們了解疾病並發現新的藥物。生物學家安德烈·盧帕斯(Andrei Lupas)告訴《自然》(Nature),這是在 「改變遊戲規則」。
  • DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應
    澎湃新聞 當地時間11月30日,英國DeepMind團隊宣布在蛋白質結構問題上取得重大進展,其第二代「阿爾法摺疊」(AlphaFold)方法精準預測蛋白質的三維結構,摘得國際蛋白質結構預測競賽
  • AI再發力,解決困擾生物學家近50年的一個基本問題
    這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。而就在最近,谷歌開發的人工智慧系統 AlphaFold 將蛋白質結構預測的準確度提高到了原子水平,可以說基本解決了這個「蛋白質摺疊問題」。 這比許多科學家的預期還要早幾十年,顯示出 AI 對解決重大科學問題的潛力。 01.
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    DeepMind破解蛋白質摺疊難題,Nature:這可能改變一切剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    該公司還不斷地嘗試將人工智慧應用於最具挑戰性的科學研究問題上,2018 年 12 月,DeepMind 推出了 Alphafold,它可以僅根據基因代碼預測蛋白質的 3D 結構。在過去很多年時間裡,科學家已經能使用低溫電子顯微鏡和核磁共振等實驗技術確定蛋白質的形狀,但是每一種方法都依賴大量的試驗與誤差反饋,每種結構可能需要花費數萬美元、歷時數年進行研究。
  • MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能
    就在幾個月前,DeepMind推出了AlphaFold系統,這個被稱為生物界「AlphaGo」的系統能夠預測並生成蛋白質3D結構。而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。
  • 蛋白質3D結構可用AI解析
    圖中藍色為計算機預測的蛋白質結構,綠色為實驗驗證結果,二者相似度非常高。圖片來源:DeepMind  生物學界最大的挑戰之一——蛋白質三維結構解析如今有望被破解。「結構即功能」是分子生物學的定理,若能根據蛋白質的胺基酸序列推出其結構,有助於人們加速了解細胞的組成和運作規律,一些新藥物的研發也能更快推進。  長久以來,人們需要藉助實驗確定完整的蛋白質結構,比如X射線晶體學和冷凍電鏡,這些方法往往要花費數月甚至數年時間,目前人類已發現的2億蛋白質中,只有不到20萬的蛋白質結構被解析。
  • AI破解蛋白質摺疊難題,這意味著什麼?-虎嗅網
    剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。       五十年來,蛋白質摺疊一直是生物學的巨大挑戰。分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。
  • 深度學習提高蛋白質結構預測準確性
    深度學習提高蛋白質結構預測準確性 作者:小柯機器人 發布時間:2020/1/19 18:55:05 英國DeepMind公司Andrew W. Senior等研究人員利用深度學習實現對蛋白質結構預測的提高。
  • 下一個諾貝爾獎:蛋白質摺疊
    二級結構(Secondary Structure):蛋白質分子中肽鏈並非直鏈狀,而是按一定的規律捲曲(如α-螺旋結構)或摺疊(如β-摺疊結構)形成特定的空間結構,這是蛋白質的二級結構。在飄帶圖裡面,α-螺旋結構就是看起來像彈簧的飄帶,β-摺疊結構就用一個寬箭頭來表示。
  • 谷歌人工智慧解決蛋白質摺疊問題
    當地時間11月30日,字母表公司(谷歌母公司)旗下的DeepMind公司表示,其開發的人工智慧軟體AlphaFold可以準確預測蛋白質在幾天內會摺疊成什麼結構,這解決了近50年來困擾人類的「蛋白質摺疊問題」。據悉,每個活細胞內部都有數千種不同的蛋白質,這些蛋白質使細胞保持活力並正常運轉。
  • DeepMind解決蛋白質摺疊難題!運算時間縮至數小時
    谷歌人工智慧部門DeepMind在預測蛋白質結構方面邁出了一大步。公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,並將解決問題的運算時間從數月縮短至數小時,這有助於加快藥物發現速度,有可能破解一個類似於繪製人類基因組的問題。