「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...

2020-12-13 中國生物技術網

生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了。

CASP14 組織者、年近七旬的 UC Davis 科學家 Andriy Kryshtafovych 在大會上感嘆道,I wasn't sure that I would live long enough to see this(我活久見了)[1]。

11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。

最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。

DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。

科學家們表示,Alphafold 的突破性研究成果將幫助科研人員弄清引發某些疾病的機制,並為設計藥物、農作物增產,以及可降解塑料的「超級酶」研發鋪平道路。

「這是該研究領域激動人心的一刻,」DeepMind 創始人、執行長德米斯 · 哈薩比斯說道。「這些算法今天已經足夠成熟強大,足以被應用於真正具有挑戰性的科學問題上了。」

蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。

DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質摺疊問題的解決方案。這一突破證明了 AI 對於科學發現,尤其是基礎科學研究的影響。

在兩年一次的 CASP 競賽中,各組爭先預測蛋白質的 3D 結構。今年,AlphaFold 擊敗了所有其他小組,並在準確性方面與實驗結果相匹配。

對於不熟悉生物領域的人來說,CASP 的大名可能有些陌生——CASP 全稱 The Critical Assessment of protein Structure Prediction,旨在對蛋白質結構預測進行評估,被譽為蛋白質結構預測的奧林匹克競賽。CASP 從 1994 年開始舉辦,每兩年一屆,目前正在進行的一屆是 11 月 30 日開始的 CASP14。

而 DeepMind 這一突破有什麼影響?

用哥倫比亞大學計算生物學家 Mohammed AlQuraishi 在 Nature 文章中的話來說,「可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開該領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」

蛋白質摺疊問題

蛋白質的形狀與它的功能密切相關,而預測蛋白質結構對於理解其功能和工作原理至關重要。很多困擾全人類的重大問題(如尋找分解工業廢料的酶)基本上都與蛋白質及其扮演的角色有關。

多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質結構。但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花數年時間。

1972 年,美國科學家克 Christian Anfinsen 因「對核糖核酸酶的研究,特別是對其胺基酸序列與生物活性構象之間聯繫的研究」獲得諾貝爾化學獎。在頒獎禮上,他提出了一個著名的假設:從理論上來說,蛋白質的胺基酸序列應該可以完全決定其結構。這一假設引發了長達五十年的探索,即僅僅基於蛋白質的一維胺基酸序列計算出其三維結構。

但這一思路的挑戰在於,在形成三維結構之前,蛋白質的理論摺疊方式是一個天文數字。1969 年,Cyrus Levinthal 指出,如果使用蠻力計算的方式來枚舉一種蛋白質可能存在的構象,要花費的時間甚至比宇宙的年齡還要長。Levinthal 估計,一種蛋白質大約存在 10^300 種可能構象。但在自然界中,蛋白質會自發摺疊,有些只需幾毫秒,這被稱為 Levinthal 悖論。

蛋白質摺疊問題解讀視頻請戳:

CASP 14 比賽最新結果:AlphaFold 中位 GDT 高達 92.4

CASP 競賽由 John Moult 和 Krzysztof Fidelis 兩位教授於 1994 年創立,每兩年進行一次盲審,以促進蛋白質結構預測方面的新 SOTA 研究。

一直以來,CASP 選擇近期才經過實驗確定的蛋白質結構,作為參賽團隊測試其蛋白質結構預測方法的目標(有些結構即使在評估時仍然處於待確定狀態)。這些蛋白質結構不會事先公布,參賽者也必須對其結構進行盲測,最後將預測結果與實驗數據進行對比。正是基於這種嚴苛的評估原則,CASP 一直被稱為預測技術評估方面的「黃金標準」。

CASP 衡量預測準確率的主要指標是 GDT(Global Distance Test),範圍從 0 到 100,可以理解為預測的胺基酸殘基在正確位置閾值距離內的百分比。John Moult 教授表示,GDT 分數在 90 分左右,即可視為對人類實驗方法具備競爭力。

在剛剛公布的第 14 屆 CASP 評估結果中,DeepMind 的最新 AlphaFold 系統在所有預測目標中的中位 GDT 達到 92.4,意味其平均誤差大概為 1.6 埃(Angstrom),相當於一個原子的寬度(或 0.1 納米)。即使在難度最高的自由建模類別中,AlphaFold 的中位 GDT 也達到了 87.0。

歷屆 CASP 競賽自由建模類別中預測準確率中位數的提升情況,度量指標為 BEST-OF-5 GDT。

CASP 競賽自由建模類別中的兩個目標蛋白質示例。AlphaFold 能夠預測出高度準確的蛋白質結構。

這些令人振奮的結果開啟了生物學家使用計算結構預測作為科研主要工具的時代。DeepMind 提出的方法對於某些重要的蛋白質類別尤其有用,例如膜蛋白(membrane protein)。膜蛋白很難結晶,因此很難通過實驗方法來確定其結構。

該計算工作代表了在蛋白質摺疊這一具備 50 年歷史的生物學問題上的驚人進展,比該領域人士成功預測蛋白質摺疊結構早了幾十年。我們將很興奮,它能從多個方面對生物學研究帶來基礎性改變。——Venki Ramakrishnan 教授(諾貝爾獎得主,英國皇家學會會長)

DeepMind 這樣解決蛋白質摺疊問題

2018 年,DeepMind 團隊使用初始版 AlphaFold 參加 CASP13 比賽,取得了最高的準確率。之後,DeepMind 將 CASP13 方法和相關代碼一併發表在 Nature 上。而現在,DeepMind 團隊開發出新的深度學習架構,並使用該架構參加 CASP14 比賽,達到了空前的準確率水平。這些方法從生物學、物理學、機器學習,以及過去半個世紀眾多科學家在蛋白質摺疊領域的工作中汲取靈感。

我們可以把蛋白質摺疊看作一個「空間圖」,節點表示殘基(residue),邊則將殘基緊密連接起來。這個空間圖對於理解蛋白質內部的物理交互及其演化史至關重要。對於在 CASP14 比賽中使用的最新版 AlphaFold,DeepMind 團隊創建了一個基於注意力的神經網絡系統,並用端到端的方式進行訓練,以理解圖結構,同時基於其構建的隱式圖執行推理。該方法使用進化相關序列、多序列比對(MSA)和胺基酸殘基對的表示來細化該圖

通過迭代這一過程,該系統能夠較強地預測蛋白質的底層物理結構,並在幾天內確定高度準確的結構。此外,AlphaFold 還能使用內部置信度度量指標判斷預測的每個蛋白質結構中哪一部分比較可靠。

DeepMind 團隊在公開數據上訓練這一系統,這些數據來自蛋白質結構資料庫(PDB)和包含未知結構蛋白質序列的大型資料庫,共包括約 170,000 個蛋白質結構。該系統使用約 128 個 TPUv3 內核(相當於 100-200 個 GPU)運行數周,與現今機器學習領域出現的大型 SOTA 模型相比,該系統所用算力相對較少。

此外,DeepMind 團隊透露,他們準備在適當的時候將這一 AlphaFold 新系統相關論文提交至同行評審期刊。

AlphaFold 主要神經網絡模型架構概覽。該模型基於進化相關的蛋白質序列和胺基酸殘基對運行,迭代地在二者的表示之間傳遞信息,從而生成蛋白質結構。

對現實世界的潛在影響

「讓 AI 突破幫助人們進一步理解基礎科學問題」,經過 4 年的研究攻關,現在 AlphaFold 正在逐步實現 DeepMind 初創時的願景,在藥物設計和環境可持續性等領域都產生了重要的影響。

馬克斯 · 普朗克演化生物學研究所所長,CASP 評估員 Andrei Lupas 教授表示:「AlphaFold 的精確模型讓我們解決了近十年來被困擾的蛋白質結構,重新啟動關於信號如何跨細胞膜傳輸的研究。」

DeepMind 表示願與其他研究者合作,以進一步了解 AlphaFold 在未來幾年的潛力。除了作用於經過同行評審的論文以外,DeepMind 還在探索如何以最佳的可擴展方式為系統提供更廣泛的訪問可能。

同時,DeepMind 的研究者還研究了蛋白質結構預測如何幫助人們理解一些特殊的疾病。例如,通過幫助識別存在故障的蛋白質,並推斷其相互作用的方式,來理解一些疾病的原理。這些信息能夠讓藥物開發更加精確,從而補充現有的實驗方法,並更快找到更有希望的治療方法。

AlphaFold 是十分卓越的,它在預測結構蛋白質的速度和精度上有著驚人的表現。這一飛躍證明了計算方法對於生物學中的轉換研究,加速藥物研發過程都具有廣闊的前景。

同時許多證據也表明,蛋白質結構預測在未來的大流行應對上是有用的。今年早些時候,DeepMind 使用 AlphaFold 預測了包括 ORF3a 在內的幾種未知新冠病毒蛋白質結構。在 CASP14 中,AlphaFold 預測了另一種冠狀病毒蛋白質 ORF8 的結構。目前,實驗人員已經證實了 ORF3a 和 ORF8 的結構。儘管具有挑戰性,並且相關序列很少,但與實驗確定的結構相比,AlphaFold 在兩種預測上都獲得了較高的準確率。

除了加速對已知疾病的了解,AlphaFold 還具備很多令人興奮的技術潛力:探索數億個目前還沒有模型的數億蛋白質,以及未知生物的廣闊領域。由於 DNA 指定了構成蛋白質結構的胺基酸序列,基因組學革命使大規模閱讀自然界的蛋白質序列成為可能——在通用蛋白質資料庫(UniProt)中有 1.8 億個蛋白質序列。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質資料庫(PDB)中只有大約 170000 個蛋白質結構。在未確定的蛋白質中可能有一些新的和未確定的功能——就像望遠鏡幫助人類更深入的觀察未知宇宙一樣,像 AlphaFold 這樣的技術可以幫助找到未確定的蛋白質結構。

開創新的可能

AlphaFold 是 DeepMind 迄今為止取得的最重要進展之一,但隨著後續科學研究的開展,依然有很多問題尚待解決。DeepMind 預測的結構並非全部都是完美的。還有很多要學習的地方,包括多蛋白如何形成複合體,如何與 DNA、RNA 或者小分子交互,以及如何確定所有胺基酸側鏈的精確位置。此外,在與他方合作的過程中,還需要學習如何以最好的方式將這些科學發現應用在新藥開發以及環境管理方式等諸多方面。

對於所有致力於科學領域中計算和機器學習方法的人而言,像 AlphaFold 這樣的系統彰顯了 AI 作為基礎探索輔助工具的驚人潛力。正如 50 年前 Anfinsen 提出的遠超當時科研能力所及的挑戰一樣,這個世界依然有諸多未知的方面。

DeepMind 取得的這一進展令人們更加堅信,AI 將成為人類擴展科學知識邊界的最有用工具之一,同時也期待未來多年的艱苦工作能夠帶來更偉大的發現。

AlphaFold 科研突破相關視頻請戳:

[1] https://zhuanlan.zhihu.com/p/315497173

原文連結:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

相關焦點

  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。
  • 解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平
    Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題。 「它將改變醫學。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    因此,德國馬克斯·普朗克發育生物學研究所蛋白質進化學系主任安德烈·盧帕斯(Andrei Lupas)提出了一個特殊的挑戰:預測一種來自古細菌群中古細菌物種的膜蛋白。十年來,科學家雖然獲取了這個蛋白質的X射線晶體結構,但是一直無法解釋它。而AlphaFold 2,輸出了一個三部分構成的蛋白質詳細圖像,中間有兩個長長的螺旋臂。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質摺疊問題的解決方案。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    剛剛,一個困擾生物學家50年的難題,被AI解決了。 去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • 解決生物學50年來的重大挑戰,AI能根據胺基酸序列精確預測蛋白結構?
    AlphaFold 不太可能關閉像施一公這樣使用實驗方法來解決蛋白質結構的實驗室。Lupas 說:「這將使新一代的分子生物學家能夠提出更高級的問題。」 「這將需要更多的思考和更少的移液操作。」由 Google AI 開發的人工智慧(AI)網絡使 DeepMind 脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的 3D 形狀。
  • 解決生物學50年來的重大挑戰,AI能根據...
    AlphaFold不太可能關閉像施一公這樣使用實驗方法來解決蛋白質結構的實驗室。Lupas說:「這將使新一代的分子生物學家能夠提出更高級的問題。」「這將需要更多的思考和更少的移液操作。」由Google AI開發的人工智慧(AI)網絡使DeepMind脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的3D形狀。
  • AI破解生物界50年重大挑戰!DeepMind精準預測蛋白質結構
    DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。▲左為藥物實驗室結果,右為AlphaFold結果諾貝爾化學獎得主、英國結構生物學家Venki Ramakrishan說:「DeepMind的這項工作代表了蛋白質結構預測領域的驚人進展,這是一個生物學上的重大突破
  • DeepMind AI系統攻破生物學界50多年重大難題
    美國時間 11 月 30 日,谷歌母公司 Alphabet 旗下人工智慧公司 DeepMind 公開宣布,生物學界 50 年來的重大難題——蛋白質摺疊預測,已被其成功攻克。Alphabet 旗下人工智慧公司 DeepMind 在預測蛋白質結構方面邁出了一大步。
  • 解決生物學50年來的重大挑戰!生物界「AlphaGo」精準預測蛋白質結構
    圖片來源:DeepMind Blog生物學50年來的重大挑戰我們都知道,蛋白質對生命來說是不可或缺的這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • CASP14: DeepMind的AlphaFold 2到底取得了什麼成就? 它對蛋白質摺疊, 生物學和生物信息學意味著什麼?
    蛋白質的結構信息在生物學中也是至關重要的, 它有助於闡明功能——生物化學中的許多關鍵論文都從結構測定的實驗進展中獲得洞見.鑑於這個問題是如此地重要, 以及幾十年來網絡資源的緩慢發展, 我想沒有人想到解決方案會很快出現. 我自己也決定將博士研究的重點放在結構預測領域, 我和很多人一樣認為, 在我們能夠取得接近解決方案的成果之前, 需要進行幾年工作, 跨越很多研究線.
  • AI攻破50年生物學難題!《自然》:「這將會改變一切」
    在宣布AlphaFold解決了蛋白摺疊問題後,《自然》《科學》等著名雜誌相繼發文,在祝賀DeepMind之餘,也強調了這是人工智慧的又一次重大勝利。DeepMind母公司Alphabet和其姐妹公司Google的CEO桑達·皮採(Sundar Pichai)在推特上表示,這項新突破能讓我們更好地理解生命的基本構件之一,並「幫助研究人員攻克新難題,不論是抗擊疾病,還是保護環境。」
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 發言人表示:「在這些費用覆蓋的時間裡,DeepMind 的突破性成果為解決蛋白質結構預測這一生物學 50 年來重大挑戰奠定了基礎。DeepMind 還與谷歌團隊合作為現實世界帶來影響。我們的團隊參與了許多項目,包括提高風力發電的可預測性、促進塞倫蓋蒂的生態研究等。」
  • DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應
    有網友擔憂「結構生物學家是否會因此失業」,也有人認為,在代碼正式公開之前,所謂的重大進展可能只是炒作。眾所周知,在人體內有成千上萬種不同的蛋白質,而蛋白質的作用很大程度上取決於其獨特的3D結構。弄清楚蛋白質摺疊成什麼形狀被稱為「蛋白質摺疊問題」。這在過去的50年中,一直是生物學的重大挑戰。
  • AI破解蛋白質摺疊難題,這意味著什麼?-虎嗅網
    五十年來,蛋白質摺疊一直是生物學的巨大挑戰。分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題!蛋白質摺疊50年來重大突破,AI破解預測難題蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。
  • AI再發力,解決困擾生物學家近50年的一個基本問題
    蛋白質是一切生命活動的基礎物質,它是運輸氧氣的載體,是幫助抵禦病毒的抗體,也是消化食物的酶。蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。可是,蛋白質如何摺疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。
  • 生物學的一個基本大問題迎來重大突破!
    然而一直以來,「蛋白質摺疊問題」一直是生物學中的一個重大挑戰,並且已經困擾生物學家50多年。直到現在,終於有佳訊傳來:由DeepMind開發的人工智慧系統AlphaFold,在根據胺基酸序列確定蛋白質的三維形狀方面取得了重大突破。
  • DeepMind稱AI能精確預測蛋白摺疊 將加速藥物設計
    蛋白質通過無規則的捲曲摺疊構成特定的三維結構,並決定蛋白質的功能,因此如果人們能夠預測蛋白質摺疊的形狀和結構,那麼將對於治療癌症和阿爾茨海默病等疾病的藥物研發起到關鍵作用。為此,人類已經挑戰數十年。近期,藉助人工智慧技術,由谷歌投資的英國AI研究實驗室DeepMind宣布在該領域取得重要突破。
  • 人工智慧在生物學上的重大突破,比肩DNA的發現,或徹底改變醫學
    這是一個讓生物學家困惑了50年的難題,以至於基於計算機的蛋白質結構預測已經變成了眾包遊戲,全球競賽。我們正處在拐點上。AlphaFold在一項名為「結構預測關鍵評估(CASP)」的長期挑戰中,以驚人的表現擊敗了約100個其他團隊。CASP聯合創始人、馬裡蘭大學的約翰·莫爾特博士對《自然》雜誌說:「在某種意義上,這個問題已經解決了。」
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    如果科學家可以根據蛋白質的化學構成來預測其形狀,他們就能知道它是做什麼的,會如何出錯並造成傷害,並設計新的蛋白質來對抗疾病或履行其它職責,比如分解環境中的塑料汙染。AI 如何改變研究方法?比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。