破解生物界50年重大挑戰!DeepMind用AI精準預測蛋白質結構

2020-12-02 智東西

智東西(公眾號:zhidxcom

編譯 | 子佩

編輯 | Panken

智東西12月2日消息,Alphabet旗下公司DeepMind本周一在官網中宣布,已經開發出可以快速準確預測蛋白質結構的機器學習軟體AlphaFold,用於藥物開發。在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。

DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。

一、預測納米級蛋白質結構,AlphaFold比藥物模擬更強

對於生命來說,蛋白質必不可少:它們運輸物質、作為酶進行化學反應,作為抗體抵禦病毒……所有這些功能都是通過結構決定的。如果我們想要設計出有特定功能的蛋白質,我們必須了解不同的結構都具備怎樣的功能。

一般來說,藥理學家會通過大量的觀察和統計,得到粗略的經驗:怎樣的蛋白質結構大致具備怎樣的功能,但由於蛋白質是納米量級上的3D結構,通過這樣不斷枚舉的「笨」辦法設計藥物是非常棘手的。

所以目前,很多公司和高校都在研究,如何通過電腦程式檢測組成蛋白質的各類胺基酸,再基於胺基酸反推蛋白質結構,DeepMind的AlphaFold就是其中之一,也是目前的第一。

創立於1994年的CASP,致力於促進蛋白質預測領域的研究,關注該領域的進展,以及建立最新的技術標準。

每兩年,CASP都會以實驗室最新研究出的蛋白質結構為目標,開展一次蛋白質結構預測比賽。各參賽團隊在不知道該目標蛋白質的情況下,以功能需求為導向,設計該蛋白質結構,CASP會將各團隊的預測結果與目標蛋白質的真實實驗數據相比對,進行評分。

GDT評分

在本周一,第14次的CASP評估中,AlphaFold在所有類別比賽上,GDT總體平均得分達到92.4,比藥物模擬實驗的得分(GDT90)還高,在最具挑戰性的自由建模類中,中位數得分也達到了87.0。

GDT是Global Diatance Test的簡稱,也就是全局距離測試,代表兩個蛋白質結構之間的相似度,分數從0到100,得分越高,預測模型與目標結構相似度越高。

左為藥物實驗室結果,右為AlphaFold結果

諾貝爾化學獎得主、英國結構生物學家Venki Ramakrishan說:「DeepMind的這項工作代表了蛋白質結構預測領域的驚人進展,這是一個生物學上的重大突破,將從根本上改變生物學研究方式。」

二、神經網絡端對端訓練,繪一張完整的「蛋白圖」

在2018年,初代AlphaFold就參與了CASP測試,儘管GDT得分不足60,但排名仍位居第一,在隨後的兩年內,AlphaFold團隊引入深度學習框架,基於初代模型不斷改進創新。

CASP歷年自由建模類別,最佳模型GDT得分

摺疊的蛋白質結構可以被簡單視為「空間圖」,已知的信息和結構是基點,所有的研究預測工作都是為了將這些基點連接起來,組成一張立體的空間圖。

AlphaFold神經網絡模型架構

如果想要實現上述這一過程,模型必須要「理解」圖中蛋白質內的相互作用和影響。

因此,AlphaFold研究團隊創建了一個基於注意力的神經網絡系統,通過端到端訓練解釋該圖結構,同時對所隱含的信息進行推理預測,此外,AlphaFold還使用相關的蛋白質進化序列、多序列比對(MSA)以及胺基酸殘基對表示法作為補充。

通過重複此過程,AlphaFold能夠在幾天內實現蛋白質高精度結構的預測,且基於內部置信度量度判斷每個預測是否可靠。

AlphaFold使用了公開數據集進行了模型訓練,包括來自蛋白質資料庫的約170000種蛋白質結構以及其他未知結構的蛋白質序列數據集。AlphaFold基於約16個TPUv3(相當於128個TPUv3內核或大約相當於100到200個GPU)訓練了幾周時間,相對於大多數最新機器學習模型,計算量並不大。

AlphaFold研究團隊表示正在準備相關論文,以將研究成果向同行分享。

三、要打擊新冠,還要探測未知蛋白

在官網博客上,AlphaFold研究團隊表示,AlphaFold未來會在新冠肺炎危機中大有可為。

在今年早些時候,研究團隊通過AlphaFold預測了SARS-CoV-2病毒的幾種蛋白質結構,包括從前結構未知的ORF3a以及另一種冠狀病毒蛋白ORF8。

儘管這兩種蛋白質的相關研究較少,但通過與實驗室數據相比對,AlphaFold所預測的蛋白質結構準確性仍非常高。

除了加深對已知疾病的了解之外,AlphaFold團隊也希望拓展更廣闊的生物學領域,為有可能出現的疾病做好準備。

DNA指定了蛋白質的胺基酸序列,而根據基因組學,世界上應該存在1.8億個蛋白質序列,但受限於測序工作的龐大工作量或其他原因,目前蛋白質資料庫中只涵蓋約170000種蛋白質結構。

在這些還未被「開採」的蛋白質中,或許有一些具有意想不到的新奇效,AlphaFold就像哈勃望遠鏡探索宇宙一樣,幫助人類找到它們。

結語:與傳統研發互補,AlphaFold探索更多未知領域

AlphaFold研究團隊表示:「現在,預測單一蛋白質結構已基本實現,預測蛋白質複合物結構將會是下一步。但在這個巨大工程中,AlphaFold不可能「單打獨鬥」。」

儘管AlphaFold預測的結果幾乎與傳統藥物研發效果相同,但它不會完全取代實驗室實驗,因為藥物開發依舊是個複雜的過程,目前AlphaFold並不能理解蛋白質分子之間或蛋白質分子與如DNA或RNA等其他分子的相互作用。

AlphaFold研究團隊在博客中寫道:「 AlphaFold是迄今為止我們最重要的成果之一,但是,與所有其他研究一樣,仍有許多問題急需解答。我們與其他團隊合作,學習如何在新藥開發中最好地利用這些工具。」

來源:DeepMind官網、The Register、ZDNet

相關焦點

  • AI破解生物界50年重大挑戰!DeepMind精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。 GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • 解決生物學的重大挑戰!生物界AlphaGo精準預測蛋白質結構
    年來的重大挑戰我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    AI在生物科學領域再次取得重大突破!美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。
  • 解決生物學50年來的重大挑戰!生物界「AlphaGo」精準預測蛋白質結構
    圖片來源:DeepMind Blog生物學50年來的重大挑戰這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    DeepMind破解蛋白質摺疊難題,Nature:這可能改變一切剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。解決50年的挑戰克裡斯蒂安·安芬森在1972年諾貝爾化學獎的獲獎感言中,提出了一個著名的假設,即理論上,蛋白質的胺基酸序列應該完全決定其結構
  • DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題
    DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題過去推動的Folding@home計劃,就是希望透過使用者貢獻空閒運算效能,透過連網協作方式組成龐大運算資源,藉此研究蛋白質摺疊結構,就連NVIDIA過去也曾藉由GPU
  • 50年難遇諾獎級裡程碑!DeepMind破解蛋白質摺疊難題
    剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    【新智元導讀】近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。但是,在過去的十年裡,低溫電鏡已經成為許多結構生物學實驗室青睞的工具。科學家們長期以來一直想知道,蛋白質的構成部分:一串不同的胺基酸是如何映射出其最終形狀的許多扭曲和褶皺的。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    2020-12-05 12:23:34 來源: BioArt 舉報   蛋白質三維結構預測是生物學最嚴峻的挑戰之一
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    正因為蛋白質的結構如此重要,在過去的五十年中,科學家已經能使用低溫電子顯微鏡和核磁共振等實驗技術確定蛋白質的形狀,但是每一種方法都依賴大量的試驗與誤差反饋,每種結構可能需要花費數萬美元、歷時數年進行研究。因此生物學家轉攻 AI 方法,以完成這一困難且單調的過程。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    2018年,上一代的 AlphaFold得分一下子突破了50。 而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。 02 蛋白質結構:生物學五十年來的挑戰 蛋白質是生命的基礎,與細胞組成內容緊密相關。而蛋白質的功能取決於其3D結構。
  • AI解決生物學50年來重大難題:破解蛋白質摺疊,顛覆結構生物學
    蛋白質對於生命至關重要,它們是由胺基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。