50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題

2020-12-22 新智元

【新智元導讀】近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。

剛剛,一個困擾生物學家50年的難題,被AI解決了。

去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。

今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽(CASP)上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。

其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。

DeepMind聯合創始人及CEO德米斯·哈薩比斯(Demis Hassabis)表示:「DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。」

谷歌CEO桑達爾·皮查伊(Sundar Pichai)在Twitter上為此次突破點讚。

這是一個跨圈兒的壯舉,李飛飛、馬斯克等大佬也紛紛點讚:

《自然》雜誌更是評論其為「這將改變一切」。

五十年來,蛋白質摺疊一直是生物學的巨大挑戰。

分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。只有當知道蛋白質如何摺疊時,他我們才能知曉蛋白質的作用。

例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。

我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。

但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題!

蛋白質摺疊50年來重大突破,AI破解預測難題

蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。

傳統上,得到蛋白質的形狀需要花費數年的時間。

從1950年代開始,使用X射線束照射結晶的蛋白質並將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。X射線晶體學已經證明了蛋白質結構的絕大部分。但是,在過去的十年中,低溫電子顯微鏡已成為許多結構生物學實驗室的首選工具。

最新的技術進步已使使用低溫電子顯微鏡生成接近原子解析度的電子密度圖成為可能

這些方法依賴於進行大量試驗和改進錯誤,可能需要花費數年的工作時間來完成每個蛋白質結構,並需要使用數百萬美元的專門設備來進行試驗和驗證。

1969年,塞勒斯 · 萊文塔爾(Cyrus Levinthal)指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有10 ^ 300種可能構型。

1972年,克裡斯蒂安 · 安芬森(Christian Anfinsen)在諾貝爾化學獎的獲獎感言中,提出了一個著名的假設:

克裡斯蒂安 · 安芬森

理論上來說,蛋白質的胺基酸序列應該完全決定其結構。

這個假設引起了長達五十年的探索,即僅僅基於蛋白質的 1D 胺基酸序列就能夠計算預測蛋白質的 3D 結構。然而,這個假設面臨的一個主要的挑戰是,理論上蛋白質在進入最終的 3D 結構之前可以摺疊的方式數量是一個天文數字。

1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。

為什麼預測蛋白質的形狀非常困難?

在自然界中,蛋白質是胺基酸鏈,可以自發摺疊成無數令人難以想像的形狀,有些甚至在幾毫秒之內完成。

為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元(按現代標準,計算能力適中)上運行,這種訓練需要數周時間。

AlphaFold解決蛋白質摺疊問題的方法

DeepMind 在2018年首次使用最初版本的 AlphaFold 參加 CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於 CASP13 方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。

現在,DeepMind開發的新的深度學習架構已經推動了 CASP14方法的變化,使之能夠達到前所未有的精確度。這些方法的靈感來自生物學、物理學和機器學習領域,當然還有過去半個世紀許多蛋白質摺疊領域的科學家的工作。

一個摺疊的蛋白質可以被認為是一個「空間圖形」,其中殘基是節點和邊連接的。

這張圖對於理解蛋白質內部的物理相互作用以及它們的進化歷史是很重要的。

對於在 CASP14上使用的最新版本的 AlphaFold,研究人員創建了一個基於注意力的神經網絡系統,通過端到端的訓練來解釋這個圖的結構,同時推理出它正在構建的隱式圖。它通過使用多重序列對齊 (MSA) 和胺基酸殘基對的表示來精化這個圖結構。

通過迭代這個過程,系統可以對蛋白質的基本物理結構進行準確的預測,並能夠在幾天的時間內確定高度精確的結構。

此外,AlphaFold 還可以使用內部置信度來預測每個預測的蛋白質結構的哪些部分是可靠的。

這個系統所使用的數據包括來自蛋白質資料庫的大約170,000個蛋白質結構,以及包含未知結構的蛋白質序列的大型資料庫。它使用了大約128個 TPU v3 (大致相當於100-200個 GPU) ,只訓練了幾周時間,在當今機器學習領域中使用的大多數SOTA模型中來說是一個相對較少的計算量。

CASP:蛋白質奧林匹克競賽

1994年,John Moult 教授和 Krzysztof Fidelis 教授創立了 CASP (Critical Assessment of Structure Prediction) 作為兩年一次的盲選評估,以促進研究並建立蛋白質結構預測的最新水平。

CASP 是評估預測技術的標準。更重要的是,CASP 選擇那些最近才經過實驗確定的蛋白質結構(有些在評估時仍在等待確定)作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。

CASP 用來測量預測準確性的主要指標是 GDT(Global Distance Test ) ,其範圍是從0-100。簡單地說,GDT 可以大致地被認為是胺基酸殘基在閾值距離內與正確位置的百分比。根據 Moult 教授的說法,90分左右的 GDT 可以被認為是與實驗方法得到的結果相競爭的。

在今天公布的第14屆 CASP 評估結果中,最新的 AlphaFold 系統在所有目標中總體得分中位數為92.4 GDT。這意味著預測平均誤差(RMSD)約為1.6埃(1埃等於0.1納米),相當於一個原子的寬度(或0.1納米),即使對於最難的蛋白質目標,即那些最具挑戰性的自由建模分類,AlphaFold 也可以達到87.0 GDT 的中位數。

在接受檢驗的近100個蛋白靶點中,AlphaFold 對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP 創始人 Moult 教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。

這些令人興奮的結果為生物學家打開了使用深度學習計算結構預測作為科學研究的核心工具的潛力,DeepMind 的方法可能特別有助於預測重要類別的蛋白質結構,如膜蛋白等。

圖:ALPHAFOLD 預測了與實驗結果相對應的高度精確的結構

歷史性突破!AlphaFold將「改變一切」

如果把基因組序列比喻為標識一個人的身份信息,蛋白質的三維結構就是一個人的身形容貌。

預測蛋白質結構變化的重要意義在於,包括癌症、痴呆等幾乎所有疾病,都與細胞內蛋白質結構變化相關,如果能夠掌握蛋白質結構的變化,將對疾病的預防、治療等帶來重要影響。

通常情況下,識別單個蛋白質的結構需要耗費科學家數年時間。如今,AlphaFold能在幾天內提供精確到一個原子的結果。

此舉將極大地加速人類對細胞組成部分的理解,對包括新冠肺炎在內所有疾病的研究均有所幫助。

在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白(Spike Glycoprotein,以下簡稱 S 蛋白),是結合人體細胞上相應受體的罪魁禍首;E 蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白(M 蛋白)和核衣殼蛋白(N 蛋白)等結構。

冠狀病毒結構示意圖

三維結構的解析對於新冠病毒致病機理和藥物設計具有非常重要的先決意義。

基於AlphaFold的新突破,人類未來也可能更快地發現更先進的新藥物。

CASP聯合創始人、馬裡蘭大學帕克分校計算生物學家John Moult直言,「這是一件大事,在某種程度上來說,(蛋白質摺疊)問題解決了。」

挑戰賽評委之一的進化生物學家Andrei Lupas進一步表示,「這將改變醫學,這將改變研究,這將改變生物工程,這將改變所有一切。」

知名領域專家Mohammed AlQuraishi發推稱;「它們令人震驚——deepmind似乎已經解決了蛋白質結構預測問題。」

谷歌CEO Sundar Pichai在當天也在推特上分享了這一消息並表示:

「DeepMind難以置信的用AI進行蛋白質摺疊預測的突破,將幫助我們更好地理解生命的最根本的根基,並幫助研究人員應對新的和更難的難題,包括應對疾病和環境可持續發展。」

參考連結:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

相關焦點

  • 50年難遇AI「諾獎級」裡程碑:DeepMind攻破生物學界重大難題
    近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。 剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。
  • 重大事件上鏈—DeepMind破解蛋白質摺疊難題
    近日,在國際蛋白質結構預測競賽上,DeepMind推出的AlphaFold系統的總體中位數得分達到92.4GDT,擊敗了其餘的參會選手。AlphaFold是一種能夠基於蛋白質的基因序列,利用AI預測蛋白質3D結構的系統。
  • 50年都未解開的蛋白質摺疊難題被AI破解了
    他猜測蛋白質複雜的三維結構是由它的一維結構所決定的,也就是說,由DNA控制細胞內RNA所搭建的特定胺基酸序列,從理論上來講,應該決定了這類蛋白質擁有怎樣的結構。這就是著名的蛋白質摺疊結構預測。沒想到,這個假設竟成為了生物學界近50年來一個重大難題。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    機器之心報導機器之心編輯部生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了。11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 發言人表示:「在這些費用覆蓋的時間裡,DeepMind 的突破性成果為解決蛋白質結構預測這一生物學 50 年來重大挑戰奠定了基礎。DeepMind 還與谷歌團隊合作為現實世界帶來影響。我們的團隊參與了許多項目,包括提高風力發電的可預測性、促進塞倫蓋蒂的生態研究等。」
  • 下圍棋的 DeepMind 成了「藥神」,這事兒和你我都有關
    Lupas 之所以這麼說,因為他本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質摺疊後的形狀,但藉助 AlphaFold 2 後,他在半個小時內就看清了那團彩色的,像是被手掌捏出特定形狀的「珠子項鍊」。
  • 破解生物界50年重大挑戰!DeepMind用AI精準預測蛋白質結構
    在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    近日,DeepMind宣布幫「兄弟一把」——與谷歌地圖展開合作,利用了一種圖神經網絡(GNN),成功提升了谷歌地圖在柏林、東京、雪梨等大城市的實時 ETA 準確率,最高提升了50%。DeepMind此次的研究,就是如何解決這個動態預測問題。
  • 騰訊「雲深智藥」用AI持續助力藥物發現
    目前,tFold公測版本已通過騰訊「雲深智藥(iDrug)」平臺官網對外開放。官網連結:https://drug.ai.tencent.com/console/cn/tfold 「從頭摺疊」新方法破解晶體學難題在人體內,性激素有促進性器官成熟、副性徵發育及維持性功能等作用。二氫睪酮是人體中已知最強的雄激素,對於人體的發育和生理活動至關重要,但同時也需要保持合理的平衡。
  • AI再發力,解決困擾生物學家近50年的一個基本問題
    困擾科學家近50年的難題 蛋白質佔據我們每個人體重的大約20%,是除水分(60%)以外第二多的物質種類,其它的脂質、碳水化合物、核酸以及各種無機物加起來,也僅僅佔到20%。
  • 『燒錢機器』DeepMind持續多年虧損後,仍無商業...
    DeepMind是一家人工智慧初創公司,成立10年來研發了眾多明星產品,例如,前不久剛剛推出的AlpaFold,用AI預測蛋白質三維結構,攻克生物科學50年挑戰;2014年推出的人工智慧圍棋選手AlphaGo
  • DeepMind、哈佛造出 AI「小白鼠」,窺探神經網絡的奧秘
    他們還嘗試用神經科學技術來理解這個「人造大腦」如何控制其行為。或許這一成果可以為我們提供人工智慧研究的新思路。 人工神經網絡算是目前最為先進的人工智慧,這是一類由多層神經元互聯組件構成的機器學習算法,而「神經元」最早就是來自大腦結構的啟發。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。 1 第二代AlphaFold做了什麼?首先,17萬的數據應該遠遠不夠,準確性存疑;再者,蛋白質結構摺疊問題太過高深,如果真能夠破解,DeepMind很快就能獲得諾貝爾獎。 因此,在驚嘆AlphaFold取得成果的同時,我們還需要冷靜等待生物學家的實驗驗證。 除了解決的問題值得我們關注,其實研究方法也更有思考價值。
  • DeepMind劃時代傑作!AlphaFold蛋白結構預測擊敗人類奪冠
    作為一項基礎技術,DeepMind在自己博客中,將AlphaFold 稱為在展示人工智慧研究推動和加速新科學發現方面的「第一個重要裡程碑」。通過跨學科方法,DeepMind匯集了來自結構生物學,物理學和機器學習領域的專家,以應用尖端技術,僅根據其基因序列預測蛋白質的3D結構。
  • DeepMind生物學重大突破引發質疑:除非公布代碼,否則沒人相信
    生物學家花了50年都解不出的難題,突然就被AI解決了? Alphabet旗下英國人工智慧公司DeepMind周一宣布可以精準預測蛋白質結構,並稱這解決了關鍵的「蛋白質摺疊問題」,從而徹底改變藥物研發和醫學。這一消息隨後引發了學術界不小的質疑。
  • 騰訊AI Lab聯合研究登上Nature子刊,首次...
    目前,tFold公測版本已通過騰訊「雲深智藥(iDrug)」平臺官網對外開放。官網連結:https://drug.ai.tencent.com/console/cn/tfold 「從頭摺疊」新方法破解晶體學難題在人體內,性激素有促進性器官成熟、副性徵發育及維持性功能等作用。
  • 解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平
    圖源:deepmind.com 我們都知道,蛋白質是生命的承載者,對生命至關重要,幾乎支撐著生命的所有功能,細胞內發生的大部分反應都依賴於蛋白質。複雜蛋白質的摺疊過程(圖源:deepmind.com) 實際上,咱們現在耳熟能詳的「一級結構決定三級結構」的假說,最早是Christian Anfinsen在1972