剛剛,一個困擾生物學家50年的難題,被AI解決了。
去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。
今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。
其準確性可以與使用冷凍電子顯微鏡、核磁共振或X射線晶體學等實驗技術解析的3D結構相媲美。
DeepMind聯合創始人及CEO德米斯·哈薩比斯表示:「DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。」
谷歌CEO桑達爾·皮查伊在Twitter上為此次突破點讚。
這是一個跨圈兒的壯舉,李飛飛、馬斯克等大佬也紛紛點讚:
《自然》雜誌更是評論其為「這將改變一切」。
五十年來,蛋白質摺疊一直是生物學的巨大挑戰。
分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。只有當知道蛋白質如何摺疊時,我們才能知曉蛋白質的作用。
例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。
我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。
但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題!
蛋白質摺疊50年來重大突破,AI破解預測難題
蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。
傳統上,得到蛋白質的形狀需要花費數年的時間。
從1950年代開始,使用X射線束照射結晶的蛋白質並將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。X射線晶體學已經證明了蛋白質結構的絕大部分。但是,在過去的十年中,低溫電子顯微鏡已成為許多結構生物學實驗室的首選工具。
最新的技術進步已使使用低溫電子顯微鏡生成接近原子解析度的電子密度圖成為可能
這些方法依賴於進行大量試驗和改進錯誤,可能需要花費數年的工作時間來完成每個蛋白質結構,並需要使用數百萬美元的專門設備來進行試驗和驗證。
1969年,塞勒斯·萊文塔爾指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有10300種可能構型。
1972年,克裡斯蒂安·安芬森在諾貝爾化學獎的獲獎感言中,提出了一個著名的假設:
克裡斯蒂安 · 安芬森
理論上來說,蛋白質的胺基酸序列應該完全決定其結構。
這個假設引起了長達五十年的探索,即僅僅基於蛋白質的1D胺基酸序列就能夠計算預測蛋白質的3D結構。然而,這個假設面臨的一個主要的挑戰是,理論上蛋白質在進入最終的3D結構之前可以摺疊的方式數量是一個天文數字。
1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。
為什麼預測蛋白質的形狀非常困難?
在自然界中,蛋白質是胺基酸鏈,可以自發摺疊成無數令人難以想像的形狀,有些甚至在幾毫秒之內完成。
為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元上運行,這種訓練需要數周時間。
AlphaFold解決蛋白質摺疊問題的方法
DeepMind在2018年首次使用最初版本的AlphaFold參加CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於CASP13方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。
現在,DeepMind開發的新的深度學習架構已經推動了CASP14方法的變化,使之能夠達到前所未有的精確度。這些方法的靈感來自生物學、物理學和機器學習領域,當然還有過去半個世紀許多蛋白質摺疊領域的科學家的工作。
一個摺疊的蛋白質可以被認為是一個「空間圖形」,其中殘基是節點和邊連接的。
這張圖對於理解蛋白質內部的物理相互作用以及它們的進化歷史是很重要的。
對於在CASP14上使用的最新版本的AlphaFold,研究人員創建了一個基於注意力的神經網絡系統,通過端到端的訓練來解釋這個圖的結構,同時推理出它正在構建的隱式圖。它通過使用多重序列對齊和胺基酸殘基對的表示來精化這個圖結構。
通過迭代這個過程,系統可以對蛋白質的基本物理結構進行準確的預測,並能夠在幾天的時間內確定高度精確的結構。
此外,AlphaFold還可以使用內部置信度來預測每個預測的蛋白質結構的哪些部分是可靠的。
這個系統所使用的數據包括來自蛋白質資料庫的大約170,000個蛋白質結構,以及包含未知結構的蛋白質序列的大型資料庫。它使用了大約128個TPU v3,只訓練了幾周時間,在當今機器學習領域中使用的大多數SOTA模型中來說是一個相對較少的計算量。
CASP:蛋白質奧林匹克競賽
1994年,John Moult教授和Krzysztof Fidelis教授創立了CASP作為兩年一次的盲選評估,以促進研究並建立蛋白質結構預測的最新水平。
CASP是評估預測技術的標準。更重要的是,CASP選擇那些最近才經過實驗確定的蛋白質結構作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。
CASP用來測量預測準確性的主要指標是GDT,其範圍是從0~100。簡單地說,GDT可以大致地被認為是胺基酸殘基在閾值距離內與正確位置的百分比。根據Moult教授的說法,90分左右的GDT可以被認為是與實驗方法得到的結果相競爭的。
在近日公布的第14屆CASP評估結果中,最新的AlphaFold系統在所有目標中總體得分中位數為92.4 GDT。這意味著預測平均誤差約為1.6埃,相當於一個原子的寬度,即使對於最難的蛋白質目標,即那些最具挑戰性的自由建模分類,AlphaFold也可以達到87.0 GDT的中位數。
在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創始人Moult教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。
這些令人興奮的結果為生物學家打開了使用深度學習計算結構預測作為科學研究的核心工具的潛力,DeepMind 的方法可能特別有助於預測重要類別的蛋白質結構,如膜蛋白等。
圖:ALPHAFOLD 預測了與實驗結果相對應的高度精確的結構
歷史性突破!AlphaFold將「改變一切」
如果把基因組序列比喻為標識一個人的身份信息,蛋白質的三維結構就是一個人的身形容貌。
預測蛋白質結構變化的重要意義在於,包括癌症、痴呆等幾乎所有疾病,都與細胞內蛋白質結構變化相關,如果能夠掌握蛋白質結構的變化,將對疾病的預防、治療等帶來重要影響。
通常情況下,識別單個蛋白質的結構需要耗費科學家數年時間。如今,AlphaFold能在幾天內提供精確到一個原子的結果。
此舉將極大地加速人類對細胞組成部分的理解,對包括新冠肺炎在內所有疾病的研究均有所幫助。
在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白,是結合人體細胞上相應受體的罪魁禍首;E蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白和核衣殼蛋白等結構。
冠狀病毒結構示意圖
三維結構的解析對於新冠病毒致病機理和藥物設計具有非常重要的先決意義。
基於AlphaFold的新突破,人類未來也可能更快地發現更先進的新藥物。
CASP聯合創始人、馬裡蘭大學帕克分校計算生物學家John Moult直言,「這是一件大事,在某種程度上來說,問題解決了。」
挑戰賽評委之一的進化生物學家Andrei Lupas進一步表示,「這將改變醫學,這將改變研究,這將改變生物工程,這將改變所有一切。」
知名領域專家Mohammed AlQuraishi發推稱;「它們令人震驚——deepmind似乎已經解決了蛋白質結構預測問題。」
谷歌CEO Sundar Pichai在當天也在推特上分享了這一消息並表示:
「DeepMind難以置信的用AI進行蛋白質摺疊預測的突破,將幫助我們更好地理解生命的最根本的根基,並幫助研究人員應對新的和更難的難題,包括應對疾病和環境可持續發展。」