AI破解蛋白質摺疊難題,這意味著什麼?

2020-12-10 虎嗅APP


剛剛,一個困擾生物學家50年的難題,被AI解決了。


去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。


今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。


其準確性可以與使用冷凍電子顯微鏡、核磁共振或X射線晶體學等實驗技術解析的3D結構相媲美。


 

DeepMind聯合創始人及CEO德米斯·哈薩比斯表示:「DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。」

       

       

谷歌CEO桑達爾·皮查伊在Twitter上為此次突破點讚。


這是一個跨圈兒的壯舉,李飛飛、馬斯克等大佬也紛紛點讚:

       


     

《自然》雜誌更是評論其為「這將改變一切」

        

       

五十年來,蛋白質摺疊一直是生物學的巨大挑戰。


分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。只有當知道蛋白質如何摺疊時,我們才能知曉蛋白質的作用。


例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。

       

       

我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。


但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題!


蛋白質摺疊50年來重大突破,AI破解預測難題


蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。


傳統上,得到蛋白質的形狀需要花費數年的時間。


從1950年代開始,使用X射線束照射結晶的蛋白質並將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。X射線晶體學已經證明了蛋白質結構的絕大部分。但是,在過去的十年中,低溫電子顯微鏡已成為許多結構生物學實驗室的首選工具。

       

     最新的技術進步已使使用低溫電子顯微鏡生成接近原子解析度的電子密度圖成為可能


這些方法依賴於進行大量試驗和改進錯誤,可能需要花費數年的工作時間來完成每個蛋白質結構,並需要使用數百萬美元的專門設備來進行試驗和驗證。


1969年,塞勒斯·萊文塔爾指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有10300種可能構型。


1972年,克裡斯蒂安·安芬森在諾貝爾化學獎的獲獎感言中,提出了一個著名的假設:

      

       克裡斯蒂安 · 安芬森


理論上來說,蛋白質的胺基酸序列應該完全決定其結構。


這個假設引起了長達五十年的探索,即僅僅基於蛋白質的1D胺基酸序列就能夠計算預測蛋白質的3D結構。然而,這個假設面臨的一個主要的挑戰是,理論上蛋白質在進入最終的3D結構之前可以摺疊的方式數量是一個天文數字。


1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。


為什麼預測蛋白質的形狀非常困難?


在自然界中,蛋白質是胺基酸鏈,可以自發摺疊成無數令人難以想像的形狀,有些甚至在幾毫秒之內完成。


為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元上運行,這種訓練需要數周時間。

        

       

AlphaFold解決蛋白質摺疊問題的方法


DeepMind在2018年首次使用最初版本的AlphaFold參加CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於CASP13方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。


現在,DeepMind開發的新的深度學習架構已經推動了CASP14方法的變化,使之能夠達到前所未有的精確度。這些方法的靈感來自生物學、物理學和機器學習領域,當然還有過去半個世紀許多蛋白質摺疊領域的科學家的工作。


一個摺疊的蛋白質可以被認為是一個「空間圖形」,其中殘基是節點和邊連接的。

       

 

這張圖對於理解蛋白質內部的物理相互作用以及它們的進化歷史是很重要的。


對於在CASP14上使用的最新版本的AlphaFold,研究人員創建了一個基於注意力的神經網絡系統,通過端到端的訓練來解釋這個圖的結構,同時推理出它正在構建的隱式圖。它通過使用多重序列對齊和胺基酸殘基對的表示來精化這個圖結構。


通過迭代這個過程,系統可以對蛋白質的基本物理結構進行準確的預測,並能夠在幾天的時間內確定高度精確的結構。


此外,AlphaFold還可以使用內部置信度來預測每個預測的蛋白質結構的哪些部分是可靠的。


這個系統所使用的數據包括來自蛋白質資料庫的大約170,000個蛋白質結構,以及包含未知結構的蛋白質序列的大型資料庫。它使用了大約128個TPU v3,只訓練了幾周時間,在當今機器學習領域中使用的大多數SOTA模型中來說是一個相對較少的計算量。


CASP:蛋白質奧林匹克競賽


1994年,John Moult教授和Krzysztof Fidelis教授創立了CASP作為兩年一次的盲選評估,以促進研究並建立蛋白質結構預測的最新水平。


CASP是評估預測技術的標準。更重要的是,CASP選擇那些最近才經過實驗確定的蛋白質結構作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。

        

       

CASP用來測量預測準確性的主要指標是GDT,其範圍是從0~100。簡單地說,GDT可以大致地被認為是胺基酸殘基在閾值距離內與正確位置的百分比。根據Moult教授的說法,90分左右的GDT可以被認為是與實驗方法得到的結果相競爭的。

       

       

在近日公布的第14屆CASP評估結果中,最新的AlphaFold系統在所有目標中總體得分中位數為92.4 GDT。這意味著預測平均誤差約為1.6埃,相當於一個原子的寬度,即使對於最難的蛋白質目標,即那些最具挑戰性的自由建模分類,AlphaFold也可以達到87.0 GDT的中位數。

       

       

在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創始人Moult教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。

      

       

這些令人興奮的結果為生物學家打開了使用深度學習計算結構預測作為科學研究的核心工具的潛力,DeepMind 的方法可能特別有助於預測重要類別的蛋白質結構,如膜蛋白等。

        

圖:ALPHAFOLD 預測了與實驗結果相對應的高度精確的結構


歷史性突破!AlphaFold將「改變一切」


如果把基因組序列比喻為標識一個人的身份信息,蛋白質的三維結構就是一個人的身形容貌。


預測蛋白質結構變化的重要意義在於,包括癌症、痴呆等幾乎所有疾病,都與細胞內蛋白質結構變化相關,如果能夠掌握蛋白質結構的變化,將對疾病的預防、治療等帶來重要影響。


通常情況下,識別單個蛋白質的結構需要耗費科學家數年時間。如今,AlphaFold能在幾天內提供精確到一個原子的結果。



此舉將極大地加速人類對細胞組成部分的理解,對包括新冠肺炎在內所有疾病的研究均有所幫助。


在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白,是結合人體細胞上相應受體的罪魁禍首;E蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白和核衣殼蛋白等結構。

       

       冠狀病毒結構示意圖


三維結構的解析對於新冠病毒致病機理和藥物設計具有非常重要的先決意義。


基於AlphaFold的新突破,人類未來也可能更快地發現更先進的新藥物。


CASP聯合創始人、馬裡蘭大學帕克分校計算生物學家John Moult直言,「這是一件大事,在某種程度上來說,問題解決了。」


挑戰賽評委之一的進化生物學家Andrei Lupas進一步表示,「這將改變醫學,這將改變研究,這將改變生物工程,這將改變所有一切。」


知名領域專家Mohammed AlQuraishi發推稱;「它們令人震驚——deepmind似乎已經解決了蛋白質結構預測問題。」

        

       

谷歌CEO Sundar Pichai在當天也在推特上分享了這一消息並表示:


「DeepMind難以置信的用AI進行蛋白質摺疊預測的突破,將幫助我們更好地理解生命的最根本的根基,並幫助研究人員應對新的和更難的難題,包括應對疾病和環境可持續發展。」

       



相關焦點

  • 50年都未解開的蛋白質摺疊難題被AI破解了
    他猜測蛋白質複雜的三維結構是由它的一維結構所決定的,也就是說,由DNA控制細胞內RNA所搭建的特定胺基酸序列,從理論上來講,應該決定了這類蛋白質擁有怎樣的結構。這就是著名的蛋白質摺疊結構預測。沒想到,這個假設竟成為了生物學界近50年來一個重大難題。
  • AI破解蛋白質摺疊難題,施一公等結構學家未來的創新點將在哪裡?
    但從基因轉錄、翻譯再到胺基酸序列之後,科研界就似乎進入了一個極為狹窄的胡同,因為他們遇到了蛋白摺疊。1972年,諾貝爾化學獎得主克裡斯蒂安·安芬森(Christian Anfinsen)提出一個著名的觀點,即理論上,蛋白質的胺基酸序列應該完全決定其結構。正是由於這一假設,引發了50年的探索,即能夠僅基於1D胺基酸序列通過計算預測蛋白質的3D結構。
  • DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題
    DeepMind AI 人工智慧破解困擾科學家 50 年的蛋白質摺疊結構難題過去推動的Folding@home計劃,就是希望透過使用者貢獻空閒運算效能,透過連網協作方式組成龐大運算資源,藉此研究蛋白質摺疊結構,就連NVIDIA過去也曾藉由GPU
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    DeepMind破解蛋白質摺疊難題,Nature:這可能改變一切剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    【新智元導讀】近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • DeepMind破解蛋白質摺疊難題
    DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。剛剛,一個困擾生物學家50年的難題,被AI解決了。蛋白質摺疊50年來重大突破,AI破解預測難題蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。
  • DeepMind破解蛋白質摺疊難題引爭議 正準備論文回應
    原標題:DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應   當地時間11月30日,英國DeepMind
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    每經記者:蔡鼎 每經編輯:杜宇每經AI快訊,美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • 重大事件上鏈—DeepMind破解蛋白質摺疊難題
    近日,在國際蛋白質結構預測競賽上,DeepMind推出的AlphaFold系統的總體中位數得分達到92.4GDT,擊敗了其餘的參會選手。AlphaFold是一種能夠基於蛋白質的基因序列,利用AI預測蛋白質3D結構的系統。
  • AI解決生物學50年來重大難題:破解蛋白質摺疊,顛覆結構生物學
    生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了。CASP14 組織者、年近七旬的 UC Davis 科學家 Andriy Kryshtafovych 在大會上感嘆道,I wasn't sure that I would live long enough to see this(我活久見了)。
  • DeepMind AI玩轉棋圈後,開始玩轉生物圈,破解了50年來預測蛋白質摺疊難題
    蛋白質三維結構的解析對於深入理解蛋白質功能和生理現象起著決定性作用。一般實驗室解析某個蛋白結構,需要花費數年時間,而人工智慧公司DeepMind新研發的AlphaFold似乎能破解這一難題。……而近兩年的DeepMind已經不再滿足於打造能在智力博弈中戰勝人類的人工智慧,他們將目光投向了生物學領域的老大難問題——預測蛋白質結構摺疊。
  • DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應
    當地時間11月30日,英國DeepMind團隊宣布在蛋白質結構問題上取得重大進展,其第二代「阿爾法摺疊」(AlphaFold)方法精準預測蛋白質的三維結構,摘得國際蛋白質結構預測競賽(CASP)冠軍。這一進展被輿論視為繼AlphaGo以3:0戰勝世界圍棋冠軍後,人工智慧的再度發威。
  • 攻克生物學半世紀難題,「阿爾法摺疊」精準預測蛋白質三維結構
    科技日報北京12月1日電 人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。1994年,為更好預測和破解蛋白質三維結構,馬裡蘭大學結構生物學家約翰·穆爾特等人發起了CASP競賽,每兩年舉行一次。在今年的比賽中,「深度學習」團隊的「阿爾法摺疊」(AlphaFold)方法的中位分數為92.4(滿分100分,90分以上被認為預測方法可與實驗方法相媲美),預測最具挑戰性的蛋白質的平均得分為87,比次優預測高出25分。
  • 生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了.
    破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • 困擾科學家近半個世紀的蛋白質摺疊難題破了!這回又是AI揭的秘
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。今年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • 攻克生物學半世紀難題! 「阿爾法摺疊」精準預測蛋白質三維結構
    近日,人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。