AI破解蛋白質摺疊難題,這意味著什麼?-虎嗅網

2020-12-17 虎嗅APP


剛剛,一個困擾生物學家50年的難題,被AI解決了。


去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。


今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。


其準確性可以與使用冷凍電子顯微鏡、核磁共振或X射線晶體學等實驗技術解析的3D結構相媲美。


 

DeepMind聯合創始人及CEO德米斯·哈薩比斯表示:「DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。」

       

       

谷歌CEO桑達爾·皮查伊在Twitter上為此次突破點讚。


這是一個跨圈兒的壯舉,李飛飛、馬斯克等大佬也紛紛點讚:

       


     

《自然》雜誌更是評論其為「這將改變一切」

        

       

五十年來,蛋白質摺疊一直是生物學的巨大挑戰。


分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。只有當知道蛋白質如何摺疊時,我們才能知曉蛋白質的作用。


例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。

       

       

我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。


但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題!


蛋白質摺疊50年來重大突破,AI破解預測難題


蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。


傳統上,得到蛋白質的形狀需要花費數年的時間。


從1950年代開始,使用X射線束照射結晶的蛋白質並將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。X射線晶體學已經證明了蛋白質結構的絕大部分。但是,在過去的十年中,低溫電子顯微鏡已成為許多結構生物學實驗室的首選工具。

       

     最新的技術進步已使使用低溫電子顯微鏡生成接近原子解析度的電子密度圖成為可能


這些方法依賴於進行大量試驗和改進錯誤,可能需要花費數年的工作時間來完成每個蛋白質結構,並需要使用數百萬美元的專門設備來進行試驗和驗證。


1969年,塞勒斯·萊文塔爾指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有10300種可能構型。


1972年,克裡斯蒂安·安芬森在諾貝爾化學獎的獲獎感言中,提出了一個著名的假設:

      

       克裡斯蒂安 · 安芬森


理論上來說,蛋白質的胺基酸序列應該完全決定其結構。


這個假設引起了長達五十年的探索,即僅僅基於蛋白質的1D胺基酸序列就能夠計算預測蛋白質的3D結構。然而,這個假設面臨的一個主要的挑戰是,理論上蛋白質在進入最終的3D結構之前可以摺疊的方式數量是一個天文數字。


1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。


為什麼預測蛋白質的形狀非常困難?


在自然界中,蛋白質是胺基酸鏈,可以自發摺疊成無數令人難以想像的形狀,有些甚至在幾毫秒之內完成。


為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元上運行,這種訓練需要數周時間。

        

       

AlphaFold解決蛋白質摺疊問題的方法


DeepMind在2018年首次使用最初版本的AlphaFold參加CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於CASP13方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。


現在,DeepMind開發的新的深度學習架構已經推動了CASP14方法的變化,使之能夠達到前所未有的精確度。這些方法的靈感來自生物學、物理學和機器學習領域,當然還有過去半個世紀許多蛋白質摺疊領域的科學家的工作。


一個摺疊的蛋白質可以被認為是一個「空間圖形」,其中殘基是節點和邊連接的。

       

 

這張圖對於理解蛋白質內部的物理相互作用以及它們的進化歷史是很重要的。


對於在CASP14上使用的最新版本的AlphaFold,研究人員創建了一個基於注意力的神經網絡系統,通過端到端的訓練來解釋這個圖的結構,同時推理出它正在構建的隱式圖。它通過使用多重序列對齊和胺基酸殘基對的表示來精化這個圖結構。


通過迭代這個過程,系統可以對蛋白質的基本物理結構進行準確的預測,並能夠在幾天的時間內確定高度精確的結構。


此外,AlphaFold還可以使用內部置信度來預測每個預測的蛋白質結構的哪些部分是可靠的。


這個系統所使用的數據包括來自蛋白質資料庫的大約170,000個蛋白質結構,以及包含未知結構的蛋白質序列的大型資料庫。它使用了大約128個TPU v3,只訓練了幾周時間,在當今機器學習領域中使用的大多數SOTA模型中來說是一個相對較少的計算量。


CASP:蛋白質奧林匹克競賽


1994年,John Moult教授和Krzysztof Fidelis教授創立了CASP作為兩年一次的盲選評估,以促進研究並建立蛋白質結構預測的最新水平。


CASP是評估預測技術的標準。更重要的是,CASP選擇那些最近才經過實驗確定的蛋白質結構作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。

        

       

CASP用來測量預測準確性的主要指標是GDT,其範圍是從0~100。簡單地說,GDT可以大致地被認為是胺基酸殘基在閾值距離內與正確位置的百分比。根據Moult教授的說法,90分左右的GDT可以被認為是與實驗方法得到的結果相競爭的。

       

       

在近日公布的第14屆CASP評估結果中,最新的AlphaFold系統在所有目標中總體得分中位數為92.4 GDT。這意味著預測平均誤差約為1.6埃,相當於一個原子的寬度,即使對於最難的蛋白質目標,即那些最具挑戰性的自由建模分類,AlphaFold也可以達到87.0 GDT的中位數。

       

       

在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創始人Moult教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。

      

       

這些令人興奮的結果為生物學家打開了使用深度學習計算結構預測作為科學研究的核心工具的潛力,DeepMind 的方法可能特別有助於預測重要類別的蛋白質結構,如膜蛋白等。

        

圖:ALPHAFOLD 預測了與實驗結果相對應的高度精確的結構


歷史性突破!AlphaFold將「改變一切」


如果把基因組序列比喻為標識一個人的身份信息,蛋白質的三維結構就是一個人的身形容貌。


預測蛋白質結構變化的重要意義在於,包括癌症、痴呆等幾乎所有疾病,都與細胞內蛋白質結構變化相關,如果能夠掌握蛋白質結構的變化,將對疾病的預防、治療等帶來重要影響。


通常情況下,識別單個蛋白質的結構需要耗費科學家數年時間。如今,AlphaFold能在幾天內提供精確到一個原子的結果。



此舉將極大地加速人類對細胞組成部分的理解,對包括新冠肺炎在內所有疾病的研究均有所幫助。


在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白,是結合人體細胞上相應受體的罪魁禍首;E蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白和核衣殼蛋白等結構。

       

       冠狀病毒結構示意圖


三維結構的解析對於新冠病毒致病機理和藥物設計具有非常重要的先決意義。


基於AlphaFold的新突破,人類未來也可能更快地發現更先進的新藥物。


CASP聯合創始人、馬裡蘭大學帕克分校計算生物學家John Moult直言,「這是一件大事,在某種程度上來說,問題解決了。」


挑戰賽評委之一的進化生物學家Andrei Lupas進一步表示,「這將改變醫學,這將改變研究,這將改變生物工程,這將改變所有一切。」


知名領域專家Mohammed AlQuraishi發推稱;「它們令人震驚——deepmind似乎已經解決了蛋白質結構預測問題。」

        

       

谷歌CEO Sundar Pichai在當天也在推特上分享了這一消息並表示:


「DeepMind難以置信的用AI進行蛋白質摺疊預測的突破,將幫助我們更好地理解生命的最根本的根基,並幫助研究人員應對新的和更難的難題,包括應對疾病和環境可持續發展。」

       



相關焦點

  • 50年都未解開的蛋白質摺疊難題被AI破解了
    他猜測蛋白質複雜的三維結構是由它的一維結構所決定的,也就是說,由DNA控制細胞內RNA所搭建的特定胺基酸序列,從理論上來講,應該決定了這類蛋白質擁有怎樣的結構。這就是著名的蛋白質摺疊結構預測。沒想到,這個假設竟成為了生物學界近50年來一個重大難題。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    DeepMind破解蛋白質摺疊難題,Nature:這可能改變一切剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應
    DeepMind破解蛋白質摺疊難題引爭議,正準備論文回應 澎湃新聞記者 張唯 2020-12-03 18:22 來源:
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    每經AI快訊,美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。而攻克這一難題的正是其2018年一經推出便震驚科學界的AI系統——AlphaFold。
  • 攻克生物學難題,「阿爾法摺疊」精準預測蛋白質三維結構
    科技日報北京12月1日電人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。1994年,為更好預測和破解蛋白質三維結構,馬裡蘭大學結構生物學家約翰·穆爾特等人發起了CASP競賽,每兩年舉行一次。在今年的比賽中,「深度學習」團隊的「阿爾法摺疊」(AlphaFold)方法的中位分數為92.4(滿分100分,90分以上被認為預測方法可與實驗方法相媲美),預測最具挑戰性的蛋白質的平均得分為87,比次優預測高出25分。
  • 攻克生物學半世紀難題,「阿爾法摺疊」精準預測蛋白質三維結構
    科技日報北京12月1日電 人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。1994年,為更好預測和破解蛋白質三維結構,馬裡蘭大學結構生物學家約翰·穆爾特等人發起了CASP競賽,每兩年舉行一次。在今年的比賽中,「深度學習」團隊的「阿爾法摺疊」(AlphaFold)方法的中位分數為92.4(滿分100分,90分以上被認為預測方法可與實驗方法相媲美),預測最具挑戰性的蛋白質的平均得分為87,比次優預測高出25分。
  • 困擾科學家近半個世紀的蛋白質摺疊難題破了!這回又是AI揭的秘
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。今年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    機器之心報導機器之心編輯部生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了。11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。
  • DeepMind解決蛋白質摺疊難題!運算時間縮至數小時
    谷歌人工智慧部門DeepMind在預測蛋白質結構方面邁出了一大步。公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,並將解決問題的運算時間從數月縮短至數小時,這有助於加快藥物發現速度,有可能破解一個類似於繪製人類基因組的問題。
  • 生命密碼竟被谷歌AI破解,然後呢?| AI內參-虎嗅網
    DeepMind 研發的 AlphaFold 成功破解了生物學 50 年來的巨大難題「蛋白質摺疊」,這可能是 2020 年 AI 領域最振奮的消息,本期將圍繞這個案例梳理若干個行業發展態勢。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。比起這個成果,相信大家跟我一樣更感興趣的是,這個DeepMind究竟是個什麼神奇公司,可以破解50年來無人能破的世界級計算難題?為創建超人類AI而生,讓馬斯克極度關注DeepMind跟傳奇的谷歌X實驗室不同,它並非谷歌親身,而是最初於2010年在英國成立的一家AGI(通用人工智慧)公司。
  • 騰訊發布AI醫學進展:首次破解「禿頭元兇」SRD5A2的蛋白質結構
    DoNews 11月17日消息(記者 程夢玲)騰訊通過其官方技術傳播帳號「鵝廠技術派」發文稱,騰訊11月17日發布了一項重要AI醫學進展——禿頭元兇「SRD5A2」的蛋白質結構被首次破解。來自騰訊AI Lab的醫療AI專家,採用「從頭摺疊」的蛋白質結構預測方法,幫助解析了原子級別的SRD5A2高解析度晶體結構,並通過自研AI工具「 tFold」,進一步提升了蛋白質結構預測精度——這意味著,此前一直「黑盒式」存在的脫髮關鍵因子「II型5a還原酶(SRD5A2)」的三維結構終於被首次打開。
  • 虎嗅網在等什麼?
    今年3月5日,環球企業家雜誌刊發的文章,還特意問及虎嗅網的盈利問題。對此,創始人李岷回答,虎嗅已經有了廣告價值。那為何廣告至今未見上線?李岷心中,應該有著太多考量。正如她所說,虎嗅網的廣告,應該是超越了展示廣告的模式。這意味著櫥窗式的廣告,或許會缺席虎嗅網。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題。這一次,AlphaFold的「準確性」均分,直接從原本的60+/100,提升至了92.4/100。而過去十幾年,其他方法只能在40分左右徘徊。
  • 為探索程式設計師脫髮之謎,騰訊AI Lab研究蛋白質,還發了篇Nature
    此次,騰訊 AI Lab 採用「從頭摺疊」的蛋白質結構預測方法幫助解析了SRD5A2晶體結構,並通過自研AI工具「 tFold」有效提升了蛋白質結構預測精度。除了在SRD5A2結構中的應用,這套方法還可以拓展應用於蛋白質分子和病理學機制的相關研究中。
  • 騰訊AI Lab 聯合研究登上Nature子刊,獨創方法提升蛋白質結構預測...
    此次,騰訊 AI Lab 採用「從頭摺疊」的蛋白質結構預測方法幫助解析了SRD5A2晶體結構,並通過自研AI工具「 tFold」有效提升了蛋白質結構預測精度,在科研突破中發揮了核心作用。除了在SRD5A2結構中的應用,這套方法還可以拓展應用於蛋白質分子和病理學機制的相關研究中。
  • 「它將改變一切」,AI解決生物學50年來重大挑戰,破解蛋白質分子...
    機器之心報導機器之心編輯部生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了。11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 大難題告破,蛋白質3D結構可用AI解析—新聞—科學網
    DeepMind關於確定蛋白質3D形狀的深度學習技術,可能將在生物學界掀起一場新的變革。圖中藍色為計算機預測的蛋白質結構,綠色為實驗驗證結果,二者相似度非常高。(圖片來源:DeepMind) 生物學界最大的挑戰之一——蛋白質三維結構解析如今有望被破解。藉由深度學習程序AlphaFold,谷歌旗下人工智慧公司DeepMind能夠精確預測其三維形狀。 如果把生物體比作工地,那麼蛋白質就是工地上的磚頭。人體內有成千上萬種不同的蛋白質,每種蛋白質包括數十上百個胺基酸,這些胺基酸的順序決定著蛋白質的形狀和功能。