谷歌開發AI系統預測蛋白結構取得革命性突破

2020-12-02 中大唯信

蛋白質的功能取決於其3D結構

來源:DeepMind


來自Google AI的DeepMind團隊開發的基於人工智慧神經網絡的名為AlphaFold的工具近日在今年的國際蛋白質結構預測競賽(CASP14)中拔得頭籌,並且大幅度領先第二名,成為「一騎絕塵」(圖1)。相關結果在11月30日CASP舉行的會議上予以總結和展示,AlphaFold預測的蛋白結構可以與使用X射線晶體衍射、核磁共振(NMR)或冷凍電鏡(CryoEM)等實驗技術解析的3D結構相媲美。在解決生物學最嚴峻的挑戰之一即從蛋白質的胺基酸序列確定蛋白質的3D結構方面取得了巨大飛躍,並且被Nature雜誌等多家媒體報導。

圖1 2006-2020年間CASP比賽中最佳蛋白摺疊預測的評分表現。

圖片源自DeepMind Blog.


「這是個巨大的進步」,馬裡蘭大學計算生物學家John Moult說。他於1994年與他人共同創立了CASP,致力於改進精確預測蛋白質結構的計算方法。「從某種意義上說,問題已經解決。」


蛋白質結構問題

蛋白質的工作機理和作用取決於其3D結構-即「結構決定功能」是分子生物學的公理。從胺基酸序列準確預測蛋白質結構的能力將對生命科學和醫學帶來巨大的好處。這將極大地加快了解細胞組成部分的工作,並使得更快、更先進的基於結構的藥物發現成為可能。在過去的幾十年中,我們已經利用X射線晶體衍射、核磁共振(NMR)或冷凍電鏡(CryoEM)等實驗手段確定了171588(PDB資料庫中最新收錄情況)個蛋白質的3D結構,但與自然界中幾千萬條已知基因序列相比,這些結構仍然只佔據了很小一部分,同時上述蛋白結構解析手段都比較耗時費力。為了填補這之間的巨大空隙,蛋白質結構預測一直是科學家們研究的熱點和努力解決的重大生物問題之一。


AlphaFold:生物界的「AlphaGo」

第一代的AlphaFold將深度學習方法應用於結構和遺傳數據來預測蛋白質中胺基酸對之間的距離(Distance Map),使得其在2018年CASP比賽中就已經嶄露頭角,並且在蛋白結構預測中使用該信息逐漸成為了大家的「共識」。


AlphaFold團隊試圖以這種方法為基礎繼續提高預測準確性,但最終陷入困境。因此,團隊最後改變了策略,並開發了一個AI網絡,該網絡結合了有關確定蛋白質如何摺疊的物理和幾何約束的其他信息。通過使用蛋白質資料庫中17萬多個不同的蛋白質結構,以及幾百個TB級別的包含未知結構的蛋白序列資料庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold AI網絡學習到了基於胺基酸序列精確預測蛋白結構的能力。最終使得整個網絡可以預測目標蛋白質序列的最終結構,而不僅僅是預測胺基酸之間的關係。

圖2 AlphaFold的神經網絡模型框架。

圖片源自DeepMind Blog.


在CASP14比賽中,AlphaFold預測的結構中有將近三分之二的質量與實驗結構相當(圖3)。在某些情況下,甚至尚不清楚AlphaFold的預測與實驗結果之間的差異是預測誤差還是實驗的偽像。有趣的是,AlphaFold預測的與通過核磁共振技術確定的實驗結構的匹配不佳,但這可能取決於原始數據如何轉換為模型的問題。同時也可能是由於該神經網絡還努力為蛋白質複合物或其中的單個結構建模,從而與其他蛋白質的相互作用扭曲了它們的形狀。

圖3 AlphaFold預測的蛋白結構與實驗解析的結果幾乎完全重合。

圖片源自DeepMind Blog.


John Moult說,大約有一半的團隊在總結他們的方法時抽象地提到了「深度學習」,這表明人工智慧正在對該領域產生廣泛的影響。這次CASP比賽中大多數來自學術團隊,但其中也不乏有微軟、騰訊這樣的AI大公司參與其中。


AlphaFold對真實世界的影響

DeepMind的聯合創始人兼執行長Demis Hassabis透露,該公司計劃使AlphaFold開源以便其他科學家可以使用它。2020年初,該公司發布了一些SARS-CoV-2蛋白的結構預測,但這些蛋白尚未通過實驗確定。加州大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種稱為Orf3a的蛋白質的預測最終與後來通過cryo-EM確定的蛋白質非常相似。他補充說:「他們的能力令人印象深刻。」


AlphaFold的性能也標誌著DeepMind的轉折點。該公司以使用AI來熟練掌握Go等遊戲而聞名,但其長期目標是開發能夠實現廣泛的類人類智能的程序。Hassabis說,應對巨大的科學挑戰,例如蛋白質結構預測,是AI可以實現的最重要的應用之一。


顯然,AlphaFold並不能夠輕易取代現有的蛋白質結構解析的實驗技術,但這也標誌著生物學家們可以使用該工具輔助他們對蛋白質結構的研究。我們有理由相信,計算與實驗手段的強強聯合將會是未來科學研究發展的主要方向之一。


參考文獻

『It will change everything』: DeepMind’s AI makes gigantic leap in solving protein structures. Ewen Callaway. Nature News, 30 November 2020. DOI: 10.1038/d41586-020-03348-4

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology


中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

相關焦點

  • DeepMind稱AI能精確預測蛋白摺疊 將加速藥物設計
    蛋白質通過無規則的捲曲摺疊構成特定的三維結構,並決定蛋白質的功能,因此如果人們能夠預測蛋白質摺疊的形狀和結構,那麼將對於治療癌症和阿爾茨海默病等疾病的藥物研發起到關鍵作用。為此,人類已經挑戰數十年。近期,藉助人工智慧技術,由谷歌投資的英國AI研究實驗室DeepMind宣布在該領域取得重要突破。
  • 谷歌AI可預測新冠病毒蛋白質結構 或有助於遏制全球爆發
    谷歌的英國研究團隊剛剛使用DeepMind的新深度學習系統AlphaFold預測新型冠狀病毒的蛋白質結構。該系統使用被稱為「自由建模」的機器學習技術,當沒有類似的蛋白質結構可用時,它可以自主生成新的蛋白質結構。據最新統計,世界各地的科學家都在竭盡全力了解這種新病毒,DeepMind的發現希望減少確定病毒蛋白質結構的時間。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智慧系統在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手傳統上,蛋白質結構預測可以分成基於模板和從頭預 測,但是AlphaFold2隻用同一種方法--機器學習,對幾乎所有的蛋白質都預測出了 正確的拓撲學的結構,其中有大約2/3的蛋白質精度達到了結構生物學實驗的測量 精度。說他們接近解決了這個問題,這個說法沒錯,至少是在單結構域的蛋白結構 來講是這樣的。谷歌這次為什麼能夠取得如此大的成功?這個首先是與它們擁有強大的人力和計算 資源有關。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    原創 顏寧、張陽等 返樸12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智慧系統在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美
  • 谷歌AI可預測新冠病毒蛋白結構,有助於研究人員阻止其全球爆發
    這個位於英國的團隊剛剛使用了DeepMind的新深度學習系統,IT之家了解到,該系統使用一種稱為「自由建模」的機器學習技術,當沒有相似的蛋白質結構可用時,幫助它預測蛋白質結構。DeepMind的發現希望減少確定病毒蛋白質結構的時間。
  • AI精準預測蛋白質結構,結構生物學何去何從? | 返樸
    顯然是個大突破,這是從1969年第一篇Journal of Molecular Biology論文用比較建模方法預測蛋白質結構的51年來的真正突破。當然,他們不訓練contact map,直接訓練結構中的原子坐標,這是新的想法,以前沒人成功過。我很高興他們取得了突破,因為證明了蛋白質結構預測問題是可以解決的,我在15年前的PNAS論文上提出,用PDB庫中的模板在理論上可以解決這個問題,他們這次用暴力實現了。 但基於商業或其它考慮,他們還不會公開代碼或server,所以要依靠我們科學界來做出讓公眾受益的方法。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。
  • DeepMind正在開發可以利用基因序列預測蛋白質結構的新AI工具
    打開APP DeepMind正在開發可以利用基因序列預測蛋白質結構的新AI工具 電子發燒友 發表於 2018-12-04 16:09:28
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。 在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • 谷歌DeepMind 開發新 AI 工具:利用基因序列預測蛋白質結構
    北京時間12月4日早間消息,據美國《麻省理工科技評論》(MIT Technology Review)報導,谷歌旗下DeepMind開發一個新AI工具,它可以利用基因序列預測蛋白質結構。
  • Science發布2020年度科學突破!新冠疫苗、AI預測蛋白結構、CRISPR...
    《科學》雜誌第一篇關於新冠的文章是病毒刺突Spike蛋白的電鏡結構,從投稿到接受最後發表僅僅用了9天(投稿到接受僅用9天!Science率先發布新冠病毒刺突蛋白電鏡結構)。在疫情爆發的一年之內,萬眾期盼的多個疫苗完成了三期臨床,逐步開展了普通人群的大規模接種工作。按慣例,《科學》雜誌評選了本年度十個重大科學突破,第一個就是帶給人類希望的疫苗成功研製!
  • 谷歌AI可準確預測化學分子性質
    近期,谷歌(Google)的博客上刊登了一篇文章,介紹了谷歌在人工智慧與機器學習領域取得的最新進展。在這篇文章中,谷歌與DeepMind以及瑞士巴塞爾大學(University of Basel)一同做出了突破——利用機器學習的方法,他們能準確預測分子的性質!這對於藥物發現來說,有著重要的裡程碑意義。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。 這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。 第二代AlphaFold做了什麼? 在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。
  • 2021年軟體開發趨勢預測
    對於軟體開發行業來說,2020 年是意義重大的一年,許多領域都取得了重大突破。本文將基於來自認證來源的數據、圖表和事實,根據過去來預測未來。對於軟體開發行業來說,2020 年是意義重大的一年,在許多領域都取得了重大突破。COVID-19 顯著加快了數位化轉型,而且 2021 年的數位化轉型趨勢會更明顯。
  • 生化版阿爾法狗出手蛋白質結構預測,生命密碼的馬奇諾防線崩了
    阿爾法狗「生化版」來了,這次它出手的是蛋白質結構預測領域。這個版本名為「阿爾法摺疊」(AlphaFold),同樣來自谷歌旗下的「深度思維」(DeepMind)團隊。在剛剛結束的國際蛋白質結構預測競賽(CASP)中,AlphaFold取得了革命性突破。在CASP的一系列測試中,AlphaFold獲得了92.4分,在最具挑戰的自由建模蛋白質測試中也獲得87分。
  • 谷歌DeepMind又在全球賽事中擊敗人類!AI成功預測蛋白質3D結構
    1959 年佩魯茨和肯德魯對血紅蛋白和肌血蛋白進行結構分析,解決了三維空間結構,並因此獲得 1962 年諾貝爾化學獎。之後豪普特曼和卡爾勒建立了應用 X 射線分析的以直接法測定晶體結構的純數學理論,在晶體研究中具有劃時代的意義,特別在研究大分子生物物質如激素、抗生素、蛋白質及新型藥物分子結構方面起了重要作用,因此而獲得 1985 年諾貝爾化學獎。
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    近日,谷歌在倫敦的研發中心DeepMind, 宣布在幫助完成僅基於基因序列預測蛋白質的三維結構的複雜任務方面,取得重大突破。它在一篇關於使用AI來預測蛋白質如何摺疊的項目的博客文章中寫道: 「AlphaFold [DeepMind的AI系統]生成的蛋白質的三維模型比以前的任何模型都更準確,在生物學的一個核心挑戰上取得重大進展。「DeepMind表示,其方法依賴於多年前使用大數據來預測蛋白質結構的研究。
  • 騰訊AI Lab 聯合研究登上Nature子刊,獨創方法提升蛋白質結構預測...
    此次,騰訊 AI Lab 採用「從頭摺疊」的蛋白質結構預測方法幫助解析了SRD5A2晶體結構,並通過自研AI工具「 tFold」有效提升了蛋白質結構預測精度,在科研突破中發揮了核心作用。除了在SRD5A2結構中的應用,這套方法還可以拓展應用於蛋白質分子和病理學機制的相關研究中。
  • 21個2021年軟體開發趨勢預測
    導讀對於軟體開發行業來說,2020 年是意義重大的一年,許多領域都取得了重大突破。本文將基於來自認證來源的數據、圖表和事實,根據過去來預測未來。如果你想要了解軟體行業在 2021 年會有哪些變化,請閱讀本文,本文涵蓋了雲、邊緣計算、容器、量子、區塊鏈、人工智慧、深度學習、批處理、流式處理、資料庫、編程、軟體架構、Web、App、低代碼、無代碼等重要方向。
  • 谷歌開發出的深度學習算法模型,可用於預測DNA鏈等亞細胞結構的變化
    不同於以往,這裡的研究成果不斷,背後的首要功臣是谷歌研究團隊開發的3D細胞結構模型的算法。繼Alpha Go之後,谷歌研究團隊又一「黑科技」秒殺人類。而隨著科技的發展,深度學習成為圖像處理領域的最佳利器,故而許多研究人員開發出了算法,以用於處理活細胞等微生物螢光圖像:如當科學家希望利用深度學習來分析基因組中的基因突變,他們先將DNA鏈中的鹼基轉換為計算機可以識別的圖像,然後將已知的DNA突變片段信息與基因組信息一起用於訓練神經網絡系統,隨後用機器學習進行預測和數據分析。