蛋白質的功能取決於其3D結構
來源:DeepMind
來自Google AI的DeepMind團隊開發的基於人工智慧神經網絡的名為AlphaFold的工具近日在今年的國際蛋白質結構預測競賽(CASP14)中拔得頭籌,並且大幅度領先第二名,成為「一騎絕塵」(圖1)。相關結果在11月30日CASP舉行的會議上予以總結和展示,AlphaFold預測的蛋白結構可以與使用X射線晶體衍射、核磁共振(NMR)或冷凍電鏡(CryoEM)等實驗技術解析的3D結構相媲美。在解決生物學最嚴峻的挑戰之一即從蛋白質的胺基酸序列確定蛋白質的3D結構方面取得了巨大飛躍,並且被Nature雜誌等多家媒體報導。
圖1 2006-2020年間CASP比賽中最佳蛋白摺疊預測的評分表現。
圖片源自DeepMind Blog.
「這是個巨大的進步」,馬裡蘭大學計算生物學家John Moult說。他於1994年與他人共同創立了CASP,致力於改進精確預測蛋白質結構的計算方法。「從某種意義上說,問題已經解決。」
蛋白質結構問題
蛋白質的工作機理和作用取決於其3D結構-即「結構決定功能」是分子生物學的公理。從胺基酸序列準確預測蛋白質結構的能力將對生命科學和醫學帶來巨大的好處。這將極大地加快了解細胞組成部分的工作,並使得更快、更先進的基於結構的藥物發現成為可能。在過去的幾十年中,我們已經利用X射線晶體衍射、核磁共振(NMR)或冷凍電鏡(CryoEM)等實驗手段確定了171588(PDB資料庫中最新收錄情況)個蛋白質的3D結構,但與自然界中幾千萬條已知基因序列相比,這些結構仍然只佔據了很小一部分,同時上述蛋白結構解析手段都比較耗時費力。為了填補這之間的巨大空隙,蛋白質結構預測一直是科學家們研究的熱點和努力解決的重大生物問題之一。
AlphaFold:生物界的「AlphaGo」
第一代的AlphaFold將深度學習方法應用於結構和遺傳數據來預測蛋白質中胺基酸對之間的距離(Distance Map),使得其在2018年CASP比賽中就已經嶄露頭角,並且在蛋白結構預測中使用該信息逐漸成為了大家的「共識」。
AlphaFold團隊試圖以這種方法為基礎繼續提高預測準確性,但最終陷入困境。因此,團隊最後改變了策略,並開發了一個AI網絡,該網絡結合了有關確定蛋白質如何摺疊的物理和幾何約束的其他信息。通過使用蛋白質資料庫中17萬多個不同的蛋白質結構,以及幾百個TB級別的包含未知結構的蛋白序列資料庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold AI網絡學習到了基於胺基酸序列精確預測蛋白結構的能力。最終使得整個網絡可以預測目標蛋白質序列的最終結構,而不僅僅是預測胺基酸之間的關係。
圖2 AlphaFold的神經網絡模型框架。
圖片源自DeepMind Blog.
在CASP14比賽中,AlphaFold預測的結構中有將近三分之二的質量與實驗結構相當(圖3)。在某些情況下,甚至尚不清楚AlphaFold的預測與實驗結果之間的差異是預測誤差還是實驗的偽像。有趣的是,AlphaFold預測的與通過核磁共振技術確定的實驗結構的匹配不佳,但這可能取決於原始數據如何轉換為模型的問題。同時也可能是由於該神經網絡還努力為蛋白質複合物或其中的單個結構建模,從而與其他蛋白質的相互作用扭曲了它們的形狀。
圖3 AlphaFold預測的蛋白結構與實驗解析的結果幾乎完全重合。
圖片源自DeepMind Blog.
John Moult說,大約有一半的團隊在總結他們的方法時抽象地提到了「深度學習」,這表明人工智慧正在對該領域產生廣泛的影響。這次CASP比賽中大多數來自學術團隊,但其中也不乏有微軟、騰訊這樣的AI大公司參與其中。
AlphaFold對真實世界的影響
DeepMind的聯合創始人兼執行長Demis Hassabis透露,該公司計劃使AlphaFold開源以便其他科學家可以使用它。2020年初,該公司發布了一些SARS-CoV-2蛋白的結構預測,但這些蛋白尚未通過實驗確定。加州大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種稱為Orf3a的蛋白質的預測最終與後來通過cryo-EM確定的蛋白質非常相似。他補充說:「他們的能力令人印象深刻。」
AlphaFold的性能也標誌著DeepMind的轉折點。該公司以使用AI來熟練掌握Go等遊戲而聞名,但其長期目標是開發能夠實現廣泛的類人類智能的程序。Hassabis說,應對巨大的科學挑戰,例如蛋白質結構預測,是AI可以實現的最重要的應用之一。
顯然,AlphaFold並不能夠輕易取代現有的蛋白質結構解析的實驗技術,但這也標誌著生物學家們可以使用該工具輔助他們對蛋白質結構的研究。我們有理由相信,計算與實驗手段的強強聯合將會是未來科學研究發展的主要方向之一。
參考文獻
『It will change everything』: DeepMind’s AI makes gigantic leap in solving protein structures. Ewen Callaway. Nature News, 30 November 2020. DOI: 10.1038/d41586-020-03348-4
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載