提到DeepMind公司,我們首先想到的可能是幾年前,它開發的人工智慧AlphaGo「橫掃」頂尖人類圍棋職業選手,變革了圍棋的思考方式。除了在棋類比賽中所向披靡以外,DeepMind也在加速科學發現上邁出了重要一步。今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。前基因泰克(Genentech)執行長Arthur D. Levinson博士稱這一成就為「劃時代的進步」(once in a generation advance)。
圖片來源:DeepMind Blog
生物學50年來的重大挑戰
我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些複雜的大分子由胺基酸鏈構成,而蛋白質的功能很大程度上決定於它的3D結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴於對蛋白質結構和功能的理解。
在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,耗時耗力,可能需要花上好幾年時間。1972年,諾貝爾化學獎得主Christian Anfinsen博士表示,理論上,蛋白質的胺基酸序列應該能夠完全決定它的3D結構。這一假說激發了50年來基於胺基酸序列,通過計算方法預測蛋白質3D結構的探索。
然而,這一領域面臨的重大挑戰是理論上,胺基酸鏈可能形成的蛋白質構象的數目是個非常龐大的天文數字。有學者估計,一個典型的蛋白質理論上可以形成10的300次方(1後面加300個0)個可能構象。然而在自然界,蛋白質能夠自發地在幾毫秒內,迅速摺疊成其中一個構象。用什麼樣的計算方法,才能從10的300次方的可能構象中找到那個正確的構象?
AlphaFold:生物界的「AlphaGo」
DeepMind的研究人員把摺疊好的蛋白質設想成一幅具有3D結構的「空間圖畫」(spatial graph),而胺基酸則是這副「空間圖畫」中節點和線條。基於神經網絡系統,他們設計了AlphaFold系統來解析這一空間圖畫的結構。它使用了進化相關的胺基酸序列,多序列對比(multiple sequence alignment, MSA)以及對胺基酸對(amino acid pairs)的評估來優化「空間圖畫「的描繪。
▲AlphaFold的神經網絡模型構架(圖片來源:DeepMind Blog)
研究人員使用蛋白質資料庫中接近17萬個不同的蛋白質結構,以及包含未知結構的蛋白序列資料庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold系統學習到了基於胺基酸序列,精確預測蛋白結構的能力。
與實驗結果相差無幾的蛋白質結構預測
國際蛋白質結構預測競賽(CASP)是由馬裡蘭大學的John Moult教授和加州大學戴維斯分校的Krzysztof Fidelis教授聯合創建的國際性比賽,旨在評估、促進和確認最佳的蛋白質結構預測手段。CASP選擇已經通過實驗手段解析,但是尚未公布的蛋白質結構作為目標,讓世界各地的研究團隊運用自己的計算手段預測它們的結構。一個獨立的團隊會評估預測結構與通過實驗手段解析的蛋白結構之間的差異。
2018年,DeepMind開發的第一代AlphaFold首次參加CASP並且拔得頭籌。而今年,新一代的AlphaFold在CASP中的表現更為驚豔。CASP使用稱為GDT的評分系統來評估預測蛋白結構的精確性。這個評分從0到100,如果評分達到90分以上,可以認為預測的結構與實驗手段獲得的結構相當。
▲2006-2020年CASP比賽中最佳蛋白摺疊預測系統的評分表現(圖片來源:DeepMind Blog)
在今年的CASP中,AlphaFold系統對所有蛋白靶點3D結構預測的中位GDT評分為92.4分。即便是針對最難解析的蛋白靶點,AlphaFold的中位GDT評分也達到了87.0分。在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創始人Moult教授表示,在有些情況下,已經無法區分兩者之間的區別是由於AlphaFold的預測出現錯誤,還是實驗手段產生的假象。
▲AlphaFold根據胺基酸序列預測的蛋白結構與實驗手段解析的結果幾乎完全重合(綠色,實驗結果;藍色,計算預測結果;圖片來源:DeepMind Blog)
對真實世界的影響
在今年早些時候,DeepMind已經利用這一系統預測了多種新冠病毒蛋白的結構。後續的實驗顯示,AlphaFold預測的新冠病毒Orf3a蛋白結構與冷凍電鏡解析的結構非常相似。
雖然,AlphaFold不見得會取代冷凍電子顯微鏡等其它實驗手段,但是DeepMind的研究人員表示,這一令人興奮的結果表明,生物學家們可以使用計算結構預測作為科學研究的核心工具之一。這一手段對於特定類型的蛋白來說可能尤為便利,例如膜蛋白一直非常難於結晶,因此很難用實驗手段獲得它們的結構。
而對於從事計算和機器學習研究的DeepMind團隊來說,AlphaFold的表現證明了AI在輔助基礎科學發現方面驚人的潛力。該團隊在公司發布的博文中表示,他們相信,AI將成為人類拓展科學知識前沿最有力的工具之一!