編·譯作者 | 王建民
科學家們表示,谷歌用於預測蛋白質3D形狀的深度學習計劃有望改變生物學。
前言
蛋白質是生命的基石,負責細胞內發生的大部分事情。蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。
幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。但是,在過去的十年裡,低溫電鏡已經成為許多結構生物學實驗室青睞的工具。
科學家們長期以來一直想知道,蛋白質的構成部分:一串不同的胺基酸是如何映射出其最終形狀的許多扭曲和褶皺的。研究人員說,在20世紀80年代和90年代,使用計算機預測蛋白質結構的早期嘗試表現不佳。當其他科學家將這些方法應用於其他蛋白質時,發表的論文中對方法的崇高要求往往會被瓦解。
John Moult 和 Krzysztof Fidelis 兩位教授於 1994 年創辦了CASP,每兩年進行一次盲審,以促進蛋白質結構預測方面的新 SOTA 研究。該活動挑戰團隊預測已經用實驗方法解決的蛋白質的結構,但這些蛋白質的結構還沒有被公開。Moult認為這個實驗極大地改善了這一領域。
DeepMind已經取得了不俗的成績,展示了人工智慧已經學會了用超人的技術來玩各種複雜的遊戲。但DeepMind的聯合創始人Demis Hassabis一直強調,這些成功只是邁向更大目標的墊腳石。
DeepMind名為AlphaFold的系統在2018年CASP13上的表現讓該領域的許多科學家大吃一驚,長期以來,該領域一直是小型學術團體的堡壘,但其方法與其他應用AI的團隊大致相似。
AlphaFold的第一次迭代將被稱為深度學習的AI方法應用於結構和遺傳數據,以預測蛋白質中胺基酸對之間的距離。DeepMind公司的John Jumper說,在沒有調用人工智慧的第二步中,AlphaFold使用這些信息來提出蛋白質應該是什麼樣子的 "共識 "模型,他是該項目的領導者。該團隊試圖以這種方法為基礎,但最終還是碰壁了。因此,它改變了策略,並開發了一個人工智慧網絡,該網絡納入了關於決定蛋白質如何摺疊的物理和幾何約束的額外信息。Jumper說,他們還設置了一個更困難的任務:網絡不是預測胺基酸之間的關係,而是預測目標蛋白質序列的最終結構。這是一個複雜程度相當高的系統。
2020年11月30日在兩年一度的蛋白質結構預測挑戰賽中,AlphaFold表現優於其他約100個團隊,DeepMind和長期舉辦的 "蛋白質結構預測關鍵評估"(CASP)競賽的組織者宣布DeepMind的AlphaFold的最新版本AlphaFold2可以準確地預測蛋白質結構,已經破解了生物學的一個重大挑戰。
驚人的準確性
CASP歷時數月,目標蛋白或被稱為域的蛋白部分(共約100個)定期發布,各團隊有幾周時間提交預測結構。然後,一個獨立的科學家團隊會使用衡量預測蛋白與實驗確定的結構相似度的指標來評估這些預測。評估人員不知道誰在進行預測。
Lupas說,AlphaFold的預測是以 "427組 "的名義到達的,但它的許多條目的驚人準確性使它們脫穎而出。一些預測比其他預測更好,但近三分之二的預測在質量上與實驗結構相當。Moult說,在某些情況下,並不清楚AlphaFold的預測和實驗結果之間的差異是預測錯誤還是實驗的人為因素。
Moult說,AlphaFold的預測與一種名為核磁共振光譜的技術確定的實驗結構匹配度很差,但這可能歸結於原始數據如何轉換為模型。該網絡還難以對蛋白質複合物中的單個結構或群體進行建模,即與其他蛋白質的相互作用會扭曲它們的形狀。
Moult說:與上屆CASP相比,今年各團隊預測的結構更加準確,但大部分的進展可以歸功於AlphaFold。在被認為難度適中的蛋白質上,其他團隊的最佳表現通常在100分的預測準確度上得到75分,而AlphaFold在同樣蛋白上得到90分左右。
Moult說,大約有一半的團隊在總結他們的方法的摘要中提到了 "深度學習",這表明人工智慧正在對該領域產生廣泛的影響。其中大部分來自學術團隊,但微軟和中國科技公司騰訊也進入了CASP14。
紐約市哥倫比亞大學的計算生物學家、CASP參賽者Mohammed AlQuraishi渴望挖掘AlphaFold在比賽中的表現細節,並在12月1日DeepMind團隊展示其方法時,了解更多關於系統的工作原理。他強烈預感是,AlphaFold將是變革性的。
蛋白三維結構的快速獲取
AlphaFold預測幫助確定了一種細菌蛋白的結構,Lupas實驗室多年來一直在試圖破解這種結構。Lupas的團隊之前已經收集了原始的X射線衍射數據,但將這些類似羅夏的模式轉化為結構需要一些關於蛋白質形狀的信息。獲取這些信息的技巧以及其他預測工具都失敗了。Lupas說:427組的模型在半小時內就給了研究人員結構,而此前研究人員花了十年時間嘗試了所有的方法,"
DeepMind的聯合創始人兼執行長Demis Hassabis表示,該公司計劃讓AlphaFold變得有用,以便其他科學家可以採用它。該公司此前公布了AlphaFold第一版的細節,以便其他科學家複製這種方法。AlphaFold可能需要幾天的時間才能得出預測的結構,其中包括對蛋白質不同區域可靠性的估計。Hassabis補充說:研究人員剛剛開始了解生物學家會想要什麼,他認為藥物發現和蛋白質設計是潛在的應用。
2020年初,該公司發布了對少數SARS-CoV-2蛋白結構的預測,這些蛋白的結構尚未通過實驗確定。加利福尼亞大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種名為Orf3a的蛋白質的預測最終與後來通過冷凍EM確定的蛋白質非常相似,他的團隊在6月份發布了該結構。
真實世界的影響
AlphaFold不太可能關閉Brohawn等使用實驗方法解決蛋白質結構的實驗室。但這可能意味著,質量較低、更容易收集的實驗數據將成為獲得良好結構的全部需求。一些應用,如蛋白質的進化分析,將蓬勃發展,因為現有基因組數據的海嘯現在可能會被可靠地轉化為結構。
英國欣克斯頓歐洲分子生物學實驗室-歐洲生物信息學研究所的結構生物學家、過去的CASP評估員Janet Thornton說:這是一個使他開始認為在有生之年不會得到解決的問題。她希望這種方法能夠幫助闡明人類基因組中數千種未解決的蛋白質的功能,並理解人與人之間不同的致病基因變異。
AlphaFold的表現也是DeepMind的一個轉折點。該公司最著名的是揮舞人工智慧掌握圍棋等遊戲,但其長期目標是開發能夠實現廣泛的、類似人類的智能的程序。Hassabis說,應對宏大的科學挑戰,比如蛋白質結構預測,是其人工智慧能夠做出的最重要應用之一。他認為這是DeepMind所做的最重要的事情在現實世界的影響方面。
往期推薦
+
CellPress | 為計算蛋白設計革命做好準備
+
最終幻想: 無中生有的蛋白質從頭設計
+
Nat. Mach. Intell. | 快速的蛋白質結構從頭預測
+
Nature Methods | 深度學習蛋白質三維結構
+
AI對抗冠狀病毒爆發的11種方式
參考資料
1.『It will change everything』: DeepMind’s AImakes gigantic leap in solving protein structures. 2020.11.30.
doi: https://doi.org/10.1038/d41586-020-03348-4
2. The computational protein designers. Nature 571, 585-587 (2019)
doi: https://doi.org/10.1038/d41586-019-02251-x