2009年諾貝爾化學獎得主拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」
阿爾法狗「生化版」來了,這次它出手的是蛋白質結構預測領域。這個版本名為「阿爾法摺疊」(AlphaFold),同樣來自谷歌旗下的「深度思維」(DeepMind)團隊。
在剛剛結束的國際蛋白質結構預測競賽(CASP)中,AlphaFold取得了革命性突破。在CASP的一系列測試中,AlphaFold獲得了92.4分,在最具挑戰的自由建模蛋白質測試中也獲得87分。
CASP的打分機制是全局距離測試(GDT),以0到100分來衡量,其意思是,設定閾值內,預測結果正確的百分比。按照業內觀點,如果競賽成績達到90分,其預測結果就可以媲美實驗室結果了。
全局距離測試。圖片:DeepMind網站視頻截圖
2005年,《科學》雜誌在創刊125周年之際,將預測蛋白質結構列為125個最具挑戰性的科學問題之一。
多年來,科學家只能通過核磁共振、X射線和冷凍電鏡技術來確定蛋白質結構。他們需要反覆試驗,經過持續數年的艱辛工作才能得到結果。同時這些實驗設備極為昂貴,造價高達數百萬美元。
德國普朗克發展生物學研究所科學家安德烈·盧帕斯(Andrei Lupas)花了10年來破解一種細菌膜蛋白,窮盡已有工具均無果,而AlphaFold僅花了半個小時就得到了結果。
《科學》雜誌引述盧帕斯看法稱:「他們不可能對此作弊,我不知道他們是怎麼做到的。」
DeepMind博客上的一則讚譽來自拉馬克裡希南(Venki Ramakrishnan,他是皇家學會會長、2009年諾貝爾化學獎得主)。拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」
經過數億年進化,蛋白質成為已知結構最為複雜、功能最為強大的化學分子。這個複雜的大分子由胺基酸鏈構成,就像珠子一樣排列成長鏈。這條長鏈會發生摺疊,指的是胺基酸串打結、捲曲成三維結構,使其發揮功能的過程。在每條蛋白質的長鏈上,每個胺基酸的位置決定了精確的三維結構。
1972年,諾貝爾化學獎得主克裡斯蒂安·安芬森(Christian B. Anfinsen)在獲獎感言中提出一個假設:理論上,胺基酸序列應該完全決定蛋白質的結構。此後近半個世紀,科學家們一直希望基於胺基酸序列來計算蛋白質的三維結構。
蛋白質結構示意圖。圖片:DeepMind
識別蛋白質的結構極為困難,每個蛋白質理論上存在的可能構象都是天文數字。1969年,美國分子生物學家利文索爾(Cyrus Levinthal)指出,未摺疊的多肽鏈有天文數量的自由度,比如一個由100個胺基酸殘基組成的多肽,其理論上的錯誤構象多達3的198次方。而最大的蛋白質,其胺基酸數量可多達上萬個。
然而每個蛋白質一般只形成一種穩定構象,通常是處於最低能量狀態的構象。
對於人工智慧而言,相比於其他機器讀片或圖案識別的工作,預測蛋白質三維結構的難度要高出多個等級。
從事蛋白質結構與功能預測的南開大學教授楊建益介紹,機器讀片處理的基本上都是二維圖像,但結構預測要解決的是從胺基酸一維序列到三維原子水平結構的構建問題。
預測蛋白質結構的複雜度與蛋白質大小有關。從事蛋白質設計研究的西湖大學研究員盧培龍說,蛋白質分子越大,複雜度越大,計算機預測的難度也就越大。
每屆國際蛋白質結構預測競賽中的最佳團隊成績曲線。圖片:DeepMind
AlphaFold的成績建立在全球數百名研究人員工作基礎上。DeepMind組建了一個由生物學家、物理學家和計算機科學家共同協作的團隊。關於它如何工作的細節將會在本周的CASP會議上公布。
今年的國際蛋白質結構預測競賽是第14屆。大多數參賽者來自學術機構,不過微軟和騰訊均有參加,其中有一半的參賽團隊採用了深度學習技術。
參賽AI做蛋白質結構預測的前提是需要在17萬種已知結構的蛋白質資料庫中進行訓練。如今已有1.8億種蛋白質得到了胺基酸序列。
相較2018年的第13屆競賽,Deepmind這次花了數周時間就得到了預測結果。根據往屆經驗,這一過程往往要花好幾個月。
DeepMind辦公室。圖片:DeepMind網站視頻截圖
他們很重要的一個策略是,研究人員將蛋白質結構看作空間圖,殘基是節點,接近的殘基以邊連接。
楊建益介紹,此次AlphaFold引入了注意力機制的深度學習,基於超強的硬體條件,相當於100-200個GPU(計算機圖形處理器),並以蛋白質結構資料庫中的所有結構數據來訓練模型。其他實驗室基本不具備這樣優越的硬體條件。
此次AlphaFold充分利用了宏基因組數據,通過端到端直接預測結構模型,同時對模型的質量進行預測,以選出最優的結構模型。與2018年的AlphaFold相比,最新的AlphaFold還在預測過程中加入了同源模板的信息。
兩年前的AlphaFold採用能量最小化的方式直接構建結構,後期也有不少團隊開發了類似的方法,例如楊建益課題組和華盛頓大學計算生物學教授大衛·貝克(David Baker)實驗室合作開發的trRosetta。然而最新的AlphaFold放棄了這類方法,而是把結構作為圖直接預測(殘基是圖的頂點,距離近的殘基通過邊連接)。
《經濟學人》雜誌引述該項目負責人約翰·姜普(John Jumper)的看法稱,2018年的AlphaFold已經達到了能力的極限。
盧培龍說,AlphaFold的突破是基於各方面綜合的進展而得到的,包括之前領域內科學家們的成果,也包括軟體、硬體的革新。
DeepMind團隊的首席科學家John Jumper。圖片:DeepMind
國際蛋白質結構預測競賽(CASP)誕生於1994年,每兩年舉行一屆。
每屆CASP會歷時數月。初始會發布共約100個目標蛋白或結構域,各參賽團隊有幾周時間提交結果。之後,一個獨立的科學家團隊會使用打分機制來評估這些預測。
評估人員對參賽團隊是不知情的。盧帕斯說,AlphaFold是以「427組」的名義參賽的,但其成績驚人,很多評估人員猜測該組是Deepmind團隊。
CASP發起人、馬裡蘭大學計算生物學家約翰·莫爾特(John Moult)表示,與上屆CASP相比,今年各團隊預測結構更加準確,但大部分進步都可以歸功於AlphaFold。
如今這個競賽成了蛋白質結構預測的金標準。最為重要的一點是,他們選擇正在實驗室進行解構的蛋白質作為試題,從而保證參賽者一直處於盲測中。
AlphaFold系統在本屆競賽中的平均成績是92.4分,也就是說,其誤差在1.6埃,大約是0.1納米,即1個原子大小。在最具有挑戰性的自由建模預測類別中,其成績是87分。
同樣的試題,其他團隊最好成績是75分,而AlphaFold系統能拿到90分。
AlphaFold自由建模類別中的兩個例子。左為RNA聚合酶,右為粘附蛋白,兩者成績均超過了90分。
DeepMind是一家英國公司,位於倫敦,成立於2010年。2015年,它被谷歌收購。
過去10年,DeepMind是在學術界、科技行業和醫療界蔓延的一場大變革中的關鍵角色之一。除了眾所周知的阿爾法狗(AlphaGo),DeepMind還涉足健康AI領域。AlphaFold的問世也是DeepMind發展的重要節點。
對於實驗室解構難度大的蛋白質而言,計算機預測就顯得尤為重要。比如膜蛋白對於理解信號跨膜傳導尤為重要,但因其難以結晶而多年來未得破解。
預測蛋白質結構還有助於一些疾病的理解。如鑑定失活蛋白質並推斷其相互作用方式。
這項工作還可推進藥物開發,使其更加精確。不過,專家們還是提醒說,這項技術只會影響科學家們識別新藥和分析疾病的漫長過程中的一小部分。目前尚不清楚DeepMind何時或如何與其他研究人員分享其技術。
原北京協和醫學院教授、腫瘤藥物開發者王晨光的觀點是,目前有些「讚譽」是Alphafold尚難以承受的。蛋白質是一類大分子,承擔細胞的多種功能,其三維結構並非單一結構,很多蛋白質「身段柔軟」,「隨遇而安」。
預測T1008蛋白質結構的動畫截圖。圖片:DeepMind
此外,蛋白質之間在細胞內形成複雜的網絡,也和外界保持著密切的溝通,而這些都是通過蛋白質的修飾和相互作用實現的,那麼這些對蛋白質動態三維結構預測的挑戰就更大。
Deepmind在其博客中坦言,其預測的結果並非都是完美的,還有諸多問題待解。如多種蛋白質如何形成複合物,蛋白質與DNA、RNA和其他小分子的相互作用,以及如何確定所有胺基酸殘基和側鏈的精確位置。
在接受《經濟學人》採訪時,約翰·姜普博士說,目前的AlphaFold版本還有更大的發展空間,該軟體的準確性還有待進一步提升。
楊建益對全現在說,這個工作只是技術上的進步,而非理論上的突破。不過使結構預測的準確率達到如此高的程度,確實是很大的進步,雖然不能說完全替代實驗,但可以大大加速結構解析過程,可喜可賀。
————
請微信搜索關注公眾號「全現在」,朋友圈的世界也會不一樣。