自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。
撰文 | 曹龍興(華盛頓大學蛋白質設計所博士後)、盧培龍(西湖大學特聘研究員)
不久前,谷歌公司旗下的DeepMind研發的AlphaFold2人工智慧系統在國際蛋白質結構預測競賽(CASP)上取得驚人的準確度,多數預測模型與實驗測得的蛋白質結構模型高度一致,引起了舉世矚目。實際上,蛋白質的結構不僅可以被預測,還可以被設計,二者互為「逆操作」。AlphaFold2在結構預測上的成功,也將惠及蛋白質設計領域。如今,以深度學習技術為代表的人工智慧無疑已經高度融入生物科學與技術領域,並且極大地推動了生物領域的發展。今天我們就來講講深度學習對蛋白質設計領域的影響。
什麼是蛋白質設計?
圖1. 胺基酸(amino acid)組成肽鏈,肽鏈摺疊成蛋白質(生物大分子),不同胺基酸組成的肽鏈會在空間中摺疊成各種形狀,從而行使不同的功能。
(來源:https://biocorpllc.com/there-is-a-lot-of-misinformation-about-protein-and-amino-acids/)
蛋白質是由胺基酸組成的長鏈條高分子化合物(圖1)。天然蛋白質基本上由天然胺基酸以一定的組合順序排列形成,序列長度不定。天然胺基酸共有20種,化學組成和性質各不相同,它們在序列之間的相互作用決定了蛋白質摺疊形成的形狀、結構,以及摺疊後的功能。這就像不同形狀的積木可以搭成不同形狀、不同功能的建築。例如我們熟知的血紅蛋白可以結合併輸送氧氣,新冠病毒的中和抗體(蛋白)可以保護人體免於病毒的攻擊——這些都是蛋白質的不同功能。人體中有兩萬多種基因用於編碼不同的蛋白質序列,如果考慮不同的剪接形式、修飾和突變,蛋白質的類別總數目有可能超過10萬。
通過編排蛋白質的胺基酸序列,使其能夠自發摺疊,形成所需要的三維結構,並具有一定的功能,這就是蛋白質設計了。蛋白質設計可以分為蛋白質的人工改造和蛋白質從頭設計。蛋白質的人工改造是基於現有蛋白質的結構進行一定的突變和進化。蛋白質的從頭設計,是完全基於生物物理與生物化學原理的——它不依賴現有的天然蛋白質結構,而是從頭搭建、設計具有全新結構和全新功能的蛋白質。如果拿建房子來類比的話,前者類似於對現有房屋的裝修改造,細節上有變化,整體框架往往變動不大;而後者就像是先從白紙上畫藍圖,設計房子的每個細節,最終搭建出個性化的建築。較之自然界演化的蛋白質,人工從頭設計蛋白質,可以幫助我們探索整個蛋白質序列摺疊空間,並在性能方面更好地滿足我們特定的需求(圖2)。蛋白質設計領域的巨擘David Baker領導的蛋白質設計研究所在這一領域取得了一系列奠基性的成果,並一直持續產生重要的突破與進展。
圖2. 利用蛋白質設計開發的可高效中和新冠病毒的人工蛋白質(點擊看大圖) 丨UW Institute for Protein Design
蛋白質設計是蛋白質結構預測的逆操作,兩者就像一枚硬幣的正反面:結構預測是從蛋白質序列出發,預測現有胺基酸序列能夠形成什麼樣的三維結構;蛋白質設計剛好相反,先確定我們需要什麼樣的三維結構,再找到能夠自發摺疊成所需三維結構的蛋白質序列。蛋白質設計與蛋白質結構預測圍繞的都是「蛋白質如何摺疊」這一根本問題。無疑,蛋白質結構預測水平的提高會大大加速蛋白質設計的過程。
深度學習如何影響蛋白質設計領域?
AlphaFold2在蛋白質結構預測中取得了巨大成功,將直接促進蛋白質設計的發展,並會催生出一系列基於深度學習的蛋白質設計新方法。
首先,深度學習算法可直接用於提高蛋白質設計的精度以及成功率。
當前設計蛋白質的基本思路是:通過編排胺基酸序列,使其可以自發摺疊成所要設計的結構,並使整個體系自由能最低,以保證該三維結構可以穩定存在。但是,由於蛋白質序列的排列組合空間極其巨大,且當前能量計算函數精度不足,所以蛋白質設計的成功率並不高。大部分計算機設計的全新胺基酸序列並不能摺疊成、或者只能近似摺疊成我們想要的結構。而要讓設計出的蛋白質具有期望的功能,必須保證三維結構上的高精準度。比如,只能通過特定離子的膜蛋白通道,以及可催化特定反應的酶,要成功設計這些新型蛋白質,活性位點的原子級別的精準度是關鍵之一。
囿於當前蛋白質設計領域的這些局限,設計者通常需要在實驗室中花費大量的時間與精力,通過高通量篩選以及定向進化的方法,從大量的序列中篩選出具有特定結構和高活性的蛋白質。
此時,AlphaFold2提供了一個非常好的結構驗證工具:通過高精度的結構預測,篩選出能摺疊成目標結構的序列,還可以優化胺基酸序列,使最終的三維結構與所要設計的蛋白質結構更加接近。這將減少大量繁瑣的實驗室篩選和優化環節,縮短蛋白質設計的時間,降低人力成本,提高設計成功率,並有可能設計出結構和功能更加複雜的蛋白質。新舊兩種方法的對比可見圖3。
圖3. 採用高通量篩選和定向進化方法的蛋白質設計流程(黃色箭頭)vs. 通過深度學習算法優化蛋白質設計流程(綠色箭頭) 丨作者作圖
另一方面,AlphaFold2也會啟發人們開發基於深度學習的蛋白質設計新方法 。
在AlphaFold之前的蛋白質結構預測領域,深度神經網絡主要是通過分析和提煉同源蛋白序列之間的進化信息,預測出胺基酸之間的距離關係,進而構建出胺基酸序列所對應的三維結構。但在2018年的國際蛋白質結構預測競賽(CASP13)上,AlphaFold近乎完美地預測了一個沒有任何同源序列的、全新設計的蛋白質的三維結構,極大地震撼了蛋白質設計科學家。這表明,深度神經網路並不僅僅從同源蛋白之間的進化信息獲取三維結構的特徵,而是可以直接理解蛋白質序列和結構之間的複雜關係。
AlphaFold2更進一步,它直接將蛋白質一級序列和三維結構通過一個精妙的深度神經網絡關聯了起來,這就像是DeepMind找到了一個優美的數學公式,可以將蛋白質的序列和結構用等號連接起來(圖4)。
圖4:通過深度神經網絡構建蛋白質序列與結構之間的關係丨作者作圖
AI蛋白質設計的成就與挑戰
目前,科學家已經使用深度學習在蛋白質設計領域做了很多嘗試和努力,並取得了許多令人興奮的結果。比如,通過學習自然界中蛋白質結構與序列之間的關係,深度神經網絡已經可以直接根據蛋白質的三維結構預測最佳的可摺疊成該結構的胺基酸序列。這將大大加速整個蛋白質設計的過程,甚至徹底替代傳統的、通過優化能量來設計胺基酸序列的過程。
另外一個令人興奮的結果是美國華盛頓大學David Baker實驗室開發的基於深度學習的蛋白質設計方法——神經網絡trDesign。通過不斷學習自然界中存在的蛋白質一級序列和三維結構,trDesign竟能自己頓悟、設想出全新的、自然界中不存在的蛋白質。經實驗驗證,這些蛋白質可以自發摺疊成非常穩定的三維結構。自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。如果添加一些限制條件,比如蛋白質-蛋白質結合位點信息或者酶催化活動中心信息,trDesign甚至可以創造出具有這些關鍵結構特徵的蛋白質。研究人員現在正運用實驗方法檢驗這些蛋白質是否具有相應的功能。在未來幾年時間內,深度學習在蛋白質設計中的應用將會產生更多令人興奮的、現在難以預測的結果與發現。
圖5. David Baker博士因其在蛋白質設計方面的貢獻獲得2021年生命科學突破獎。| by Ian Haydon
正如DeepMind所提到的,AlphaFold2目前仍有一定的局限性:蛋白質側鏈構象與位置信息不能十分精確;暫時不能對於多鏈蛋白質複合物、蛋白質-DNA(RNA)、蛋白質-小分子等複合物的結構進行預測;暫時不能預測蛋白質的多種結構狀態,動態過程缺失。這些問題也是蛋白質設計領域非常關心的。隨著利用深度學習的蛋白質結構預測方法進一步發展,這些方面將會取得進一步突破,促進人們設計更為複雜的,功能更加強大的新型蛋白質。
人工智慧,無限可能
AlphaFold2精確預測蛋白結構的消息傳出後,圈內圈外都在驚嘆深度神經網絡所取得的偉大成就,調侃結構生物學家失業的話題也熱鬧了一陣。這讓我們想起了七年前,冷凍電鏡技術取得革命性進展時,「以蛋白質結晶學為主要技術手段的結構生物學家是不是會失業」的話題。我們現在回頭看去,結構生物學家不但沒有失業,反而利用最新的技術手段做出了一個又一個重要發現,並破解了大量以前我們不可能看到的生命奧秘。
在科學史上,技術的革新與科學的突破互為因果,相輔相成,我們要做的就是擁抱科技的進步,並以此為基礎取得新的突破。以AlphaFold系列為代表的深度學習方法將給蛋白質設計領域帶來深遠影響,其中充滿了機遇與無限的可能性,我們對此無比期待。