大家好,本周推薦一篇哈佛大神喬治丘奇的nature method文章。文中作者提出了一種提取蛋白質序列中特徵的深度學習方案,通過對海量蛋白質序列進行無監督學習,得到了一種蛋白序列的表示方法(類似於編碼方案),作者展示該表示方法包含了蛋白的功能和結構信息,可以在此基礎上針對不同問題進行蛋白工程的應用。
理性蛋白工程需要對蛋白質功能的全面理解。本文作者對無標籤的蛋白質序列應用深度學習,希望提煉蛋白序列的語義特徵並能包含進化、結構以及生物物理上的信息。作者展示了基於這種表示(UniRep)所開發的簡單模型可以推廣到全新的序列空間中。這套方案可以預測天然蛋白以及從頭設計蛋白的熱穩定性,在定量突變體功能的問題也可以達到SOTA工具的水平。同時UniRep在一些蛋白工程的應用中實現兩個數量級的效率提升。這是一種對蛋白質的基本特徵的通用總結,可以應用到各種蛋白質工程問題。
傳統的蛋白工程需要隨機突變和篩選,相對的,理性工程方法建立蛋白質性質的定量模型,使得可以在勢能面上進行更高效的採樣。這需要對蛋白質的結構和功能有全面可預測性的理解(而不只是簡單的總結已知結論)。儘管工程相關的屬性集合很大,蛋白質的功能背後共享了很多基本的特徵。現在的很多定量方法都會針對其中一個或多個子集。比如結構相關的方法通過建立生物物理模型、統計分析晶體結構以及進行分子動力學模擬,試圖研究自由能與功能之間的關係。很多數據驅動的共進化方法利用演化中的性質估計蛋白質功能與穩定性的似然度。這些方法對自然進行了簡化,從而限制了他們的普適應用能力。結構方法受限於結構數據的缺乏,以及在時空尺度對功能進行追蹤的困難,共進化方法在自然界沒有探索過的空間無能為力。
深度學習作為一個靈活的框架具有從原始數據提取特徵的能力。近來已經有很多取得成功的方法,比如Doc2Vec,但這些方法或者沒有用於普適的特徵學習,或者沒有進行充足的蛋白信息學問題的應用。而本文作者採用RNN網絡對約24million的UniRef50數據進行表示學習,並且不考慮結構和共進化信息,把序列轉化成固定大小的向量,這些向量可以代表蛋白的多種屬性,並可以用於各種蛋白工程的應用,從穩定性到功能到設計。
作者採用的RNN模型為mLSTM,採用1900個隱藏單元,在四塊K80顯卡上訓練了三周。結果發現20種胺基酸的編碼形成具有化學意義的聚類,可以很好的用t-SNE投影分開。不同物種的蛋白質組也在空間上形成一定程度的聚類,並且該性質在單獨的蛋白上依然保持。接著作者研究了UniRep對蛋白結構的表徵能力,發現通過對UniRep的表示訓練一個簡單的隨機森林模型得到SCOP分類,而在標註數據集HOMSTRAD以及OXBench上,UniRep向量的歐幾裡得距離表現與各種序列比對方法吻合的很好。最後作者還找到了一個神經元與蛋白質二級結構高度關聯,與alpha螺旋正相關而與beta片負相關,即UniRep自發的學到了二級結構的知識。
接著作者希望使用UniRep預測從頭設計蛋白的熱穩定性,他們使用BakerLab設計且測試過的從頭設計小蛋白數據集,在UniRep基礎上訓練模型,發現其表現超過目前最好的模型Doc2Vec,甚至好過Rosetta自己的打分。而在一個對GFP發光能力預測的測試中UniRep也表現出色,展示出這套方法的普適性。
看起來,UniRep作為蛋白序列的一種深度學習表示策略,可以廣泛的描述蛋白質的各種特徵,針對不同的蛋白質工程問題,都可以在其基礎上建立簡單的機器學習來進行建模。可以想見一大波基於序列的預測方法比如位點預測,PPI界面預測等follow up的工作會很快跟上。於是作者從github上下載了UniRep代碼也想分一杯羮,結果被告知顯卡內存不足……天下沒有免費的午餐,請謹慎嘗試。
文章作者:LY
文章連結:http://www.nature.com/articles/s41592-019-0598-1
文章引用:doi: 10.1038/s41592-019-0598-1