Nat. Methods. | 蛋白序列的深度學習表示方法助力理性蛋白工程

2021-02-07 王初課題組

         大家好,本周推薦一篇哈佛大神喬治丘奇的nature method文章。文中作者提出了一種提取蛋白質序列中特徵的深度學習方案,通過對海量蛋白質序列進行無監督學習,得到了一種蛋白序列的表示方法(類似於編碼方案),作者展示該表示方法包含了蛋白的功能和結構信息,可以在此基礎上針對不同問題進行蛋白工程的應用。

        理性蛋白工程需要對蛋白質功能的全面理解。本文作者對無標籤的蛋白質序列應用深度學習,希望提煉蛋白序列的語義特徵並能包含進化、結構以及生物物理上的信息。作者展示了基於這種表示(UniRep)所開發的簡單模型可以推廣到全新的序列空間中。這套方案可以預測天然蛋白以及從頭設計蛋白的熱穩定性,在定量突變體功能的問題也可以達到SOTA工具的水平。同時UniRep在一些蛋白工程的應用中實現兩個數量級的效率提升。這是一種對蛋白質的基本特徵的通用總結,可以應用到各種蛋白質工程問題。

        傳統的蛋白工程需要隨機突變和篩選,相對的,理性工程方法建立蛋白質性質的定量模型,使得可以在勢能面上進行更高效的採樣。這需要對蛋白質的結構和功能有全面可預測性的理解(而不只是簡單的總結已知結論)。儘管工程相關的屬性集合很大,蛋白質的功能背後共享了很多基本的特徵。現在的很多定量方法都會針對其中一個或多個子集。比如結構相關的方法通過建立生物物理模型、統計分析晶體結構以及進行分子動力學模擬,試圖研究自由能與功能之間的關係。很多數據驅動的共進化方法利用演化中的性質估計蛋白質功能與穩定性的似然度。這些方法對自然進行了簡化,從而限制了他們的普適應用能力。結構方法受限於結構數據的缺乏,以及在時空尺度對功能進行追蹤的困難,共進化方法在自然界沒有探索過的空間無能為力。

        深度學習作為一個靈活的框架具有從原始數據提取特徵的能力。近來已經有很多取得成功的方法,比如Doc2Vec,但這些方法或者沒有用於普適的特徵學習,或者沒有進行充足的蛋白信息學問題的應用。而本文作者採用RNN網絡對約24million的UniRef50數據進行表示學習,並且不考慮結構和共進化信息,把序列轉化成固定大小的向量,這些向量可以代表蛋白的多種屬性,並可以用於各種蛋白工程的應用,從穩定性到功能到設計。

        作者採用的RNN模型為mLSTM,採用1900個隱藏單元,在四塊K80顯卡上訓練了三周。結果發現20種胺基酸的編碼形成具有化學意義的聚類,可以很好的用t-SNE投影分開。不同物種的蛋白質組也在空間上形成一定程度的聚類,並且該性質在單獨的蛋白上依然保持。接著作者研究了UniRep對蛋白結構的表徵能力,發現通過對UniRep的表示訓練一個簡單的隨機森林模型得到SCOP分類,而在標註數據集HOMSTRAD以及OXBench上,UniRep向量的歐幾裡得距離表現與各種序列比對方法吻合的很好。最後作者還找到了一個神經元與蛋白質二級結構高度關聯,與alpha螺旋正相關而與beta片負相關,即UniRep自發的學到了二級結構的知識。

        接著作者希望使用UniRep預測從頭設計蛋白的熱穩定性,他們使用BakerLab設計且測試過的從頭設計小蛋白數據集,在UniRep基礎上訓練模型,發現其表現超過目前最好的模型Doc2Vec,甚至好過Rosetta自己的打分。而在一個對GFP發光能力預測的測試中UniRep也表現出色,展示出這套方法的普適性。

        看起來,UniRep作為蛋白序列的一種深度學習表示策略,可以廣泛的描述蛋白質的各種特徵,針對不同的蛋白質工程問題,都可以在其基礎上建立簡單的機器學習來進行建模。可以想見一大波基於序列的預測方法比如位點預測,PPI界面預測等follow up的工作會很快跟上。於是作者從github上下載了UniRep代碼也想分一杯羮,結果被告知顯卡內存不足……天下沒有免費的午餐,請謹慎嘗試。

文章作者:LY

文章連結:http://www.nature.com/articles/s41592-019-0598-1

文章引用:doi: 10.1038/s41592-019-0598-1

相關焦點

  • Nat. Commun. | 序列到功能的深度學習框架加速工程核糖調節劑設計和優化
    研究人員開發的基於序列的計算工具能夠在實驗驗證之前預測RNA的二級結構,但當將其應用於多狀態閾值開關時,預測效果較差,並且耗時長。為了改進支點開關的設計和預測,作者從更廣泛的機器學習領域中汲取了靈感。作者構建了兩個互補且正交的深度學習模型來揭示支點設計規則,並且與Angenent-Mari合作設計了,與人類基因組元素,RNA病毒和隨機序列互補的支點數據集。
  • 自監督學習蛋白質序列, 自然語言處理助力蛋白質工程新飛躍
    這些表示可以有效用於編碼語義和句法。在自然語言處理成功的啟發下,研究蛋白質的專家也在嘗試著將自然語言處理的方法應用於蛋白質的結構預測中。那麼目前自然語言處理的前沿方法能夠如何改善蛋白質預測任務呢?讓我們來一探究竟。蛋白質對於生物的運轉必不可少,從運輸氧氣的血紅蛋白到人眼中的感光蛋白,從運輸離子的輸運蛋白到肌肉中的肌肉蛋白,它們的存在為生命造就多姿多彩的發展。
  • Nat. Methods|DeepC:使用兆鹼基規模的遷移學習預測3D基因組摺疊
    已有的用於預測3D基因組結構的機器學習和聚合物建模方法已獲得了不錯的結果,但沒有一種方法可以有效地整合各種解析度。使用鹼基對水平的信息的方法著重於基於窗口的預測,而能夠包含大量基因組背景的方法通過將其粗糙地分離為基因組特徵或聚合物珠來預測,因而降低了他們在鹼基對解析度上預測突變影響的能力。作者認為,要準確預測拓撲相關域(TAD),一個模型需要在較大基因組距離上捕獲序列模式。
  • Nat Methods:在不同物種中比較不同Cas9蛋白激活物的基因激活潛力
    為了這個目的,科學家們構建出眾多人工合成的基因激活性Cas9蛋白(編者註:能夠激活靶基因的Cas9蛋白,也譯作Cas9蛋白激活物)來研究基因功能,或者在潛在的治療方法中補償不充足的基因表達。美國哈佛大學維斯生物啟發工程研究所(Wyss Institute for Biologically Inspired Engineering)資深研究員、哈佛醫學院遺傳學教授、哈佛醫學院合成生物學平臺主管George Church博士說,「利用CRISPR/Cas9系統的各種基因改造版本選擇性激活基因的潛力讓很多科學家不知道哪個可購得的人工合成的基因激活性Cas9蛋白能夠符合他們的實驗目的
  • Nat Methods:​李棟/戴瓊海團隊開發深度學習超分辨顯微成像方法
    文章來源:BioArt近年來,基於卷積神經網絡(Convolutional Neural Network,CNN)的深度學習算法在單張自然圖像超分辨(Single Image Super Resolution,SISR)領域取得了巨大的進展,可將輸入的低解析度模糊圖像上採樣為細節清晰的高解析度圖像
  • 深度學習的時間序列模型評價
    非標籤數據學習表達代替手工設置特徵越來越感興趣。無監督特徵學習已經證明是成功的,在學習的特徵表現層的靜態數據集,且可與深度網絡相結合去創造更強大的學習模型。但是,特徵學習的時間序列數據必須去修改,為了調整時間序列數據的特徵,為了捕捉時間信息。非監督學習和深度學習接下來主要介紹用於無監督特徵學習模型和技術,用於建模時間關係。
  • Nat. Methods | 利用機器學習對蛋白質-肽相互作用和信號網絡進行生物物理預測
    Cunningham等人在「nature methods」上發表的文章「Biophysical prediction of protein–peptide interactions and signaling networks using machine learning」。
  • 深度學習助力冷凍電鏡技術
    深度學習助力冷凍電鏡技術 作者:小柯機器人 發布時間:2019/9/1 17:23:44 美國普渡大學Daisuke Kihara研究團隊利用深度學習技術,開發出能夠在中等解析度冷凍電鏡圖譜中檢測蛋白質二級結構的方法
  • 追光 | 深度學習助力超分辨顯微成像 (Nature Methods)
    近年來,基於卷積神經網絡(Convolutional Neural Network,CNN)的深度學習算法在單張自然圖像超分辨(Single Image Super Resolution,SISR)領域取得了巨大的進展,可將輸入的低解析度模糊圖像上採樣為細節清晰的高解析度圖像。
  • Nat Methods | 李棟/戴瓊海團隊開發深度學習超分辨顯微成像方法
    近年來,基於卷積神經網絡(Convolutional Neural Network,CNN)的深度學習算法在單張自然圖像超分辨(Single Image Super Resolution,SISR)領域取得了巨大的進展,可將輸入的低解析度模糊圖像上採樣為細節清晰的高解析度圖像。
  • 時間序列預測的深度學習:電力負荷案例
    在這項工作中,我們調查和實驗評估了應用於短期負荷預測問題的最相關的深度學習模型,為該領域最優解的標準化評估和識別鋪平了道路。重點介紹了三大類模型,即遞歸神經網絡、序列對序列結構和最近發展起來的時態卷積神經網絡。本文的主要貢獻總結如下:1.一個全面的評估。
  • 時間序列預測方法總結
    來自 | 知乎 作者 | BINGO Hong連結 | https://zhuanlan.zhihu.com/p/67832773編輯 | 深度學習這件小事公眾號
  • 【深度學習】利用深度學習進行時間序列預測
    github上提供了一個關於時間序列的很好的存儲庫:https://github.com/Jenniferz28/Time-Series-ARIMA-XGBOOST-RNN對於那些不熟悉RNN家族的人,把它們看作是具有記憶效應和遺忘能力的學習方法。
  • 【春節學AI炒股】深度學習引入信號處理技術,輕鬆分析股票等各種序列數據
    【新智元導讀】把深度學習的最新方法用來做股價預測可不可行?
  • 獨家 | ARIMA/Sarima與LSTM的時間序列數據集成學習(附連結)
    深度學習方法在時間序列預測中能夠識別諸如非線性度和複雜度等數據的結構和模式。關於新開發的基於深度學習的預測時間序列數據的算法,如「長短期記憶 (LSTM)」,是否優於傳統的算法, 仍然是一個開放的還待研究的問題。本文的結構如下:了解深度學習算法RNN、LSTM以及與LSTM集成學習如何提高性能。
  • 自然語言處理中的深度遷移學習——文本預訓練
    對比圖片、音頻、文本的特徵表示 預測方法(predictive methods),比如基於神經網絡的語言模型,試圖從其相鄰的單詞中預測單詞,觀察語料庫中的單詞序列如果我們有一個很好的文本數據的數字表示,它甚至捕捉到上下文和語義,我們可以將它用於各種各樣的下遊現實世界任務,比如情感分析、文本分類、聚類、摘要、翻譯等等。事實上,機器學習或深度學習模型能在這些數字和嵌入表示上運行,是編碼這些模型使用的文本數據的關鍵。
  • 序列比對原理
    假設用 q 表示不同來源計算的本格得分,用 C(i, j) 表示第 i 行第 j 列格得分,用 S(i, j) 表示本格匹配得分,用 g 表示 gap 的懲罰分數。那麼 3 種方法本格得分計算公式分別是:    第一行和第一列比較特殊,格子得分只能來源於一個方向,所以從第一行第一列格子分數為 0 可以先把第一行和第一列其餘得分先計算。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫學研究都可以被轉換成計算公式。然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。
  • Nature Methods | 蛋白-蛋白相互作用-鄰近標記(綜述)
    此外,將親和純化應用於缺乏高親和力抗體的不溶性靶標或蛋白誘餌更具有挑戰性。PPI 是各種細胞過程的基礎。識別PPI的傳統方法包括酵母-雙雜交(Y2H)篩查和免疫沉澱,加上質譜(IP-MS)。酵母雙雜交和其他蛋白質互補測定法代表了另一種在活細胞中定位蛋白質-蛋白質,蛋白質-RNA和蛋白質-DNA相互作用的方法。 這些方法通常具有很高的通量,可以篩選成千上萬的潛在分子相互作用。
  • Nat Rev | 生物學家機器學習指南
    倫敦大學學院David T. Jones教授團隊在國際知名期刊Nat Rev Mol Cell Biol在線發表題為「A guide to machine learning for biologists」的綜述論文。「機器學習」泛指將預測模型擬合到數據或識別數據中的信息分組的過程。