自監督學習蛋白質序列, 自然語言處理助力蛋白質工程新飛躍

2021-02-18 將門創投


隨著BERT等自然語言模型取得的突破性進展,人們逐漸認識到大模型可以在無標籤數據上學習語言的強大表示。這些表示可以有效用於編碼語義和句法。在自然語言處理成功的啟發下,研究蛋白質的專家也在嘗試著將自然語言處理的方法應用於蛋白質的結構預測中。那麼目前自然語言處理的前沿方法能夠如何改善蛋白質預測任務呢?讓我們來一探究竟。蛋白質對於生物的運轉必不可少,從運輸氧氣的血紅蛋白到人眼中的感光蛋白,從運輸離子的輸運蛋白到肌肉中的肌肉蛋白,它們的存在為生命造就多姿多彩的發展。理解蛋白質的結構和損壞機理不僅能夠讓我們對疾病的分子學機理有著更好的了解,更能幫助我們找到更好的方式對抗疾病!蛋白質除了是維生的必要物質,更是生產各種抗體和疫苗的有效方式,同時還可以通過個性化改造讓細菌具有分解廢物的能力,生產出具有去汙功效的酶。如果能夠更深入地理解蛋白質,更多的新功能就可以被不斷開發出來造福人類。蛋白質的本質是由一系列共價鍵銜接起來的胺基酸分子鏈。構建蛋白質的胺基酸有20種,通過的特定序列的空間構型形成了複雜的蛋白質結構。理論上這種離散的序列被稱為蛋白質的一級結構。圖中展示了由絲氨酸、組氨酸和半胱氨酸分子構成的蛋白質片段表示。

但在細胞中,蛋白質是一種複雜的三維大分子結構,這種三維結構對於蛋白質生物特性的理解具有關鍵的作用。在更複雜的空間構型中,蛋白質的局部幾何構型則被稱為二級結構,使得蛋白質的不同區段表現出不同的行為特徵。而整個蛋白質的全局結構則被稱之為三級結構,它決定蛋白質的整體行為。

對於一個特定的蛋白來說,它的胺基酸序列可以表示成下面的樣子:

而研究的目標則在於從基礎的序列中恢復出整個蛋白質的三維空間構型,也就是說需要確定每一個胺基酸分子的三維空間坐標,這對於蛋白質的生物功能十分重要,上面的序列對應的結構如下圖所示:

這是生物化學中最具挑戰的問題,也是最為複雜的預測問題之一。

如果通過監督學習的方式來解決這一問題,我們就需要數據標籤,而且是十分龐大的數據標籤。針對蛋白質的空間構型預測,我們需要對蛋白質分子中的每一個胺基酸進行空間坐標位置標記。對一個蛋白質分子進行標記已經是很複雜的工作了,何況需要標記非常龐大的數量。人工標記的數據量遠遠落後於新蛋白質產生的速度。

那麼除了監督學習我們還能如何解決這一問題呢?

擁抱無標籤數據

雖然無法標記數量巨大的數據集,但是好消息是我們目前擁有龐大的無標籤蛋白質序列數據集。如果我們可以從中抽取出有用的信息,這將為我們提供強有力的信息源。

目前使用這些無標籤數據集的常用範式主要是序列比對方法。利用已知的蛋白質去資料庫中進行掃描,找出與之近親的序列。在最簡單的情況下,如果我們找到了已知結構的近親序列,可以將近親結構的匹配位置映射到對應的已知序列上去。

綠色螢光蛋白家族的部分序列比對。維多利亞管發光水母不是唯一一種能夠產生螢光蛋白的的生物,還包括了 sea anenomes海葵, lancelets文昌魚, and potato fungus馬鈴薯真菌.上圖中展示了不同的近親序列結構,其中最左側是序列ID,隨後代表序列結構位置的表示,顏色表示不同的胺基酸族,紫色代表疏水胺基酸,紅色代表帶電胺基酸、綠色為不帶電胺基酸。點和線代表了序列中的間隔位置。胺基酸序列的進化關係意味著什麼呢?進化本質上一種約束條件,如果某種改變造成了蛋白質結構損壞,生物也會因為失去蛋白質的對應功能而受損。所以研究人員希望從近親序列中找到胺基酸中哪些進化位置是完全可以自由變化的,哪些位置是部分約束的,哪些位置是完全被約束的。這種對於蛋白質家族的表示成為多重序列比對,是蛋白質結構預測中的關鍵輸入。進化模型為蛋白質結構預測提供了良好的理論基礎,但要如何有效的抽取序列特徵呢?我們需要更強有力的工具!這些生物學的中蛋白質序列概念讓我們不禁想到了自然語言處理的方法,而且最近利用自監督預訓練使得自然語言得到了巨大的突破。那麼是不是有可能通過自然語言處理的方式來學習出蛋白質序列的表達,從而預測可能的蛋白質進化結構,為科研人員指明實驗的方向,增強蛋白質的功能呢?讓我們來看一個自然語言處理的例子,如果數據集中有一個句子:Let's stick to improvisation in this skitLet's stick to [?] in this skit

模型將輸出針對不同詞彙輸出概率,並利用交叉熵來懲罰預測錯誤詞彙的模型。在觀察了大量的句子序列後,像谷歌BERT和OpenAI的GPT2等模型就能學習到序列的有效特徵,並為後續任務提供語言的有效表達。

我們可以將同樣的方法應用到蛋白質序列上,並在胺基酸的水平進行序列特徵抽取,下面是綠色螢光蛋白的序列

MSKGEELFTGVVPILVELDGDVNGHKFSVS...MSKGE?LFT?VVP?ILVELDGDV?GHKFSVS...

當我們得到預訓練模型後,就可以將特定任務的模型堆疊在其頂部。同樣的方法可以訓練出蛋白質序列的預訓練模型,並基於此進行結構預測。

為什麼這種方法可以學習出蛋白質的結構特徵呢?這主要源於語言學的假設:自然的蛋白質存在於一個可學習的流形上,這個流形在進化壓力下十分傾向於復用多尺度的元件。通過觀察大量的序列,模型可以學習到蛋白質如何構建的隱含過程,包括序列中的復用比例,不同位置間的交互以及進化出現的區域,這將提供巨大的幫助。

自監督學習為研究人員提供了一種在不同蛋白質族間實現信息遷移的有效方式,與比對方法相比,自監督模型可以充分利用其他蛋白質家族的部分信息來提供有效的特徵預測。近年來很多研究組從多個角度對這一問題進行了嘗試,為了評測這些不同的自監督方法對應蛋白質預測的效果,研究人員提出了一個稱為TAPE尺度基準測試標準來對他們的優劣進行比較。

使用自監督學習預測有效的蛋白質結構

在生物學中綠色螢光蛋白(GFP)為研究人員提供了有效的生物標記方法,但人們一直想獲得發光強度更高的螢光蛋白。如果對其分子結構進行改性,絕大多數都會造成蛋白質失活,只有極少部分可以保持蛋白質功能。如果可以知道哪些改變會造失活,就可以為研究人員提供更為明確的改性方向,大幅度提高蛋白質工程的效率。

不同擾動下GFP分子的變化情況,與原始分子結構相距越遠找到合適結構的概率就越小。

對於GFP來說,其每個位置有將近二十種可能的變換,那麼僅僅五個位置的變化將會帶來超過三百二十萬種可能性,我們無法在實驗室中合成那麼多種結構。可行的方法是利用鄰近的蛋白質變體訓練模型,並通過目標函數來優化尋找更多可能的螢光變體。通過對這些可能的變體進行排序來指導實驗室進行高效的合成實驗。

在充分的訓練後模型可以學習到蛋白質中每個胺基酸的嵌入,通過對這些嵌入矢量進行處理就可以得到變體的全局表示。下圖展示了綠色螢光蛋白可能變體的分布,並用顏色表示的發光的可能性。

上圖中清晰的顯示了發光和不發光的變體,並且預測準確率相比原始方法提高了近五倍的水平。同時可以預測出每個位置的重要程度。通常低熵位置的變化會造成蛋白質的損壞,但本文提出的模型提供了別樣的視角,除了熵值之外,不同位置間的穩定相關性也是蛋白質特性的重要度量。

除此之外,這一模型還可以用於蛋白質中序列的接觸預測

接觸預測主要任務是預測某一對胺基酸是否接觸(3D空間中距離小於<8Å)的0/1預測。精確的接觸預測為三維結構建模提供了有效的全局信息。更為清晰的接觸預測意味著更為可靠的預測。

上圖顯示了基於預訓練模型的蛋白質位置預測更為清晰。但需要指出的是,如果使用提前計算好的比對特徵(下圖中)作為輸入,得到的結果由於利用LSTM(下圖右)方法預測出的接觸圖,其中原因還有待進一步研究,但這也表明這一領域還有這巨大的提升空間。

機器學習對於蛋白質的有效預測是AI與生物有效結合的最佳例子之一,不僅僅會為世界帶來十分深刻的影響,同時需要解決一系列實際挑戰來促進機器學習本身的發展。蛋白質作為變長的長序列,同時會在三維空間上摺疊變換,並於在不同胺基酸間發生相互作用,是一種十分複雜的數據形式。

隨著生物學的發展,越來越多的蛋白質被採集、觀察,機器學習應用於蛋白質的時機已經成熟,將會湧現出越來越多優秀的工作,讓我們不斷加深對於蛋白質這一生命原料的深刻理解和認識。

如果想了解更多細節,請參看論文TAPE,並上手嘗試代碼合成自己的新蛋白吧:

https://www.biorxiv.org/content/biorxiv/early/2019/06/20/676825.full.pdfhttps://github.com/songlab-cal/tape

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

    

 

將門創投

讓創新獲得認可!

微信:thejiangmen

bp@thejiangmen.com

相關焦點

  • . | 蛋白序列的深度學習表示方法助力理性蛋白工程
    文中作者提出了一種提取蛋白質序列中特徵的深度學習方案,通過對海量蛋白質序列進行無監督學習,得到了一種蛋白序列的表示方法(類似於編碼方案),作者展示該表示方法包含了蛋白的功能和結構信息,可以在此基礎上針對不同問題進行蛋白工程的應用。        理性蛋白工程需要對蛋白質功能的全面理解。
  • 把蛋白質序列編碼成樂譜,會奏出怎樣的音樂?
    Markus Buehler是這篇論文的作者之一,他說,在聽了這些旋律後,他已經可以分辨出具有特定結構功能的蛋白質的胺基酸序列。學習蛋白質的語言這項研究的概念是為了更好地理解蛋白質以及它們的變體。通過將蛋白質的語言翻譯成另一種我們熟悉的形式,可以對它們所蘊含的不同方面的信息在不同的維度(例如音高、音量和時長)進行編碼。研究人員希望能獲取到關於不同的蛋白質家族及其變化之間的關係的新見解,並以此作為一種探索這些蛋白質的結構和功能的許多可能的調整和修飾。與音樂一樣,蛋白質的結構也是分層的,在不同的長度或時間尺度上會有不同的結構層次。
  • 機器學習遇見生物學:詳解蛋白質摺疊預測中的算法
    NLP 與蛋白質摺疊問題大語料庫、難以獲得的標籤、序列對齊、嵌入、token 序列,再加上前文說過的要從中提取出的信息(嵌入),學習過自然語言處理的同學可能會感覺自己回到了自然語言處理(NLP)的課堂上,對那些 NLP 的研究者們來說,這種聯繫更是昭然若是。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。在超級計算機上計算蛋白質結構是目前最先進的算法,在Rosetta@Home和Folding@Home這樣的項目中,這些超級計算機或眾包計算能力可以模擬胺基酸通過強力相互作用的複雜物理過程。為了減少大量的計算需求,這些項目依賴於將新的序列映射到預先定義的模板上,並通過之前的實驗確定的蛋白質結構。
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    復旦大學黃萱菁帶來報告《自然語言處理中的表示學習》。黃萱菁,復旦大學計算機科學技術學院教授、博士生導師。1998年於復旦大學獲計算機理學博士學位,研究領域為人工智慧、自然語言處理、信息檢索和社會媒體分析。兼任中國中文信息學會常務理事,社會媒體專委會副主任,中國計算機學會中文信息技術專委會副主任。
  • 科研 | 哈佛大學:蛋白質結構、胺基酸組成和序列決定了蛋白質組對氧化損傷的易感性
    基於結構和序列的模型預測蛋白質對羰基化的脆弱性(1)基於結構的模板功能工程本研究的計算階段(圖1B)涉及三維結構的蛋白質組範圍推導,以研究導致ROS易感性的分子性質(圖4A,表EV3,以及材料和方法)。
  • 基因工程的應用與蛋白質工程的崛起
    基因工程的應用:植物上,利用基因工程研發的抗蟲轉基因植物不僅能讓作物免於蟲害還能減少化學農藥的使用減少對環境的汙染;抗病轉基因植物,抗逆性轉基因植物等一系列的應用大大提升了作物的產量,利用轉基因改良的植物還能增加很多對人類有意的特性。
  • 自監督學習(Self-supervised Learning)
    >在基於深度學習的模型中,我們一般先對數據通過主幹網絡Backbone來進行特徵提取,比如用VGG、Resnet、Mobilenet和Inception等,然後再將提取到的Feature maps送入下遊的分類、檢測或者分割等任務。
  • 算法集錦(1)|序列模型|利用深度神經網絡進行DNA與蛋白質序列轉換
    今天我們介紹一種可以實現二者高效、準確的轉換的深度學習算法。首先,我們來看看DNA和蛋白質序列如何在機器學習算法中進行表示。步驟1:獲取DNA和蛋白質表步驟2:生成DNA和蛋白質序列可以看到,我們先聲明了一些超參數,它們代表訓練數據的數量或蛋白質序列的長度
  • 十分鐘學習自然語言處理概述
    筆者學習以來寫了不少文章,文章深度層次不一,今天因為某種需要,將文章全部看了一遍做個整理,也可以稱之為概述。關於這些問題,博客裡面都有詳細的文章去介紹,本文只是對其各個部分高度概括梳理。(本文原創,轉載註明出處:十分鐘學習自然語言處理概述  )1 什麼是文本挖掘?
  • 比「生物界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質功能
    △AlphaFold預測蛋白質結構現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。如何預測蛋白質功能研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。
  • 《自然》:科學家繪製出生物界的蛋白質圖譜
    德國馬克斯普朗克研究所Matthias Mann團隊繪製出生物界的蛋白質圖譜。2020年6月17日,《自然》雜誌在線發表了這項成果。研究人員使用先進的蛋白質組學工作流程(其中肽分離步驟是通過微結構且可高度重現的色譜系統執行的)來深入研究100種分類學多樣的生物。通過以標準化方式獲得的200萬個肽段和340,000個嚴格的蛋白質鑑定,研究人員利用科學界已知的可靠實驗證據將蛋白質的數量增加了一倍。
  • 自然語言處理(NLP)算法學習路線!
    我們正處在信息爆炸的時代、面對每天鋪天蓋地的網絡資源和論文、很多時候我們面臨的問題並不是缺資源,而是找準資源並高效學習。但很多時候你會發現,花費大量的時間在零零散散的內容上,但最後發現效率極低,浪費了很多寶貴的時間。為了迎合大家學習的需求,貪心科技這次重磅推出了《自然語言處理終身升級版》。
  • Procleave: 基於蛋白質序列和結構特徵的蛋白酶特異性底物和裂解位點的預測算法
    蛋白酶的底物特異性通常可以通過肽特異性分析或高通量質譜技術來識別,但實驗手段鑑定蛋白質裂解比較困難、耗時且成本很高,因此開發成本效益高的計算方法和工具作為實驗工作的補充具有重要的價值。在此背景下,識別蛋白酶潛在靶底物的計算方法和工具可以幫助有效發現新的底物蛋白質或者裂解位點,並且指導蛋白酶—底物相互作用的假設驅動實驗研究。
  • 復旦大學黃萱菁教授:自然語言處理中的表示學習
    AITimer-何文莉,來源:AI TIME 論道比爾·蓋茨曾說:「語言理解是人工智慧皇冠上的明珠。」在語音交互的AI時代,自然語言處理(NLP)發揮著不可替代的作用。深度學習的出現與發展,使NLP技術取得了重大的突破。語言表示學習作為深度學習的重點之一,在自然語言處理中都有哪些研究進展和體會?
  • AlphaFold+RoseTTAFold的最新蛋白質預測 | 核心真核蛋白質複合物的計算結構
    1.人工智慧(AI),計算機科學(CS),大數據(DS)2.跨專業學習算法的同學,專業為生物信息工程,生命科學,醫學統計學,醫學創新性:⭐ ⭐ ⭐ ⭐ ⭐工作量:⭐ ⭐ ⭐ ⭐ ⭐ 數據集:⭐ ⭐ ⭐ ⭐
  • 蛋白質結構預測的突破
    相比之下,蛋白質序列很容易通過翻譯基因組序列獲得,並且可以獲得大量的蛋白質。由於蛋白質的結構是由其序列決定,因此試圖從另一個序列中推導出蛋白質的摺疊問題--已經持續了半個世紀,其重要性隨著序列資料庫的指數增長而上升,並對連續的方法未能帶來決定性的進展感到沮喪。事實上,從本世紀的第一個十年開始,蛋白質科學界越來越意識到這個問題是計算生物學的巨大挑戰之一。事情並不是這樣開始的。
  • 自然語言處理終極方向:深度學習用於自然語言處理的5大優勢
    在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。 關於深度學習方法有很多炒作和大話,但除了炒作之外,深度學習方法正在為挑戰性問題取得最先進的結果,特別是在自然語言處理領域。 在這篇文章中,您將看到深度學習方法應對自然語言處理問題的具體前景。看
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    這樣,對於以後輸入的新數據,它就能作出「富有經驗」的高明反應了。更為先進的人工智慧算法甚至允許只輸入很少量的學習樣本,就能掌握相關技能。比如AlphaGo的升級版本根本不需要輸入棋譜,只要知道圍棋的規則,就能根據算法對規則進行自我摸索和訓練,通過自己跟自己對弈,最終獲得超越人類頂級圍棋高手的能力。
  • 生命形式的又一次改寫:繼全基因合成之後,蛋白質分子也開始大改
    就在這一解凍歷史代碼的振奮消息之後,又一次史上突破的飛躍喜訊傳來。2019年6月6日,來自華盛頓大學基因組科學、生物工程、化學工程、計算機科學和物理學教授 David Baker團隊在國際頂級期刊《自然》(Nature)雜誌上發表從頭合成蛋白質的研究。