但在細胞中,蛋白質是一種複雜的三維大分子結構,這種三維結構對於蛋白質生物特性的理解具有關鍵的作用。在更複雜的空間構型中,蛋白質的局部幾何構型則被稱為二級結構,使得蛋白質的不同區段表現出不同的行為特徵。而整個蛋白質的全局結構則被稱之為三級結構,它決定蛋白質的整體行為。
對於一個特定的蛋白來說,它的胺基酸序列可以表示成下面的樣子:
而研究的目標則在於從基礎的序列中恢復出整個蛋白質的三維空間構型,也就是說需要確定每一個胺基酸分子的三維空間坐標,這對於蛋白質的生物功能十分重要,上面的序列對應的結構如下圖所示:這是生物化學中最具挑戰的問題,也是最為複雜的預測問題之一。
如果通過監督學習的方式來解決這一問題,我們就需要數據標籤,而且是十分龐大的數據標籤。針對蛋白質的空間構型預測,我們需要對蛋白質分子中的每一個胺基酸進行空間坐標位置標記。對一個蛋白質分子進行標記已經是很複雜的工作了,何況需要標記非常龐大的數量。人工標記的數據量遠遠落後於新蛋白質產生的速度。
那麼除了監督學習我們還能如何解決這一問題呢?
擁抱無標籤數據
雖然無法標記數量巨大的數據集,但是好消息是我們目前擁有龐大的無標籤蛋白質序列數據集。如果我們可以從中抽取出有用的信息,這將為我們提供強有力的信息源。
目前使用這些無標籤數據集的常用範式主要是序列比對方法。利用已知的蛋白質去資料庫中進行掃描,找出與之近親的序列。在最簡單的情況下,如果我們找到了已知結構的近親序列,可以將近親結構的匹配位置映射到對應的已知序列上去。
綠色螢光蛋白家族的部分序列比對。維多利亞管發光水母不是唯一一種能夠產生螢光蛋白的的生物,還包括了 sea anenomes海葵, lancelets文昌魚, and potato fungus馬鈴薯真菌.上圖中展示了不同的近親序列結構,其中最左側是序列ID,隨後代表序列結構位置的表示,顏色表示不同的胺基酸族,紫色代表疏水胺基酸,紅色代表帶電胺基酸、綠色為不帶電胺基酸。點和線代表了序列中的間隔位置。胺基酸序列的進化關係意味著什麼呢?進化本質上一種約束條件,如果某種改變造成了蛋白質結構損壞,生物也會因為失去蛋白質的對應功能而受損。所以研究人員希望從近親序列中找到胺基酸中哪些進化位置是完全可以自由變化的,哪些位置是部分約束的,哪些位置是完全被約束的。這種對於蛋白質家族的表示成為多重序列比對,是蛋白質結構預測中的關鍵輸入。進化模型為蛋白質結構預測提供了良好的理論基礎,但要如何有效的抽取序列特徵呢?我們需要更強有力的工具!這些生物學的中蛋白質序列概念讓我們不禁想到了自然語言處理的方法,而且最近利用自監督預訓練使得自然語言得到了巨大的突破。那麼是不是有可能通過自然語言處理的方式來學習出蛋白質序列的表達,從而預測可能的蛋白質進化結構,為科研人員指明實驗的方向,增強蛋白質的功能呢?讓我們來看一個自然語言處理的例子,如果數據集中有一個句子:Let's stick to improvisation in this skitLet's stick to [?] in this skit模型將輸出針對不同詞彙輸出概率,並利用交叉熵來懲罰預測錯誤詞彙的模型。在觀察了大量的句子序列後,像谷歌BERT和OpenAI的GPT2等模型就能學習到序列的有效特徵,並為後續任務提供語言的有效表達。
我們可以將同樣的方法應用到蛋白質序列上,並在胺基酸的水平進行序列特徵抽取,下面是綠色螢光蛋白的序列
MSKGEELFTGVVPILVELDGDVNGHKFSVS...MSKGE?LFT?VVP?ILVELDGDV?GHKFSVS...當我們得到預訓練模型後,就可以將特定任務的模型堆疊在其頂部。同樣的方法可以訓練出蛋白質序列的預訓練模型,並基於此進行結構預測。
為什麼這種方法可以學習出蛋白質的結構特徵呢?這主要源於語言學的假設:自然的蛋白質存在於一個可學習的流形上,這個流形在進化壓力下十分傾向於復用多尺度的元件。通過觀察大量的序列,模型可以學習到蛋白質如何構建的隱含過程,包括序列中的復用比例,不同位置間的交互以及進化出現的區域,這將提供巨大的幫助。
自監督學習為研究人員提供了一種在不同蛋白質族間實現信息遷移的有效方式,與比對方法相比,自監督模型可以充分利用其他蛋白質家族的部分信息來提供有效的特徵預測。近年來很多研究組從多個角度對這一問題進行了嘗試,為了評測這些不同的自監督方法對應蛋白質預測的效果,研究人員提出了一個稱為TAPE尺度基準測試標準來對他們的優劣進行比較。
使用自監督學習預測有效的蛋白質結構
在生物學中綠色螢光蛋白(GFP)為研究人員提供了有效的生物標記方法,但人們一直想獲得發光強度更高的螢光蛋白。如果對其分子結構進行改性,絕大多數都會造成蛋白質失活,只有極少部分可以保持蛋白質功能。如果可以知道哪些改變會造失活,就可以為研究人員提供更為明確的改性方向,大幅度提高蛋白質工程的效率。
不同擾動下GFP分子的變化情況,與原始分子結構相距越遠找到合適結構的概率就越小。對於GFP來說,其每個位置有將近二十種可能的變換,那麼僅僅五個位置的變化將會帶來超過三百二十萬種可能性,我們無法在實驗室中合成那麼多種結構。可行的方法是利用鄰近的蛋白質變體訓練模型,並通過目標函數來優化尋找更多可能的螢光變體。通過對這些可能的變體進行排序來指導實驗室進行高效的合成實驗。
在充分的訓練後模型可以學習到蛋白質中每個胺基酸的嵌入,通過對這些嵌入矢量進行處理就可以得到變體的全局表示。下圖展示了綠色螢光蛋白可能變體的分布,並用顏色表示的發光的可能性。
上圖中清晰的顯示了發光和不發光的變體,並且預測準確率相比原始方法提高了近五倍的水平。同時可以預測出每個位置的重要程度。通常低熵位置的變化會造成蛋白質的損壞,但本文提出的模型提供了別樣的視角,除了熵值之外,不同位置間的穩定相關性也是蛋白質特性的重要度量。
除此之外,這一模型還可以用於蛋白質中序列的接觸預測。
接觸預測主要任務是預測某一對胺基酸是否接觸(3D空間中距離小於<8Å)的0/1預測。精確的接觸預測為三維結構建模提供了有效的全局信息。更為清晰的接觸預測意味著更為可靠的預測。
上圖顯示了基於預訓練模型的蛋白質位置預測更為清晰。但需要指出的是,如果使用提前計算好的比對特徵(下圖中)作為輸入,得到的結果由於利用LSTM(下圖右)方法預測出的接觸圖,其中原因還有待進一步研究,但這也表明這一領域還有這巨大的提升空間。
機器學習對於蛋白質的有效預測是AI與生物有效結合的最佳例子之一,不僅僅會為世界帶來十分深刻的影響,同時需要解決一系列實際挑戰來促進機器學習本身的發展。蛋白質作為變長的長序列,同時會在三維空間上摺疊變換,並於在不同胺基酸間發生相互作用,是一種十分複雜的數據形式。
隨著生物學的發展,越來越多的蛋白質被採集、觀察,機器學習應用於蛋白質的時機已經成熟,將會湧現出越來越多優秀的工作,讓我們不斷加深對於蛋白質這一生命原料的深刻理解和認識。
如果想了解更多細節,請參看論文TAPE,並上手嘗試代碼合成自己的新蛋白吧:
https://www.biorxiv.org/content/biorxiv/early/2019/06/20/676825.full.pdfhttps://github.com/songlab-cal/tape-The End-
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com
將門創投
讓創新獲得認可!
微信:thejiangmen
bp@thejiangmen.com