[導讀]DeepMind去年公布了生物學界的AlphaGo——AlphaFold,只要知道蛋白質的胺基酸序列,就可以預測蛋白質分子的三維摺疊結構。
曉查 發自 凹非寺
DeepMind去年公布了生物學界的AlphaGo——AlphaFold,只要知道蛋白質的胺基酸序列,就可以預測蛋白質分子的三維摺疊結構。
△AlphaFold預測蛋白質結構
現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。
他們的論文《Learning protein sequence embeddings using information from structure》將在今年5月的ICLR學術會議上公布。
如何預測蛋白質功能
研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。
他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。
這種嵌入與NLP中的上下文表示類似,兩種嵌入越相似,單詞出現在同一個句子中的概率就越大。
像單詞對語義的影響一樣,胺基酸是蛋白質的「單詞」,蛋白質就是整個「句子」,嵌入包含著每個胺基酸序列與另一個胺基酸序列的相似性信息,機器學習模型可以根據嵌入預測每個胺基酸對整個蛋白質功能的影響。
而且該模型還能預測蛋白質的接觸圖(contact map),即每個胺基酸與其他胺基酸之間的距離,與來自SCOP已知的接觸圖進行比較。
這有助於模型更好地了解胺基酸在蛋白質結構中的確切位置,從而進一步預測每種胺基酸對功能的影響。
總的來說,對於某個胺基酸序列,該模型將為3D結構中的每個胺基酸位置產生一個嵌入表示。機器學習模型根據這些嵌入,基於接觸圖準確預測每個胺基酸的功能。
研究人員使用該模型預測哪些蛋白質可以通過細胞膜,所得結果的準確性已經超過之前最先進的模型。
用於藥物研發和基因治療
蛋白質是胺基酸通過肽鍵組成的線性鏈,卻能摺疊成極其複雜的三維結構,其具體的結構取決於胺基酸序列和它們之間的物理相互作用。而這種結構又決定了蛋白質的生物學功能。
儘管人類已經研究了幾十年蛋白質,發明了很多探測手段,但是真正能準確測量出結構的蛋白質只有很小一部分,已經的幾百萬種蛋白質中,我們只知道其中幾萬個的結構,研究每個結構都需要花費數萬美元。
過去我們需要知道蛋白質的結構才能研究它的功能,MIT希望利用這項技術讓預測蛋白質結構的研究邊緣化,即使只知道胺基酸序列也能給出蛋白質的功能。
所幸的是,知道蛋白質的胺基酸序列是一件相對比較容易的事情,我們只要給DNA分子測序就能得到。
掌握了蛋白質的功能,我們就能知道它會和藥物發生怎樣的反應,幫助我們進行藥物研發。
此外,某些基因突變會改變蛋白質的結構,這項工作還可以用於基因組學,來檢測破壞蛋白質結構的有害突變。
論文地址:
https://arxiv.org/abs/1902.08661
開原始碼與數據集:
https://github.com/tbepler/protein-sequence-embedding-iclr2019
作者系網易新聞·網易號「各有態度」籤約作者
— 完—