...界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質...

2020-11-29 千家智客

[導讀]DeepMind去年公布了生物學界的AlphaGo——AlphaFold,只要知道蛋白質的胺基酸序列,就可以預測蛋白質分子的三維摺疊結構。

曉查 發自 凹非寺

DeepMind去年公布了生物學界的AlphaGo——AlphaFold,只要知道蛋白質的胺基酸序列,就可以預測蛋白質分子的三維摺疊結構。

AlphaFold預測蛋白質結構

現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。

他們的論文《Learning protein sequence embeddings using information from structure》將在今年5月的ICLR學術會議上公布。

如何預測蛋白質功能

研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。

他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。

這種嵌入與NLP中的上下文表示類似,兩種嵌入越相似,單詞出現在同一個句子中的概率就越大。

像單詞對語義的影響一樣,胺基酸是蛋白質的「單詞」,蛋白質就是整個「句子」,嵌入包含著每個胺基酸序列與另一個胺基酸序列的相似性信息,機器學習模型可以根據嵌入預測每個胺基酸對整個蛋白質功能的影響。

而且該模型還能預測蛋白質的接觸圖(contact map),即每個胺基酸與其他胺基酸之間的距離,與來自SCOP已知的接觸圖進行比較。

這有助於模型更好地了解胺基酸在蛋白質結構中的確切位置,從而進一步預測每種胺基酸對功能的影響。

總的來說,對於某個胺基酸序列,該模型將為3D結構中的每個胺基酸位置產生一個嵌入表示。機器學習模型根據這些嵌入,基於接觸圖準確預測每個胺基酸的功能。

研究人員使用該模型預測哪些蛋白質可以通過細胞膜,所得結果的準確性已經超過之前最先進的模型。

用於藥物研發和基因治療

蛋白質是胺基酸通過肽鍵組成的線性鏈,卻能摺疊成極其複雜的三維結構,其具體的結構取決於胺基酸序列和它們之間的物理相互作用。而這種結構又決定了蛋白質的生物學功能。

儘管人類已經研究了幾十年蛋白質,發明了很多探測手段,但是真正能準確測量出結構的蛋白質只有很小一部分,已經的幾百萬種蛋白質中,我們只知道其中幾萬個的結構,研究每個結構都需要花費數萬美元。

過去我們需要知道蛋白質的結構才能研究它的功能,MIT希望利用這項技術讓預測蛋白質結構的研究邊緣化,即使只知道胺基酸序列也能給出蛋白質的功能。

所幸的是,知道蛋白質的胺基酸序列是一件相對比較容易的事情,我們只要給DNA分子測序就能得到。

掌握了蛋白質的功能,我們就能知道它會和藥物發生怎樣的反應,幫助我們進行藥物研發。

此外,某些基因突變會改變蛋白質的結構,這項工作還可以用於基因組學,來檢測破壞蛋白質結構的有害突變。

論文地址:

https://arxiv.org/abs/1902.08661

開原始碼與數據集:

https://github.com/tbepler/protein-sequence-embedding-iclr2019

作者系網易新聞·網易號「各有態度」籤約作者

相關焦點

  • 比「生物界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質功能
    △AlphaFold預測蛋白質結構現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。這種嵌入與NLP中的上下文表示類似,兩種嵌入越相似,單詞出現在同一個句子中的概率就越大。像單詞對語義的影響一樣,胺基酸是蛋白質的「單詞」,蛋白質就是整個「句子」,嵌入包含著每個胺基酸序列與另一個胺基酸序列的相似性信息,機器學習模型可以根據嵌入預測每個胺基酸對整個蛋白質功能的影響。
  • MIT新研究:用AI把胺基酸序列編碼成曲子,還能「創造」新蛋白質
    先來聽聽由蛋白質生成的神奇樂曲吧將蛋白質的胺基酸序列翻譯成這種打擊和節奏聲音的序列讓AI學習蛋白質的語言,並「翻譯」成樂曲胺基酸是蛋白質鏈的組成部分,因此,胺基酸所構成的蛋白質長序列被轉化為一系列的音符
  • 實用技巧收藏篇:糖環上色/ qPCR 熱圖/胺基酸序列/蛋白質組
    今天小編特別收集了四種超實用的小技巧,動動滑鼠就能給你的實驗 Duang-Duang-Duang 加上特效!① 如何給糖環內部填充顏色?作為一名資深的化學研究生,利用 chemdraw 軟體來畫化學結構式與反應式已經是得心應手,但是也會看到有的文獻圖中糖的化學式中不同糖環的內部顏色還不同,顯得更直觀清晰更高大上。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    「在過去的半個世紀裡,蛋白質摺疊一直是生物化學家最重要的問題之一,這種方法代表了應對這一挑戰的一種全新方式,」AlQuraishi說,他是HMS Blavatnik研究所系統生物學講師,同時也是系統藥理學實驗室。「我們現在有一個全新的遠景來探索蛋白質摺疊,我想我們剛剛開始劃傷表面。」
  • 把蛋白質序列編碼成樂譜,會奏出怎樣的音樂?
    如何創造出全新的蛋白質?麻省理工學院(MIT)的研究人員可能會告訴你:哼首小曲兒就能行!在將科學與藝術完美結合的道路上,MIT的研究人員開發出了一套非常厲害的系統,它能將所有生物的基本組成——蛋白質的分子結構,轉換成類似於音樂段落的聲音。然後,他們可以讓音樂發生一些變化,再逆轉這一過程,就將音樂轉化成了自然界中從未見過的新蛋白質。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。通常,蛋白質的各個部分在物理上很接近,但在序列上卻有很大的距離,因為它的胺基酸鏈形成了環狀、片狀和螺旋形。「這個問題讓人矚目在於可以簡單表述:抓取一個序列並研究出它的形狀,」AIQuraishi如是說,「蛋白質一開始是一個非結構化的字符串,它必須呈現出三維的形狀,而一個字符串可以摺疊成的形狀集是巨大的。
  • MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能
    而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。
  • 質譜法蛋白質N/C端胺基酸序列分析技術服務
    目前N末端序列分析大多採取Edman降解法,但Edman降解法不能解決N端封閉和蛋白質修飾的測序問題,而質譜法測序則不受限制。蛋白質的C末端分析,並不能採取類似N端胺基酸序列分析的化學分析。無論是國內要求,還是國外藥典,現階段都是採取質譜法對蛋白質樣品的C末端序列分析。
  • 科學家將蛋白質序列轉化為曲譜,寫首歌就能創造蛋白質
    最近,一個研究小組通過將蛋白質的序列轉化為音樂曲譜,再利用人工智慧將聲音轉換為全新的蛋白質,他們將藝術和生物這兩種完全不同的門類巧妙地銜接了起來
  • FDA 最終確定生物製品定義,依據胺基酸序列大小定義蛋白質
    美國 FDA 於 2 月 21 日發布最終規定,修改了「生物製品」的定義,根據胺基酸序列的大小定義蛋白質。
  • 島津推出《蛋白質測序儀PPSQ在生物藥N-末端胺基酸序列分析的應用...
    生物藥是利用DNA重組、細胞融合、細胞培養等生物技術開發出的蛋白質藥物、抗體藥物等。幾乎所有蛋白質合成都起始於N-末端,其序列組成對於蛋白質整體的生物學功能有著重要的影響力,因此蛋白質的序列分析對於生物藥效果非常關鍵。
  • 我心目中兩個最特別的蛋白質胺基酸
    如果有人問我,在二十二種蛋白質胺基酸中最特別的是哪一種?我會回答道,不是一種,而是兩種。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    蛋白質可以在胺基酸之間扭曲、摺疊,因此一種含有數百個胺基酸的蛋白質有可能呈現出數量驚人(10 的 300 次方)的結構類型。蛋白質的 3D 形狀取決於其中包含的胺基酸數量和類型,而這一形狀也決定了其在人體中的功能。
  • 弗雷德裡克·桑格(圖)|蛋白質|序列|諾貝爾化學獎_網易新聞
    桑格還有一個更閃亮的名號—人類「基因學之父」。1958年,因完整定序胰島素內的胺基酸序列,且證明蛋白質具有明確構造,桑格獲得首個諾貝爾化學獎;1970年代,桑格又提出了快速測定脫氧核糖核酸(DNA)序列的 「雙脫氧鏈終止法」,除了對生物技術藥物的發展至關重要,也為之後的科學家解碼人體所有基因提供了最基本的解讀工具。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。 其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。
  • 【逝者】弗雷德裡克·桑格(圖)|諾貝爾化學獎|蛋白質|序列_網易新聞
    桑格還有一個更閃亮的名號—人類「基因學之父」。1958年,因完整定序胰島素內的胺基酸序列,且證明蛋白質具有明確構造,桑格獲得首個諾貝爾化學獎;1970年代,桑格又提出了快速測定脫氧核糖核酸(DNA)序列的 「雙脫氧鏈終止法」,除了對生物技術藥物的發展至關重要,也為之後的科學家解碼人體所有基因提供了最基本的解讀工具。
  • Edman降解法進行蛋白質序列測定的效率
    不同的胺基酸殘基,由於結構的不同,在每個階段的反應效率不同。總效率(「重複產量」)一般低於100%(通常為95%左右),因此在若干周期內,序列產量降低,滯後的程度也逐漸增強。同時,背景燥音也隨之增強。當序列信號達到背景水平時,就無法判斷該蛋白序列了。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • Rqc2p蛋白質「越俎代庖」,指揮胺基酸胡亂組裝
    原標題:Rqc2p蛋白質「越俎代庖」,指揮胺基酸胡亂組裝  打開任何一本生物學入門教材,你首先學到的第一課就是:我們的DNA拼寫著生成蛋白質的指令,我們身體細胞中的大多數工作都是由蛋白質這些微小的機器來完成。
  • 哼唱一段旋律,AI就能創造一種「全新」蛋白質
    當地時間 3 月 17 日,麻省理工學院科學家們帶來了一個新成果,他們將蛋白質的複雜結構轉化成樂譜,隨後給予電腦一個種子序列,人工智慧系統就能設計出一種自然界中從未見過的 「全新」 蛋白質。他們發現這個 「全新」 蛋白質不僅具有摺疊結構,而且比較穩定。