MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能

2020-11-29 生物谷

 

就在幾個月前,DeepMind推出了AlphaFold系統,這個被稱為生物界「AlphaGo」的系統能夠預測並生成蛋白質3D結構。而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。

我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。

然而,儘管有了數十年的研究和多種成像技術的輔助,我們仍然只了解到了無數蛋白質結構中的很小一部分,還有很多未知結構的蛋白質功能尚未揭曉。針對這一情況,來自MIT的研究人員開發出了一種方法,「學習」了蛋白質序列中每個胺基酸位置上容易計算的表徵。隨後,研究人員將這些表徵輸入機器學習模型,讓模型直接預測單個胺基酸片段的功能,而無需任何蛋白質結構的數據。

首先,研究人員使用了來自蛋白質結構分類資料庫(SCOP)的約22000種蛋白質,將這些蛋白質按照結構和胺基酸序列的相似性進行分類,並對機器學習模型進行訓練。對於每一對蛋白質,研究人員都會根據其SCOP類別計算出一個結構相似性評分。然後,研究人員將隨機的蛋白質結構對及其胺基酸序列輸入機器學習模型,通過編碼器將它們轉換成數值表示出來,稱為嵌入(embedding)。每個嵌入都包含了一對胺基酸序列的相似性信息。

該模型將兩個嵌入對齊,然後計算出相似度評分,以預測其代表的蛋白質三維結構的相似性。然後,計算機會將這一評分與真實的SCOP相似性評分進行比較,並向編碼器發送反饋信號。如果模型的預測分數與真實分數相差較遠,則會進行一定的調整。

同時,該模型預測了每次嵌入的「接觸圖」(contact map),即每個胺基酸與該蛋白質中其他胺基酸的距離,並將其預測的接觸圖與來自SCOP的已知接觸圖進行比較,然後向編碼器發送反饋信號。這一步驟有助於模型更好地明確胺基酸在蛋白質結構中的確切位置,從而進一步了解每個胺基酸的功能。

對於某個胺基酸鏈,該模型可以為三維結構中的每個胺基酸位置生成一個嵌入。然後,機器學習模型可以使用這些序列嵌入,根據其預測的三維結構接觸圖,來準確預測每個胺基酸的功能。在一個應用實例中,研究人員使用該模型預測有哪些蛋白質可以通過細胞膜,其預測結果比現有的先進模型還要更加準確。

接下來,研究人員計劃將該模型應用到更多的預測任務中,例如弄清楚哪些序列片段可以與小分子結合,這對於藥物研發工作來說是至關重要的。研究人員表示,這項研究最終將可以應用於人類健康和藥物基因組學,因為它有助於檢測破壞蛋白質結構的有害突變。(生物谷Bioon.com)

相關焦點

  • 比「生物界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質功能
    △AlphaFold預測蛋白質結構現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。如何預測蛋白質功能研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。
  • MIT新研究:用AI把胺基酸序列編碼成曲子,還能「創造」新蛋白質
    此項研究已經發表在了ACS Nano上面。研究下載地址:https://pubs.acs.org/doi/pdf/10.1021/acsnano.9b02180它提供了一種將蛋白質的胺基酸序列「翻譯」成音樂序列的系統方法,並且能通過分子的物理特性來確定所屬的聲音。
  • ...界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質...
    把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。 如何預測蛋白質功能 研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。 他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    由於蛋白質的形狀決定了它的功能及其在疾病中的功能障礙程度,因此闡明蛋白質結構的努力是所有分子生物學的核心 - 特別是治療科學以及拯救生命和改變生命的藥物的發展。近年來,計算方法在基於其胺基酸序列的知識預測蛋白質如何摺疊方面取得了重大進展。如果完全實現,這些方法有可能改變生物醫學研究的幾乎所有方面。然而,目前的方法在可以確定的蛋白質的規模和範圍方面受到限制。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    第一步,理解蛋白質摺疊這個應用場景生物由蛋白質構成,生物體功能由蛋白質形狀決定。蛋白質在人體中至關重要,其幾何形狀又對生物功能非常重要。借力基因組序列的發展,使我們得到了大量的蛋白質序列,結構信息的獲得對於揭示蛋白質的生物學功能是十分重要的。
  • 除了下圍棋 AI還能預測"難纏"的蛋白質結構
    還有在被稱為「基因魔剪」的CRISPR-Cas9基因編輯技術中,Cas9蛋白質利用CRISPR基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼DNA片段。然而,確定蛋白質的空間結構一直是生物學中的巨大挑戰。1972年,也就是將近50年前,諾貝爾化學獎得主克裡斯蒂安·安芬森就猜測,蛋白質的胺基酸序列應該可以完全決定其空間結構。可是要如何根據蛋白質的胺基酸序列來確定它的空間結構呢?
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    由胺基酸和蛋白質組成的長鏈,將它們自己摺疊成精準3D結構,可以管理分子間活動的複雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    然而,通常的機器只要按照設計圖將零件組裝起來就可以運轉,而胺基酸分子連接成多肽鏈後,蛋白質分子的建造還沒有結束,它還需要進一步摺疊出空間結構才能發揮功能。可是基因序列只決定胺基酸序列的合成,並不包含更多信息指導它如何摺疊成獨特的三維結構。事實上,胺基酸序列的摺疊方式蘊含在自身之中,它們自己設計自己如何摺疊。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • 除了下圍棋 AI還能預測「難纏」的蛋白質結構 它是怎麼做到的?
    還有在被稱為「基因魔剪」的CRISPR-Cas9基因編輯技術中,Cas9蛋白質利用CRISPR基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼DNA片段。   然而,確定蛋白質的空間結構一直是生物學中的巨大挑戰。1972年,也就是將近50年前,諾貝爾化學獎得主克裡斯蒂安·安芬森就猜測,蛋白質的胺基酸序列應該可以完全決定其空間結構。可是要如何根據蛋白質的胺基酸序列來確定它的空間結構呢?
  • 除了下圍棋,AI還能預測「難纏「的蛋白質結構,它是怎麼做到的?
    蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。可是,蛋白質如何摺疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。而就在最近,英國DeepMind公司研究人員創建的人工智慧系統AlphaFold將蛋白質結構預測的準確度提高到了原子水平,可以說基本解決了這個「蛋白質摺疊問題」。
  • 最新研究有助解開蛋白質摺疊之謎—新聞—科學網
    本報訊 (記者賀根生)廣西科學院研究員杜奇石發現,一種認識尚不充分的作用力——極性氫-p鍵,在蛋白質無規則廻路結構(loop
  • 蛋白質結構預測:生命科學的又一場競爭
    結構密碼蘊藏在排序中     這是一個複雜但很有意思的生命過程——基因承載了生命的遺傳信息,生命的功能則是藉由蛋白質執行的;蛋白質是由20種胺基酸組成的肽鏈,而DNA中的基因控制了蛋白質中胺基酸種類的排序。蛋白質只有在摺疊的狀態下才能表現出生命的功能,但摺疊是如何自發形成的呢?
  • 生化版阿爾法狗出手蛋白質結構預測,生命密碼的馬奇諾防線崩了
    拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」預測結構有多難經過數億年進化,蛋白質成為已知結構最為複雜、功能最為強大的化學分子。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    挑戰在於,DNA 只包含有關這種蛋白質的胺基酸殘基的序列的信息,這種胺基酸殘基形成長鏈。預測這些長鏈是如何摺疊成複雜的蛋白質 3D 結構就是所謂的「蛋白質摺疊問題」。 蛋白質越大,模型就越複雜和困難,因為需要考慮胺基酸之間更多的相互作用。正如列文塔爾的悖論所指出的,在得到正確的 3D 結構之前,需要比宇宙的年齡更長的時間來枚舉典型蛋白質所有可能的構型。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「蛋白質摺疊」是一種令人難以置信的分子摺疊形式,科學界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質構成,生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。
  • 生命的起源:先有蛋白質還是先有胺基酸?
    以色列魏茨曼科學研究所的Dan Tawfik教授和耶路撒冷希伯來大學的Norman Metanis教授重建了蛋白質序列,它們很可能與現代蛋白質的祖先非常相似。研究結果提出了這些原始蛋白質進化成活體細胞的一種可能性。該研究已發表在《美國國家科學院院刊(PNAS)》上。細胞遺傳物質編碼的蛋白質相當於活體細胞中的螺絲、彈簧和齒輪等所有運轉部件。
  • DeepMind 模型實現蛋白質3D結構預測
    人體執行的幾乎所有功能,例如收縮肌肉、感知光線或將食物轉化為能量,都取決於蛋白質。蛋白質獨特的3D結構決定了蛋白質的功能,一旦了解了蛋白質的形狀,就可以猜測其在細胞中的作用,科學家可以開發出與蛋白質獨特形狀有關的藥物。
  • 阿爾法狗團隊公布6種新冠病毒蛋白質結構預測,助力疫苗研發
    在參加2018年全球蛋白質結構預測競賽(CASP)中,力壓其他97個參賽者,獲得第一,成績還是第二名的8倍還要多。跳過同行評審,直接公開預測結果DeepMind表示,為了應對新冠病毒爆發帶來的疫情,科學界對於這個病毒家族的特徵做了大量的基礎研究。