MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能

2020-12-27 生物谷

 

就在幾個月前,DeepMind推出了AlphaFold系統,這個被稱為生物界「AlphaGo」的系統能夠預測並生成蛋白質3D結構。而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。

我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。

然而,儘管有了數十年的研究和多種成像技術的輔助,我們仍然只了解到了無數蛋白質結構中的很小一部分,還有很多未知結構的蛋白質功能尚未揭曉。針對這一情況,來自MIT的研究人員開發出了一種方法,「學習」了蛋白質序列中每個胺基酸位置上容易計算的表徵。隨後,研究人員將這些表徵輸入機器學習模型,讓模型直接預測單個胺基酸片段的功能,而無需任何蛋白質結構的數據。

首先,研究人員使用了來自蛋白質結構分類資料庫(SCOP)的約22000種蛋白質,將這些蛋白質按照結構和胺基酸序列的相似性進行分類,並對機器學習模型進行訓練。對於每一對蛋白質,研究人員都會根據其SCOP類別計算出一個結構相似性評分。然後,研究人員將隨機的蛋白質結構對及其胺基酸序列輸入機器學習模型,通過編碼器將它們轉換成數值表示出來,稱為嵌入(embedding)。每個嵌入都包含了一對胺基酸序列的相似性信息。

該模型將兩個嵌入對齊,然後計算出相似度評分,以預測其代表的蛋白質三維結構的相似性。然後,計算機會將這一評分與真實的SCOP相似性評分進行比較,並向編碼器發送反饋信號。如果模型的預測分數與真實分數相差較遠,則會進行一定的調整。

同時,該模型預測了每次嵌入的「接觸圖」(contact map),即每個胺基酸與該蛋白質中其他胺基酸的距離,並將其預測的接觸圖與來自SCOP的已知接觸圖進行比較,然後向編碼器發送反饋信號。這一步驟有助於模型更好地明確胺基酸在蛋白質結構中的確切位置,從而進一步了解每個胺基酸的功能。

對於某個胺基酸鏈,該模型可以為三維結構中的每個胺基酸位置生成一個嵌入。然後,機器學習模型可以使用這些序列嵌入,根據其預測的三維結構接觸圖,來準確預測每個胺基酸的功能。在一個應用實例中,研究人員使用該模型預測有哪些蛋白質可以通過細胞膜,其預測結果比現有的先進模型還要更加準確。

接下來,研究人員計劃將該模型應用到更多的預測任務中,例如弄清楚哪些序列片段可以與小分子結合,這對於藥物研發工作來說是至關重要的。研究人員表示,這項研究最終將可以應用於人類健康和藥物基因組學,因為它有助於檢測破壞蛋白質結構的有害突變。(生物谷Bioon.com)

相關焦點

  • 綜述 | DescribePROT:胺基酸水平蛋白質結構和功能預測資料庫
    然而,D2P2的最新更新時間是2012年,兩個存儲庫都涵蓋的假定結構和功能特徵集較為狹窄,主要側重於疾病預測(表1)。更具體地說,D2P2僅涵蓋三個描述符(一個結構和兩個功能),包括通過九種不同方法預測的內在障礙描述符。同樣,當使用十種內在障礙的預測因子時,MobiDB包括四個推定描述符(兩個結構描述符和兩個功能描述符)。
  • 比「生物界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質功能
    △AlphaFold預測蛋白質結構現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。如何預測蛋白質功能研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    由胺基酸和蛋白質組成的長鏈,將它們自己摺疊成精準3D結構,可以管理分子間活動的複雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    然而,通常的機器只要按照設計圖將零件組裝起來就可以運轉,而胺基酸分子連接成多肽鏈後,蛋白質分子的建造還沒有結束,它還需要進一步摺疊出空間結構才能發揮功能。可是基因序列只決定胺基酸序列的合成,並不包含更多信息指導它如何摺疊成獨特的三維結構。事實上,胺基酸序列的摺疊方式蘊含在自身之中,它們自己設計自己如何摺疊。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • 科學家利用「人造精子」技術實現蛋白質重要胺基酸的個體水平遺傳...
    >實現個體水平胺基酸功能位點的遺傳篩選。由於該系統避免了傳統CRISPR/Cas9導致DNA雙鏈斷裂可能帶來的損傷,迅速被國內外科學家應用於不同物種的基因編輯。單鹼基編輯系統除可以進行單個胺基酸位點的基因編輯以外,理論上還可以通過胺基酸位點的遺傳篩選進行蛋白結構和功能的在體研究,不過該應用至今未見報導。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「蛋白質摺疊」是一種令人難以置信的分子摺疊形式,科學界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質構成,生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。
  • 機器學習遇見生物學:詳解蛋白質摺疊預測中的算法
    這時問題也就提出來了,即所謂的「蛋白質摺疊問題」——預測這些鏈(一級結構)是如何摺疊成複雜的 3D 結構的。為了促進研究和衡量最新方法以提高預測的準確性,1994 年成立了兩年一度的全球競賽,名為「Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction」(CASP),這一競賽現已成為用於評估技術的通用標準。
  • 【譯】蛋白質摺疊問題50年的歷程
    半個世紀前, 由這三個基礎科學問題開始的研究現如今已經發展成為蛋白質物理科學研究的成熟領域.蛋白質分子在分子層面上體現了蛋白質結構與其功能之間的顯著關係. 在生物化學中蛋白質有許多不同的功能. 一種蛋白質的生物學機制由其三維(3D)天然結構決定, 而蛋白質的天然結構又由其胺基酸單體的一維鏈進行編碼.
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    02 蛋白質結構:生物學五十年來的挑戰 蛋白質是生命的基礎,與細胞組成內容緊密相關。而蛋白質的功能取決於其3D結構。 計算機技術用於蛋白質結構預測的困境,直到AlphaFold在2018年現身於CASP,才讓科學家重新燃起了信心與希望。 AlphaFold的第一次迭代將深度學習應用於結構和遺傳數據,以預測蛋白質中胺基酸對之間的距離。
  • Science 蛋白質摺疊問題50年的歷程【譯】
    半個世紀前, 由這三個基礎科學問題開始的研究現如今已經發展成為蛋白質物理科學研究的成熟領域.蛋白質分子在分子層面上體現了蛋白質結構與其功能之間的顯著關係. 在生物化學中蛋白質有許多不同的功能. 一種蛋白質的生物學機制由其三維(3D)天然結構決定, 而蛋白質的天然結構又由其胺基酸單體的一維鏈進行編碼.
  • AI成功預測蛋白質3D結構
    現在,DeepMind 或許已經實現了預測功能。在 12 月 2 日坎昆舉行的會議上,組織者宣布,在第 13 屆全球蛋白質結構預測競賽(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智慧程序 AlphaFold 擊敗了所有人:成功預測生命基本分子——蛋白質的三維結構。
  • 又一AI工具在全球賽事中擊敗人類 成功預測蛋白質結構
    蛋白質摺疊是什麼?蛋白質的基本單位為胺基酸,而蛋白質的一級結構指的就是其胺基酸序列,蛋白質會由所含胺基酸殘基的親水性、疏水性、帶正電、帶負電等特性通過殘基間的相互作用而摺疊成一立體的三級結構。雖然蛋白質可在短時間中從一級結構摺疊至立體結構,研究者卻無法在短時間中從胺基酸序列計算出蛋白質結構,甚至無法得到準確的三維結構。
  • 生物界「AlphaGo」精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • 蛋白質功能位點預測研究獲進展
    隨著蛋白質結構信息的不斷積累,以及結構基因組學不斷的發展,越來越多的功能未知但結構已知的蛋白質提交到了國際大分子資料庫中(PDB資料庫),這些蛋白質的功能及其功能位點需要注釋
  • 蛋白質分子的結構與功能
    在生命體內,蛋白質分子是由約20種胺基酸殘基組成的單鏈或多鏈多肽。通常,把含50個胺基酸殘基以上者稱為蛋白質,含50個胺基酸殘基以下者則常常被稱為多肽。 蛋白質具有特定和高度有序的結構。例如,疏水性胺基酸的側鏈疏水基團,具有避開水分子,相互聚集並將自身藏於蛋白質分子內部的自然趨勢,這種結合力叫疏水鍵,幫助蛋白分子內部形成疏水區域。  由單條肽鏈形成的蛋白質只有一級、二級和三級結構。然而,細胞內許多蛋白質分子含有2條或多條肽鏈才能全面地執行功能,單獨的1條肽鏈一般沒有生物學功能。每條肽鏈都有完整的三級結構,稱為蛋白質的亞基。
  • DeepMind精準預測蛋白質結構
    如果我們想要設計出有特定功能的蛋白質,我們必須了解不同的結構都具備怎樣的功能。一般來說,藥理學家會通過大量的觀察和統計,得到粗略的經驗:怎樣的蛋白質結構大致具備怎樣的功能,但由於蛋白質是納米量級上的3D結構,通過這樣不斷枚舉的「笨」辦法設計藥物是非常棘手的。
  • 科學網—蛋白質結構解析:生物學的「聖杯」
    ,但我不知道它的結構和功能」是幾乎所有分子和細胞生物學家每天面臨的最大難題之一。Anfinsen)提出「蛋白質的高級空間結構由蛋白質的胺基酸序列決定」後(他也因此獲得1972年諾貝爾化學獎),人們開始尋找一種能夠預測蛋白質結構的算法,可以精確地從蛋白質的胺基酸序列,利用計算機預測出其複雜的空間結構,甚至其由結構決定的功能。
  • 自監督學習蛋白質序列, 自然語言處理助力蛋白質工程新飛躍
    理解蛋白質的結構和損壞機理不僅能夠讓我們對疾病的分子學機理有著更好的了解,更能幫助我們找到更好的方式對抗疾病!蛋白質除了是維生的必要物質,更是生產各種抗體和疫苗的有效方式,同時還可以通過個性化改造讓細菌具有分解廢物的能力,生產出具有去汙功效的酶。如果能夠更深入地理解蛋白質,更多的新功能就可以被不斷開發出來造福人類。蛋白質的本質是由一系列共價鍵銜接起來的胺基酸分子鏈。