新的深度學習方法從胺基酸序列預測蛋白質結構

2020-11-26 生物幫

生命所必需的幾乎所有基本生物過程都是由蛋白質完成的。它們創造並保持細胞和組織的形狀;構成催化維持生命的化學反應的酶;充當分子工廠,運輸工具和電機;用作蜂窩通信的信號和接收器;以及更多。

蛋白質由長鏈胺基酸組成,通過將自身摺疊成精確的3D結構來控制它們與其他分子的相互作用,從而完成這些無數的任務。由於蛋白質的形狀決定了它的功能及其在疾病中的功能障礙程度,因此闡明蛋白質結構的努力是所有分子生物學的核心 - 特別是治療科學以及拯救生命和改變生命的藥物的發展。

近年來,計算方法在基於其胺基酸序列的知識預測蛋白質如何摺疊方面取得了重大進展。如果完全實現,這些方法有可能改變生物醫學研究的幾乎所有方面。然而,目前的方法在可以確定的蛋白質的規模和範圍方面受到限制。

現在,哈佛醫學院的一位科學家使用了一種稱為深度學習的人工智慧來預測基於其胺基酸序列的任何蛋白質的三維結構。

系統生物學家Mohammed AlQuraishi於4月17日在Cell Systems上在線報導,詳細介紹了一種計算確定蛋白質結構的新方法 - 實現與當前最先進方法相當的精確度,但速度提高了一百萬倍。

「在過去的半個世紀裡,蛋白質摺疊一直是生物化學家最重要的問題之一,這種方法代表了應對這一挑戰的一種全新方式,」AlQuraishi說,他是HMS Blavatnik研究所系統生物學講師,同時也是系統藥理學實驗室。「我們現在有一個全新的遠景來探索蛋白質摺疊,我想我們剛剛開始劃傷表面。」

容易說明

雖然非常成功,但使用物理工具識別蛋白質結構的過程既昂貴又耗時,即使使用低溫電子顯微鏡等現代技術也是如此。因此,絕大多數蛋白質結構 - 以及引起疾病的突變對這些結構的影響 - 仍然在很大程度上是未知的。

計算蛋白質摺疊方式的計算方法有可能顯著降低確定結構所需的成本和時間。但是,經過近四十年的緊張努力,這個問題很難解決。

蛋白質由20種不同胺基酸的文庫構建。這些行為像字母表中的字母,組合成單詞,句子和段落,以產生天文數字的可能文本。然而,與字母不同,胺基酸是位於3D空間中的物理對象。通常,蛋白質的部分將在物理上接近,但在序列方面間隔很遠,因為其胺基酸鏈形成環,螺旋,片和扭曲。

「這個問題引人注目的是它很容易陳述:採取一個序列並找出形狀,」AlQuraishi說。「一種蛋白質起源於一種非結構化的細胞系,必須具有三維形狀,一根細繩可以摺疊成可能形狀的形狀是巨大的。許多蛋白質長達數千個胺基酸,並且複雜性很快超過了人類直覺甚至是最強大的計算機。「

很難解決

為了應對這一挑戰,科學家利用胺基酸根據物理定律相互作用的事實,尋找能量有利的狀態,如滾球下坡到山谷底部。

最先進的算法通過在超級計算機上運行來計算蛋白質結構 - 或者在Rosetta @ Home和Folding @ Home等項目中利用眾包計算能力來模擬胺基酸相互作用的複雜物理通過蠻力。為了減少大量的計算需求,這些項目依賴於將新序列映射到預定義的模板上,這些模板是先前通過實驗確定的蛋白質結構。

其他項目,如谷歌的AlphaFold,通過利用人工智慧的進步來預測蛋白質的結構,最近產生了巨大的興奮。為此,這些方法解析了大量的基因組數據,其中包含蛋白質序列的藍圖。他們尋找可能一起進化的許多物種的序列,使用這樣的序列作為與指導結構組件緊密物理接近的指示物。

然而,這些AI方法不能僅基於蛋白質的胺基酸序列預測結構。因此,它們對於沒有先驗知識的蛋白質,進化獨特蛋白質或人類設計的新蛋白質具有有限的功效。

深入培訓

為了開發新方法,AlQuraishi應用了所謂的端到端可微分深度學習。人工智慧的這一分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間,從而實現了Apple的Siri和Google Translate等應用程式。

本質上,可微分學習涉及單一的,巨大的數學函數 - 高中微積分方程的更複雜版本 - 被安排為神經網絡,網絡的每個組成部分向前和向後饋送信息。

該功能可以在難以想像的複雜程度上反覆調整和調整自身,以便「精確地」學習蛋白質序列在數學上與其結構的關係。

AlQuraishi開發了一種深度學習模型,稱為復發幾何網絡,側重於蛋白質摺疊的關鍵特徵。但在它可以進行新的預測之前,必須使用先前確定的序列和結構進行訓練。

對於每種胺基酸,該模型預測將胺基酸與其鄰居連接的化學鍵的最可能角度。它還預測圍繞這些鍵的旋轉角度,這會影響蛋白質的任何局部區域與整個結構的幾何關係。

這是重複進行的,每次計算都通過每個其他胺基酸的相對位置進行通知和改進。一旦整個結構完成,模型通過將其與蛋白質的「基礎事實」結構進行比較來檢查其預測的準確性。

對於數千種已知蛋白質,重複整個過程,模型學習並在每次迭代時提高其準確性。

新的遠景

一旦他的模型被訓練,AlQuraishi測試了它的預測能力。他將其性能與最近幾年蛋白質結構預測的關鍵評估中的其他方法進行了比較 - 這是一項年度實驗,測試計算方法是否能夠使用已經確定但未公開發布的蛋白質結構進行預測。

他發現新模型在預測蛋白質結構方面優於所有其他方法,其中沒有預先存在的模板,包括使用共同進化數據的方法。當預先存在的模板可用於進行預測時,它也優於除最佳方法之外的所有方法。

雖然這些準確度的提高相對較小,但AlQuraishi指出,這些測試最高端的任何改進都難以實現。並且因為這種方法代表了一種全新的蛋白質摺疊方法,它可以補充現有的計算和物理方法,以確定比以前更廣泛的結構。

引人注目的是,新模型的預測速度比現有的計算方法快6到7個數量級。訓練模型可能需要數月,但一旦訓練,它可以在幾毫秒內進行預測,與使用其他方法所花費的時間相比。這種顯著的改進部分是由於它所基於的單一數學函數,只需要幾千行計算機代碼而不是數百萬。

AlQuraishi說,這種模型預測的快速速度使得以前緩慢或難以實現的新應用成為可能,例如預測蛋白質在與其他分子相互作用時如何改變其形狀。

「深度學習方法,不僅僅是我的方法,將繼續增強其預測能力和普及性,因為它們代表了一種簡單,簡單的範例,可以比現有的複雜模型更容易地整合新思想,」他補充道。

AlQuraishi說,新模型還沒有立即用於藥物發現或設計,因為它的準確度目前大約在6埃左右 - 距離解決完整原子結構所需的1到2埃還有一段距離。一種蛋白質。但他說,有很多機會可以優化這種方法,包括進一步整合化學和物理學的規則。

「準確有效地預測蛋白質摺疊一直是該領域的聖杯,我希望並期望這種方法與已開發的所有其他卓越方法相結合,能夠在不久的將來實現這一目標, 「AlQuraishi說。「我們很快就可以解決這個問題,而且我認為五年前沒有人會這麼說。這是非常令人興奮的,同時也是令人震驚的。」

為了幫助其他人參與方法開發,AlQuraishi通過GitHub軟體共享平臺免費提供他的軟體和結果。

「AlQuraishi工作的一個顯著特點是,嵌入哈佛醫學院和波士頓生物醫學界豐富的研究生態系統的單一研究人員可以與谷歌等公司在計算機科學最熱門的領域競爭,」彼得說。 Sorger,HMS Otto Krayer HMS Blavatnik研究所系統藥理學教授,HMS系統藥理學實驗室主任和AlQuraishi的學術導師。

「低估像AlQuraishi這樣的優秀研究員在公共領域使用開源軟體的破壞性影響是不明智的,」Sorger說。

相關焦點

  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。17年4月,在Cell Systems上的一篇文章中,系統生物學家Mohammed AIQuraishi闡述了一種可以用來預測蛋白質結構的新計算方法,不但達到現在計算方法準確性,而且速度可以提高到一百萬倍以上。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    蛋白質結構預測是生命科學領域的一大難題。近日,來自哈佛大學醫學院的研究人員提出了一種基於胺基酸序列預測蛋白質結構的新方法,準確率可媲美當前最佳方案,但預測速度提升了100萬倍。生命所必需的每一次基礎生物學進展幾乎都是由蛋白質帶來的。
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    近日,谷歌在倫敦的研發中心DeepMind, 宣布在幫助完成僅基於基因序列預測蛋白質的三維結構的複雜任務方面,取得重大突破。具體而言,它正在將深度學習方法應用於基因組數據。「幸運的是,由於基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,在過去幾年中,依賴於基因組數據的預測問題的深度學習方法變得越來越流行。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • 蛋白質序列分析和結構預測
    蛋白質序列分析和結構預測 【實驗目的】1、掌握蛋白質序列檢索的操作方法;2、熟悉蛋白質基本性質分析;3、熟悉基於序列同源性分析的蛋白質功能預測,了解基於motif、 結構位點、結構功能域資料庫的蛋白質功能預測;4、了解蛋白質結構預測。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    因此在過去幾年中,依賴於基因組數據的預測問題正越來越多地藉助深度學習方法。DeepMind 非常關注這一問題,並提出了 AlphaFold,這一項工作目前已經提交到了Critical Assessment of Structure Prediction (CASP)。
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    對於宏觀生命體系的研究離不開對於微觀結構及其相互作用的理解。為了更好的理解這些微觀結構,如蛋白質的生物學功能,我們需要分析其三維結構信息。然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能
    而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。可惜,公司並沒有公布這個算法的論文。我們就這樣放棄嘛?不,我們要向李昌鈺博士學習破案手段,絕不放過任何蛛絲馬跡,靠豐富的想像力,進行推理,看能否找到Deepmind預測蛋白質結構的秘密研究方法。
  • 解決生物學50年來的重大挑戰,AI能根據胺基酸序列精確預測蛋白結構?
    DeepMind 的名為 AlphaFold 的程序在兩年一次的稱為 CASP 的蛋白質結構預測挑戰賽中勝過其他 100個 團隊,CASP 是結構預測的關鍵評估的縮寫。 在某些情況下,AlphaFold 的結構預測與使用「金標準」實驗方法(例如 X 射線晶體學和近年來的冷凍電子顯微鏡)確定的結構預測沒有區別。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    而蛋白質具體能做什麼就要取決於它獨特的3D結構了。 然而,純粹從其基因序列中找出蛋白質的3D結構是一項非常具有挑戰性的複雜任務。由於我們的DNA通常只包含蛋白質中胺基酸殘基的序列信息,而這些胺基酸殘基形成的長鏈將會摺疊成錯綜複雜的3D結構。這就是所謂的「蛋白質摺疊」問題。
  • 基於序列信息來預測潛在的抗癌多肽的深度學習方法
    打開APP 基於序列信息來預測潛在的抗癌多肽的深度學習方法 中國科學院網站 發表於 2019-09-20 15:13:00 圖:抗癌多肽數據集中各胺基酸組分及預測模型性能表現 抗癌多肽(anticancer peptides,ACP),一種長度通常小於
  • Bioinformatics|用深度神經網絡結合局部和全局特徵預測蛋白質的...
    文章研究了如何利用蛋白質的局部和全局胺基酸序列來預測蛋白質的結合位點,作者用一個49維的向量(其中包括原始胺基酸、胺基酸的PSSM、胺基酸的二級結構狀態)來表示任意一個胺基酸,最後將得到的局部和全局胺基酸序列的向量表示連接起來,輸入到一個深度神經網絡做預測。1、研究背景PPI site背景:1、現存的方法主要使用局部上下文特徵來預測PPI site。
  • 「阿爾法摺疊」精準預測蛋白質三維結構|胺基酸|x射線|生物學|蛋白...
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。
  • 蛋白質結構預測:生命科學的又一場競爭
    因為「對控制蛋白質鏈摺疊原理的研究」,安芬森獲得1972年諾貝爾化學獎。     然而,蛋白質的空間結構極其複雜,該如何確定呢?現在有兩種方法:一種是實驗測量,包括用X射線衍射和核磁共振成像;一種是理論預測,利用計算機根據理論和已知的胺基酸序列等信息來預測,方法包括同源結構模擬、摺疊辨識模擬和基於第一性原理的從頭計算。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。 今天,我們非常興奮地與大家分享 DeepMind 在展示人工智慧研究如何推動和加速新的科學發現方面的第一個重要裡程碑。
  • 利用宏基因組序列來確定蛋白質結構
    在這項研究中,Baker實驗室的蛋白質結構預測伺服器Rosetta分析了JGI集成微生物基因組(IMG)系統上的宏基因組序列。對於蛋白質而言,外觀很重要。當然,這並不是指顏值,而是三維結構。蛋白質是由長的胺基酸鏈組成的,但一維的胺基酸序列似乎沒有意義。只有了解三維結構,研究人員才能弄清蛋白質的結構如何決定它的功能。
  • 蛋白質3D結構可用AI解析
    3D形狀的深度學習技術,可能將在生物學界掀起一場新的變革。人體內有成千上萬種不同的蛋白質,每種蛋白質包括數十上百個胺基酸,這些胺基酸的順序決定著蛋白質的形狀和功能。「結構即功能」是分子生物學的定理,若能根據根據蛋白質的胺基酸序列推出其結構,有助於人們加速了解細胞的組成和運作規律,一些新藥物的研發也能更快推進。
  • MIT新研究:用AI把胺基酸序列編碼成曲子,還能「創造」新蛋白質
    研究下載地址:https://pubs.acs.org/doi/pdf/10.1021/acsnano.9b02180它提供了一種將蛋白質的胺基酸序列「翻譯」成音樂序列的系統方法,並且能通過分子的物理特性來確定所屬的聲音。