Nat Methods:計算神經網絡驅動下一代「蛋白質預測技術」的誕生

2020-11-29 生物谷

2019年10月23日 訊 /生物谷BIOON/ --一直以來,合成生物學家一直試圖通過改變自然界中存在的蛋白質,甚至是從頭合成蛋白質,將其進化的途徑掌握在自己手中。通過人工構建不同類型的蛋白,可以設計藥物,感測生物信號,以及生產高價值化學品,等等。

為了設計蛋白質,科學家們使用了兩種截然不同的方法。其一,在「定向進化」中,通過隨機改變編碼天然蛋白質的胺基酸殘基的一級序列,並篩選具有所需活性的變體。其二,通過「合理設計」,即根據其實際3D結構對蛋白質進行建模,以識別可能影響蛋白質功能的胺基酸。然而,「定向進化」策略只能覆蓋整個蛋白質序列庫的很小一部分,而「合理設計」策略則依賴於蛋白質3D結構的解析,這也是十分困難的部分。

(圖片來源:Www.pixabay.com)

如今,由哈佛大學George Church博士領導的研究團隊創建了第三種工程化蛋白質的方法,該方法利用深度學習直接從其胺基酸序列中提取蛋白質的基本特徵,而無需其他信息。該方法可穩健地預測天然的,以及從頭設計的蛋白質的功能,並將電腦程式代替費時費力的人力實驗,與現有方法相比,該新方法可將成本降低兩個數量級之多。相關結果發表在《nature methods》雜誌上。

文章作者之一Surojit Biswas說:「蛋白質設計過程需要通過廣泛了解蛋白質的特徵以了解其設計原理。我們通過神經網絡在公共資料庫中系統地尋找大量原始蛋白質序列中的模式,並且以一種無偏見的方式學習這些規則。通過神經網絡許的研究,我們不僅學到了許多以前已知的規則,除此之外,還發現了蛋白質的許多新功能。」

研究人員將這種新型的蛋白質設計原則命名為「統一表示」(UniRep)。它可以比喻為學習一種語言,在這種語言中,學習者可以對由字母和單詞的字符串構成的複雜句子建立語義理解。在蛋白質語言中,UniRep經過培訓,可以探索公共資料庫中包含的蛋白質序列中的所有可能性,從而從其第一個胺基酸開始預測蛋白質序列中的下一個胺基酸。重要的是,在繼續處理蛋白質的其餘部分(一次一個胺基酸)的同時,UniRep製作並利用了當前挖掘得到的蛋白質序列的內部「摘要」。再加上對個別順序和結構特徵的考慮,最後將這些信息以及其它蛋白質的結果反饋算法本身,UniRep能夠逐漸優化對「摘要」部分的理解,從而隨著時間的推移提高了其預測能力。

「我們對UniRep進行了大約3周的約2400萬種蛋白質序列「培訓」,以使其能夠預測序列及其與諸如蛋白質穩定性,二級結構以及內部序列對蛋白質內周圍溶劑的可及性之類的特性之間的聯繫,」文章作者之一Grigory Khimuly說道「 UniRep準確地描述了來自多種不同類型的蛋白質家族的特徵。」

該團隊將UniRep進一步優化,將其用作預測單個胺基酸取代如何影響蛋白質功能的工具。該神經網絡以多種生物學功能(包括酶催化,DNA結合,分子傳感)可靠地量化了8種不同蛋白質中單個胺基酸突變的影響。此外,他們使用GFP作為模型,並使用UniRep分析該蛋白的64,800個變異體,每個變異體各自帶有1-12個突變。

Church博士說:「與其他策略相比,我們的數據驅動方法在預測蛋白質的多種特性方面達到了最先進的性能,這將使它成為蛋白質工程師真正能夠使用的下一代工具。」(生物谷Bioon.com)

資訊出處:Listening in to how proteins talk and learning their language原始出處:

Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church.

Unified rational protein engineering with sequence-based deep representation learning. Nature Methods

, 2019; DOI: 10.1038/s41592-019-0598-1

相關焦點

  • Bioinformatics|用深度神經網絡結合局部和全局特徵預測蛋白質的...
    文章研究了如何利用蛋白質的局部和全局胺基酸序列來預測蛋白質的結合位點,作者用一個49維的向量(其中包括原始胺基酸、胺基酸的PSSM、胺基酸的二級結構狀態)來表示任意一個胺基酸,最後將得到的局部和全局胺基酸序列的向量表示連接起來,輸入到一個深度神經網絡做預測。1、研究背景PPI site背景:1、現存的方法主要使用局部上下文特徵來預測PPI site。
  • 人工智慧首次預測蛋白質「光學指紋」
    來源:科技日報科技日報合肥6月9日電 (記者吳長鋒)記者從中國科大獲悉,該校微尺度物質科學國家研究中心江俊教授與其合作者合作,通過利用人工智慧機器學習中的神經網絡技術,模擬了蛋白質肽鍵結構與性質之間的構效關係,大大降低了計算量,為預測蛋白質的光學特性提供了一種高效的工具
  • JMC|Atomwise利用深度卷積神經網絡發現新型關鍵腦酶抑制劑
    Viola靶點天冬氨酸N-乙醯轉移酶ANAT計算方法同源模建,深度卷積神經網絡AtomNet計算流程研究者基於低於蛋白質序列同源性「模糊區域」的模板結構生成了一個比較結構模型,隨後使用AtomNet(深度卷積神經網絡模型)篩選了包含近1000萬化合物的現成商業化合物庫。經過體外測試發現了靶向ANAT的一類小分子抑制劑。
  • 人工神經網絡在蛋白質降解基礎上預測幹醃火腿多元品質的應用
    degradation》,該文研究了幹醃火腿加工過程中蛋白質降解和品質變化,建立了基於蛋白質降解的多元品質預測模型 。  研究亮點  * 幹醃火腿加工過程中蛋白質發生顯著降解;  * 通過電子仿生技術,分析幹醃火腿品質特性;  * 藉助神經網絡系統,構建基於蛋白質降解的火腿多元品質預測模型。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    關鍵詞:燃煤電廠;脫硫系統;計算機模擬;深度學習;神經網絡;預測;模型應用;智慧環保;當前,國家正加快推進以 5G、人工智慧、工業網際網路、物聯網為代表的新型基礎設施建設(新基建),電力行業的智能化建設也蓬勃發展。國內大型火力發電廠很早就實現了廠級 DCS 數據監控,歷史運行數據豐富,為實現數據驅動的神經網絡建模提供了有利條件。
  • Current Opinion in Structural Biology:從蛋白質序列到功能的預測
    2015年5月8日訊/生物谷BIOON/ --隨著測序技術的飛速發展,大量的基因被揭示,大量的蛋白質序列也得到了解析。例如,只有不到1%的蛋白質序列有已知的功能。如果我們能夠利用計算生物學的方法,大量註解這些序列信息,就能夠積累很多對於蛋白質結構的認識,最終達到從量變到質變的飛躍。來自美國紐約霍華德醫學中心的科學家們討論了基於蛋白質功能注釋結構的新方法。在以前,已有的預測方法都是基於序列的同源性,進化關係和在基因組的位置來預測序列對應的模板及其功能。
  • 神經網絡實現分類與預測的基本原理
    文章目標:神經網絡特別是深層神經網絡是黑盒的,通過閱讀本文可以讓大家了解神經網絡的基本實現方法、基本數學原理、實現流程等,同時建議初學者從基礎學起,查詢更多的資料豐富認知,有不明白的地方可以關注作者或留言。
  • JCIM:計算提升蛋白質-蛋白質相互作用的預測精度
    蛋白質-蛋白質相互作用和識別在生物學過程中有著非常重要的作用。儘管結構生物學已經取得了較大的進展,但直接採用實驗方法確定蛋白質-蛋白質複合物結構仍然非常困難。分子對接技術是預測蛋白質-蛋白質複合物結構的有效方法。
  • 生物界AlphaGo精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。除了實驗,隨著計算機的發展,該項技術在上世紀末便已用於預測蛋白質的結構,但效果並不理想。 根據AlphaFold的主要負責人之一John Jumper介紹,在第二個步驟中,雖然沒有使用AI技術,但AlphaFold使用結構與遺傳數據得出了蛋白質的外觀模型,與之前的研究達成一致。 但第一次迭代存在缺陷。因此,該團隊開發了一個AI網絡。該網絡結合了有關確定蛋白質如何摺疊的物理和幾何約束的信息。
  • 生物界「AlphaGo」精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • DeepMind 模型實現蛋白質3D結構預測
    在11月30日舉行的兩年一次的CASP蛋白質結構預測挑戰賽中,DeepMind團隊開發的AlphaFold深度神經網絡模型脫穎而出,勝過其他100個團隊,在解決生物學最嚴峻的挑戰之一——從蛋白質的胺基酸
  • 神經網絡預測編碼器的設計及應用
    如圖1所示,該BP網絡具有一個輸入層,兩個隱含層(也稱中間層)和一個輸出層組成,各層之間實行全連接。BP神經網絡的隱含層通常具有多個,其傳輸函數常常採用sigmoid函數,而輸入輸出層則採用線性傳輸函數。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    使用神經網絡預測物理屬性AlphaFold 構建的模型都依賴深度神經網絡,這些經過訓練的神經網絡可以從基因序列中預測蛋白質的屬性。DeepMind 的研究人員表示,神經網絡預測的蛋白質屬性主要有:(a)胺基酸對之間的距離;(b)連接這些胺基酸的化學鍵及它們之間的角度。這些方法的首要進步就是對常用技術的提升,它們可以估計胺基酸對是否彼此接近。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • NAT網絡地址轉換複習一(思科)
    NAT(Network Address Translation )是一種將多個內部IP位址映射到一個或幾個公網IP位址實現內部網絡連接網際網路的技術,該技術隱藏了內部網絡的結構增強了網絡的安全性,並且緩解了IPv4地址緊張的問題,是網際網路廣泛應用的一種技術。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    原標題:DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構 雷鋒網 AI 科技評論按:在 2016 年和 2017 年,谷歌旗下 DeepMind 團隊的研究成果 AlphaGo 可以說是科技界當之無愧的焦點。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    因此,準確預測蛋白質的結構,對於理解其在人體內的作用,以及對上述疾病進行診斷和治療是非常重要的。 在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或X射線晶體學等實驗技術在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,這可能需要花上好幾年時間,而預測每個結構也要花費數萬美元。
  • ...Journal of Molecular Sciences:提出預測蛋白質相互作用的計算...
    蛋白質相互作用研究能夠從分子水平上揭示蛋白質的功能,幫助揭示生長發育、新陳代謝、分化和凋亡等細胞活動的規律在全基因組範圍內識別蛋白質相互作用對是解釋細胞調控機制的重要一步。隨著蛋白質相互作用實驗技術的發展,人們能夠獲得大量的蛋白質相互作用數據,甚至能夠在全基因組範圍內對蛋白質相互作用進行分析。然而,由於實驗技術的限制,很多高通量實驗方法測得的蛋白質相互作用數據的錯誤率都比較高。此外,傳統實驗的方法不適用於檢測大規模數據。
  • 神經網絡模型預測值 論文_bp神經網絡預測模型建模步驟 - CSDN
    該神經網絡的訓練,是先把神經元的值設置到期望模式,然後計算相應的權重。在這以後,權重將不會再改變了。一旦網絡被訓練包含一種或者多種模式,這個神經網絡總是會收斂於其中的某一種學習到的模式,因為它只會在某一個狀態才會穩定。值得注意的是,它並不一定遵從那個期望的狀態(很遺憾,它並不是那個具有魔法的黑盒子)。