化學所發展基於深度學習的蛋白質單分子分析新方法

2020-11-30 中國科學院

化學所發展基於深度學習的蛋白質單分子分析新方法

2019-05-24 化學研究所

【字體:

語音播報

  蛋白質是生命活動的物質基礎和主要承擔者,許多重要的蛋白質以複合物或多聚體形式參與信號轉導、離子轉運、免疫響應等眾多生理過程,蛋白質的化學計量組成與其生物功能的調控及多種疾病的發生發展密切相關。因此,在生理條件下定量表徵蛋白質的化學計量比(亞基組成數或蛋白聚集狀態),對於研究蛋白質的相互作用、闡明蛋白質結構-功能的調控機制、研發新藥等都具有十分重要的意義。

  在國家自然科學基金委、科技部和中國科學院的支持下,中科院化學研究所分子納米結構與納米技術重點實驗室方曉紅課題組長期致力於發展分析活細胞體系蛋白質動態變化的單分子顯微成像新方法,所建立的利用光漂白計數定量表徵膜蛋白化學計量比等單分子研究方法,為化學生物學和生物醫學研究提供了先進的技術(Natl. Sci. Rev. 2018, 5, 300)。近年來他們與生命科學家合作,發現了多種信號轉導蛋白激活和轉運新機制(Nat. Microbiology 2019, 4, 97-111; Nat. Commun. 2018, 9:11; Cell Res., 2015, 25,738-752)。

  最近,他們針對單分子光漂白計數分析中檢測信號弱、易被噪音掩蓋和光閃爍幹擾、數據量大等挑戰性問題,巧妙地利用人工智慧深度學習技術,提出了一個機器學習的深度神經網絡架構——CLDNN,對單分子光漂白事件進行準確、高效計數。他們所設計的CLDNN可憑藉其自身強大的學習能力以及特徵提取能力,通過卷積層提取光漂白臺階信號,通過長短時記憶(LSTM)循環層排除螢光閃爍等幹擾, 實現90%以上準確率的化學計量比分析。相比於已報導的單分子信號分析方法,CLDNN具有諸多優勢:(1)更高的分析準確率,尤其對於低信噪比的數據,優勢更為明顯;(2)更高的計算效率,可以快速處理大批量數據;(3)簡單易用,無需對單分子數據做濾噪等預處理,也無需設置算法參數;(4)具有較好的推廣性和擴展性,可對除訓練水平外的不同信噪比數據以及包含更多光漂白事件的數據進行有效分析。此外,使用者也可以加入自己的實驗數據集重新訓練CLDNN,使其更加滿足個性化分析需要。

    CLDNN為研究人員提供了一種全新的數據分析策略,使人們可更為高效、準確、客觀地分析蛋白質等生物大分子化學計量比,該架構還可應用於分析化學領域其它具有時間序列特徵的數據分析,將促進人工智慧技術在化學中的應用。相關研究成果近期發表於J. Am. Chem. Soc.20191416976-6985

CLDNN深度學習用於單分子光漂白計數分析及蛋白質化學計量比研究

  蛋白質是生命活動的物質基礎和主要承擔者,許多重要的蛋白質以複合物或多聚體形式參與信號轉導、離子轉運、免疫響應等眾多生理過程,蛋白質的化學計量組成與其生物功能的調控及多種疾病的發生發展密切相關。因此,在生理條件下定量表徵蛋白質的化學計量比(亞基組成數或蛋白聚集狀態),對於研究蛋白質的相互作用、闡明蛋白質結構-功能的調控機制、研發新藥等都具有十分重要的意義。
  在國家自然科學基金委、科技部和中國科學院的支持下,中科院化學研究所分子納米結構與納米技術重點實驗室方曉紅課題組長期致力於發展分析活細胞體系蛋白質動態變化的單分子顯微成像新方法,所建立的利用光漂白計數定量表徵膜蛋白化學計量比等單分子研究方法,為化學生物學和生物醫學研究提供了先進的技術(Natl. Sci. Rev. 2018, 5, 300)。近年來他們與生命科學家合作,發現了多種信號轉導蛋白激活和轉運新機制(Nat. Microbiology 2019, 4, 97-111; Nat. Commun. 2018, 9:11; Cell Res., 2015, 25,738-752)。
  最近,他們針對單分子光漂白計數分析中檢測信號弱、易被噪音掩蓋和光閃爍幹擾、數據量大等挑戰性問題,巧妙地利用人工智慧深度學習技術,提出了一個機器學習的深度神經網絡架構——CLDNN,對單分子光漂白事件進行準確、高效計數。他們所設計的CLDNN可憑藉其自身強大的學習能力以及特徵提取能力,通過卷積層提取光漂白臺階信號,通過長短時記憶(LSTM)循環層排除螢光閃爍等幹擾, 實現90%以上準確率的化學計量比分析。相比於已報導的單分子信號分析方法,CLDNN具有諸多優勢:(1)更高的分析準確率,尤其對於低信噪比的數據,優勢更為明顯;(2)更高的計算效率,可以快速處理大批量數據;(3)簡單易用,無需對單分子數據做濾噪等預處理,也無需設置算法參數;(4)具有較好的推廣性和擴展性,可對除訓練水平外的不同信噪比數據以及包含更多光漂白事件的數據進行有效分析。此外,使用者也可以加入自己的實驗數據集重新訓練CLDNN,使其更加滿足個性化分析需要。
    CLDNN為研究人員提供了一種全新的數據分析策略,使人們可更為高效、準確、客觀地分析蛋白質等生物大分子化學計量比,該架構還可應用於分析化學領域其它具有時間序列特徵的數據分析,將促進人工智慧技術在化學中的應用。相關研究成果近期發表於J. Am. Chem. Soc.(2019,141,6976-6985)。

CLDNN深度學習用於單分子光漂白計數分析及蛋白質化學計量比研究

列印 責任編輯:葉瑞優

相關焦點

  • 大連化物所發展出N-磷酸化蛋白質組深度覆蓋分析新方法
    近日,中國科學院大連化學物理研究所生物分子高效分離與表徵研究組研究員張麗華和中科院院士張玉奎團隊,發展出N-磷酸化肽段高選擇性富集新方法,並結合肽段的高效分離和高靈敏度鑑定,實現了N-磷酸化蛋白質組的深度覆蓋分析。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    由於蛋白質的形狀決定了它的功能及其在疾病中的功能障礙程度,因此闡明蛋白質結構的努力是所有分子生物學的核心 - 特別是治療科學以及拯救生命和改變生命的藥物的發展。近年來,計算方法在基於其胺基酸序列的知識預測蛋白質如何摺疊方面取得了重大進展。如果完全實現,這些方法有可能改變生物醫學研究的幾乎所有方面。然而,目前的方法在可以確定的蛋白質的規模和範圍方面受到限制。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫學研究都可以被轉換成計算公式。然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。
  • 新方法再次提高單細胞蛋白質組學質譜定量準確度
    單細胞蛋白質組學在蛋白豐度檢測、轉錄修飾和翻譯後修飾方面填補了單細胞轉錄組學的空白。    單細胞蛋白質組學質譜(SCoPE-MS)是近年來興起的一種定量分析多功能單細胞蛋白質組的方法,這種方法採用同位素標記和載體蛋白質組學來分析單個細胞。
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    為了更好的理解這些微觀結構,如蛋白質的生物學功能,我們需要分析其三維結構信息。然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。
  • Nature Methods|新方法再次提高單細胞蛋白質組學質譜定量準確度
    —— 諾貝爾生理學或醫學獎獲得者Sydney Brenner單細胞蛋白質組學在蛋白豐度檢測、轉錄修飾和翻譯後修飾方面填補了單細胞轉錄組學的空白。單細胞蛋白質組學質譜(SCoPE-MS)是近年來興起的一種定量分析多功能單細胞蛋白質組的方法,這種方法採用同位素標記和載體蛋白質組學來分析單個細胞【1】。
  • JMC | 藥物化學中的分子表徵學習
    研究者討論了分子深度學習領域的積極研究將如何解決當前描述符和指紋的局限性,同時在化學信息學和虛擬篩選領域創造新的機遇。2. 研究者簡要概述了表徵在化學信息學中的作用,以及深度學習中的關鍵概念,並認為學習表徵提供了一種改進小分子生物活性和性質預測建模的新方法。背景介紹為什麼表徵重要?
  • 中科院化學所所長張德清:立足基礎,追求卓越—新聞—科學網
    分子科學前沿領域成就顯著 「十二五」期間,化學所圍繞分子反應基礎和器件研究中的重大、前沿性科學問題,開展了深入的研究工作,在複雜反應的過程與調控、納米結構可控制備、有機柔性電子器件方面取得了一系列重要突破。「分子科學是研究分子的結構、合成、轉化與功能的科學,是化學科學的核心,是創造新物質的源泉,是化學所的重點研究領域。」
  • 用深度學習對抗癌症:從分子層面研究到大規模人口建模
    生物醫學的進步和下一代領先計算機的興起(百億億次計算機的開發)推動著癌症治療的發展。深度學習和數據驅動科學的快速發展,使許多人對前景報以樂觀的態度,所以 2016 全球超級計算機大會重點關注精準醫療和 HPC 的作用就是偶然了。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    蛋白質結構預測是生命科學領域的一大難題。近日,來自哈佛大學醫學院的研究人員提出了一種基於胺基酸序列預測蛋白質結構的新方法,準確率可媲美當前最佳方案,但預測速度提升了100萬倍。生命所必需的每一次基礎生物學進展幾乎都是由蛋白質帶來的。
  • 清華交叉信息院曾堅陽研究組發文闡釋深度學習解碼蛋白質翻譯過程
    清華交叉信息院曾堅陽研究組發文闡釋深度學習解碼蛋白質翻譯過程 清華新聞網9月29日電  9月27日,清華大學交叉信息研究院曾堅陽研究組在《細胞》子刊《細胞·系統》(Cell Systems)發表了題為《利用深度學習分析核糖體停滯現象與蛋白質翻譯動態》(「Analysis of Ribosome Stalling and Translation
  • Life Science Alliance:深度學習算法有助於鑑定癌細胞的分子特徵
    2019年12月4日 訊 /生物谷BIOON/ --根據發表在《Life Science Alliance》雜誌上的新研究,一種新的深度學習算法可以快速,準確地分析來自結直腸腫瘤的幾種基因組數據,以進行更準確的分類,從而有助於改善診斷和相關的治療選擇。大腸腫瘤的發展方式各不相同,需要接受的藥物類型也不同,生存率也大不相同。
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    所有蛋白質都是由20種不同胺基酸連接形成的多聚體,在形成蛋白質後,這些胺基酸又被稱為殘基。要發揮生物學功能,蛋白質需要正確摺疊為一個特定構型。有多種科學方法可用於預測DNA中殘留胺基酸的蛋白質分子的天然三維狀態(即蛋白質鏈如何摺疊以達到天然狀態)。
  • 中國藥物分子設計40年發展成就
    在LigBuilder蛋白質結合口袋分析模塊的基礎上,該課題組還相繼獨立發展了Pocket 2[120],Pocket 3[121]和Pocket 4[19]方法,這些方法被廣泛應用於基於結構的藥效團模型分析。
  • 冷凍電鏡單顆粒技術的發展、現狀與未來
    圖像處理軟體的發展對冷凍電鏡單顆粒重構技術極其重要,當前廣泛使用的電鏡分析軟體系統主要包括SPIDER,EMAN2, FREALIGN,SPARX,RELION等。  (2)基於模板的方法,通過掃描數據圖像和已知的模板比較來挑選出潛在的顆粒圖像,模板的來源通常為手動選出的數據圖像中較為清晰的顆粒圖像,或者是已知結構的投影。  (3)結合無模板和有模板的方法,通過一些有監督的機器學習算法進行顆粒挑選。  隨著圖像識別領域中深度學習方法的流行,各類基於深度學習的顆粒識別框架也被引入到顆粒挑選的過程中。
  • 基於序列信息來預測潛在的抗癌多肽的深度學習方法
    打開APP 基於序列信息來預測潛在的抗癌多肽的深度學習方法 中國科學院網站 發表於 2019-09-20 15:13:00 傳統的物理和化學方法,包括靶向治療、化療和放射治療等醫療實踐中常見的治療手段,在一定程度上能殺死病變癌細胞,但是同時也會殺死大量正常的細胞,帶來嚴重的副作用。這些治療手段費用昂貴且預後效果不佳,迫切需要開發新的定向清除癌細胞,治療癌症的有效方法。
  • 首次用深度學習從第一性原理計算分子能量
    DeepMind發表了一項新研究,展示了深度學習如何幫助解決現實系統中的量子力學基本方程問題,相關論文發表在物理學期刊《Physical Review Research》,代碼也已經開源。DeepMind表示,FermiNet是第一個利用深度學習來從第一性原理計算原子和分子能量的嘗試,並擁有足夠的精確度。他們還計劃將FermiNet用於蛋白質摺疊、玻璃態動力學、晶格量子色動力學等研究項目,以將這一願景變為現實。
  • 「乘風破浪」的「造物者」——走進北京分子科學國家研究中心轉載
    化學所科技處處長鄭企雨對此感受頗深。上世紀90年代末,作為創造新分子、新物質的學科,化學在社會和經濟發展中作出的貢獻有目共睹。「好的應用固然重要,但我們仍然應當強調化學是一門科學。」當時,化學所時任所長朱道本基於這樣的認識,借鑑世界發達國家科學家的思想,提出「分子科學」概念,旨在通過交叉融合實現方法理論的突破,開拓化學研究的新疆域,破解化學學科面臨的「分片式」發展困境。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    作者 | 黃浴轉載自知乎導讀:近年來,使用深度學習技術的圖像超解析度(SR)取得了顯著進步。本文中,奇點汽車自動駕駛首席科學家黃浴對基於深度學習技術的圖像超解析度技術進行了一次全面的總結,分析了這門技術近年來的發展軌跡。
  • 蔡軍/張江開發出基於深度學習的單細胞轉錄組分析模型
    常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。目前已有的基於監督學習的自動分類方法,大部分無法兼顧到方法的可解釋性以及新細胞類型的發現。