...學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq...

2020-11-30 清華大學新聞網

生命學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq數據


清華新聞網10月12日電 10月8日,清華大學生命學院的張強鋒課題組在《自然·通訊》(Nature Communications)上發表題為「SCALE方法基於隱特徵提取進行單細胞ATAC-seq數據分析」(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的學術文章。

真核生物的染色質具有複雜的高級結構,由DNA一圈一圈纏繞在組蛋白上形成串珠式模型並進一步摺疊聚集而成。基因的轉錄必須要將相應的染色質打開形成開放區域才能結合其他的轉錄調控因子。因此可以說染色質開發區域是基因組編碼生命的窗口。單細胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技術在單細胞層次上通過Tn5 DNA轉座酶在開放染色質插入測序接頭進行標記並測序,從而獲取「高分辨」的單細胞精度的染色質開放圖譜,並依此揭示細胞異質性的調控機制。 

SCALE的模型框架

越來越多的研究者們應用單細胞ATAC-seq技術,在腫瘤、免疫、發育領域獲取大量的測序數據。然而,目前沒有一個有效的方法可以很好的分析挖掘海量的單細胞ATAC-seq數據中寶貴的生物信息。單細胞ATAC-seq數據分析的難點在於數據本身。首先,細胞整體的染色質開放位點數有幾十萬之多,造成所謂的「維度災難」。另外,由於生物的原因許多潛在的開放沒有信號,數據異常稀疏,技術限制帶來的數據丟失極大程度上加劇了這種現象。特別地,在二倍體基因組上一個開放區域一般至多只有兩個拷貝,使得數據近乎二值化。這些問題都給單細胞ATAC-seq數據的分析帶來了巨大挑戰。

近日,張強鋒課題組發表的文章提出了SCALE,利用人工智慧深度學習的方法,結合變分自編碼器和高斯混合模型,提取單細胞ATAC-seq數據的隱層特徵,將問題從複雜稀疏的高維度的染色質開放圖譜空間投射到了簡單抽象的低維度特徵空間。這種處理不但可以發現和解析細胞特異性的染色質圖譜模式,還通過相似細胞信息共享,填補了技術限制導致的缺失值,從而巧妙地解決了單細胞ATAC-seq數據中高維度、稀疏性、二值化等問題。SCALE提供了完整的可視化、聚類、數據增強、幫助下遊生物信息的挖掘,為研究者們解碼單細胞表觀遺傳學提供了有力的工具。

清華大學生命學院研究員張強鋒為本文通訊作者,CLS項目博士生熊磊為本文第一作者。本工作獲得國家重點研發計劃項目、國家自然科學基金、清華大學結構生物學高精尖中心、清華-北大生命科學聯合中心的資金支持。

原文連結:

https://www.nature.com/articles/s41467-019-12630-7

供稿:生命學院

編輯:李華山

審核:周襄楠

相關焦點

  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(一)
    SnapATAC簡介SnapATAC (Single Nucleus Analysis Pipeline for ATAC-seq) 是一個能夠快速、準確和全面分析單細胞ATAC-seq數據的R包,它可以對單細胞ATAC-seq數據進行常規的數據降維、聚類和批次校正分析,鑑定遠端調控元件並預測其調控的靶基因,調用chromVAR軟體進行motif分析
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • 科學家找到深度學習基因組學應用的一頂「黑帽子」—新聞—科學網
    DARTS 的基本框架 研究人員首次將深度學習與貝葉斯假設檢驗結合,利用深度學習強化RNA可變剪接分析的準確性。 這項發表在《自然—方法》上的論文成果,提出了一種新的計算框架——DARTS(「利用深度學習強化對RNA-seq的可變剪接分析」英文的首字母縮寫)。該計算框架首次將深度學習與貝葉斯假設檢驗結合,用於RNA可變剪接分析。這種結合使得它即使對於測序深度不那麼高的樣品,也能有效提高RNA-seq定量差異剪接的準確度。
  • CellPress|單細胞技術和基於深度學習的藥物反應預測
    與傳統的大規模測序分析方法相比,單細胞測序分析的快速發展,可以幫助我們更好的理解腫瘤基因組,轉錄組和基因組異質性的概況。不僅如此,據調查顯示,單細胞測序分析技術可以使腫瘤對藥物暴露的反應更大。目前,深度學習模型已經能夠從大量複雜的序列數據中提取出特徵,用於預測藥物的反應。
  • Sci Adv |基於人工智慧度量學習的單細胞類型鑑定新方法
    2020年10月30日,同濟大學生命科學與技術學院生物信息系劉琦教授課題組(第一作者是劉琦教授課題組的博士生段斌劉琦教授課題組長期從事基於人工智慧和組學數據分析的腫瘤精準治療、藥物發現以及基因編輯方面的研究工作。
  • 專訪張強鋒:為何27歲從零開始學生物
    通過這五位和高精尖中心深度交集的科學家向讀者展現出:伴隨著該中心的發展壯大,近幾年來中國結構生物學如何再次站上世界前列。 多學科交叉已經成為大部分重磅研究的「標配」。清華大學生命科學學院研究員、結構生物學高精尖創新中心PI張強鋒的實驗室,則在單個實驗室內將這種交叉學科的特色體現得淋漓盡致:集結構生物學、基因組學、機器學習和大數據分析等多門學科在內。
  • |可解釋膠囊網絡深度學習框架從單細胞RNA測序...
    文中提出了一個使用膠囊網絡(稱為scCapsNet)的可解釋的深度學習體系結構。膠囊結構(代表一組特定對象屬性的神經元向量)捕捉層次關係。通過利用競爭性單細胞類型識別,scCapsNet模型能夠進行特徵選擇以識別編碼不同亞細胞類型的基因組。將RNA表達特徵有效地整合到scCapsNet的參數矩陣中,實現了亞細胞類型識別。
  • 生物標記技術實現高復用的單細胞RNA-seq
    生物標記技術實現高復用的單細胞RNA-seq 作者:小柯機器人 發布時間:2019/12/24 14:40:23 美國加州理工學院Lior Pachter課題組開發了一種利用DNA寡核苷酸標記細胞蛋白技術
  • ItClust:單細胞RNA測序分析的聚類和細胞類型分類算法
    在scRNA-seq的分析中, 細胞類型分類是非常重要的步驟。通過鑑定組織中不同的細胞類型,我們可以更好的理解:(1)同一物種不同組織之間細胞類型和功能的差異;(2)同一組織在不同發育階段的細胞類型的變化;(3)同一組織在健康和疾病狀態下細胞類型的差異。
  • 一文讀懂表觀遺傳學研究利器——ATAC-seq技術及應用丨深度長文
    這兩篇論文先後提出利用單細胞ATAC-seq技術對染色質可及性進行檢測,探索細胞轉錄調控機制,解決了以往存在的細胞異質性難題,成為ATAC-seq技術的一大突破。其中,後者將ATAC-seq與Fluidigm C1單細胞平臺整合,利用微流控晶片完成捕獲、裂解、轉座、PCR等實驗過程,建立了自動化的單細胞染色質可及性圖譜研究方法。
  • 單細胞RNA計數新技術Smart-seq3
    單細胞RNA計數新技術Smart-seq3 作者:小柯機器人 發布時間:2020/5/6 14:16:10 瑞典卡羅林斯卡學院Rickard Sandberg課題組取得一項新突破。
  • ...DISC:使用半監督深度學習推斷單細胞轉錄組的基因表達和結構
    「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。
  • 解讀單細胞RNA-seq技術
    多年來,跟蹤一個單細胞的轉錄組,超出了我們的能力。但是現在,時代已經變了,新的單細胞RNA-seq方法,可以分析大量的細胞及它們的命運。我們都參加過大型生日派對:在擁擠的房間裡,與許多人聊天、吃飯和慶祝。但是,試想你並不知道壽星是誰,只是像一個局外者看待這個派對。
  • 【學術前沿】張世華課題組提出解決單細胞轉錄組數據高度缺失及...
    因此,如何從高度稀疏的單細胞轉錄組數據中精確地恢復這些缺失的信號,從而促進下遊生物信息挖掘,是單細胞轉錄組數據分析面臨的重要挑戰。基於此考慮,張世華課題組大膽推測單細胞數據中的drop-out應該也和基因的先驗表達有密切關係。此前研究確實也表明表達水平低的基因更傾向於有較大的數據缺失率,而且不同的細胞類型的缺失率不同【4】。因此,利用這個先驗關係能夠幫助估計出缺失的表達水平的範圍。PBLR就是基於細胞子群的有界低秩填補模型,綜合考慮了單細胞數據的這幾個特點(圖1)。
  • 人工智慧系統利用深度學習算法,能夠預測癲癇發作,準確率達到99.6%
    人工智慧系統利用深度學習算法,能夠預測癲癇發作,準確率達到99.6%Artificial intelligence system uses deep learning algorism to predict seisures
  • Genome Biology丨瞿昆組開發單細胞染色質可及性實驗和分析新技術
    與單細胞轉錄組測序技術相比,單細胞染色質可及性測序技術無論在實驗方法上,還是數據分析上,均存在巨大挑戰。近日,中國科學技術大學生命科學與醫學部、合肥微尺度國家科學中心、中科院天然免疫和慢性疾病重點實驗室瞿昆教授課題組,開發了一種新型的單細胞染色質可及性實驗技術ftATAC-seq和數據分析算法APEC。
  • 我國科學家實現單細胞表觀組學新突破:兩種革新單細胞ChIP-seq技術...
    ChIP-seq技術-CoBATCH實驗設計思路 圖2 單細胞ChIP-seq技術-sc-itChIP實驗設計思路 在國家重點研發計劃幹細胞及轉化研究重點專項(批准號:2017YFA0103402)等資助下,北京大學分子醫學研究所、北大-清華生命科學聯合中心何愛彬課題組近期突破單細胞表觀遺傳研究的瓶頸,開發了兩種具有普適性、操作簡單
  • 如何讓單細胞測序變得如此簡單?
    2017年7月20日 訊 /生物谷BIOON/ --單細胞生物學研究一直是當今的熱門話題,而且最前沿的領域就是單細胞RNA測序了(scRNA-seq)。這個過程是非常複雜的,但對於大量的RNA-seq而言,研究人員可以利用算法對每一個步驟進行處理,而且他們也非常清楚每個過程的運行狀況。如今網上有很多在線資源和工具能夠簡化scRNA-seq數據分析的過程,其中名為GitHub的平臺(Awesome Single Cell)就整合了70多種工具和資源,而且相關的工具和資源能夠覆蓋分析過程的每一步。
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    靶下切割和核酸酶釋放(Cut&Run)與CHIP-seq一樣,用於檢測DNA與蛋白質的相互作用,它不需要甲醛交聯和超聲切碎,而是利用融合到蛋白A/G上的Mnase來原位切割和釋放目標DNA片段,從而顯著提高信噪比,並且可以應用於低至100~1000個細胞中。超低輸入的CUT&RUN(uliCUT&RUN)將該方法進一步提高到單細胞水平。
  • 吳昊團隊開發檢測單細胞mRNA動態變化新技術scNT-seq
    該方法創新性的整合了mRNA代謝標記 (metabolic labeling),基於液滴微流控(droplet microfluidics)的高通量單細胞轉錄組分析技術和最近開發的4sU化學轉化反應 (chemically recode 4sU to cytosine analog )【1】;在數據分析方面,作者構建了基於unique molecular identifier(UMI) 的統計模型來更加準確地分析單細胞水平上新生成的