清華新聞網10月12日電 10月8日,清華大學生命學院的張強鋒課題組在《自然·通訊》(Nature Communications)上發表題為「SCALE方法基於隱特徵提取進行單細胞ATAC-seq數據分析」(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的學術文章。
真核生物的染色質具有複雜的高級結構,由DNA一圈一圈纏繞在組蛋白上形成串珠式模型並進一步摺疊聚集而成。基因的轉錄必須要將相應的染色質打開形成開放區域才能結合其他的轉錄調控因子。因此可以說染色質開發區域是基因組編碼生命的窗口。單細胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技術在單細胞層次上通過Tn5 DNA轉座酶在開放染色質插入測序接頭進行標記並測序,從而獲取「高分辨」的單細胞精度的染色質開放圖譜,並依此揭示細胞異質性的調控機制。
SCALE的模型框架
越來越多的研究者們應用單細胞ATAC-seq技術,在腫瘤、免疫、發育領域獲取大量的測序數據。然而,目前沒有一個有效的方法可以很好的分析挖掘海量的單細胞ATAC-seq數據中寶貴的生物信息。單細胞ATAC-seq數據分析的難點在於數據本身。首先,細胞整體的染色質開放位點數有幾十萬之多,造成所謂的「維度災難」。另外,由於生物的原因許多潛在的開放沒有信號,數據異常稀疏,技術限制帶來的數據丟失極大程度上加劇了這種現象。特別地,在二倍體基因組上一個開放區域一般至多只有兩個拷貝,使得數據近乎二值化。這些問題都給單細胞ATAC-seq數據的分析帶來了巨大挑戰。
近日,張強鋒課題組發表的文章提出了SCALE,利用人工智慧深度學習的方法,結合變分自編碼器和高斯混合模型,提取單細胞ATAC-seq數據的隱層特徵,將問題從複雜稀疏的高維度的染色質開放圖譜空間投射到了簡單抽象的低維度特徵空間。這種處理不但可以發現和解析細胞特異性的染色質圖譜模式,還通過相似細胞信息共享,填補了技術限制導致的缺失值,從而巧妙地解決了單細胞ATAC-seq數據中高維度、稀疏性、二值化等問題。SCALE提供了完整的可視化、聚類、數據增強、幫助下遊生物信息的挖掘,為研究者們解碼單細胞表觀遺傳學提供了有力的工具。
清華大學生命學院研究員張強鋒為本文通訊作者,CLS項目博士生熊磊為本文第一作者。本工作獲得國家重點研發計劃項目、國家自然科學基金、清華大學結構生物學高精尖中心、清華-北大生命科學聯合中心的資金支持。
原文連結:
https://www.nature.com/articles/s41467-019-12630-7
供稿:生命學院
編輯:李華山
審核:周襄楠