文章題目:單細胞 ATAC 測序分析:從數據預處理到假設生成
發表期刊:Computational and Structural Biotechnology Journal
影響因子:6.018
發表時間:2020.06
大多數與人類複雜性狀相關的遺傳變異都位於基因組非編碼區,其中大部分元件都與基因表達調控息息相關,因此,想要了解從基因型到表型的全貌就需要了解基因組非編碼區內元件的功能。
目前,ATAC-seq 是測定全基因組染色質開放區分布最可行且最高效的方法,scATAC-seq 技術則應用於研究異質細胞群體中特定細胞類型的染色質開放區。然而,由於 scATAC-seq 數據存在高噪聲和高稀疏等特性,很難準確提取生物學信號並設計有效的生物學假設。
為了克服這些限制,近幾年開發了很多算法和軟體工具。但目前針對 scATAC-seq 數據分析的最佳方法尚無共識。本綜述討論了 scATAC-seq 技術和數據分析方法,從預處理到下遊分析,並列舉了涉及相關方法應用的已發表研究。希望本綜述為如何適當使用軟體工具和資料庫研究單細胞解析度下的染色質可及性提供指導。
ATAC-seq 是檢測全基因組染色質開放區的方法,高活性的 Tn5 轉座酶可以在片段化染色質開放區 DNA 序列的同時進行標記,與其他方法相比,ATAC-seq 所需的樣品製備時間更短,樣本起始量更少。隨著單細胞生物學的出現以及與其他組學技術測序技術相適應和發展,從單細胞水平進行染色質可及性研究成為可能,但 scATAC-seq 數據分析仍然具有挑戰性。如果沒有對 scATAC-seq 數據的充分了解,染色質開放區內各種潛在功能元件必定會增加 scATAC-seq 數據解析的複雜性。近幾年開發了很多用於 scATAC-seq 數據分析的算法和軟體工具,但是,必須仔細選擇數據分析流程每個步驟的算法和參數,才能將染色質可及性信息可靠地轉換為新的生物學假設。
本綜述旨在詳細闡述 scATAC-seq 數據分析從預處理到各種下遊分析的流程。與其他 NGS 數據的分析相似,scATAC-seq 數據也需要進行預處理。一些軟體工具廣泛用於序列信息的質量控制,參考基因組比對以及候選染色質開放區域峰的鑑定。預處理後生成 cell-feature 矩陣的生成對於 scATAC-seq 數據分析至關重要,將預處理後的數據用於下遊分析,以闡明順式調控元件(例如啟動子和增強子)和反調控元件(例如 TF)之間的網絡。scATAC-seq 數據還可以進行基因活性和遺傳變異的可及性等分析。此外,scATAC-seq 能與 scRNA-seq 數據及其他組學數據聯合進行多組學研究。
在 ATAC-seq 技術發展的兩年內,引入了兩種不同的單細胞適應策略:一是基於 split-and-pool 的原理為單個細胞標記上獨特的 DNA barcode。例如 sci-ATAC-seq;另一個是微流體方法,例如使用 IFC。在 sci-ATAC-seq 中,將裂解的細胞核置於攜有獨特 barcode 轉座酶的96孔板中,再混合在一起,然後使用 FACS 分配到第二個96孔板中,在擴增過程中引入第二個 barcode,通過識別兩個 barcode 的獨特組合識別單個細胞。sci-ATAC-seq 可以對約1500個細胞進行測序,中位讀數為2500,碰撞率約為11%。而 IFC scATAC-seq 利用 Fluidigm C1 設備捕獲單個細胞並在 IFC 上進行轉座和PCR。儘管此方法每個細胞可以獲得超過70000次讀取,但最多只能並行處理96個細胞。最近,10x Genomics Chromium 裝置基於微流體的方法,使用 GEM 捕獲單個被轉座的細胞核。GEM 的可擴展性和高通量與數據處理軟體 Cell Ranger ATAC 相結合可以對大量細胞進行 scATAC-seq 研究,也使得該方法廣受歡迎。
目前已有更多技術對上述單細胞技術進行改進。Pi-ATAC 與 DNA 轉座平行的分析蛋白質表位,以量化同一單個細胞的蛋白質表達和染色質可及性。scip-ATAC-seq 提高了轉座酶進入細胞核的效率,從而提高了文庫的複雜性和解析度。T-ATAC-seq 使用 ATAC-seq 對 T 細胞受體編碼基因進行測序。Perturb-ATAC 在轉座後添加 CRISPR sgRNA,並對 sgRNA 和 ATAC DNA 進行測序,以研究調節染色質可及性因素之間的關係。基於 Plate 的 scATAC-seq 促進了文庫的複雜性,也使線粒體 DNA 的量更少,FRiP 的分數更高。dsciATAC-seq可以保持基於微流體的 scATAC-seq 的測序深度,同時並行提高細胞通量。μATAC-seq 採用 ICELL8 平臺,以高通量和低文庫製備成本提供單細胞測序。在選擇 scATAC-seq 技術之前,重要的是要考慮實驗設備的可用性及其與分析軟體的兼容性、所需的測序深度、細胞通量以及研究的總體目的。
圖2. scATAC-seq 文庫生成的兩種主要策略:(a)split-and-pool 的原理為單個細胞標記上獨特的 DNA barcodes方法和(b)基於微流控技術方法以及(c)其修改方法。在通過下遊分析生成生物學假設之前,為準確解析 scATAC-seq 數據必須進行數據預處理步驟。scATAC-seq 數據的預處理從測序文件的拆解和低質量細胞的刪除開始,再仔細選擇用於cell-feature 矩陣的基因組區域、數據轉換方法、降維方法以及用於注釋細胞類型的方法。此外,必要時須刪除批次效應。由於數據分析中沒有萬能藥,因此對多種方法與互補算法進行比較,才能從給定的數據集中獲得最佳結果。表1總結了可用於 scATAC-seq 數據分析的13個軟體包:ChromVAR、SCRAT、scABC、Cicero、Scasat、ciscisic、snapATAC、epiScanpy、Destin、SCALE、scATAC-pro、Signac 和 ArchR 。儘管下遊分析的能力各不相同,但它們都包含獨特的預處理步驟。
表1. scATAC-seq 分析軟體包概況
3.1. 測序讀段的處理
如果多個樣品在一個反應中混合測序,則需要使用如 Illumina 的 bcl2fastq 等軟體包根據 index 接頭序列進行樣品拆分。然後,使用 Bowtie2 或 Trimmomatic 修整接頭序列和引物序列;使用 Bowtie2 或 BWA 將讀段與基因組進行比對,並用 Samtools 進行排序。
3.2. 質量控制
低質量細胞或者多細胞將通過數據預處理去除。大多數單細胞測序技術的 QC 標準都基於每個細胞對應 barcode 的讀段數目(測序深度)和特徵數目,過低或者過高的數值可能是由於低質量細胞或者多細胞引起的。根據 scATAC-seq 數據的特性也響應產生了更豐富的 QC 指標,如 FRiP、啟動子區域讀段比例、blacklist 位點讀段比例及 TSS 富集分數等。此外,沒有顯示出高質量 ATAC-seq 數據的核小體結合模式的細胞也可以被去除。除 barcode 外,位於 blacklist 區域或管家基因中的特徵(如 peak)也可以被濾除。並非所有樣品都符合絕對的 QC 標準。因此,必須根據樣品的特徵(如數據的整體結構、異質性、可能存在的細胞類型、批次或測序平臺)仔細選擇 QC 標準的組合。
3.3. cell-feature 矩陣構成
通過 QC 的 cell-feature 矩陣將被用於下遊分析。原始 peak 或根據調控因子注釋的 feature 使數據呈多元化。儘管大多數分析流程用定義和注釋基因組區域作為單一組合,但某些流程針對下遊分析的不同目的而適應各種合適的矩陣。基因組區域的定義可以根據樣品的特定信息來分類,feature 注釋可以隨感興趣的調控元件而改變。樣本的特定信息包括利用公開數據中的bulk ATAC-seq的peak、scATAC-seq 數據中的集合或合併 peak。還可以根據樣本來源或者初始細胞分群對細胞進行劃分再使用 MACS2 進行 peak 識別。另一種方法是將基因組劃分為特定大小的窗口,並統計每個窗口中讀段豐度作為每個窗口的分值。通過定義peak、窗口、調控元件(TF motif 、TSS等)產生 cell-feature 矩陣。由於不同細胞類型存在特異的 TF 的 motif 或 k-mers 的信息,因此一些分析流程用此信息注釋細胞類型。基因組區域可以用公共資料庫(如cisBP、JASPAR、HOMER)的已知 TF motif進行注釋,還能使用 motif 匹配 k-mers 進行無監督注釋。此外,TSS 的可及性也可作為細胞類型特異的 feature。這些基因組 feature 會結合在一起形成一個集合以準確分析細胞異質性。一些工具簡單地合併鄰近 peak 或直接將它們用作生成的 feature,而無需注釋基因組元素。
3.4. 批次校正和數據整合
當需要同時分析多批次的 scATAC-seq 數據時,一些非生物學因素(例如技術差異)可能會導致錯誤的生物學假設。批次效應的產生可能來源於實驗人員、樣品製備方案、樣品獲得時間、測序通道和測序技術的差異。scATAC-seq 數據的批次效應校正通常是在沒有特定計算工具的情況下間接進行的,通過仔細檢查可以去除批次特定的 feature。批處理效果通常在其他預處理步驟中得到糾正,例如選擇高變 peak 或降維。使用基於非線性算法的數據集成方法可更系統地糾正單細胞組學數據的批次效應。這些方法假設所有批次至少共享一種細胞類型,且批次之間的差異小於細胞類型之間的差異。但這些方法也可能消除生物學差異,從而導致過度校正。因此,既要考慮批次消除的能力,又要考慮對生物學差異的保護。儘管沒有用於集成 scATAC-seq 數據的指定工具,但可以使用為 scRNA-seq 開發的工具。對具有 atlas-level 的 scATAC-seq 數據集成工具進行的基準研究表明,大多數工具的性能較差,這可能歸因於數據的稀疏性和二進位性質。Harmony ,Seurat v3 和 scVI 在批次去除和生物學差異保護之間表現出最佳的平衡性。用於批次校正的數據整合工具也可用於整合多組學單細胞數據(例如,整合從同一組織來源產生的 scRNA-seq 和 scATAC-seq 數據),後續將進一步介紹。
3.5. 數據轉換
儘管嘗試了各種實驗技術增加測序輸出,但據報導,從單個細胞讀取的 peak 僅佔 scATAC-seq 分析中總可檢測 peak 的1〜10%。因此,使用數據轉換代替初始 cell-feature 矩陣進行下遊分析,可以補償數據稀疏性帶來的限制。由於 scATAC-seq 文件的二元性(對於單個細胞分別用1和0表示基因組區域的開放和不開放),topic 建模的經典文本挖掘方法可用於數據轉換。用 TF-IDF 方法對 cell-feature 矩陣進行轉換,使細胞群體中稀有 peak 有更大的權重,變換後的數據矩陣趨於捕獲不同細胞類型特異 peak。還可以利用 Jaccard 距離衡量兩個細胞間的差異。更高的測序深度可以為精確獲取特徵值提供幫助,有一些方法通過測序深度權衡每個細胞的特徵。
3.6. 降維、聚類及可視化
經數據轉換後 cell-feature 矩陣進行降維處理可以減少冗餘信息、高維數據的潛在噪聲、下遊分析的計算時間。PCA 是一種廣泛使用的線性降維技術,根據 scree 圖分析或 Jackstraw 檢驗確定主成分數目。Topic 建模方法(例如cisTopic)基於潛在 LDA 生成的主題細胞分布來選擇 Topic,從而減少矩陣的維數。雖然 LDA 較耗時,但它可以獲得細胞類型特異的特徵值以提高聚類的準確性。LSI 是通過使用 TF-IDF 後進行 SVD 進行降維。MDS 基於細胞之間的相似性來降維。Diffusion map 是降維處理的一種非線性方法,它傾向於對噪聲進行排序。雖然一些數據分析流程省略了線性降維步驟,但其使用可改善下遊分析的總聚類結果。這些降維方法的結果將用作可視化和聚類的輸入。常使用非線性降維技術,例如 t-SNE 和 UMAP 可視化二維或三維空間中的數據,這些技術通常稱為嵌入。UMAP 可視化傾向於更好地保留全局結構,而 t-SNE 可視化則傾向於保留局部鄰域。單細胞分析中,目前關於用哪種降維方法仍存在爭議,方法的選擇通常取決於每個數據集的屬性和所使用的數據預處理方法。因此,建議對給定的數據集應用多種可視化方法,再根據獲得的結果進行選擇。具有相似開放區的細胞可聚集成細胞群,scATAC-seq 數據分析常使用聚類方法:層次聚類,k-means,k-medoids 和 Louvain 算法。層次聚類對於理解細胞類群之間的整體關係很有用,結果常用樹狀圖可視化顯示捕獲的層次關係。k-means 和 k-medoid 是需要預設聚類數目的算法,K-medoids 聚類對噪聲的魯棒性更強,但該方法也需更強的計算能力。Louvain 聚類是一種基於圖的聚類方法,常以 KNN 方法的結果作為輸入。一些分析工具可能具有首選的聚類方法,但大多數情況下,這些方法是可以互換的。最近對 scATAC-seq 數據進行聚類測試結果顯示,用 Louvain 聚類的結果最為令人滿意。
單細胞組學研究的主要目的是針對複雜混合的異質細胞群體的不同子集產生生物學假設。因此,下遊分析從識別細胞群身份開始。通常對每個細胞群進行 peak calling 以識別不同細胞群的可及性染色質區域,然後對其進行統計檢驗,與各種預先定義的基因組特徵(例如順式和反式調控元件以及遺傳變異)相關聯, 例如與疾病相關的SNP。下遊分析的主要目的是發現新的調控元件,並以細胞類型特異性的方式了解其功能作用。此外,還可以在下遊分析過程中研究細胞發育過程中染色質可及性的動力學。
4.1. 細胞身份注釋
對於單細胞組學數據的分析,細胞群身份注釋是初步的,但必須謹慎進行。錯誤的細胞身份信息可能會在 scATAC-seq 數據的下遊分析期間導致錯誤的生物學假設。儘管有許多工具可以對 scRNA-seq 數據自動進行細胞類型注釋,還可以從各種資料庫中獲得細胞類型特異性基因列表,但對於 scATAC-seq 數據僅有有限的工具和特定細胞類型染色質可及性的參考數據集。因此,對於 scATAC-seq 數據,必須結合使用補充方法進行細胞群注釋。目前有兩種方法進行細胞身份注釋:第一個基於 ATAC peak 的特徵注釋,第二個是利用與參考 scRNA-seq 數據的整合進行注釋。細胞聚類後,每個細胞群的差異可及性區域可能包含不同的調控元件。細胞身份注釋的第一種方法使用細胞群特異性的 peak 進行注釋,監督或手動注釋細胞群身份需要參考資料庫或有關細胞類型特定基因組特徵(例如TF motif,增強子,啟動子和TSS)的文獻。基於細胞類型特異的基因列表,啟動子和 TSS 被最廣泛地用於細胞群注釋。一些簡易的方法通過啟動子或 TSS 上遊一定距離內 peak 的存在來定義細胞類型特異性基因的可及性,而高級的分析則考慮了遠端和近端調控因子的影響。「基因活性分數」對與基因啟動子區共開放元件給予不同權重,從而可以更準確地利用染色質可及性推斷基因表達水平。與簡單的使用啟動子區可及性相比,基因活性分數能更好的表徵基因表達。Garnett 軟體利用基因活性分數和已知細胞類型的先驗特徵及標記基因對細胞類型進行監督分類。第二種方法的優勢是使用了 scRNA-seq 數據去區分細胞類型。可將來自 scRNA-seq 數據的基因表達矩陣與來自相同細胞類型的 scATAC-seq 數據的基因活性矩陣整合在一起。將它們投影到最大相關維度後,使用 MNN 算法將細胞標記從 scRNA-seq 數據轉移到 scATAC-seq 數據。儘管具有高度主導的細胞類型或與其他組學數據不匹配的細胞類型的樣本顯示出準確性方面的局限性,但細胞身份注釋的總體結果與匹配的數據集一致。通過對 scATAC-seq 數據中的細胞群體進行半監督識別,現有的參考 scRNA-seq 和 bulk ATAC-seq 數據可用於生成 scATAC-seq 樣本的網絡,進而將標籤進行轉移。
4.2. 染色質可及性動力學研究
通過差異可及性區域分析、擬時序相關的變化、共可及性相關的各種基因組元件可以產生細胞發育調控的假設。差異可及性區域分析用於識別每種細胞類型特異的調控元件,通過將特定細胞群的染色質可及性與數據集中的所有其他細胞進行比較,來識別細胞類型特異的差異可及性區域,採用的統計檢驗包括二項式檢驗、負二項式廣義線性模型、Wald 檢驗、Fisher 精確檢驗、不等方差 t 檢驗。用 Benjamini-Hochberg 或Bonferroni 進行信息獲取的1%或5% FDR 調整。單細胞軌跡分析利用細胞的擬時序來重建分化過程或細胞譜系。如果染色質可及性在細胞群內是連續變化的,軌跡分析將非常有用。Cicero 是 scATAC-seq 常用的軌跡分析軟體,是 Monocle2 的擴展軟體。Cicero 通過匯總鄰近的 peak 克服數據稀疏性,選擇差異可及性區域定義時間狀態,利用 DDRTree 方法根據擬時序對細胞進行排序,可以描述選定基因組區域的染色質可及性動力學。STREAM 是可以處理轉錄組數據和表觀基因組數據的軌跡分析工具,利用 scATAC-seq 數據中高變染色質可及性區域內 k-mer 得分矩陣構建擬時序軌跡。STREAM 的優勢在於從未處理的原始數據文件開始的無偏見 end-to-end 流程。軌跡分析可用於鑑定與細胞從一種細胞類型發展到另一種細胞類型相關的細胞類型特異調控元件。例如,如果在分化過程中 TF motif 的可及性發生了顯著變化,則可進一步分析其參與分化的激活或啟動。不同基因組元件之間的相互作用對於理解調控網絡非常重要,可通過不同基因組元件的共可及性分析互作關係。Cicero 對相似的細胞進行分組生成細胞可及性矩陣,計算重疊的基因組窗口中每對基因組元件之間的協方差得到共可及性關係,用於分析 TSS 與增強子,啟動子和其他基因組元件之間的相互作用。
4.3. 基於 TF motif 的假設產生
TF 主要是基因表達的反式作用調控子。scATAC-seq 的分析可以識別異質性細胞群體中細胞類型特異的 TF,TF 高度參與了發育過程,因此對細胞間 TF 表達的變異進行分析將有助於了解它們在細胞分化過程中的作用。此外,scATAC-seq 可同時分析與相關 TF 活性相關的順式調控元件。用 scATAC-seq 數據研究 TF 需軟體包、資料庫及TF 結合 motif。最初,主要是用已知的 TF motifs 進行 scATAC-seq 的分析。一些不是專為 scATAC-seq 開發的生物信息學工具,例如 Homer 和 FIMO,也可用於識別開放染色質區域內的 TF motif。chromVAR 是專為scATAC-seq 分析開發的軟體包,用於計算 TF motif 和 k-mers 的校正偏差和 z-score。利用 ChromVAR 計算已得到免疫細胞、心臟祖細胞、神經元細胞等細胞類型相關的 TF。此外,可以將 TF motif 可及性與 scRNA-seq 數據的 TF 表達水平進行比較,使用如卷積神經網絡和隨機森林分類等模型,識別細胞類型特異的 TF 並根據這些 TF 預測細胞類型。
4.4. 基於基因的假設產生
scRNA-seq 用於異質性細胞群體的基因表達譜研究,而對於 scATAC-seq,基因表達可以通過 TSS、基因區域和其他調控元件的染色質可及性信息推斷。活性基因的 TSS 和 TTS 位於染色質開放區或核小體耗竭區內,因此,TSS的可及性可用於scATAC-seq 數據基於基因的下遊分析。UROPA 使用基因組注釋資料庫去注釋 scATAC-seq peak 內的TSS,再用於比較 TSS 染色質的開放和閉合、計算 TSS 基因集偏差、根據已知的標記基因鑑定細胞類型和狀態等下遊分析。然而,僅考慮 TSS 的染色質狀態可能無法完全表徵基因表達,而計算「基因活性評分」還考慮到調控元件的影響,可以改善可及性信息向基因表達的轉化。Cicero 基因活性評分考慮了基因TSS 近端和遠端的可及性,並基於共可及性給予不同權重。基因活性評分已用於比較同一 scATAC-seq 數據的 TF motif 可及性和 TF 基因活性分數、根據細胞類型特異性標記基因注釋細胞、將 scRNA-seq 數據集的細胞標籤轉移至匹配的 scATAC-seq 數據集。最後,Deeptools 和 MACS2 生成的 bigwig 文件,可以使用基因組瀏覽器(例如Gviz、IGV 和 UCSC)展示基因區域內染色質可及性。不同細胞群間基因集合的富集分析可用於識別與細胞身份相關的通路,GO 和KEGG 是最常用的資料庫。基於細胞類型特異性可及性區域相關的基因分析與細胞群相關的通路分析,使用基因區域上遊和下遊延伸區域內的peak、TSS 區域內的 peak 或具有基因活性評分的peak 作為通路分析的輸入數據。GREAT、clusterProfiler 等基因集富集工具都可用於 scATAC-seq 數據。
4.5. 基於增強子的假設產生
增強子是遠離其調控靶基因的順式調控元件。通過分析染色質的3D 結構,已鑑定出增強子與其他調節元件的近端或遠端相互作用。增強子密集區被稱為超級增強子,是細胞類型和狀態特異的,並參與與疾病相關的調控節點。基於單細胞解析度研究增強子可預測特定細胞類型,且比其他順式調控元件和轉錄組具有更高的準確性。許多研究集中於鑑定細胞類型特異性增強子及其在發育過程中的作用。增強子分析的最常見類型包括識別特定細胞類型的遠端和近端增強子和增強子活性的相對富集。VISTA、CAD、Redfly Enhancer 和 Vienna Tiles等資料庫都可以用於這種分析。此外,在一些數據分析流程中還建議分析增強子與啟動子或具有共可及性的基因的相互作用、配對的 scRNA-seq 數據、虛擬潛在空間、Activity-by-Contact模型。
4.6. 與疾病相關的遺傳變異的假設產生
通過 GWAS 和 eQTL 分析檢測到的與疾病相關的SNP,是了解疾病的基因組調控的有效方式。由於大多數 SNP 位於非編碼區,可以預期許多 GWAS SNP 和 eQTL與順式調控元件有關。因此,開放染色質區域的研究可用於確定這些變異位點的功能效應。此外,鑑定與疾病相關變異有關的細胞類型,對於深入了解這些變異至關重要。scATAC-seq 從單細胞水平鑑定 DNA 序列和調節元件的染色質可及性,將遺傳變異與其細胞和功能靶標聯繫起來。儘管通過批量測序方法將表觀遺傳學特徵與 GWAS 信號關聯已經提供了有用結果,但單細胞解析度分析使我們能夠克服細胞類型異質性帶來的局限性。實際上,一些研究已經證明了在細胞類型特異性 peak 中提供 GWAS SNP 富集譜的重要性。gchromVAR 為改良版的 chromVAR,對每個單細胞進行 GWAS 富集評分,以特定於細胞類型的方式鑑定基因組區域中的因果變異以及這些變異的推定靶基因。利用共可及性測定可以分析與 GWAS SNP 和 GTEx eQTL 重疊的互聯 peak 與其他包含調控因子的 peak。GREGOR 還用於注釋來自不同資料庫的疾病相關 SNP 的富集。最近的一些研究還用深度學習和機器學習框架等更複雜模型來識別細胞類型特異的功能 SNP 和相關新功能基因。
將單細胞基因表達和染色質可及性數據整合可以改善細胞身份注釋。更重要的是,多模式數據的聯合分析將有助於檢測感興趣細胞狀態下反式和順式調控元件之間的相關性。可以通過實驗方法和計算方法對單細胞轉錄組和染色質可及性進行整合分析。
圖3. 通過實驗方法和計算方法將 scATAC-seq 數據與scRNA-seq 數據整合在一起。相同細胞類型的基因表達和染色質可及性的整合分析可用於確認細胞身份注釋並促進生成基於調控元件的新假設。例如,鑑定 peak 與基因之間的相互作用可以推斷出增強子與啟動子之間的相互作用。比較基因的表達與擬時序中 TF 富集區域的可及性,可以揭示轉錄與調控區域之間的動力學關係。比較基因表達與跨細胞類型或樣品組的 TF 富集區域的可及性,可以揭示細胞類型或亞群特異的表達基因和基因組可及性區域。整合分析的實驗方法側重於同時從同一細胞獲得轉錄組和表觀基因組數據。多模式單細胞分析方法 sci-CAR 對 scRNA-seq和 scATAC-seq 都採用了組合索引方法提高通量。另一種方法是 scCAT-seq,將細胞質組分和細胞核分離,分別進行 scRNA-seq 和 scATAC-seq。SNARE-seq 利用連結 barcode 在單個液滴中捕獲轉座的 DNA 片段中的 gDNA 和細胞核中的 mRNA,從而對使用相同 barcode 的細胞進行平行測序。該方法用化學試劑固定細胞,然後對單個細胞分選進行批量轉座,以降低成本並簡化總體程序。使用多種模式的單細胞技術,可以將染色質的可及性直接與基因表達進行比較,以了解順式/反式調控元件與相關基因表達之間的功能關係。目前有算法能夠進行來源於不同樣本組、不同實驗甚至是不同技術的單細胞基因組數據的整合分析。基於 NMF 的方法,如 CoupledNMF 和 LIGER,已被用於多模式的單細胞數據整合分析。Seurat v3 是 scRNA-seq 和 scATAC-seq 整合分析的常用軟體。Seurat v3通過將兩個不同的數據集投影到由相關變量定義的子空間中,然後識別數據集之間的錨點,從而整合多模式單細胞數據。Harmony 是一種基於數據特異細胞群迭代校正的快速且可擴展的算法。最近報導了很多數據整合的算法,包括 MMD-MA 和 DC3。單細胞多組學整合已用於驗證細胞身份,將差異表達基因與差異科技型區域連接起來推斷增強子-啟動子的相互作用。觀察到 TF-motif 預測的增強子可及性在基因表達變化之前的趨勢,並鑑定了跨細胞類型或樣品組的染色質可及性和轉錄的保守性。
單細胞測序的高成本和數據的高複雜性可能會限制許多研究人員對單細胞生物學的可及性探究。科研人員付出了許多努力來改善包括 scATAC-seq 數據分析在內的單細胞組學的實驗和計算方法。儘管尚未在數據分析流程中達成合理的共識,但近來有關 scATAC-seq 的數據生成技術和數據分析方法的文章數量呈指數型增長。 使用不同方法進行數據生成和分析的基準研究將為建立 scATAC-seq 數據分析的最佳流程提供有用的信息。而且,與其他類型的單細胞和大量組學數據以及基因組變異數據的整合,將大大增強 scATAC-seq 在疾病相關複雜基因調控關係中的應用研究。特別是將 scATAC-seq 與其他表觀技術(例如 ChIP-seq 和 Hi-C)整合在一起,將揭示3D染色質結構。這種綜合的多模式分析將有助於識別與疾病進展有關的關鍵調節因子,這些調節因子通常是潛在的治療靶標和診斷的生物標誌物。未來,scATAC-seq 將促進表觀遺傳調控的整體發展,並參人類和其他多細胞生物的正常細胞發育和疾病研究。
歐易生物是國內最早開展單細胞測序分析的公司之一。目前擁有10x Genomics及BD Rhapsody兩個單細胞測序平臺,以及完整、系統的生物信息學分析技術和流程,竭誠為廣大用戶提供高質量的單細胞測序服務。
歐易成立十餘年來,本著為客戶提供優質且有溫度的高端技術服務這一核心理念,不斷開拓進取,通過技術研發、流程優化、精良設備引進、優秀人才聚集、持續管理提升,建立起了行業一流的質量標準以及嚴格的質量管控體系,並始終秉承「硬數據,好服務」的一貫追求,為客戶提供優質的高端技術服務。
歡迎有意向開展單細胞測序研究的老師們向我們諮詢溝通單細胞相關問題 (技術熱線:021-34781616)
猜你想看
END