作者 | 戴遲遲編輯 | 龍文韜校對 | 李仲深
今天給大家介紹謝志教授等人發表在Genome Biology上的一篇文章「DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning 」。
「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。
一、相關介紹
scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。分析scRNA-seq數據的主要挑戰之一是過多的錯誤零表達 (稱為「dropout」事件) ,這會扭曲基因表達分布並導致細胞類型的錯誤分類。插補是恢復「dropout」事件的常用方法。大多數插補方法是基於模型的,它們在細胞之間借用信息以預測缺失的表達值。最近,已經開發了基於深度學習的方法來克服常規方法的可擴展性問題 (傳統的基於模型的方法無法處理大型數據集) 。半監督學習 (SSL) 方法允許模型用未標記的數據補充其訓練,從而在少數標籤可用時提供了解決方法。本文假設SSL可以通過從正計數和零計數基因中學習信息來構建可靠的插補算法。
在這裡,開發了DISC,一種新穎的深度學習插補模型,具有針對單細胞轉錄組的半監督學習 (SSL) 。DISC集成了自編碼器 (AE) 和遞歸神經網絡 (RNN) ,並使用SSL訓練模型參數。SSL使DISC可以有效地從稀疏數據中學習基因和細胞的結構。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏scRNA-seq數據的細胞類型的有前途方法。
二、模型與方法
DISC具有AE和RNN的集成結構。AE是RNN的一部分,它在保留原始數據的多樣性的同時執行降維。對於每個步驟t,AE的編碼器將高維細胞表達譜投影到低維潛在表示。潛在表示用於通過預測因子矩陣預測細胞表達譜,並通過AE解碼器重建表達譜來探索數據流形,從預測因子預測或由AE的解碼器重構的多個步驟中獲得表達譜。預測因子的表達譜作為輸入被送到下一步。最後,一個軟注意力框架計算 的加權平均值作為插補結果,並計算 的加權平均值作為重建結果以支持SSL (圖1A) 。
DISC使用SSL通過反向傳播從數據中自動學習層中的參數 (圖1B) 。Imputer使用「噪聲-噪聲」方法從正計數基因中學習。Reconstructor使用SSL從正計數基因和零計數基因的組合中學習,該正計數基因和零計數基因是由Imputer分配的,以尋找最佳的潛在表示形式,以便在插補後重建表達譜。Predictor通過結合使用SSL並從解碼器分配的正計數基因和偽計數基因中學習,以搜索最佳的基因表達結構,以保留AE掌握的多樣性。DISC提供了將潛在表示壓縮到較低維度的解決方案,該維度保留了表達矩陣的最有用信息 (圖1C) 。
圖1. DISC概述
三、實驗結果
3.1 DISC可擴展至超大型數據集
超大型數據集超出了許多現有分析工具的能力。對大型數據集降維,可以使用性能不高的現有工具執行聚類和可視化。本文使用兩種降維方法比較了基於RETINA scRNA-seq數據的細胞類型分類的準確性,一種是通過主成分分析 (PCA) 轉換為具有30個主成分 (PC) 的前2000個高變基因。另一個是壓縮的50個潛在特徵。總體分類率幾乎相同 (30個PC和50個潛在特徵的ACC分別為0.950和0.944) ,表明DISC提供的潛在表示的有用性 (圖2D,E) 。
圖2. PCA轉換生成的前30個PC與生成的50個潛在特徵的T-SNE可視化和聚類
為了應付大型數據集,本文設計了一種新穎的數據讀取方法,該方法利用了連續存儲中超快的塊讀取方法。將DISC的可擴展性與其他插補方法在速度和內存使用上進行了比較。使用了130萬小鼠大腦數據集 (BRIAN_1.3 M) 以及具有50k,100 k和500 k下採樣細胞的數據集。實驗還將130萬個細胞複製到260萬個細胞。所有數據集都包含前1000個高度可變的基因。由圖3A, B所示,DISC在訓練之前需要恆定的初始內存,但是隨著數據大小的增加,內存消耗在數據集中是穩定的。
圖3. 評估計算使用率
3.2 DISC改善了FISH驗證的基因表達結構
「dropout」事件嚴重阻礙了表達分布和基因-基因關係,從而阻礙了下遊分析。與scRNA-seq相比,單細胞RNA螢光原位雜交 (FISH) 在單細胞中檢測到少量RNA轉錄本,並且受引物影響較小,這被認為是驗證單細胞表達分布和基因-基因關係的可靠方法。為了系統地評估DISC恢復丟失的基因表達結構的性能,通過三種測量比較了從scRNA-seq到FISH的推定表達矩陣,通過基尼係數的均方根誤差 (RMSE) 測得基因表達分布,通過Fasano和Franceschini統計量 (FF分數)以及相關矩陣距離 (CMD) 測得的基因共表達相關矩陣的距離測得基因-基因的相關性分布,本實驗基於兩個不同的數據集MELANOMA和SSCORTEX。
在MELANOMA上,對於具有FISH和scRNA-seq測量值的所有19個基因,DISC比起原始scRNA-seq和所有其他方法有效地提高了RMSE (圖4A) 。另外,DISC恢復了基因-基因分布的相關性,而原始數據中丟失了相關性 (FF = 0.848) (圖4B) 。與在MELANOMA上的其他方法相比,通過DISC恢復的表達分布與FISH更加匹配,在SSCORTEX上排名第二 (圖4C) 。實驗進一步評估了插補數據與FISH的基因-基因分布的相關性,發現DISC和scVI在兩個數據集上具有最佳的整體性能(圖4D)。本文還測試了FISH數據中基因共表達與插補數據和原始數據之間的相關性 (圖4E) 。總之,DISC在通過兩個獨立的FISH實驗驗證的基因表達結構的所有測量中始終獲得最高的性能,顯示出其強大的能力可以恢復因「dropout」而被遮蓋的基因表達結構。
圖4. 通過FISH評估插補性能
3.3 DISC準確地恢復「dropout」事件
由於無法獲得scRNA-seq中缺失的真實表達,因此對四個數據集 (MELANOMA,SSCORTEX,CBMC和PBMC) 進行了下採樣實驗。另外,為了測試插補性能的魯棒性,還使用了從三個不同的scRNA-seq平臺生成的數據集。
首先使用平均絕對誤差(MAE)測量了真實基因表達恢復的準確性 (圖5A)。與觀察到的數據集相比,DISC顯著恢復了基因表達。接下來,使用基因-基因關係和細胞-細胞關係的皮爾遜相關性來測量表達結構的恢復 (圖5B, C) 。對於基因相關性和細胞相關性,與所有數據集上的其他七個方法相比,DISC具有最高的相關係數。值得注意的是,在基因相關性方面,DISC是唯一一個在所有四個數據集上都比觀察到的數據集具有改善的相關性的方法。
圖5. 在下採樣實驗中評估「dropout」事件的恢復
3.4 DISC持續改善細胞類型識別
為了評估插補方法是否改善了細胞類型識別。本文使用了從不同的單細胞平臺,10X基因組學,Drop-seq和SPLiT-seq生成的三個數據集。使用被正確分配的細胞所佔百分比 (ACC) 評估細胞類型分類的準確性。
對於PMBC數據集,DISC (ACC = 0.91) 和scImpute (ACC = 0.91) 是唯一比原始數據精度 (ACC = 0.83) 更高的方法。DISC與其他方法相比有明顯更好的改進 (圖6A) 。對於RETINA數據集,DISC具有最高的性能並將ACC從0.83提高到0.95 (圖6B) 。BRAIN_SPLiT數據集有156,049個細胞,本文分別分析了神經元和非神經元中的細胞類型。插補後DISC將神經元和非神經元的ACC分別提高到0.46和0.58 (圖6C, D) 。除此之外,該研究還在補充材料中將下採樣後的所有方法與原始數據集的50%進行了比較。DISC的性能與上述分析一致,表明DISC對不同的「dropout」水平具有魯棒性。除ACC外,調整後的rand指數 (ARI) 也用於評估細胞類型分類的準確性。應用DISC的所有數據集的準確性也是最高的。
綜上所述,DISC是唯一能夠持續且顯著提高所有數據集細胞類型識別準確性的方法。DISC不僅改善了主要和稀有細胞類型的識別,而且在從不同單細胞平臺生成的數據集上也具有強大的性能。
圖6. 評估細胞類型鑑定。使用單尾配對t檢驗計算p值。NS表示「不顯著」
3.5 DISC改善了下遊分析
本節評估了更好的基因表達結構是否可以轉化為更好的下遊分析結果。一共評估了三種性能 (1) 插補的scRNA-seq數據和批量RNA-seq數據之間的相似性,以及 (2) 通過scRNA-seq數據和批量RNA-seq數據鑑定的差異性表達基因 (DEG) 之間的相似性,以及 (3) 通過軌跡分析推斷出的偽時間順序之間的相似性和已知的細胞分化順序。在這裡,使用了來自10X Genomics平臺的三個數據集進行比較。
首先,針對同一細胞系之間以及兩個細胞系之間的表達差異,計算了插補的scRNA-seq圖譜和批量RNA-seq圖譜之間的Spearman相關係數(SCC)。只有四種方法保留了scRNA-seq圖譜與批量RNA-seq圖譜這兩種細胞系之間的表達差異之間的相關性,而DISC的改進最大。
接下來,使用兩種方法,即MAST和Wilcoxon ranksum檢驗 (縮寫為Wilcoxon) 來識別單細胞數據的DEG。利用兩個指標判斷其性能, (1) 在批量數據和scRNA-seq數據之間從兩種細胞類型識別出的DEG重疊 (Overlap) ,(2) 使用來自同質群體的細胞錯誤檢測出的DEG數量。與RAW數據集相比,DISC能夠顯著減少錯誤的DEG數量 (圖7A, B) 。總體而言,DISC在DEG識別的靈敏度和特異性之間取得了平衡。
然後,實驗通過倍數變化 (FC) 評估了表達差異幅度的影響。對於10X_5CL數據集中的一對細胞類型,基因按其FC排序,然後分組為十個相等長度的間隔(每個具有1815個基因)。DISC在10個間隔中的7個間隔中顯示了scRNA-seq數據和批量RNA-seq數據之間的DEG重疊的改善,這表明DISC與RAW相比,DEG識別的一致性得到改善 (圖7C) 。
最後,作者在補充材料中評估了軌跡分析。也證明了DISC的性能。總而言之,與原始數據相比,DISC持續改善了下遊分析,可提供更多生物學上有意義的信息。
圖7. DEG鑑定評估
3.6 DISC可以可靠地識別130萬小鼠大腦數據集中的細胞群
最後一個實驗分析了BRAIN_1.3M數據集,該數據集是從多個大腦區域生成的。DISC總共識別出61個細胞簇 (圖8A) 。使用Allen Brain Atlas的已知標記基因將每個簇分配給三個主要細胞組 (Glutamatergic神經元, GABAergic 神經元和非神經元細胞) 。三種主要細胞類型的比例分別為:64%,18%和18%,這與PARC報告的組成 (65%,18%和17%) 更接近 (圖8B) 。將細胞分為10個主要的神經元 (圖8C) 和6個主要的非神經元細胞群 (圖8D) 。最小的細胞群體是Microglia(5774個細胞),它們具有獨特的C1qb和Tgfbr1細胞標記,佔數據集細胞數量的0.44% (圖8C) 。這些細胞群可以進一步分類為亞細胞群。例如,基於區分的亞細胞標記,可將遷移的中間神經元 (MI) 進一步細分為三個亞群(圖8E) 。
比較DISC和scScope識別的細胞類型,可以發現MI的差異很大。DISC鑑定出184,203個MI細胞(佔14.36%)屬於GABAergic 神經元 (圖8D) 。通過可視化兩個MI標記Dlx1和Dlx6os1,分析清楚地表明MI屬於GABAergic 神經元 (圖8F) 。此外本文還利用Seurat來證明這個結果 (圖8G) 。這些結果表明,DISC能夠有效,準確地探索超大型異質單細胞數據集中的主要和稀有細胞群體。
圖8. 分析BRAIN_1.3M
四、總結
結果表明,DISC應該用於插補,特別是對於基因表達稀疏的數據集。不假設數據分布,DISC提供了用於分析單細胞組學數據的通用解決方案。它同時輸出表達式矩陣和低維表示形式,可用於其他無法處理超大型數據集的分析工具進行聚類和可視化。
代碼
https://github.com/xie-lab/DISC
參考文獻
He Y, Yuan H, Wu C, et al. DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning[J]. Genome biology, 2020, 21(1).
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3
轉載或合作請聯繫郵箱 intbioinfo@163.com