...DISC:使用半監督深度學習推斷單細胞轉錄組的基因表達和結構

2021-01-13 DrugAI

作者 | 戴遲遲編輯 | 龍文韜校對 | 李仲深

今天給大家介紹謝志教授等人發表在Genome Biology上的一篇文章「DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning 」。

「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。

一、相關介紹

scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。分析scRNA-seq數據的主要挑戰之一是過多的錯誤零表達 (稱為「dropout」事件) ,這會扭曲基因表達分布並導致細胞類型的錯誤分類。插補是恢復「dropout」事件的常用方法。大多數插補方法是基於模型的,它們在細胞之間借用信息以預測缺失的表達值。最近,已經開發了基於深度學習的方法來克服常規方法的可擴展性問題 (傳統的基於模型的方法無法處理大型數據集) 。半監督學習 (SSL) 方法允許模型用未標記的數據補充其訓練,從而在少數標籤可用時提供了解決方法。本文假設SSL可以通過從正計數和零計數基因中學習信息來構建可靠的插補算法。

在這裡,開發了DISC,一種新穎的深度學習插補模型,具有針對單細胞轉錄組的半監督學習 (SSL) 。DISC集成了自編碼器 (AE) 和遞歸神經網絡 (RNN) ,並使用SSL訓練模型參數。SSL使DISC可以有效地從稀疏數據中學習基因和細胞的結構。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏scRNA-seq數據的細胞類型的有前途方法。

二、模型與方法

DISC具有AE和RNN的集成結構。AE是RNN的一部分,它在保留原始數據的多樣性的同時執行降維。對於每個步驟t,AE的編碼器將高維細胞表達譜投影到低維潛在表示。潛在表示用於通過預測因子矩陣預測細胞表達譜,並通過AE解碼器重建表達譜來探索數據流形,從預測因子預測或由AE的解碼器重構的多個步驟中獲得表達譜。預測因子的表達譜作為輸入被送到下一步。最後,一個軟注意力框架計算 的加權平均值作為插補結果,並計算 的加權平均值作為重建結果以支持SSL (圖1A) 。

DISC使用SSL通過反向傳播從數據中自動學習層中的參數 (圖1B) 。Imputer使用「噪聲-噪聲」方法從正計數基因中學習。Reconstructor使用SSL從正計數基因和零計數基因的組合中學習,該正計數基因和零計數基因是由Imputer分配的,以尋找最佳的潛在表示形式,以便在插補後重建表達譜。Predictor通過結合使用SSL並從解碼器分配的正計數基因和偽計數基因中學習,以搜索最佳的基因表達結構,以保留AE掌握的多樣性。DISC提供了將潛在表示壓縮到較低維度的解決方案,該維度保留了表達矩陣的最有用信息 (圖1C) 。

圖1. DISC概述

三、實驗結果

3.1 DISC可擴展至超大型數據集

超大型數據集超出了許多現有分析工具的能力。對大型數據集降維,可以使用性能不高的現有工具執行聚類和可視化。本文使用兩種降維方法比較了基於RETINA scRNA-seq數據的細胞類型分類的準確性,一種是通過主成分分析 (PCA) 轉換為具有30個主成分 (PC) 的前2000個高變基因。另一個是壓縮的50個潛在特徵。總體分類率幾乎相同 (30個PC和50個潛在特徵的ACC分別為0.950和0.944) ,表明DISC提供的潛在表示的有用性 (圖2D,E) 。

圖2. PCA轉換生成的前30個PC與生成的50個潛在特徵的T-SNE可視化和聚類

為了應付大型數據集,本文設計了一種新穎的數據讀取方法,該方法利用了連續存儲中超快的塊讀取方法。將DISC的可擴展性與其他插補方法在速度和內存使用上進行了比較。使用了130萬小鼠大腦數據集 (BRIAN_1.3 M) 以及具有50k,100 k和500 k下採樣細胞的數據集。實驗還將130萬個細胞複製到260萬個細胞。所有數據集都包含前1000個高度可變的基因。由圖3A, B所示,DISC在訓練之前需要恆定的初始內存,但是隨著數據大小的增加,內存消耗在數據集中是穩定的。

圖3. 評估計算使用率

3.2 DISC改善了FISH驗證的基因表達結構

「dropout」事件嚴重阻礙了表達分布和基因-基因關係,從而阻礙了下遊分析。與scRNA-seq相比,單細胞RNA螢光原位雜交 (FISH) 在單細胞中檢測到少量RNA轉錄本,並且受引物影響較小,這被認為是驗證單細胞表達分布和基因-基因關係的可靠方法。為了系統地評估DISC恢復丟失的基因表達結構的性能,通過三種測量比較了從scRNA-seq到FISH的推定表達矩陣,通過基尼係數的均方根誤差 (RMSE) 測得基因表達分布,通過Fasano和Franceschini統計量 (FF分數)以及相關矩陣距離 (CMD) 測得的基因共表達相關矩陣的距離測得基因-基因的相關性分布,本實驗基於兩個不同的數據集MELANOMA和SSCORTEX。

在MELANOMA上,對於具有FISH和scRNA-seq測量值的所有19個基因,DISC比起原始scRNA-seq和所有其他方法有效地提高了RMSE (圖4A) 。另外,DISC恢復了基因-基因分布的相關性,而原始數據中丟失了相關性 (FF = 0.848) (圖4B) 。與在MELANOMA上的其他方法相比,通過DISC恢復的表達分布與FISH更加匹配,在SSCORTEX上排名第二 (圖4C) 。實驗進一步評估了插補數據與FISH的基因-基因分布的相關性,發現DISC和scVI在兩個數據集上具有最佳的整體性能(圖4D)。本文還測試了FISH數據中基因共表達與插補數據和原始數據之間的相關性 (圖4E) 。總之,DISC在通過兩個獨立的FISH實驗驗證的基因表達結構的所有測量中始終獲得最高的性能,顯示出其強大的能力可以恢復因「dropout」而被遮蓋的基因表達結構。

圖4. 通過FISH評估插補性能

3.3 DISC準確地恢復「dropout」事件

由於無法獲得scRNA-seq中缺失的真實表達,因此對四個數據集 (MELANOMA,SSCORTEX,CBMC和PBMC) 進行了下採樣實驗。另外,為了測試插補性能的魯棒性,還使用了從三個不同的scRNA-seq平臺生成的數據集。

首先使用平均絕對誤差(MAE)測量了真實基因表達恢復的準確性 (圖5A)。與觀察到的數據集相比,DISC顯著恢復了基因表達。接下來,使用基因-基因關係和細胞-細胞關係的皮爾遜相關性來測量表達結構的恢復 (圖5B, C) 。對於基因相關性和細胞相關性,與所有數據集上的其他七個方法相比,DISC具有最高的相關係數。值得注意的是,在基因相關性方面,DISC是唯一一個在所有四個數據集上都比觀察到的數據集具有改善的相關性的方法。

圖5. 在下採樣實驗中評估「dropout」事件的恢復

3.4 DISC持續改善細胞類型識別

為了評估插補方法是否改善了細胞類型識別。本文使用了從不同的單細胞平臺,10X基因組學,Drop-seq和SPLiT-seq生成的三個數據集。使用被正確分配的細胞所佔百分比 (ACC) 評估細胞類型分類的準確性。

對於PMBC數據集,DISC (ACC = 0.91) 和scImpute (ACC = 0.91) 是唯一比原始數據精度 (ACC = 0.83) 更高的方法。DISC與其他方法相比有明顯更好的改進 (圖6A) 。對於RETINA數據集,DISC具有最高的性能並將ACC從0.83提高到0.95 (圖6B) 。BRAIN_SPLiT數據集有156,049個細胞,本文分別分析了神經元和非神經元中的細胞類型。插補後DISC將神經元和非神經元的ACC分別提高到0.46和0.58 (圖6C, D) 。除此之外,該研究還在補充材料中將下採樣後的所有方法與原始數據集的50%進行了比較。DISC的性能與上述分析一致,表明DISC對不同的「dropout」水平具有魯棒性。除ACC外,調整後的rand指數 (ARI) 也用於評估細胞類型分類的準確性。應用DISC的所有數據集的準確性也是最高的。

綜上所述,DISC是唯一能夠持續且顯著提高所有數據集細胞類型識別準確性的方法。DISC不僅改善了主要和稀有細胞類型的識別,而且在從不同單細胞平臺生成的數據集上也具有強大的性能。

圖6. 評估細胞類型鑑定。使用單尾配對t檢驗計算p值。NS表示「不顯著」

3.5 DISC改善了下遊分析

本節評估了更好的基因表達結構是否可以轉化為更好的下遊分析結果。一共評估了三種性能 (1) 插補的scRNA-seq數據和批量RNA-seq數據之間的相似性,以及 (2) 通過scRNA-seq數據和批量RNA-seq數據鑑定的差異性表達基因 (DEG) 之間的相似性,以及 (3) 通過軌跡分析推斷出的偽時間順序之間的相似性和已知的細胞分化順序。在這裡,使用了來自10X Genomics平臺的三個數據集進行比較。

首先,針對同一細胞系之間以及兩個細胞系之間的表達差異,計算了插補的scRNA-seq圖譜和批量RNA-seq圖譜之間的Spearman相關係數(SCC)。只有四種方法保留了scRNA-seq圖譜與批量RNA-seq圖譜這兩種細胞系之間的表達差異之間的相關性,而DISC的改進最大。

接下來,使用兩種方法,即MAST和Wilcoxon ranksum檢驗 (縮寫為Wilcoxon) 來識別單細胞數據的DEG。利用兩個指標判斷其性能, (1) 在批量數據和scRNA-seq數據之間從兩種細胞類型識別出的DEG重疊 (Overlap) ,(2) 使用來自同質群體的細胞錯誤檢測出的DEG數量。與RAW數據集相比,DISC能夠顯著減少錯誤的DEG數量 (圖7A, B) 。總體而言,DISC在DEG識別的靈敏度和特異性之間取得了平衡。

然後,實驗通過倍數變化 (FC) 評估了表達差異幅度的影響。對於10X_5CL數據集中的一對細胞類型,基因按其FC排序,然後分組為十個相等長度的間隔(每個具有1815個基因)。DISC在10個間隔中的7個間隔中顯示了scRNA-seq數據和批量RNA-seq數據之間的DEG重疊的改善,這表明DISC與RAW相比,DEG識別的一致性得到改善 (圖7C) 。

最後,作者在補充材料中評估了軌跡分析。也證明了DISC的性能。總而言之,與原始數據相比,DISC持續改善了下遊分析,可提供更多生物學上有意義的信息。

圖7. DEG鑑定評估

3.6 DISC可以可靠地識別130萬小鼠大腦數據集中的細胞群

最後一個實驗分析了BRAIN_1.3M數據集,該數據集是從多個大腦區域生成的。DISC總共識別出61個細胞簇 (圖8A) 。使用Allen Brain Atlas的已知標記基因將每個簇分配給三個主要細胞組 (Glutamatergic神經元, GABAergic 神經元和非神經元細胞) 。三種主要細胞類型的比例分別為:64%,18%和18%,這與PARC報告的組成 (65%,18%和17%) 更接近 (圖8B) 。將細胞分為10個主要的神經元 (圖8C) 和6個主要的非神經元細胞群 (圖8D) 。最小的細胞群體是Microglia(5774個細胞),它們具有獨特的C1qb和Tgfbr1細胞標記,佔數據集細胞數量的0.44% (圖8C) 。這些細胞群可以進一步分類為亞細胞群。例如,基於區分的亞細胞標記,可將遷移的中間神經元 (MI) 進一步細分為三個亞群(圖8E) 。

比較DISC和scScope識別的細胞類型,可以發現MI的差異很大。DISC鑑定出184,203個MI細胞(佔14.36%)屬於GABAergic 神經元 (圖8D) 。通過可視化兩個MI標記Dlx1和Dlx6os1,分析清楚地表明MI屬於GABAergic 神經元 (圖8F) 。此外本文還利用Seurat來證明這個結果 (圖8G) 。這些結果表明,DISC能夠有效,準確地探索超大型異質單細胞數據集中的主要和稀有細胞群體。

圖8. 分析BRAIN_1.3M

四、總結

結果表明,DISC應該用於插補,特別是對於基因表達稀疏的數據集。不假設數據分布,DISC提供了用於分析單細胞組學數據的通用解決方案。它同時輸出表達式矩陣和低維表示形式,可用於其他無法處理超大型數據集的分析工具進行聚類和可視化。

代碼

https://github.com/xie-lab/DISC

參考文獻

He Y, Yuan H, Wu C, et al. DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning[J]. Genome biology, 2020, 21(1).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3

轉載或合作請聯繫郵箱 intbioinfo@163.com

相關焦點

  • 蔡軍/張江開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。
  • 科研人員開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。目前已有的基於監督學習的自動分類方法,大部分無法兼顧到方法的可解釋性以及新細胞類型的發現。
  • 靶向單細胞多組學方法,可在低深度下同時檢測蛋白表達和低豐度轉錄組
    通常,轉錄組的表達水平要比蛋白質低得多,而蛋白質的動態表達範圍則較大,拷貝數跨度約為6-7個數量級,轉錄本拷貝數跨度約為2個數量級。平行檢測蛋白質表達和轉錄組數據方法的開發,如CITE-seq、REAP-seq,解決了僅評估轉錄組所固有的一些限制,但也幾乎使每個單細胞的測序深度增加了一倍。
  • CellPress|單細胞技術和基於深度學習的藥物反應預測
    與傳統的大規模測序分析方法相比,單細胞測序分析的快速發展,可以幫助我們更好的理解腫瘤基因組,轉錄組和基因組異質性的概況。不僅如此,據調查顯示,單細胞測序分析技術可以使腫瘤對藥物暴露的反應更大。目前,深度學習模型已經能夠從大量複雜的序列數據中提取出特徵,用於預測藥物的反應。
  • |可解釋膠囊網絡深度學習框架從單細胞RNA測序...
    文中提出了一個使用膠囊網絡(稱為scCapsNet)的可解釋的深度學習體系結構。膠囊結構(代表一組特定對象屬性的神經元向量)捕捉層次關係。通過利用競爭性單細胞類型識別,scCapsNet模型能夠進行特徵選擇以識別編碼不同亞細胞類型的基因組。將RNA表達特徵有效地整合到scCapsNet的參數矩陣中,實現了亞細胞類型識別。
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 單細胞轉錄組揭示人類胚胎腸道發育過程中自噬相關的基因動態表達
    單細胞轉錄組分析綜述單細胞入門-讀一篇scRNA-seq綜述今天分享的文章是利用單細胞轉錄組揭示人類胚胎腸道發育過程中自噬相關的基因動態表達變化情況。本研究,使用超過5000個從6周到25周不等的人類胚胎消化道細胞,從單細胞水平探索了自噬相關基因的動態表達,並發現自噬相關基因的轉錄活性顯著增強。特別是在早期階段(6 - 9周), 有趣的是,第9周的小腸細胞顯示出自噬相關基因的富集程度高於其他任何階段。綜上所述,我們的研究結果首次揭示了自噬可能在人類胚胎早期的消化道發育中起著至關重要的作用,尤其是對小腸而言。
  • 單細胞轉錄組高級分析四:scRNA數據推斷CNV
    本專題將介紹一些單細胞轉錄組的高級分析內容:多樣本批次校正、轉錄因子分析、細胞通訊分析、基因集變異分析和更全面的基因集富集分析。不足之處請大家批評指正,歡迎添加Kinesin微信交流探討!inferCNV是大名鼎鼎的broad研究所開發的,可以使用單細胞轉錄組數據分析腫瘤細胞CNV。
  • 萬字長文 | 單細胞轉錄組分析最佳思路綜述
    本文將詳細介紹單細胞轉錄組數據分析的步驟,包括預處理(質控、歸一化標準化、數據矯正、挑選基因、降維)以及細胞和基因層面的下遊分析。並且作者將整個流程應用在了一個公共數據集作為展示(詳細說明在:https://www.github.com/theislab/single-cell-tutorial),目的是幫助新入坑用戶建立一個知識體系,已入坑用戶更新知識體系。
  • 單細胞多組學技術的深度解析
    一,單細胞多組學技術的誕生單細胞測序技術的進步使人們能夠以前所未有的解析度和規模研究多細胞生物的基因調控程序。單細胞多組學工具的開發則是邁向了解生物系統內部工作的又一重大步驟。單細胞技術發展的最初努力集中在單細胞RNA測序上,它可以剖析轉錄組異質性,揭示給定複雜組織中以前未知的細胞類型或細胞狀態。
  • 微陣列空間轉錄組與單細胞測序揭示胰腺癌結構
    微陣列空間轉錄組與單細胞測序揭示胰腺癌結構 作者:小柯機器人 發布時間:2020/1/16 10:36:33 美國紐約大學Itai Yanai團隊利用基於微陣列的空間轉錄組學和單細胞RNA測序
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    納米孔單細胞全長轉錄組reads與參考序列比對表 使用AlignQC (v2.0.4) 對單個細胞比對結果進行評估,並繪製基因和轉錄本的飽和曲線(圖5),共檢測到12,658個基因,其中完整的基因有7,787個,曲線趨近飽和,可進一步用於後續的定量分析。
  • BIOPIC張澤民課題組在Nature Communications發表單細胞轉錄組數據...
    (ICG)張澤民教授課題組聯合百奧智匯,在期刊Nature Communications發表題為「SciBet as a portable and fast single cell type identifier」的生物信息方法學論文,正式發布了基於單細胞轉錄組數據進行快速有監督細胞類型注釋的新工具SciBet。
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    本文作者使用單細胞轉錄組學和基於蛋白質組學的質譜分析(mass spectrometry-based proteomics)來量化年輕和年老小鼠肺部30種細胞類型的細胞活性狀態變化。作者發現,衰老會導致轉錄噪聲增加,並且放鬆對表觀遺傳的控制。作者還觀察了衰老對於細胞類型特異性的影響,發現2型肺細胞和脂肪成纖維細胞膽固醇合成的增加,以及呼吸道上皮細胞的改變,是肺部老化的幾大標誌。
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    本文作者使用單細胞轉錄組學和基於蛋白質組學的質譜分析(mass spectrometry-based proteomics)來量化年輕和年老小鼠肺部30種細胞類型的細胞活性狀態變化。作者發現,衰老會導致轉錄噪聲增加,並且放鬆對表觀遺傳的控制。作者還觀察了衰老對於細胞類型特異性的影響,發現2型肺細胞和脂肪成纖維細胞膽固醇合成的增加,以及呼吸道上皮細胞的改變,是肺部老化的幾大標誌。
  • 新技術實現對單細胞中基因表達動態的表徵
    新技術實現對單細胞中基因表達動態的表徵 作者:小柯機器人 發布時間:2020/4/19 23:10:24 2020年4月13日,《自然—生物技術》雜誌在線發表了美國華盛頓大學Jay Shendure
  • 科學家找到深度學習基因組學應用的一頂「黑帽子」—新聞—科學網
    ■本報記者 趙廣立 在生命科研領域,常有人說深度學習的基因組學應用好比是「一個盲人在一間黑暗的房子裡尋找一頂並不存在的黑色帽子」。言下之意,是遺憾深度學習的基因組學應用並沒有給人們帶來太多驚喜。不過,近日賓夕法尼亞大學和費城兒童醫院教授邢毅團隊的一項研究,找到了這樣一頂「黑帽子」。
  • 科學家揭示整合單細胞和群體細胞轉錄組數據推斷細胞分化時間的作用
    該研究通過開發計算工具包(iCpSc)用於整合單細胞和群體細胞轉錄組數據,來預測細胞分化過程中單細胞的分化時間和路徑,並通過基因調控網絡分析尋找重要調控因子和信號通路。單細胞轉錄組測序技術作為強大的方法應用於分析發育和重編程過程的細胞異質性。分析細胞間異質性的關鍵目標就是尋找未知的細胞狀態或重構細胞譜系的發育軌跡。
  • 神助攻帶你「撩」起單細胞轉錄組
    帶著無比喜悅,無比激動的心情,小編用幾個數字給您炫一下10x Genomics這一神助攻應用於單細胞轉錄組測序的六大優勢!本研究應用10x GemCode™平臺對29個細胞系及RNA樣本,共250,000個單細胞,及68,000個外周血單個核細胞(PBMC)進行3』單細胞轉錄組測序分析。1.
  • 代碼分析 | 單細胞轉錄組clustering詳解
    我們在單細胞轉錄組分析中最為常用的聚類可視化即為tSNE和UMAP(Hemberg-lab單細胞轉錄組數據分析(十二)-