Genome Biology|DISC:使用半監督深度學習推斷單細胞轉錄組的基因...

2020-12-10 DrugAI

作者 | 戴遲遲編輯 | 龍文韜校對 | 李仲深

今天給大家介紹謝志教授等人發表在Genome Biology上的一篇文章「DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning 」。

「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。

一、相關介紹

scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。分析scRNA-seq數據的主要挑戰之一是過多的錯誤零表達 (稱為「dropout」事件) ,這會扭曲基因表達分布並導致細胞類型的錯誤分類。插補是恢復「dropout」事件的常用方法。大多數插補方法是基於模型的,它們在細胞之間借用信息以預測缺失的表達值。最近,已經開發了基於深度學習的方法來克服常規方法的可擴展性問題 (傳統的基於模型的方法無法處理大型數據集) 。半監督學習 (SSL) 方法允許模型用未標記的數據補充其訓練,從而在少數標籤可用時提供了解決方法。本文假設SSL可以通過從正計數和零計數基因中學習信息來構建可靠的插補算法。

在這裡,開發了DISC,一種新穎的深度學習插補模型,具有針對單細胞轉錄組的半監督學習 (SSL) 。DISC集成了自編碼器 (AE) 和遞歸神經網絡 (RNN) ,並使用SSL訓練模型參數。SSL使DISC可以有效地從稀疏數據中學習基因和細胞的結構。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏scRNA-seq數據的細胞類型的有前途方法。

二、模型與方法

DISC具有AE和RNN的集成結構。AE是RNN的一部分,它在保留原始數據的多樣性的同時執行降維。對於每個步驟t,AE的編碼器將高維細胞表達譜投影到低維潛在表示。潛在表示用於通過預測因子矩陣預測細胞表達譜,並通過AE解碼器重建表達譜來探索數據流形,從預測因子預測或由AE的解碼器重構的多個步驟中獲得表達譜。預測因子的表達譜作為輸入被送到下一步。最後,一個軟注意力框架計算 的加權平均值作為插補結果,並計算 的加權平均值作為重建結果以支持SSL (圖1A) 。

DISC使用SSL通過反向傳播從數據中自動學習層中的參數 (圖1B) 。Imputer使用「噪聲-噪聲」方法從正計數基因中學習。Reconstructor使用SSL從正計數基因和零計數基因的組合中學習,該正計數基因和零計數基因是由Imputer分配的,以尋找最佳的潛在表示形式,以便在插補後重建表達譜。Predictor通過結合使用SSL並從解碼器分配的正計數基因和偽計數基因中學習,以搜索最佳的基因表達結構,以保留AE掌握的多樣性。DISC提供了將潛在表示壓縮到較低維度的解決方案,該維度保留了表達矩陣的最有用信息 (圖1C) 。

圖1. DISC概述

三、實驗結果

3.1 DISC可擴展至超大型數據集

超大型數據集超出了許多現有分析工具的能力。對大型數據集降維,可以使用性能不高的現有工具執行聚類和可視化。本文使用兩種降維方法比較了基於RETINA scRNA-seq數據的細胞類型分類的準確性,一種是通過主成分分析 (PCA) 轉換為具有30個主成分 (PC) 的前2000個高變基因。另一個是壓縮的50個潛在特徵。總體分類率幾乎相同 (30個PC和50個潛在特徵的ACC分別為0.950和0.944) ,表明DISC提供的潛在表示的有用性 (圖2D,E) 。

圖2. PCA轉換生成的前30個PC與生成的50個潛在特徵的T-SNE可視化和聚類

為了應付大型數據集,本文設計了一種新穎的數據讀取方法,該方法利用了連續存儲中超快的塊讀取方法。將DISC的可擴展性與其他插補方法在速度和內存使用上進行了比較。使用了130萬小鼠大腦數據集 (BRIAN_1.3 M) 以及具有50k,100 k和500 k下採樣細胞的數據集。實驗還將130萬個細胞複製到260萬個細胞。所有數據集都包含前1000個高度可變的基因。由圖3A, B所示,DISC在訓練之前需要恆定的初始內存,但是隨著數據大小的增加,內存消耗在數據集中是穩定的。

圖3. 評估計算使用率

3.2 DISC改善了FISH驗證的基因表達結構

「dropout」事件嚴重阻礙了表達分布和基因-基因關係,從而阻礙了下遊分析。與scRNA-seq相比,單細胞RNA螢光原位雜交 (FISH) 在單細胞中檢測到少量RNA轉錄本,並且受引物影響較小,這被認為是驗證單細胞表達分布和基因-基因關係的可靠方法。為了系統地評估DISC恢復丟失的基因表達結構的性能,通過三種測量比較了從scRNA-seq到FISH的推定表達矩陣,通過基尼係數的均方根誤差 (RMSE) 測得基因表達分布,通過Fasano和Franceschini統計量 (FF分數)以及相關矩陣距離 (CMD) 測得的基因共表達相關矩陣的距離測得基因-基因的相關性分布,本實驗基於兩個不同的數據集MELANOMA和SSCORTEX。

在MELANOMA上,對於具有FISH和scRNA-seq測量值的所有19個基因,DISC比起原始scRNA-seq和所有其他方法有效地提高了RMSE (圖4A) 。另外,DISC恢復了基因-基因分布的相關性,而原始數據中丟失了相關性 (FF = 0.848) (圖4B) 。與在MELANOMA上的其他方法相比,通過DISC恢復的表達分布與FISH更加匹配,在SSCORTEX上排名第二 (圖4C) 。實驗進一步評估了插補數據與FISH的基因-基因分布的相關性,發現DISC和scVI在兩個數據集上具有最佳的整體性能(圖4D)。本文還測試了FISH數據中基因共表達與插補數據和原始數據之間的相關性 (圖4E) 。總之,DISC在通過兩個獨立的FISH實驗驗證的基因表達結構的所有測量中始終獲得最高的性能,顯示出其強大的能力可以恢復因「dropout」而被遮蓋的基因表達結構。

圖4. 通過FISH評估插補性能

3.3 DISC準確地恢復「dropout」事件

由於無法獲得scRNA-seq中缺失的真實表達,因此對四個數據集 (MELANOMA,SSCORTEX,CBMC和PBMC) 進行了下採樣實驗。另外,為了測試插補性能的魯棒性,還使用了從三個不同的scRNA-seq平臺生成的數據集。

首先使用平均絕對誤差(MAE)測量了真實基因表達恢復的準確性 (圖5A)。與觀察到的數據集相比,DISC顯著恢復了基因表達。接下來,使用基因-基因關係和細胞-細胞關係的皮爾遜相關性來測量表達結構的恢復 (圖5B, C) 。對於基因相關性和細胞相關性,與所有數據集上的其他七個方法相比,DISC具有最高的相關係數。值得注意的是,在基因相關性方面,DISC是唯一一個在所有四個數據集上都比觀察到的數據集具有改善的相關性的方法。

圖5. 在下採樣實驗中評估「dropout」事件的恢復

3.4 DISC持續改善細胞類型識別

為了評估插補方法是否改善了細胞類型識別。本文使用了從不同的單細胞平臺,10X基因組學,Drop-seq和SPLiT-seq生成的三個數據集。使用被正確分配的細胞所佔百分比 (ACC) 評估細胞類型分類的準確性。

對於PMBC數據集,DISC (ACC = 0.91) 和scImpute (ACC = 0.91) 是唯一比原始數據精度 (ACC = 0.83) 更高的方法。DISC與其他方法相比有明顯更好的改進 (圖6A) 。對於RETINA數據集,DISC具有最高的性能並將ACC從0.83提高到0.95 (圖6B) 。BRAIN_SPLiT數據集有156,049個細胞,本文分別分析了神經元和非神經元中的細胞類型。插補後DISC將神經元和非神經元的ACC分別提高到0.46和0.58 (圖6C, D) 。除此之外,該研究還在補充材料中將下採樣後的所有方法與原始數據集的50%進行了比較。DISC的性能與上述分析一致,表明DISC對不同的「dropout」水平具有魯棒性。除ACC外,調整後的rand指數 (ARI) 也用於評估細胞類型分類的準確性。應用DISC的所有數據集的準確性也是最高的。

綜上所述,DISC是唯一能夠持續且顯著提高所有數據集細胞類型識別準確性的方法。DISC不僅改善了主要和稀有細胞類型的識別,而且在從不同單細胞平臺生成的數據集上也具有強大的性能。

圖6. 評估細胞類型鑑定。使用單尾配對t檢驗計算p值。NS表示「不顯著」

3.5 DISC改善了下遊分析

本節評估了更好的基因表達結構是否可以轉化為更好的下遊分析結果。一共評估了三種性能 (1) 插補的scRNA-seq數據和批量RNA-seq數據之間的相似性,以及 (2) 通過scRNA-seq數據和批量RNA-seq數據鑑定的差異性表達基因 (DEG) 之間的相似性,以及 (3) 通過軌跡分析推斷出的偽時間順序之間的相似性和已知的細胞分化順序。在這裡,使用了來自10X Genomics平臺的三個數據集進行比較。

首先,針對同一細胞系之間以及兩個細胞系之間的表達差異,計算了插補的scRNA-seq圖譜和批量RNA-seq圖譜之間的Spearman相關係數(SCC)。只有四種方法保留了scRNA-seq圖譜與批量RNA-seq圖譜這兩種細胞系之間的表達差異之間的相關性,而DISC的改進最大。

接下來,使用兩種方法,即MAST和Wilcoxon ranksum檢驗 (縮寫為Wilcoxon) 來識別單細胞數據的DEG。利用兩個指標判斷其性能, (1) 在批量數據和scRNA-seq數據之間從兩種細胞類型識別出的DEG重疊 (Overlap) ,(2) 使用來自同質群體的細胞錯誤檢測出的DEG數量。與RAW數據集相比,DISC能夠顯著減少錯誤的DEG數量 (圖7A, B) 。總體而言,DISC在DEG識別的靈敏度和特異性之間取得了平衡。

然後,實驗通過倍數變化 (FC) 評估了表達差異幅度的影響。對於10X_5CL數據集中的一對細胞類型,基因按其FC排序,然後分組為十個相等長度的間隔(每個具有1815個基因)。DISC在10個間隔中的7個間隔中顯示了scRNA-seq數據和批量RNA-seq數據之間的DEG重疊的改善,這表明DISC與RAW相比,DEG識別的一致性得到改善 (圖7C) 。

最後,作者在補充材料中評估了軌跡分析。也證明了DISC的性能。總而言之,與原始數據相比,DISC持續改善了下遊分析,可提供更多生物學上有意義的信息。

圖7. DEG鑑定評估

3.6 DISC可以可靠地識別130萬小鼠大腦數據集中的細胞群

最後一個實驗分析了BRAIN_1.3M數據集,該數據集是從多個大腦區域生成的。DISC總共識別出61個細胞簇 (圖8A) 。使用Allen Brain Atlas的已知標記基因將每個簇分配給三個主要細胞組 (Glutamatergic神經元, GABAergic 神經元和非神經元細胞) 。三種主要細胞類型的比例分別為:64%,18%和18%,這與PARC報告的組成 (65%,18%和17%) 更接近 (圖8B) 。將細胞分為10個主要的神經元 (圖8C) 和6個主要的非神經元細胞群 (圖8D) 。最小的細胞群體是Microglia(5774個細胞),它們具有獨特的C1qb和Tgfbr1細胞標記,佔數據集細胞數量的0.44% (圖8C) 。這些細胞群可以進一步分類為亞細胞群。例如,基於區分的亞細胞標記,可將遷移的中間神經元 (MI) 進一步細分為三個亞群(圖8E) 。

比較DISC和scScope識別的細胞類型,可以發現MI的差異很大。DISC鑑定出184,203個MI細胞(佔14.36%)屬於GABAergic 神經元 (圖8D) 。通過可視化兩個MI標記Dlx1和Dlx6os1,分析清楚地表明MI屬於GABAergic 神經元 (圖8F) 。此外本文還利用Seurat來證明這個結果 (圖8G) 。這些結果表明,DISC能夠有效,準確地探索超大型異質單細胞數據集中的主要和稀有細胞群體。

圖8. 分析BRAIN_1.3M

四、總結

結果表明,DISC應該用於插補,特別是對於基因表達稀疏的數據集。不假設數據分布,DISC提供了用於分析單細胞組學數據的通用解決方案。它同時輸出表達式矩陣和低維表示形式,可用於其他無法處理超大型數據集的分析工具進行聚類和可視化。

代碼

https://github.com/xie-lab/DISC

參考文獻

He Y, Yuan H, Wu C, et al. DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning[J]. Genome biology, 2020, 21(1).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3

轉載或合作請聯繫郵箱 intbioinfo@163.com

相關焦點

  • 科研人員開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 全基因組及轉錄組研究揭示開心果的環境適應以及馴化機制 | Genome...
    然而,一些作物依然能夠在極端環境的沙漠地區種植和生長。深入了解這些物種對乾旱環境的適應性以及其經濟性狀,將可能會有助於促進這些物種在沙漠地區的種植和繁育,緩解世界糧食危機。 開心果(Pistacia vera L.)起源於伊朗, 是沙漠地區重要的經濟作物之一。
  • 一種新的RNA測序方法:什麼是單細胞轉錄組學?
    單細胞轉錄組學是下一代RNA測序方法,可以高解析度查看細胞。來自南丹麥大學,惠康桑格研究所和BGI的研究人員在《基因組生物學》雜誌上發表了這項研究。什麼是單細胞轉錄組學?RNA測序使用下一代測序來分析樣品中RNA的存在。1,2根據南丹麥大學的說法,單細胞轉錄組學(即scRNA-seq)是一種下一代測序方法,可同時測量單個細胞中數千種基因的信使RNA濃度(由DNA / 基因組 /遺傳藍圖編碼)。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    作為國內三代測序服務的引領者,希望組在三代測序技術領域深耕多年,將長讀長與單細胞測序技術結合,開發出了完整的納米孔單細胞全長轉錄組實驗分析流程,打破用三代測序單細胞全長轉錄組建庫起始量高的技術壁壘,並於近日正式推出納米孔單細胞全長轉錄組測序分析服務。
  • 用米氏方程解決單細胞轉錄組dropout現象
    今天要介紹的這篇文章提出了一個算法,R包是:M3Drop , 文章是:M3Drop: dropout-based feature selection for scRNASeq挑選重要基因目前已有的尋找單細胞轉錄組測序數據中的重要基因(feature selection)的方法都不夠好,比如 scLVM 主要是根據先驗基因集,比如cell-cycle or apoptosis來區分細胞
  • 單細胞全基因組測序重大進展,新方法更加高效簡便!
    廈門大學化學化工學院楊朝勇教授課題組在單細胞全基因組測序研究方面取得進展,相關成果以「Digital-WGS: Automated, highly efficient whole-genome sequencing of single cells by digital microfluidics」為題發表於《Science Advances
  • ...課題組攜手北醫三院喬傑課題組首次利用單細胞轉錄組和DNA甲基...
    結合體外模擬人類著床策略1和高精度單細胞多組學測序技術2,3(single-cell RNA-seq, single-cell Trio-seq2),首次利用單細胞轉錄組和DNA甲基化組圖譜重構了人類胚胎著床過程,系統解析了這一關鍵發育過程的基因表達調控網絡和DNA甲基化動態變化過程。
  • CRISPR-Cas12a : 為你打開高效的基因編輯大門 | Genome Biology
    :Fei Teng†, Jing Li†, Tongtong Cui†, Kai Xu, Lu Guo, Qingqin Gao, Guihai Feng, Chuanyuan Chen, Dali Han, Qi Zhou and Wei Li 發表時間:2019/02/05 數字識別碼:10.1186/s13059-019-1620-8 原文連結:
  • 科學家繪製出月經周期中人類子宮內膜的單細胞轉錄組圖譜
    科學家繪製出月經周期中人類子宮內膜的單細胞轉錄組圖譜 作者:小柯機器人 發布時間:2020/9/16 14:23:21 美國史丹福大學Stephen R.
  • 單細胞文章快訊202101期
    我們結合轉錄組、成像和基因譜系標記方法,在單細胞解析度下繪製了小鼠胚胎心臟的起源圖。這提供了心臟祖細胞類型的轉錄和解剖學定義。此外,它揭示了一個心臟祖細胞庫,在結構上和轉錄上與目前已知的心臟祖細胞不同。除了對心肌細胞有貢獻外,這些細胞也是心外膜最早的祖細胞,是心臟發育和損傷過程中營養因子和細胞的來源。這項研究對早期心肌細胞類型的形成提供了詳細的見解,尤其與基於細胞的心臟再生療法的發展有關。
  • 單細胞文章快訊202012期
    這種對腫瘤和/或相關免疫和基質細胞的基因組、轉錄組、表觀基因組和蛋白質組特徵的高維度、多方面的表徵描述使得能夠剖析腫瘤異質性、腫瘤細胞及其微環境之間的複雜相互作用以及每個腫瘤的進化軌跡的細節。單細胞轉錄組學,通過對T細胞受體基因進行配對測序和高維單細胞空間分析來追蹤單個T細胞克隆的能力都是與免疫腫瘤學特別相關的領域。多維生物標誌物信號對於指導每個癌症患者的臨床決策將越來越重要。
  • 拓展Cas12a基因編輯系統並優化其基因編輯效率 | Genome Biology
    Genome Biology 作者:Fei Teng†, Jing Li†, Tongtong Cui†, Kai Xu, Lu Guo, Qingqin Gao, Guihai Feng, Chuanyuan Chen, Dali Han, Qi Zhou and Wei Li 發表時間:2019/02/05 數字識別碼
  • 網課《腦神經的空間轉錄組分析》回放
    翻成中文,就是《人類背外側前額葉皮層轉錄組規模的空間基因表達》 那我去查了一下Hafner基因集,那是Hafner等人做的,是一個突觸相關的基因集。也就是那個基因集裡面的基因都與突觸相關。 有興趣的同學可以做進一步的探詢,為什麼中間一塊會沒有基因。 在分層分析當中,還對Spot做了無監督、半監督、有監督三種聚類分析:
  • Genome Biology | 七月內容更新
    他們通過構建Cas9-tv(將合成轉錄激活結構域融合到Cas9),來實現更高效的編輯效率。通過將其進一步與dsgRNAs進行結合可以強化這種編輯效果,使得即便在封閉染色質區域也能實現高效的基因編輯,該研究尤其對靶向核酸酶難降解的區域進行基因編輯提供了新的思路。
  • ...張世華課題組提出解決單細胞轉錄組數據高度缺失及稀疏的新方法
    單細胞轉錄組測序(single-cell RNA-seq)能夠獨立地提供每個細胞的基因表達圖譜,這樣就可以揭示各個細胞間的微小差異,找到單個細胞的獨特性,對於我們理解細胞的起源、功能、發育等有著至關重要的作用。
  • 微陣列空間轉錄組與單細胞測序揭示胰腺癌結構
    微陣列空間轉錄組與單細胞測序揭示胰腺癌結構 作者:小柯機器人 發布時間:2020/1/16 10:36:33 美國紐約大學Itai Yanai團隊利用基於微陣列的空間轉錄組學和單細胞RNA測序
  • 科學家繪製1000種綠色植物的轉錄組圖譜
    科學家繪製1000種綠色植物的轉錄組圖譜 作者:小柯機器人 發布時間:2019/10/25 10:48:13 「千種植物轉錄組計劃」團隊在2019年10月24日的《自然》雜誌在線發表了文章,
  • 基因結構預測新利器-ONT全長轉錄組
    ,使用已有的高質量近緣物種注釋信息通過序列聯配的方式確定外顯子邊界和剪切位點。圖4  二代轉錄組與ONT全長轉錄組識別可變剪接Nanopore在三代全長轉錄組輔助基因預測中的優勢長度長在轉錄本分析方面比短讀長測序技術有明顯的優勢。
  • 宏基因組bining+宏轉錄組強強聯合
    採用宏基因組genome bining以及宏轉錄組的方法,發現並驗證新物種和新功能。通過功能宏基因組學的方法,研究者從酸性泥炭地中恢復了7株新的酸桿菌基因組草圖,這些酸桿菌都具有潛在的異化亞硫酸鹽(dsrAB, dsrC, dsrD, dsrN, dsrT, dsrMKJOP)或硫酸鹽呼吸(sat, aprBA, qmoABC和dsr)相關功能基因。令人驚訝的是,這些基因組也編碼了DsrL蛋白,迄今為止該基因只在硫氧化微生物中發現。