Genome Biology|DISC:使用半監督深度學習推斷單細胞轉錄組的基因...

2020-12-23 DrugAI

作者 | 戴遲遲編輯 | 龍文韜校對 | 李仲深

今天給大家介紹謝志教授等人發表在Genome Biology上的一篇文章「DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning 」。

「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。

一、相關介紹

scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。分析scRNA-seq數據的主要挑戰之一是過多的錯誤零表達 (稱為「dropout」事件) ,這會扭曲基因表達分布並導致細胞類型的錯誤分類。插補是恢復「dropout」事件的常用方法。大多數插補方法是基於模型的,它們在細胞之間借用信息以預測缺失的表達值。最近,已經開發了基於深度學習的方法來克服常規方法的可擴展性問題 (傳統的基於模型的方法無法處理大型數據集) 。半監督學習 (SSL) 方法允許模型用未標記的數據補充其訓練,從而在少數標籤可用時提供了解決方法。本文假設SSL可以通過從正計數和零計數基因中學習信息來構建可靠的插補算法。

在這裡,開發了DISC,一種新穎的深度學習插補模型,具有針對單細胞轉錄組的半監督學習 (SSL) 。DISC集成了自編碼器 (AE) 和遞歸神經網絡 (RNN) ,並使用SSL訓練模型參數。SSL使DISC可以有效地從稀疏數據中學習基因和細胞的結構。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏scRNA-seq數據的細胞類型的有前途方法。

二、模型與方法

DISC具有AE和RNN的集成結構。AE是RNN的一部分,它在保留原始數據的多樣性的同時執行降維。對於每個步驟t,AE的編碼器將高維細胞表達譜投影到低維潛在表示。潛在表示用於通過預測因子矩陣預測細胞表達譜,並通過AE解碼器重建表達譜來探索數據流形,從預測因子預測或由AE的解碼器重構的多個步驟中獲得表達譜。預測因子的表達譜作為輸入被送到下一步。最後,一個軟注意力框架計算 的加權平均值作為插補結果,並計算 的加權平均值作為重建結果以支持SSL (圖1A) 。

DISC使用SSL通過反向傳播從數據中自動學習層中的參數 (圖1B) 。Imputer使用「噪聲-噪聲」方法從正計數基因中學習。Reconstructor使用SSL從正計數基因和零計數基因的組合中學習,該正計數基因和零計數基因是由Imputer分配的,以尋找最佳的潛在表示形式,以便在插補後重建表達譜。Predictor通過結合使用SSL並從解碼器分配的正計數基因和偽計數基因中學習,以搜索最佳的基因表達結構,以保留AE掌握的多樣性。DISC提供了將潛在表示壓縮到較低維度的解決方案,該維度保留了表達矩陣的最有用信息 (圖1C) 。

圖1. DISC概述

三、實驗結果

3.1 DISC可擴展至超大型數據集

超大型數據集超出了許多現有分析工具的能力。對大型數據集降維,可以使用性能不高的現有工具執行聚類和可視化。本文使用兩種降維方法比較了基於RETINA scRNA-seq數據的細胞類型分類的準確性,一種是通過主成分分析 (PCA) 轉換為具有30個主成分 (PC) 的前2000個高變基因。另一個是壓縮的50個潛在特徵。總體分類率幾乎相同 (30個PC和50個潛在特徵的ACC分別為0.950和0.944) ,表明DISC提供的潛在表示的有用性 (圖2D,E) 。

圖2. PCA轉換生成的前30個PC與生成的50個潛在特徵的T-SNE可視化和聚類

為了應付大型數據集,本文設計了一種新穎的數據讀取方法,該方法利用了連續存儲中超快的塊讀取方法。將DISC的可擴展性與其他插補方法在速度和內存使用上進行了比較。使用了130萬小鼠大腦數據集 (BRIAN_1.3 M) 以及具有50k,100 k和500 k下採樣細胞的數據集。實驗還將130萬個細胞複製到260萬個細胞。所有數據集都包含前1000個高度可變的基因。由圖3A, B所示,DISC在訓練之前需要恆定的初始內存,但是隨著數據大小的增加,內存消耗在數據集中是穩定的。

圖3. 評估計算使用率

3.2 DISC改善了FISH驗證的基因表達結構

「dropout」事件嚴重阻礙了表達分布和基因-基因關係,從而阻礙了下遊分析。與scRNA-seq相比,單細胞RNA螢光原位雜交 (FISH) 在單細胞中檢測到少量RNA轉錄本,並且受引物影響較小,這被認為是驗證單細胞表達分布和基因-基因關係的可靠方法。為了系統地評估DISC恢復丟失的基因表達結構的性能,通過三種測量比較了從scRNA-seq到FISH的推定表達矩陣,通過基尼係數的均方根誤差 (RMSE) 測得基因表達分布,通過Fasano和Franceschini統計量 (FF分數)以及相關矩陣距離 (CMD) 測得的基因共表達相關矩陣的距離測得基因-基因的相關性分布,本實驗基於兩個不同的數據集MELANOMA和SSCORTEX。

在MELANOMA上,對於具有FISH和scRNA-seq測量值的所有19個基因,DISC比起原始scRNA-seq和所有其他方法有效地提高了RMSE (圖4A) 。另外,DISC恢復了基因-基因分布的相關性,而原始數據中丟失了相關性 (FF = 0.848) (圖4B) 。與在MELANOMA上的其他方法相比,通過DISC恢復的表達分布與FISH更加匹配,在SSCORTEX上排名第二 (圖4C) 。實驗進一步評估了插補數據與FISH的基因-基因分布的相關性,發現DISC和scVI在兩個數據集上具有最佳的整體性能(圖4D)。本文還測試了FISH數據中基因共表達與插補數據和原始數據之間的相關性 (圖4E) 。總之,DISC在通過兩個獨立的FISH實驗驗證的基因表達結構的所有測量中始終獲得最高的性能,顯示出其強大的能力可以恢復因「dropout」而被遮蓋的基因表達結構。

圖4. 通過FISH評估插補性能

3.3 DISC準確地恢復「dropout」事件

由於無法獲得scRNA-seq中缺失的真實表達,因此對四個數據集 (MELANOMA,SSCORTEX,CBMC和PBMC) 進行了下採樣實驗。另外,為了測試插補性能的魯棒性,還使用了從三個不同的scRNA-seq平臺生成的數據集。

首先使用平均絕對誤差(MAE)測量了真實基因表達恢復的準確性 (圖5A)。與觀察到的數據集相比,DISC顯著恢復了基因表達。接下來,使用基因-基因關係和細胞-細胞關係的皮爾遜相關性來測量表達結構的恢復 (圖5B, C) 。對於基因相關性和細胞相關性,與所有數據集上的其他七個方法相比,DISC具有最高的相關係數。值得注意的是,在基因相關性方面,DISC是唯一一個在所有四個數據集上都比觀察到的數據集具有改善的相關性的方法。

圖5. 在下採樣實驗中評估「dropout」事件的恢復

3.4 DISC持續改善細胞類型識別

為了評估插補方法是否改善了細胞類型識別。本文使用了從不同的單細胞平臺,10X基因組學,Drop-seq和SPLiT-seq生成的三個數據集。使用被正確分配的細胞所佔百分比 (ACC) 評估細胞類型分類的準確性。

對於PMBC數據集,DISC (ACC = 0.91) 和scImpute (ACC = 0.91) 是唯一比原始數據精度 (ACC = 0.83) 更高的方法。DISC與其他方法相比有明顯更好的改進 (圖6A) 。對於RETINA數據集,DISC具有最高的性能並將ACC從0.83提高到0.95 (圖6B) 。BRAIN_SPLiT數據集有156,049個細胞,本文分別分析了神經元和非神經元中的細胞類型。插補後DISC將神經元和非神經元的ACC分別提高到0.46和0.58 (圖6C, D) 。除此之外,該研究還在補充材料中將下採樣後的所有方法與原始數據集的50%進行了比較。DISC的性能與上述分析一致,表明DISC對不同的「dropout」水平具有魯棒性。除ACC外,調整後的rand指數 (ARI) 也用於評估細胞類型分類的準確性。應用DISC的所有數據集的準確性也是最高的。

綜上所述,DISC是唯一能夠持續且顯著提高所有數據集細胞類型識別準確性的方法。DISC不僅改善了主要和稀有細胞類型的識別,而且在從不同單細胞平臺生成的數據集上也具有強大的性能。

圖6. 評估細胞類型鑑定。使用單尾配對t檢驗計算p值。NS表示「不顯著」

3.5 DISC改善了下遊分析

本節評估了更好的基因表達結構是否可以轉化為更好的下遊分析結果。一共評估了三種性能 (1) 插補的scRNA-seq數據和批量RNA-seq數據之間的相似性,以及 (2) 通過scRNA-seq數據和批量RNA-seq數據鑑定的差異性表達基因 (DEG) 之間的相似性,以及 (3) 通過軌跡分析推斷出的偽時間順序之間的相似性和已知的細胞分化順序。在這裡,使用了來自10X Genomics平臺的三個數據集進行比較。

首先,針對同一細胞系之間以及兩個細胞系之間的表達差異,計算了插補的scRNA-seq圖譜和批量RNA-seq圖譜之間的Spearman相關係數(SCC)。只有四種方法保留了scRNA-seq圖譜與批量RNA-seq圖譜這兩種細胞系之間的表達差異之間的相關性,而DISC的改進最大。

接下來,使用兩種方法,即MAST和Wilcoxon ranksum檢驗 (縮寫為Wilcoxon) 來識別單細胞數據的DEG。利用兩個指標判斷其性能, (1) 在批量數據和scRNA-seq數據之間從兩種細胞類型識別出的DEG重疊 (Overlap) ,(2) 使用來自同質群體的細胞錯誤檢測出的DEG數量。與RAW數據集相比,DISC能夠顯著減少錯誤的DEG數量 (圖7A, B) 。總體而言,DISC在DEG識別的靈敏度和特異性之間取得了平衡。

然後,實驗通過倍數變化 (FC) 評估了表達差異幅度的影響。對於10X_5CL數據集中的一對細胞類型,基因按其FC排序,然後分組為十個相等長度的間隔(每個具有1815個基因)。DISC在10個間隔中的7個間隔中顯示了scRNA-seq數據和批量RNA-seq數據之間的DEG重疊的改善,這表明DISC與RAW相比,DEG識別的一致性得到改善 (圖7C) 。

最後,作者在補充材料中評估了軌跡分析。也證明了DISC的性能。總而言之,與原始數據相比,DISC持續改善了下遊分析,可提供更多生物學上有意義的信息。

圖7. DEG鑑定評估

3.6 DISC可以可靠地識別130萬小鼠大腦數據集中的細胞群

最後一個實驗分析了BRAIN_1.3M數據集,該數據集是從多個大腦區域生成的。DISC總共識別出61個細胞簇 (圖8A) 。使用Allen Brain Atlas的已知標記基因將每個簇分配給三個主要細胞組 (Glutamatergic神經元, GABAergic 神經元和非神經元細胞) 。三種主要細胞類型的比例分別為:64%,18%和18%,這與PARC報告的組成 (65%,18%和17%) 更接近 (圖8B) 。將細胞分為10個主要的神經元 (圖8C) 和6個主要的非神經元細胞群 (圖8D) 。最小的細胞群體是Microglia(5774個細胞),它們具有獨特的C1qb和Tgfbr1細胞標記,佔數據集細胞數量的0.44% (圖8C) 。這些細胞群可以進一步分類為亞細胞群。例如,基於區分的亞細胞標記,可將遷移的中間神經元 (MI) 進一步細分為三個亞群(圖8E) 。

比較DISC和scScope識別的細胞類型,可以發現MI的差異很大。DISC鑑定出184,203個MI細胞(佔14.36%)屬於GABAergic 神經元 (圖8D) 。通過可視化兩個MI標記Dlx1和Dlx6os1,分析清楚地表明MI屬於GABAergic 神經元 (圖8F) 。此外本文還利用Seurat來證明這個結果 (圖8G) 。這些結果表明,DISC能夠有效,準確地探索超大型異質單細胞數據集中的主要和稀有細胞群體。

圖8. 分析BRAIN_1.3M

四、總結

結果表明,DISC應該用於插補,特別是對於基因表達稀疏的數據集。不假設數據分布,DISC提供了用於分析單細胞組學數據的通用解決方案。它同時輸出表達式矩陣和低維表示形式,可用於其他無法處理超大型數據集的分析工具進行聚類和可視化。

代碼

https://github.com/xie-lab/DISC

參考文獻

He Y, Yuan H, Wu C, et al. DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning[J]. Genome biology, 2020, 21(1).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3

轉載或合作請聯繫郵箱 intbioinfo@163.com

相關焦點

  • 科學家繪製出月經周期中人類子宮內膜的單細胞轉錄組圖譜
    科學家繪製出月經周期中人類子宮內膜的單細胞轉錄組圖譜 作者:小柯機器人 發布時間:2020/9/16 14:23:21 美國史丹福大學Stephen R.
  • 湯富酬課題組與合作者開發出單細胞轉錄組三代單分子測序新方法
    2009年首個單細胞轉錄組測序技術問世,開啟了單細胞組學時代(scRNA-seq)(Tang et al., 2009)。多個基因的表達,與之前基於二代測序平臺最靈敏的單細胞轉錄組測序方法不相上下(如圖1所示)。
  • A-to-I RNA編輯參與自身免疫的調控和受到平衡選擇 | Genome Biology
    RNA表觀遺傳修飾,特別是RNA編輯和甲基化修飾,具有非常重要的基因調控功能。A-to-I RNA編輯是哺乳動物轉錄組中最廣泛分布的一種修飾類型。ADAR是行使這一重要RNA修飾類型的催化酶。ADAR通過結合蛋白編碼基因或者非編碼序列的雙鏈RNA區域,將腺苷(A)脫氨基轉變為肌苷(I)。
  • 博奧晶典空間轉錄組測序技術獲認證
    博奧晶典空間轉錄組測序技術獲認證 2020-09-
  • 單細胞組學技術施「援手」 人類巨噬細胞的基因全貌有望呈現
    暨南大學基礎醫學院蘭雨研究員課題組近日在《自然》雜誌發表論文稱,他們與其他科學家合作,利用單細胞組學技術這把「金鑰匙」,在人類巨噬細胞發育領域取得重要進展。搭建起單細胞組學技術平臺單細胞組學技術為什麼被稱為「金鑰匙」呢?「這種技術能看到整個細胞的全貌、整個的轉錄組、整個的蛋白表達水平。
  • Nat Biotechnol:科學家發現能準確高效進行單細胞轉錄組特性分析的...
    2020年4月9日 訊 /生物谷BIOON/ --為了確保單細胞RNA測序能夠使用最好的方法,日前研究人員對13種方法進行了基準性的測試,一項刊登在國際雜誌Nature Biotechnology上的研究報告中,來自西班牙的科學家們通過研究發現,日本理化所開發的Quartz-seq2方法或許是進行單細胞RNA測序的最佳手段。
  • 幾種有效的單倍型基因組組裝方法
    單倍型:單倍體基因型的簡稱。遺傳學上指在單條染色體上一系列遺傳變異位點的組合。 目前,大多數二倍體基因組組裝都忽略了同源染色體之間的差異,將基因組組裝成一個假的單倍體序列,這是二倍體類型的組裝的人為共識。這種人為的共識可能導致基因注釋的不精確和生物學解釋的錯誤。為了深入研究的需要,更多的物種需要將來自父母的遺傳信息都獲得,因此參考基因組就需要獲得兩個單倍體基因組,也就是單倍型基因組。
  • 單細胞轉錄組學揭示肝實質和非實質細胞譜系的早期出現
    單細胞轉錄組學揭示肝實質和非實質細胞譜系的早期出現 作者:小柯機器人 發布時間:2020/10/31 20:57:43 加拿大特裡福克斯實驗室Pamela A. Hoodless團隊近日取得一項新成果。
  • 人類RPE和脈絡膜的單細胞轉錄組分析
    為了闡明RPE和脈絡膜內基因表達的表達情況,以進一步了解年齡相關性黃斑變性(AMD)的發病機制,研究者對7個人類捐獻的眼球進行RPE/脈絡膜單細胞RNA測序。實驗概述及單細胞RNA測序將3個捐獻眼球的RPE/脈絡膜分離出並製備單細胞懸液,6個分離的RPE/脈絡膜樣本進行單細胞RNA測序(表1)。篩選後共有4335個細胞,其中2167個細胞來自黃斑,2168個細胞來自外周視網膜。將具有相似基因表達譜的細胞進行聚類。
  • pan-genome能幹啥?
    pan-genome能幹啥?最近北大女博士的脫口秀《娶妻當娶女博士》都上熱搜了,沒想到社會上對此還挺好奇,而之於我卻已經是司空見慣,博士忙忙碌碌的見多了,反倒是那些又會生活又會工作和學習的少見。我倒是覺得不必過於渲染,有的人讀博也挺順風順水,有的女博士實驗之外也能精心打理自己。
  • 科學家利用全基因組測序發現多種罕見疾病
    科學家利用全基因組測序發現多種罕見疾病 作者:小柯機器人 發布時間:2020/6/28 14:48:03 英國劍橋大學Willem H. Ouwehand、F.
  • 科學家用轉錄因子重建卵母細胞轉錄網絡
    科學家用轉錄因子重建卵母細胞轉錄網絡 作者:小柯機器人 發布時間:2020/12/18 16:53:02 日本九州大學Katsuhiko Hayashi團隊在研究中取得進展。他們利用轉錄因子重建卵母細胞轉錄網絡。
  • Nature:GWAS分析發現影響人體脂肪分布的新基因位點
    2015年2月13日訊  /生物谷BIOON/  --近日,著名國際期刊nature發表了多國科學家共同研究的一項最新成果,他們對大量人群進行了全基因組關聯性分析,發現了許多影響人體脂肪分布的基因。這一研究成果為進一步了解基因如何影響人體脂肪分布和肥胖提供了重要啟示。 研究人員指出,身體的脂肪分布是一種遺傳性狀,同時也是預測代謝不良結果的有效指標,不依賴於全身性肥胖。為進一步理解脂肪分布的基因基礎以及其與心臟代謝特徵的分子聯繫,研究人員對多達224459個人的腰圍臀圍相關特徵進行了全基因組關聯性分析。
  • 新測序方式可檢測單細胞中持續的基因表達譜
    新測序方式可檢測單細胞中持續的基因表達譜 作者:小柯機器人 發布時間:2020/8/2 14:32:06 美國賓夕法尼亞大學Arjun Raj團隊利用MemorySeq揭示了與不同細胞行為相關的可遺傳性單細胞基因表達程序
  • Genome Biology | 重大創新!中科院微生物所邱金龍團隊進一步提高Cas9的切割效率
    然而,在動物和植物細胞中,不同基因組位點的編輯效率差異很大。某些位點的低CRISPR / Cas9編輯效率限制了體內靶標的可用性,從而限制了進一步的應用。與Cas9進化為靶向的原核DNA不同,真核基因組DNA被包裹在組蛋白周圍並進一步壓縮形成高階染色質結構,這可能阻礙Cas9與其靶標的結合。在哺乳動物細胞中催化失活的Cas9(dCas9)的結合位點的全基因組作圖顯示它們富含開放的染色質區域。
  • 單細胞多組學佔領高分「陣地」- 人動脈粥樣硬化斑塊的轉錄和表觀基因組特徵
    一、 通過單細胞RNA測序鑑定人動脈粥樣硬化斑塊中14種不同的細胞群為了研究人類動脈粥樣硬化斑塊的轉錄組學,對18例患者(男性77%)的頸動脈內膜切除組織進行了酶消化,通過螢光激活細胞分選(FACS;圖1A)分離出活的有核細胞,並製備了scRNA-seq文庫。
  • Methods|系統評估載體蛋白質組對單細胞蛋白質組質譜定量的限制
    定量單細胞蛋白質組學能夠定量檢測單細胞內的豐度、翻譯後修飾狀態等,有潛力成為單細胞轉錄組學的互補策略。目前,在使用質譜進行單細胞蛋白質組學定量方面,主要是使用等壓穩定同位素標籤和載體蛋白質組輔助以進行單細胞分析,稱之為SCoPE-MS。
  • Cpf1-crRNA成為DNA-free基因編輯的稱手工具
    最近,基於Cpf1核糖核酸酶的特點,科學家通過體外構建Cpf1–crRNA核糖核蛋白複合體的方式實現了對大豆和菸草的基因組編輯,DNA-free的方式不僅提高了編輯效率,還避免了因載體插入而引起的各種問題。研究人員利用體外轉錄或化學合成的方法在體外獲得FAD2和AOC基因位點特異的crRNA(CRISPR RNA)並與cpf1蛋白組裝成複合體,並將其轉化到大豆和菸草的原生質體中。
  • 利用單細胞鏈測序和長讀取實現全階段人基因組組裝
    利用單細胞鏈測序和長讀取實現全階段人基因組組裝 作者:小柯機器人 發布時間:2020/12/9 13:07:05 德國杜塞道夫海因裡希·海涅大學Tobias Marschall和美國華盛頓大學Evan E.
  • Genome Biology | DNA聚合酶ε在維持異染色質中意義重大
    染色質通過表觀遺傳修飾來組織DNA並調節其轉錄活性。基因組的異染色質區域通常在轉錄上是沉默的,而常染色質則更易於轉錄。