Genome Biology|DISC:使用半監督深度學習推斷單細胞轉錄組的基因...

2020-12-24 DrugAI

作者 | 戴遲遲編輯 | 龍文韜校對 | 李仲深

今天給大家介紹謝志教授等人發表在Genome Biology上的一篇文章「DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning 」。

「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。

一、相關介紹

scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。分析scRNA-seq數據的主要挑戰之一是過多的錯誤零表達 (稱為「dropout」事件) ,這會扭曲基因表達分布並導致細胞類型的錯誤分類。插補是恢復「dropout」事件的常用方法。大多數插補方法是基於模型的,它們在細胞之間借用信息以預測缺失的表達值。最近,已經開發了基於深度學習的方法來克服常規方法的可擴展性問題 (傳統的基於模型的方法無法處理大型數據集) 。半監督學習 (SSL) 方法允許模型用未標記的數據補充其訓練,從而在少數標籤可用時提供了解決方法。本文假設SSL可以通過從正計數和零計數基因中學習信息來構建可靠的插補算法。

在這裡,開發了DISC,一種新穎的深度學習插補模型,具有針對單細胞轉錄組的半監督學習 (SSL) 。DISC集成了自編碼器 (AE) 和遞歸神經網絡 (RNN) ,並使用SSL訓練模型參數。SSL使DISC可以有效地從稀疏數據中學習基因和細胞的結構。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏scRNA-seq數據的細胞類型的有前途方法。

二、模型與方法

DISC具有AE和RNN的集成結構。AE是RNN的一部分,它在保留原始數據的多樣性的同時執行降維。對於每個步驟t,AE的編碼器將高維細胞表達譜投影到低維潛在表示。潛在表示用於通過預測因子矩陣預測細胞表達譜,並通過AE解碼器重建表達譜來探索數據流形,從預測因子預測或由AE的解碼器重構的多個步驟中獲得表達譜。預測因子的表達譜作為輸入被送到下一步。最後,一個軟注意力框架計算 的加權平均值作為插補結果,並計算 的加權平均值作為重建結果以支持SSL (圖1A) 。

DISC使用SSL通過反向傳播從數據中自動學習層中的參數 (圖1B) 。Imputer使用「噪聲-噪聲」方法從正計數基因中學習。Reconstructor使用SSL從正計數基因和零計數基因的組合中學習,該正計數基因和零計數基因是由Imputer分配的,以尋找最佳的潛在表示形式,以便在插補後重建表達譜。Predictor通過結合使用SSL並從解碼器分配的正計數基因和偽計數基因中學習,以搜索最佳的基因表達結構,以保留AE掌握的多樣性。DISC提供了將潛在表示壓縮到較低維度的解決方案,該維度保留了表達矩陣的最有用信息 (圖1C) 。

圖1. DISC概述

三、實驗結果

3.1 DISC可擴展至超大型數據集

超大型數據集超出了許多現有分析工具的能力。對大型數據集降維,可以使用性能不高的現有工具執行聚類和可視化。本文使用兩種降維方法比較了基於RETINA scRNA-seq數據的細胞類型分類的準確性,一種是通過主成分分析 (PCA) 轉換為具有30個主成分 (PC) 的前2000個高變基因。另一個是壓縮的50個潛在特徵。總體分類率幾乎相同 (30個PC和50個潛在特徵的ACC分別為0.950和0.944) ,表明DISC提供的潛在表示的有用性 (圖2D,E) 。

圖2. PCA轉換生成的前30個PC與生成的50個潛在特徵的T-SNE可視化和聚類

為了應付大型數據集,本文設計了一種新穎的數據讀取方法,該方法利用了連續存儲中超快的塊讀取方法。將DISC的可擴展性與其他插補方法在速度和內存使用上進行了比較。使用了130萬小鼠大腦數據集 (BRIAN_1.3 M) 以及具有50k,100 k和500 k下採樣細胞的數據集。實驗還將130萬個細胞複製到260萬個細胞。所有數據集都包含前1000個高度可變的基因。由圖3A, B所示,DISC在訓練之前需要恆定的初始內存,但是隨著數據大小的增加,內存消耗在數據集中是穩定的。

圖3. 評估計算使用率

3.2 DISC改善了FISH驗證的基因表達結構

「dropout」事件嚴重阻礙了表達分布和基因-基因關係,從而阻礙了下遊分析。與scRNA-seq相比,單細胞RNA螢光原位雜交 (FISH) 在單細胞中檢測到少量RNA轉錄本,並且受引物影響較小,這被認為是驗證單細胞表達分布和基因-基因關係的可靠方法。為了系統地評估DISC恢復丟失的基因表達結構的性能,通過三種測量比較了從scRNA-seq到FISH的推定表達矩陣,通過基尼係數的均方根誤差 (RMSE) 測得基因表達分布,通過Fasano和Franceschini統計量 (FF分數)以及相關矩陣距離 (CMD) 測得的基因共表達相關矩陣的距離測得基因-基因的相關性分布,本實驗基於兩個不同的數據集MELANOMA和SSCORTEX。

在MELANOMA上,對於具有FISH和scRNA-seq測量值的所有19個基因,DISC比起原始scRNA-seq和所有其他方法有效地提高了RMSE (圖4A) 。另外,DISC恢復了基因-基因分布的相關性,而原始數據中丟失了相關性 (FF = 0.848) (圖4B) 。與在MELANOMA上的其他方法相比,通過DISC恢復的表達分布與FISH更加匹配,在SSCORTEX上排名第二 (圖4C) 。實驗進一步評估了插補數據與FISH的基因-基因分布的相關性,發現DISC和scVI在兩個數據集上具有最佳的整體性能(圖4D)。本文還測試了FISH數據中基因共表達與插補數據和原始數據之間的相關性 (圖4E) 。總之,DISC在通過兩個獨立的FISH實驗驗證的基因表達結構的所有測量中始終獲得最高的性能,顯示出其強大的能力可以恢復因「dropout」而被遮蓋的基因表達結構。

圖4. 通過FISH評估插補性能

3.3 DISC準確地恢復「dropout」事件

由於無法獲得scRNA-seq中缺失的真實表達,因此對四個數據集 (MELANOMA,SSCORTEX,CBMC和PBMC) 進行了下採樣實驗。另外,為了測試插補性能的魯棒性,還使用了從三個不同的scRNA-seq平臺生成的數據集。

首先使用平均絕對誤差(MAE)測量了真實基因表達恢復的準確性 (圖5A)。與觀察到的數據集相比,DISC顯著恢復了基因表達。接下來,使用基因-基因關係和細胞-細胞關係的皮爾遜相關性來測量表達結構的恢復 (圖5B, C) 。對於基因相關性和細胞相關性,與所有數據集上的其他七個方法相比,DISC具有最高的相關係數。值得注意的是,在基因相關性方面,DISC是唯一一個在所有四個數據集上都比觀察到的數據集具有改善的相關性的方法。

圖5. 在下採樣實驗中評估「dropout」事件的恢復

3.4 DISC持續改善細胞類型識別

為了評估插補方法是否改善了細胞類型識別。本文使用了從不同的單細胞平臺,10X基因組學,Drop-seq和SPLiT-seq生成的三個數據集。使用被正確分配的細胞所佔百分比 (ACC) 評估細胞類型分類的準確性。

對於PMBC數據集,DISC (ACC = 0.91) 和scImpute (ACC = 0.91) 是唯一比原始數據精度 (ACC = 0.83) 更高的方法。DISC與其他方法相比有明顯更好的改進 (圖6A) 。對於RETINA數據集,DISC具有最高的性能並將ACC從0.83提高到0.95 (圖6B) 。BRAIN_SPLiT數據集有156,049個細胞,本文分別分析了神經元和非神經元中的細胞類型。插補後DISC將神經元和非神經元的ACC分別提高到0.46和0.58 (圖6C, D) 。除此之外,該研究還在補充材料中將下採樣後的所有方法與原始數據集的50%進行了比較。DISC的性能與上述分析一致,表明DISC對不同的「dropout」水平具有魯棒性。除ACC外,調整後的rand指數 (ARI) 也用於評估細胞類型分類的準確性。應用DISC的所有數據集的準確性也是最高的。

綜上所述,DISC是唯一能夠持續且顯著提高所有數據集細胞類型識別準確性的方法。DISC不僅改善了主要和稀有細胞類型的識別,而且在從不同單細胞平臺生成的數據集上也具有強大的性能。

圖6. 評估細胞類型鑑定。使用單尾配對t檢驗計算p值。NS表示「不顯著」

3.5 DISC改善了下遊分析

本節評估了更好的基因表達結構是否可以轉化為更好的下遊分析結果。一共評估了三種性能 (1) 插補的scRNA-seq數據和批量RNA-seq數據之間的相似性,以及 (2) 通過scRNA-seq數據和批量RNA-seq數據鑑定的差異性表達基因 (DEG) 之間的相似性,以及 (3) 通過軌跡分析推斷出的偽時間順序之間的相似性和已知的細胞分化順序。在這裡,使用了來自10X Genomics平臺的三個數據集進行比較。

首先,針對同一細胞系之間以及兩個細胞系之間的表達差異,計算了插補的scRNA-seq圖譜和批量RNA-seq圖譜之間的Spearman相關係數(SCC)。只有四種方法保留了scRNA-seq圖譜與批量RNA-seq圖譜這兩種細胞系之間的表達差異之間的相關性,而DISC的改進最大。

接下來,使用兩種方法,即MAST和Wilcoxon ranksum檢驗 (縮寫為Wilcoxon) 來識別單細胞數據的DEG。利用兩個指標判斷其性能, (1) 在批量數據和scRNA-seq數據之間從兩種細胞類型識別出的DEG重疊 (Overlap) ,(2) 使用來自同質群體的細胞錯誤檢測出的DEG數量。與RAW數據集相比,DISC能夠顯著減少錯誤的DEG數量 (圖7A, B) 。總體而言,DISC在DEG識別的靈敏度和特異性之間取得了平衡。

然後,實驗通過倍數變化 (FC) 評估了表達差異幅度的影響。對於10X_5CL數據集中的一對細胞類型,基因按其FC排序,然後分組為十個相等長度的間隔(每個具有1815個基因)。DISC在10個間隔中的7個間隔中顯示了scRNA-seq數據和批量RNA-seq數據之間的DEG重疊的改善,這表明DISC與RAW相比,DEG識別的一致性得到改善 (圖7C) 。

最後,作者在補充材料中評估了軌跡分析。也證明了DISC的性能。總而言之,與原始數據相比,DISC持續改善了下遊分析,可提供更多生物學上有意義的信息。

圖7. DEG鑑定評估

3.6 DISC可以可靠地識別130萬小鼠大腦數據集中的細胞群

最後一個實驗分析了BRAIN_1.3M數據集,該數據集是從多個大腦區域生成的。DISC總共識別出61個細胞簇 (圖8A) 。使用Allen Brain Atlas的已知標記基因將每個簇分配給三個主要細胞組 (Glutamatergic神經元, GABAergic 神經元和非神經元細胞) 。三種主要細胞類型的比例分別為:64%,18%和18%,這與PARC報告的組成 (65%,18%和17%) 更接近 (圖8B) 。將細胞分為10個主要的神經元 (圖8C) 和6個主要的非神經元細胞群 (圖8D) 。最小的細胞群體是Microglia(5774個細胞),它們具有獨特的C1qb和Tgfbr1細胞標記,佔數據集細胞數量的0.44% (圖8C) 。這些細胞群可以進一步分類為亞細胞群。例如,基於區分的亞細胞標記,可將遷移的中間神經元 (MI) 進一步細分為三個亞群(圖8E) 。

比較DISC和scScope識別的細胞類型,可以發現MI的差異很大。DISC鑑定出184,203個MI細胞(佔14.36%)屬於GABAergic 神經元 (圖8D) 。通過可視化兩個MI標記Dlx1和Dlx6os1,分析清楚地表明MI屬於GABAergic 神經元 (圖8F) 。此外本文還利用Seurat來證明這個結果 (圖8G) 。這些結果表明,DISC能夠有效,準確地探索超大型異質單細胞數據集中的主要和稀有細胞群體。

圖8. 分析BRAIN_1.3M

四、總結

結果表明,DISC應該用於插補,特別是對於基因表達稀疏的數據集。不假設數據分布,DISC提供了用於分析單細胞組學數據的通用解決方案。它同時輸出表達式矩陣和低維表示形式,可用於其他無法處理超大型數據集的分析工具進行聚類和可視化。

代碼

https://github.com/xie-lab/DISC

參考文獻

He Y, Yuan H, Wu C, et al. DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning[J]. Genome biology, 2020, 21(1).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3

轉載或合作請聯繫郵箱 intbioinfo@163.com

相關焦點

  • Genome Biology | 七月內容更新
    他們通過構建Cas9-tv(將合成轉錄激活結構域融合到Cas9),來實現更高效的編輯效率。通過將其進一步與dsgRNAs進行結合可以強化這種編輯效果,使得即便在封閉染色質區域也能實現高效的基因編輯,該研究尤其對靶向核酸酶難降解的區域進行基因編輯提供了新的思路。
  • 中外科學家繪製小鼠內皮細胞單細胞轉錄組圖譜
    中外科學家繪製小鼠內皮細胞單細胞轉錄組圖譜 作者:小柯機器人 發布時間:2020/2/17 10:44:15 比利時魯汶大學Peter Carmeliet、丹麥奧胡斯大學Yonglun Luo、中國中山大學Xuri Li等研究人員合作繪製了小鼠內皮細胞
  • 有袋動物胚胎發育和X染色體失活單細胞轉錄組圖譜的揭示
    有袋動物胚胎發育和X染色體失活單細胞轉錄組圖譜的揭示 作者:小柯機器人 發布時間:2020/8/21 15:43:54 英國弗朗西斯·克裡克研究所James M. A.
  • Cell子刊新成果:建立人類精子發生過程高精度轉錄組圖譜
    8月30日,這一由中國團隊完成的新研究在國際知名學術期刊《Cell Stem Cell》上在線發表,他們首次從單細胞水平系統闡明了人類精子發生過程中的基因表達調控網絡和細胞命運轉變路徑,繪製了人類精子發生的高精度單細胞轉錄組圖譜,解析了成年男性全部生殖細胞類型及其關鍵的分子標記,並初步探索了將單細胞轉錄組技術用於人類非梗阻性無精症的研究和診斷。
  • 專注液滴微流控技術 萬乘基因致力高通量單細胞多組學測序的應用普及
    「現階段,單細胞測序還沒有辦法讓研究人員通過簡單培訓就上手操作,但科研和臨床中對這項技術確實存在剛性需求。」讓更多的研究人員能夠使用單細胞測序技術,並推動這項技術快速走向標準化,正是施威揚教授創辦萬乘基因的初衷。
  • 安諾優達攜手中科院遺傳所召開基因組學前沿技術應用研討會
    2020年12月5日,在中國科學院遺傳與發育生物學研究所肖軍研究員的大力促成及鼎力支持下,中國科學院遺傳與發育生物學研究所和安諾優達生命科學研究院聯合籌辦的基因組學前沿技術應用研討會在北京完美落幕。在疫情防控形勢下,為了讓更多對基因組學感興趣的科研人員能夠同步學習到各位報告嘉賓的科研成果,本次會議以線下會議和線上直播的形式進行。
  • Nat Biotechnol:科學家發現能準確高效進行單細胞轉錄組特性分析的...
    2020年4月9日 訊 /生物谷BIOON/ --為了確保單細胞RNA測序能夠使用最好的方法,日前研究人員對13種方法進行了基準性的測試,一項刊登在國際雜誌Nature Biotechnology上的研究報告中,來自西班牙的科學家們通過研究發現,日本理化所開發的Quartz-seq2方法或許是進行單細胞RNA測序的最佳手段。
  • 基因簡報 | 醫療器械和證券迎最強監管;達安基因易主;首個卒中萬人...
    我國單細胞企業新格元生物  完成近3000萬美元新一輪融資  12月24日,專注於高通量單細胞多組學平臺產品的新格元生物科技有限公司近日獲得近3000萬美元的A2輪融資。本輪融資由騰訊領投,禮來亞洲、夏爾巴投資、鼎暉投資、軟銀中國資本等現有股東共同參與。
  • 從DNA甲基化看草莓與番茄的不同 | Genome Biology
    論文標題:Downregulation of RdDM during strawberry fruit ripening 期刊:Genome Biology 作者:Jingfei Cheng†, Qingfeng
  • 一文全解華為雲全新基因組自動AI建模工具AutoGenome黑科技
    但是構建一個性能優異的深度學習模型仍然需要研究者投入大量的時間和資源,並且模型的性能在很大程度上也依賴於研究者的調參經驗。這種現象已經嚴重的阻礙了AI在科研和產業界的廣泛應用。為了解決這個問題,研究人員提出了自動機器學習(AutoML)方法。AutoML目前是深度學習領域最為熱門的一個話題。
  • Nature子刊:對年輕癌症患者進行全基因組測序勢在必行
    目前,下一代測序的臨床測試通常包括對整個外顯子和轉錄組更有限的測序的綜合分析(也稱為RNA測序)。其中,外顯子是基因組中編碼蛋白質組裝指令的1% - 2%的基因組;轉錄組識別正在表達的基因。
  • 單細胞測序技術原理
    一.基本原理 單細胞測序首先不是僅僅對一個細胞進行測序,而是說該項技術能對單一細胞的基因組或轉錄組進行測序,可以理解為單細胞水平上的測序。 在介紹基本原理之前先讓我們嘗試著回答一下:為什麼要進行單細胞測序?
  • 僅3個單細胞測序樣本純分析也發6分!
    今天和大家分享的是一月份發表在SCIENTIFIC DATA(IF:5.929)雜誌上的一篇文章,」Single-cell RNA sequencing of human kidney「,本文作者通過對健康人腎臟的單細胞測序以及分類分析,提供了人腎臟細胞的轉錄組圖譜。讓我們一起解讀一下吧!
  • 科學家用轉錄因子重建卵母細胞轉錄網絡
    科學家用轉錄因子重建卵母細胞轉錄網絡 作者:小柯機器人 發布時間:2020/12/18 16:53:02 日本九州大學Katsuhiko Hayashi團隊在研究中取得進展。他們利用轉錄因子重建卵母細胞轉錄網絡。
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操班...
    為進一步推動我國生物信息學特別是基因組學的發展,提高從業人員的技術水平,更好地促進專家學者們在研究中的分享和交流,應廣大行業工作者的要求,中國生物工程學會和中國科學院微生物研究所網絡信息中心聯合舉辦「生物信息學暨基因組與轉錄組高通量測序應用最新技術與數據分析」高級培訓班,並由北京中科潤開生物科技有限公司具體承辦,具體事宜通知如下:
  • Nat Comm|何川組構建基因組5hmC修飾的人體組織圖譜
    圖1.不同組織的5hmC修飾分布特徵其次,作者利用5hmC圖譜系統地鑑定了組織特異的5hmC修飾基因,並發現這些基因顯著富集組織特異的功能。進一步與基因表達譜的比較發現,組織特異的5hmC修飾基因與組織特異的表達基因在不同組織中高度一致,提示基因體上的5hmC修飾可以在一定程度上作為基因表達的替代(圖2)。
  • 哺乳動物轉錄組和翻譯組共進化
    哺乳動物轉錄組和翻譯組共進化 作者:小柯機器人 發布時間:2020/11/14 23:33:42 德國海德堡大學分子生物學中心(ZMBH)Henrik Kaessmann和Evgeny Leushkin研究組合作取得一項新突破
  • 研究揭示多組織轉錄組關聯和孟德爾隨機分析的整合網絡
    研究揭示多組織轉錄組關聯和孟德爾隨機分析的整合網絡 作者:小柯機器人 發布時間:2020/10/8 22:12:31 美國範德堡大學Eric R.
  • 尋因生物完成過億元A輪融資,旗下自主研發的單細胞測序產品開始...
    尋因生物 CEO李宗文表示:「我們堅信多維度多組學的單細胞檢測技術將會以其獨特的優勢在疾病研究和藥物開發領域,極大地縮短基礎研究與臨床轉化之間的距離。公司運營團隊擁有多年的科研、臨床及健康產業的相關經驗,本輪融資後公司將逐步拓寬單細胞技術研發管線,並持續推進單細胞技術在真實臨床世界的研究。」
  • 人體定量蛋白質組圖譜揭示不同組織中RNA與蛋白質水平差異
    通過對201個不同組織樣本進行定量蛋白質組分析,獲得了各樣本與RNA表達水平對應的蛋白質分子的定量表達數據,發現了轉錄組和蛋白質組之間的大量差異。該研究首次通過蛋白質/RNA差異分布和富集的信息揭示了分泌型蛋白質分子如何在不同的位點合成、分泌並發揮功能。研究結果有助於我們進一步理解基因的轉錄後調控、生物學功能以及人類疾病的發生。