ItClust:單細胞RNA測序分析的聚類和細胞類型分類算法

2020-11-09 BioArt

責編 | 兮


單細胞RNA測序技術(scRNA-seq)為細胞生物學和疾病原理研究提供了一個新的方法。在scRNA-seq的分析中, 細胞類型分類是非常重要的步驟。通過鑑定組織中不同的細胞類型,我們可以更好的理解:(1)同一物種不同組織之間細胞類型和功能的差異;(2)同一組織在不同發育階段的細胞類型的變化;(3)同一組織在健康和疾病狀態下細胞類型的差異。


儘管scRNA-seq有著光明的前景,但是單細胞測序技術過程中產生的數據噪音和scRNA-seq數據本身的高維度(測序得到的基因數量往往遠高於細胞的數量)使得scRNA-seq的分析變得十分具有挑戰性。


隨著越來越多的scRNA-seq數據變得可用,許多算法開始利用已標註細胞類型的scRNA-seq數據集中的信息,來幫助分類和標註新的未標註的scRNA-seq數據集。這些已有的算法大多僅僅在已標註的源數據(source dataset)中學習特定細胞類型的基因表達信息,而忽略了目標數據集(target dataset)中的有用信息。


因此, 這些已有的算法十分依賴於源數據集的標註質量,這導致它們對於目標數據中特有的,而源數據中沒有的細胞類型無法給出準確的分類。再者,當源數據和目標數據之間存在較強的處理批次效應(batch effect)時,(處理批次效應的產生有很多原因, 例如不同實驗室取樣方式的不同,測序方法的不同等等, 是一個十分常見的問題)這些已有的算法都表現不佳。


細胞類型分類的理想算法應該能夠同時學習源數據集和目標數據集中的基因表達信息,在一定程度上不受處理批次效應的影響, 並且對於目標數據集中特有的,卻未出現在源數據集 中的細胞類型也給出準確的分類預測。


遷移學習(transfer learning)是一種機器學習算法,它專注於從已經解決的問題中學習處理方法, 並將學習到的知識利用於解決其他相關的問題,非常適合用於監督式(supervised)的細胞分類。使用監督式預訓練進行的遷移學習最初是由Donahue等人提出【1】,他們的研究表明,以完全監督的方式從深度卷積網絡(convolutional network)中提取的,用於對象識別任務的特徵,可以重新用於類似目的的其他任務。


近日,美國賓夕法尼亞大學Perelman醫學院Mingyao Li團隊(第一作者為胡健Nature Machine Intelligence雜誌上發表文章Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis,借鑑上述想法,開發了ItClust【2】,一種將神經網絡的遷移學習用於單細胞RNA測序分析的聚類和細胞類型分類的機器學習算法。



ItClust需要兩個輸入數據集:一個作為源數據的基因表達矩陣, 其中每個細胞都被標註了細胞類型;另一個作為目標數據的基因表達矩陣, 其中所有的細胞都未被標註類型 。圖1顯示了ItClust算法的主要步驟。


圖 1: ItClust 算法介紹


(1)ItClust從構建一個堆疊自編碼器(stacked autoencoder)開始,利用該堆疊自編碼器以無監督(unsupervised)的方式從源數據中提取並學習細胞類型的基因表達;


(2)當堆疊自編碼器學習結束後, ItClust捨棄掉堆疊自編碼器的解碼器(decoder), 僅保留編碼器(encoder), 並在解碼器之後接入一個分類層(clustering layer), 組成完整的源分類網絡。源分類網絡利用源數據集中已有的細胞類型標註,通過監督式學習的方式更進一步的學習源數據中特定細胞類型的基因特點;


(3)構建第二個分類網絡,即目標分類網絡。目標分類網絡擁有和源分類網絡同樣的結構, 並且源分類網絡中的參數將被用於目標分類網絡的初始化。這一步驟保證了目標分類網絡繼承了所有源分類網絡已學習到的信息;


(4)最後,完成初始化的目標分類網絡再通過無監督的方式從目標數據中學習,微調參數,以便捕獲目標數據中特有的細胞類型的基因表達。完成了訓練ItClust 網絡將能對目標數據集中的細胞作出準確的分類, 並對每個類群所屬的細胞類型給出一個置信分數(confidence score), 根據置信分數, 使用者將能判斷該類群是否是源數據集中已有的某個細胞類型。


以上的步驟保證了ItCLust能夠學習到源數據和目標數據中的信息, 當源數據和目標數據之間存在強烈的批處理效果時,或者當源數據的質量較差時, ItClust任然能夠給出較好的分類結果。


為了展示ItClust的優勢,研究人員分析了來自不同物種,組織,測序方法的多個scRNA-seq數據集。將ItClust的與Louvain【3】和DESC【4】這兩種非監督聚類方法,scVI【5】中實現的一種半監督方法以及 Seurat【6】,Moana【7】和scmap【8】這三種監督分類方法進行了比較 。還將ItClust與SAVER-X【9】(一種用於基因表達去噪的無監督遷移學習算法)進行了比較。結果表明,在聚類和細胞類型分類中,ItClust的性能始終優於這些現有方法。


由於篇幅所限, 在此僅僅展示一部分結果。如圖2,展示了 ItClust與半監督和監督方法在人胰島數據集上的比較,並測試了源數據中缺失細胞類型的對不同分類方法的影響。


通過從源數據中排除四種主要細胞類型(alpha,beta,gamma和delta細胞)。圖2b顯示,儘管這四種主要的細胞被從源數據集中刪除,ItClust對目標數據集的分類仍能達到92%的準確度,並且能夠正確分離目標數據集中的這四種細胞。相比之下,Seurat 的準確性大幅度下降至25%, Scmap的準確度降至28%,其中55.0%的細胞(包括大多數alpha,beta ,gamma和 delta細胞)被歸類為「未分類」。scVI和Moana 的準確度降至25% 和21%,都將大多數上述四種細胞誤分類為epsilon細胞。


ItClust可以分離這些未出現在源數據集中的細胞類型的原因是,在微調步驟中,該算法通過更新網絡參數,在目標數據集中捕獲了這些缺失的細胞類型的信息。為了更好地說明參數迭代更新過程是如何工作的,以gamma細胞為例。圖2d顯示了微調之前目標數據中單元格的t-SNE圖。藍色點代表真正的gamma細胞,紅色點代表分類中心(cluster centroid),米色點代表其他細胞類型的細胞。由於源數據中不存在gamma細胞,剛完成初始化的目標網絡無法分離gamma細胞。因此在t-SNE圖中,gamma細胞最初與其他細胞類型混合在一起。但是,在迭代過程中,目標網絡開始在目標數據集中學習gamma細胞的信息。隨著網絡參數的更新,gamma細胞逐漸靠近紅色質心,這使gamma細胞遠離了其他類型的細胞。經過70次迭代後,gamma細胞與其他細胞完全分離。對於alpha,beta和delta細胞也觀察到相似的模式。這些結果表明,對於未出現在源數據集中的細胞類型,如果目標數據集中有足夠的信息,ItClust對這些細胞也能完成很好的分類。


圖2: ItClust與半監督和監督方法在人胰島數據集上的比較


綜上所述,ItClus是一個強大scRNA-seq聚類和細胞類型分類工具。它能夠消除源數據和目標數據之間的強批處理效果的幹擾,並且能夠分離目標數據集特有的而源數據集沒有的細胞類型。此外,它提供有助於細胞類型分配的置信度評分。隨著scRNA-seq在生物醫學研究中的日益普及,希望ItClust能使研究人員能夠準確地對研究中的細胞進行聚類和注釋。


附:ItClust的代碼:https://github.com/jianhuupenn/ItClust


原文連結:

https://doi.org/10.1038/s42256-020-00233-7

https://www.biorxiv.org/content/10.1101/2020.02.02.931139v1.full (preprint)


製版人:schweine


參考文獻

1. Donahue, J. et al. DeCAF: a deep convolutional activation feature for generic visual recognition. ICML』14: Proceedings of the 31st International Conference on Machine Learning 32, 647-655 (2014).

2. Hu, J., Li, X., Hu, G. et al. Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis. Nat Mach Intell (2020). https://doi.org/10.1038/s42256-020-00233-7

3. Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment 2008, P10008 (2008).

4. Li, X., Wang, K., Lyu, Y., Pan, H., Zhang, J., Stambolian, D., ... & Li, M. (2020). Deep learning enables accurate clustering with batch effect removal in single-cell RNA-seq analysis. Nature communications, 11(1), 1-14.

5. Lopez, R., Regier, J., Cole, M. B., Jordan, M. I. & Yosef, N. Deep generative modeling for single-cell transcriptomics. Nat Methods 15, 1053-1058, doi:10.1038/s41592-018-0229-2 (2018).

6. Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888-1902. e1821 (2019).

7. Wagner, F. & Yanai, I. Moana: A robust and scalable cell type classification framework for single-cell RNA-Seq data. BioRxiv, 456129 (2018).

8. Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888-1902. e1821 (2019).

9. Wang, J. et al. Data denoising with transfer learning in single-cell transcriptomics.Nature methods 16, 875-878 (2019).

相關焦點

  • 上海生科院通過單細胞RNA測序對軀體感覺神經元重新分類
    依據反應類型可將傷害性感受器稱為機械熱、機械敏感的或機械不敏感的傷害性感受器等。  為了更好地了解初級感覺神經元的細胞類型、分子特性和生理特性,張旭研究組的李昌林等利用高覆蓋的單細胞測序技術,檢測了成年小鼠腰段背根神經節中的初級感覺神經元的基因表達。通過檢測差異基因表達和生物信息學分析,獲取了初級感覺神經元的細胞類型和代表性基因。
  • 【突破】500,000+單細胞的RNA序列揭示所有主要人體器官的細胞類型圖
    他們建立了所謂的單細胞人類細胞景觀(HCL)分析管道,以幫助鑑定細胞,並對人類和小鼠的景觀進行了單細胞比較分析,以揭示保存的遺傳網絡。研究人員發現幹細胞和祖細胞表現出很強的轉錄組隨機性,而分化的細胞則更加獨特。先前的研究中,這些研究人員報告了一種名為Microwell-seq的技術方法,該方法是一種經濟高效的單細胞mRNA測序技術,在雙峰率和細胞類型相容性方面具有優勢。
  • 雲平臺|OTU聚類的幾種算法!
    今天給大家介紹雲平臺|OTU聚類的幾種算法!講述微生物多樣分析背後的上帝之手!為何要進行聚類?測序完成後,每個樣品的測序序列達到幾萬條,對每一條序列可以進行物種注釋,但是這種方式工作量大,畢竟每一條序列需要與資料庫進行比對,比對過程又比較耗時,而且擴增、測序等過程中出現的錯誤會降低比對結果的準確性;因此,在微生物多樣性研究中,引入了OTU的概念,首先對序列按照一定的相似程度進行聚類,每形成的一類稱為一個OTU,一個OTU中序列的差異程度不能大於規定的相似程度(97%)基於分類單位
  • 代碼分析 | 單細胞轉錄組clustering詳解
    我們在單細胞轉錄組分析中最為常用的聚類可視化即為tSNE和UMAP(Hemberg-lab單細胞轉錄組數據分析(十二)-
  • 什麼是高通量單細胞RNA測序技術?
    該五篇文章幾乎都是同時發表,表明該領域的競爭激烈,同時也說明了單細胞測序技術在植物研究應用中已經成熟,期待未來更多的植物組織細胞的測序,為解決植物如何從胚發育成全株提供更多的信息! 什麼是高通量單細胞RNA測序技術?
  • 13種單細胞RNA擴增測序方法的比較
    前言 單細胞RNA測序(scRNA-seq)是繪製單個細胞分子特性的主要技術。目前高通量單細胞測序一次可以研究數千甚至上萬個細胞,從而使科研人員可以對樣本組成進行深入的研究。
  • 基於單細胞RNA測序繪製人類肺組織分子細胞圖譜
    該研究共對人類肺部組織和循環血液中的約75,000個細胞進行了測序,並結合多方面的細胞注釋方法,鑑定出肺部的58種細胞類型。該研究利用10x Chromium發現罕見細胞類型 ,再通過SmartSeq2獲得更深入的轉錄信息。通過基於液滴和孔板的單細胞RNA測序(droplet- and plate-based single-cell RNA sequencing),研究團隊對所有肺組織間室和循環血液中的約75,000個細胞進行了測序,結合多種細胞注釋方法,最終繪製了一個全面的人肺分子細胞圖譜。
  • Cell:將CRISPR和單細胞RNA測序結合在一起分析基因功能
    大腦中哪些細胞參與阿爾茨海默病發生?免疫細胞如何執行它們的複雜決策過程?如今,在一項新的研究中,來自以色列魏茲曼科學研究所等機構的研究人員在一種方法中將兩種強大的研究工具--- CRISPR基因編輯和單細胞基因組分析---結合在一起,從而可能最終有助我們解答這些問題和更多的其他問題。
  • 這些軟體讓單細胞測序分析越來越Easy
    Perkel 編譯:麥子 轉載請註明:解螺旋·臨床醫生科研成長平臺 單細胞生物學成了時下熱門話題,這其中最前沿的便是單細胞RNA測序(scRNA-Seq)。 傳統的「大量細胞(bulk)」RNA測序法是一次處理成千上萬個細胞,然後抹平它們之間的差異。
  • 【Nature子刊】史上最大單細胞RNA測序項目!首次發現膠質母細胞瘤...
    這項研究是迄今為止最大的單個癌細胞RNA測序項目,包括55000個膠質母細胞瘤細胞和20000個正常腦細胞。研究人員將發育中的人類大腦的譜系等級與癌細胞的轉錄組進行了比較。結果發現,在每個腫瘤中有五種主要的癌細胞類型,這些癌細胞類型與正常人大腦中的細胞類型相似。
  • 基於單細胞RNA測序描繪腸神經元種類的多樣化
    然而,腸道神經元多樣性的範圍和它是如何出現在發展過程中的仍然未知。為此,瑞典卡羅林斯卡醫學院的Marklund Ulrika團隊,通過單細胞RNA測序技術對小鼠小腸肌腸叢內的腸神經元開展相關研究,了解腸道神經元種類的多樣化。這項最新研究結果以:為題,於12月7日在線發表在了 Nature Neuroscience 雜誌上期刊。
  • Nature:如何利用單細胞mRNA測序發現罕見細胞類型?
    理解一個器官的發育和功能需要對組成該器官的所有細胞類型的特性有一個清晰的認識。傳統發現和分離細胞亞群的方法是基於幾個已知的標記基因表達出來的信使RNA或蛋白質實現的。但是對於一些罕見的細胞類型來說,鑑定出它們特定的標記基因目前仍存在很大挑戰。
  • 單細胞RNA測序揭示癌細胞對化學療法的多種反應機制
    單細胞RNA測序揭示癌細胞對化學療法的多種反應機制 2020-08-27 15:57 來源:澎湃新聞·澎湃號·湃客
  • 科學家首次用單細胞測序方法分類神經細胞
    美國史丹福大學駱利群和史蒂芬·夸克兩名教授領導的研究小組,在最新一期美國《細胞》雜誌上發表論文說,他們首次將單細胞RNA(核糖核酸)測序技術運用到果蠅的嗅覺神經研究上,發現通過分析基因表達圖譜,能準確地把神經細胞分類。這是在基因水平上首次給不同神經細胞準確分類。  論文共同第一作者李紅傑博士在美國科學院院士、駱利群教授實驗室進行博士後研究。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    單細胞RNA測序(scRNA-Seq)是分析細胞間異質性的一項關鍵技術,但是基於短讀長的單細胞測序缺乏識別全長轉錄本的能力,不能開展更深入的細胞間異質性研究,例如可變剪接、基因融合事件等。因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。
  • Science:利用單細胞RNA測序分析黑色素瘤
    尤其是對RNA-seq而言,對整塊腫瘤組織進行分析受到限制,這是因為人們研究的是腫瘤細胞、免疫細胞、成纖維細胞和巨噬細胞的混合物---所有的這些細胞混合在一起,它們可能會或可能不會導致癌症惡化和耐藥性。 這些不同的細胞具有非常不同的基因表達模式,因而在這種典型的「大體積」測序過程中,它們的表達模式基本上受到平均化,而且它們全部混合在一起,人們也不能夠分析單個細胞。
  • Genome Biology|VIPER:在單細胞RNA測序中為精確的基因表達恢復...
    本文開發了一種方法,VIPER,在單細胞RNA測序研究中插補零值,以促進在單細胞水平上準確的轉錄組測量的實現。VIPER基於非負稀疏回歸模型,並能夠逐步推斷一組稀疏的局部鄰域細胞,這些細胞最能有效預測用於插補的細胞的表達水平。VIPER的一個關鍵特徵是它保存基因表達變異的細胞的能力。幾個精心設計的基於真實數據的分析實驗說明了VIPER的優點。
  • 單細胞基因測序市場分析
    在人體的每一個組織中,比如說,腎臟組織,擁有著大量不同的細胞類型,每一種細胞類型有著獨特的起源和功能。每一個細胞的譜系和發展的狀態又決定了每個細胞如何和周圍的細胞和環境如何反應,把基因測序應用到單個細胞層面,對於我們理解細胞的起源,功能,變異等有著至關重要的作用。
  • 單細胞RNA測序技術的研究進展
    單細胞RNA測序已成為解剖細胞異質性並將組織分解成細胞類型和/或細胞狀態的必不可少的工具,這為從頭發現提供了巨大的潛力。單細胞轉錄組圖譜提供了前所未有的解析度,可揭示複雜的細胞事件並加深我們對生物系統的了解。在本綜述中,簡要簡紹了單細胞RNA測序技術及相關應用。我們預計單細胞RNA測序在生物學中的作用將日益增強,在提供空間信息和與細胞形態的方面將進一步提高。將來,能夠更好地應用於科研領域。
  • 解讀單細胞RNA-seq技術
    Rinn稱:「我們可以利用單細胞測序,進一步了解XIST的功能。」在2012年,Rinn的研究小組開始尋找更多功能形式的長非編碼RNA,特別尋找充當強大細胞調控因子的RNA。為此,他和同事們應用單細胞RNA-seq,來檢測細胞分化這類過程中基因轉錄的pseudotemporal動力學。