單細胞轉錄組整合分析——seurat包

2021-02-15 生信菜鳥團

Seurat是一個分析轉錄組數據的R包,我們之前的推文對其進行過描述:

Seurat 學習筆記

該包於去年新推出了整合功能。文章19年6月份發表於cell雜誌,原文題目為:Comprehensive Integration of Single-Cell Data    被引量超過300次

我們一起來看一下。

該方法的目的是識別不同數據集中存在的共享細胞狀態,即使它們是從不同的個體、實驗條件、技術甚至物種中收集來的。

重點是找到不同數據集中的錨點anchors,這些「錨點」然後用於協調數據集,或將信息從一個數據集傳輸到另一個數據集。

步驟如下:

數據預處理

作者把單細胞數據放在了SeuratData等一系列包中,如果你的網速不行,可以直接到網頁下載數據。

 library(Seurat)
 #devtools::install_github('satijalab/seurat-data')
 library(SeuratData)
 #InstallData("panc8")
 #data("panc8")
 load('panc8.SeuratData/data/panc8.rda')
 
 #To construct a reference, we will identify 『anchors』 between the individual datasets.
 #首先,將組合的數據分成列表,每個數據集是單獨的元素
 pancreas.list <- SplitObject(panc8, split.by = "tech")
 pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]

對數據先進行標準化,並識別variable feature。

 for (i in 1:length(pancreas.list)) {
   pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
   pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst",
                                              nfeatures = 2000, verbose = FALSE)
 }

整合3個胰島細胞數據集

整合三個數據集作為參考,並使用FindIntegrationAnchors函數識別錨點。參數默認。

 reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
 pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然後我們將這些錨點傳遞給IntegrateData函數,該函數返回一個Seurat對象。

 pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

現在我們得到了seurat對象——一個整合後的表達矩陣pancreas.integrated。

然後我們可以使用這個新的表達矩陣進行下遊分析和可視化。

包括進行標準化,運行PCA,並使用UMAP可視化結果。

 library(ggplot2)
 library(cowplot)
 # switch to integrated assay. The variable features of this assay are automatically
 # set during IntegrateData
 DefaultAssay(pancreas.integrated) <- "integrated"
 
 # Run the standard workflow for visualization and clustering
 pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
 pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
 pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30)
 
 p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
 p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE,
               repel = TRUE) + NoLegend()
 plot_grid(p1, p2)

左圖按照技術聚類,右圖按照細胞類型聚類。


使用參考數據集進行細胞類型分類

找到錨點之後,我們使用TransferData函數基於參考數據尋找細胞。

 pancreas.query <- pancreas.list[["fluidigmc1"]]
 pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query,
     dims = 1:30)
 predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype,
     dims = 1:30)
 pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因為我們有來自完整整合分析的原始標籤注釋,所以我們可以評估我們預測的細胞類型注釋與完整參考的匹配程度。在這個例子中,我們發現在細胞類型分類上有很高的一致性,超過97%的細胞被正確標記。

 pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
 table(pancreas.query$prediction.match)

 table(pancreas.query$predicted.id)

 VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

可以看到這幾個基因在水平表達量的高低。

未完待續...

文末友情宣傳

強烈建議你推薦給身邊的博士後以及年輕生物學PI,多一點數據認知,讓他們的科研上一個臺階:

相關焦點

  • 單細胞免疫組庫數據分析||Seurat整合單細胞轉錄組與VDJ數據
    在做10X單細胞免疫組庫分析的是往往是做一部分BCR、TCR做一部分5『轉錄組,那麼怎樣才能把兩者結合到一起呢?今天我們嘗試用我們的趁手工具做一下整合分析。首先是下載數據,我們從10X官方的dataset中下載數據:https://support.10xgenomics.com/single-cell-vdj/datasets/3.1.0/vdj_v1_hs_pbmc3在下載頁面有關於這個樣本的基本介紹,如這個數據集根據單細胞V(D)J試劑試劑盒使用指南和細胞表面蛋白特徵條形碼技術(CG000186),從標記的細胞中擴增出cDNA
  • 單細胞數據分析神器——Seurat
    在2015年至2017年,甚至對某細胞群體或組織進行單細胞測序,解析其細胞成分就能發一篇CNS級別的文章。近兩三年,單細胞技術從最開始的基因組,轉錄組測序,發展成現在的單細胞DNA甲基化,單細胞ATAC-seq等等。測序手段也從早期的10X Genomics、 Drop-seq等,發展為現在的多種多樣個性化的方法。研究內容更不僅僅局限於解析細胞群體的成分,而是向研究細胞功能和生物學特性發展。
  • 科學家揭示整合單細胞和群體細胞轉錄組數據推斷細胞分化時間的作用
    該研究通過開發計算工具包(iCpSc)用於整合單細胞和群體細胞轉錄組數據,來預測細胞分化過程中單細胞的分化時間和路徑,並通過基因調控網絡分析尋找重要調控因子和信號通路。單細胞轉錄組測序技術作為強大的方法應用於分析發育和重編程過程的細胞異質性。分析細胞間異質性的關鍵目標就是尋找未知的細胞狀態或重構細胞譜系的發育軌跡。
  • 單細胞轉錄組高級分析四:scRNA數據推斷CNV
    上期專題我們介紹了單細胞轉錄組數據的基礎分析
  • 萬字長文 | 單細胞轉錄組分析最佳思路綜述
    本文將詳細介紹單細胞轉錄組數據分析的步驟,包括預處理(質控、歸一化標準化、數據矯正、挑選基因、降維)以及細胞和基因層面的下遊分析。並且作者將整個流程應用在了一個公共數據集作為展示(詳細說明在:https://www.github.com/theislab/single-cell-tutorial),目的是幫助新入坑用戶建立一個知識體系,已入坑用戶更新知識體系。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    單細胞RNA測序(scRNA-Seq)是分析細胞間異質性的一項關鍵技術,但是基於短讀長的單細胞測序缺乏識別全長轉錄本的能力,不能開展更深入的細胞間異質性研究,例如可變剪接、基因融合事件等。因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。
  • 單細胞學習之細胞周期分析
    develop in preparation for cell division,為分裂做準備M(mitosis):'Old' cell partitions the two copies of the genetic material into the two daughter cells.And the cell cycle can begin again.3、scRNA-seq與cell cycle在分析單細胞數據時
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    本文作者使用單細胞轉錄組學和基於蛋白質組學的質譜分析(mass spectrometry-based proteomics)來量化年輕和年老小鼠肺部30種細胞類型的細胞活性狀態變化。作者發現,衰老會導致轉錄噪聲增加,並且放鬆對表觀遺傳的控制。作者還觀察了衰老對於細胞類型特異性的影響,發現2型肺細胞和脂肪成纖維細胞膽固醇合成的增加,以及呼吸道上皮細胞的改變,是肺部老化的幾大標誌。
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    本文作者使用單細胞轉錄組學和基於蛋白質組學的質譜分析(mass spectrometry-based proteomics)來量化年輕和年老小鼠肺部30種細胞類型的細胞活性狀態變化。作者發現,衰老會導致轉錄噪聲增加,並且放鬆對表觀遺傳的控制。作者還觀察了衰老對於細胞類型特異性的影響,發現2型肺細胞和脂肪成纖維細胞膽固醇合成的增加,以及呼吸道上皮細胞的改變,是肺部老化的幾大標誌。
  • 代碼分析 | 單細胞轉錄組clustering詳解
    我們在單細胞轉錄組分析中最為常用的聚類可視化即為tSNE和UMAP(Hemberg-lab單細胞轉錄組數據分析(十二)-
  • 蔡軍/張江開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。
  • 單細胞數據結構| 果殼中的宇宙
    我是樓下單細胞天地的鄰居:周運來就是我。今天很突然,是我的生日。同樣突然的是老大拉我進菜鳥團的後臺群,安排寫一寫單細胞相關的文章。今後一段時間,會不時出沒了啦~初次見面聊點什麼好呢?其實單細胞大家已經很熟悉了,一如我們經常仰望的星空。那麼,就聊一聊單細胞的數據結構,介紹個對象吧^_^在我們涉足單細胞數據分析不久之後就會發現,我們在和一套新的理念打交道。
  • 科研人員開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。目前已有的基於監督學習的自動分類方法,大部分無法兼顧到方法的可解釋性以及新細胞類型的發現。
  • 免費領取 | 單細胞轉錄組測序,市面罕見的單細胞技術書籍
    前陣子,小編發現了一篇單細胞測序的文章,看到之後震驚了!據統計,單細胞測序相關文章的單月平均影響因子達到了20.4!由此可見其影響之大,而單細胞轉錄組測序的文章已經發表很多了,現在再不應用就趕不上熱度了! 為響應熱潮,滿足同學們的需求,解螺旋和聯川生物一起給大家送出這本《單細胞轉錄組測序》實體書。
  • 10x單細胞免疫組庫VDJ數據分析就看它
    2015年,10x Genomics發布了基於微流控和油滴包裹技術的Chromium單細胞系統平臺,可實現高通量的單細胞轉錄組和單細胞V(D)J測序。不但可以將TCR/BCR雙鏈完美匹配,而且可以細化到單細胞水平,同時獲得表達譜信息。目前該技術也是研究單細胞免疫組庫應用最廣泛的技術,那麼10x 單細胞免疫數據該如何分析?分析結果又有哪些呢?今天小編帶大家來聊聊單細胞免疫組庫測序數據分析那些事。
  • 神助攻帶你「撩」起單細胞轉錄組
    帶著無比喜悅,無比激動的心情,小編用幾個數字給您炫一下10x Genomics這一神助攻應用於單細胞轉錄組測序的六大優勢! 那麼,10x Genomics平臺應用於單細胞轉錄組的研究究竟有哪些?看這裡,有案例,有真相!
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    本文來源:北大生科作為細胞異質性研究的重要工具,近年來單細胞轉錄組測序技術蓬勃發展,並積累了大量研究數據。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 靶向治療誘導的肺癌進化:單細胞轉錄組分析
    單細胞轉錄組測序是研究複雜生物系統異質性的有效方法。2018年Bernard Thienpont帶領的研究團隊通過對正常與癌變樣本近10萬個單細胞的研究,創建了第一個完整的肺癌細胞圖譜,包括52個不同亞類的基質細胞,說明了肺癌微環境遠比我們想像的複雜(Lambrechts, D, 2018)。由於獲得高質量的晚期肺癌的樣本非常困難,對晚期肺癌的單細胞研究還很少。
  • Seurat學習記錄
    前言最近雖然在調研單細胞,但是關於單細胞的數據尚未處理過。所以先根據網上的例子跑了一遍流程。