差異分析|DESeq2完成配對樣本的差異分析

2021-02-11 生信補給站

本文為群中小夥伴進行的一次差異分析探索的記錄。

前段時間拿到一個RNA-seq測序數據（病人的癌和癌旁樣本，共5對）及公司做的差異分析結果（1200+差異基因），公司告知用的是配對樣本的DESeq分析。

考慮到平時limma和DESeq2包進行差異分析時沒有特別註明是否配對，這配對和非配對有啥區別呢？

於是分別嘗試使用limma和DESeq2包的非配對分析，發現得到的差異基因和公司的差距很大。我查了好多關於RNA-seq配對分析的資料，發現幾乎沒有這方面的帖子。

詢問公司DESeq配對分析的代碼，公司說保密不能給，此外公司還告知現在的配對樣本的分析都改用了DESeq2。好吧，那就只能自己動手，以下為探索過程的一個記錄。

# 加載包
library(openxlsx)
library(DESeq2)
library(limma)
library(edgeR)

1.讀入原始數據及分組信息
rowdata <- read.xlsx("Count_data.xlsx",sheet = 1,rowNames = T)
gset <- rowdata[rowMeans(rowdata)>0,] # 剔除表達量低的基因

group_list <- c(rep("case",5), rep("control",5)) 
group_list <- factor(group_list,levels = c("control","case"))


## 2.1表達矩陣
data = gset

## 2.2分組矩陣
design <- model.matrix(~0+group_list)
rownames(design) = colnames(data)
colnames(design) <- levels(group_list)

## 2.3差比表達矩陣構建，並過濾
DGElist <- DGEList( counts = data, group = group_list)
keep <- rowSums(cpm(DGElist) > 0.5 ) >=2 
table(keep) 
# FALSE 2443 TRUE 15909

DGElist_QC <- DGElist[keep, ,keep.lib.sizes=FALSE] 
dim(DGElist) 
# 18352 10 過濾前

dim(DGElist_QC)
# 15909 10過濾後

## 2.4歸一化基因表達分布

DGElist_norm <- calcNormFactors(DGElist_QC, method = "TMM")
DGElist_norm$samples$norm.factors # 查看每個樣品歸一化後的係數
DGElist_QC$samples$norm.factors #未歸一化之前的樣本係數，都是1

## 2.5 limma包進行voom函數
v <- voom(DGElist_norm, design, plot = TRUE, normalize = "quantile")
fit <- lmFit(v, design)
cont.matrix <- makeContrasts(contrasts = c('case-control'), levels = design)
fit2 <- contrasts.fit(fit, cont.matrix)
fit2 <- eBayes(fit2)

## 2.6提取差異矩陣
nrDEG_limma_voom = topTable(fit2, coef = "case-control", n = Inf)
nrDEG_limma_voom = na.omit(nrDEG_limma_voom)
nrDEG_limma_voom = nrDEG_limma_voom[order(nrDEG_limma_voom$logFC),] 

## 2.7 定義差異基因
nrDEG <- nrDEG_limma_voom
nrDEG$Group = "notsignificant"

logFC_cutoff <- 0.6 # 定義差異基因的標準，自定義

nrDEG$Group [which( (nrDEG$P.Value < 0.05) & (nrDEG$logFC > logFC_cutoff) )] = "upregulated"
nrDEG$Group [which( (nrDEG$P.Value < 0.05) & (nrDEG$logFC < -logFC_cutoff) )] = "downregulated"

table(nrDEG$Group)
可以看到只有67個下調的33個上調的，火山圖不好看，而且根本沒法繼續做GO和KEGG分析。
OK，嘗試使用DESeq2包的非配對差異分析。


## 3.1表達矩陣
data = apply(gset, 2, as.integer) ## DESeq2分析需要是整數
row.names(data) <- row.names(gset)

## 3.2分組矩陣
condition = group_list
coldata <- data.frame(row.names = colnames(data), condition)

dds <- DESeqDataSetFromMatrix(countData = data,
                              colData = coldata,
                              design = ~condition)

dds$condition<- relevel(dds$condition, ref = "control") # 指定哪一組作為對照組

## 3.3差異表達矩陣

dds <- DESeq(dds)  
nrDEG_DESeq2 <- as.data.frame(results(dds))
nrDEG_DESeq2 = nrDEG_DESeq2[order(nrDEG_DESeq2$log2FoldChange),] 

## 3.4定義差異基因
nrDEG <- nrDEG_DESeq2
nrDEG$Group = "notsignificant"
logFC_cutoff <- 0.6

nrDEG$Group[which( (nrDEG$pvalue < 0.05) & (nrDEG$log2FoldChange > logFC_cutoff) )] = "upregulated"
nrDEG$Group[which( (nrDEG$pvalue < 0.05) & (nrDEG$log2FoldChange < -logFC_cutoff) )] = "downregulated"

table(nrDEG$Group)
 
可以看到常規的DESeq2分析比limma voom分析多了一些差異基因，但是和公司給的1200+的差異基因還是差遠了。

發現差異之後開始了檢索和求助之旅，查了很多帖子，也求助了一些大神，似乎很少人注意過DESeq2包做配對的差異分析。
討論群中小夥伴貼了limma進行配對分析的方式，於是我去查閱了DESeq2的說明書，可以看到說明書就這麼一句話：
剩下的事情就簡單了，依此修改後，DESeq2包成功做出了配對差異分析，復現了公司的結果。好了，下面就是使用DESeq2包完成配對差異分析的代碼了，自取！
## 4.1表達矩陣

data = apply(gset, 2, as.integer) ## DESeq2分析需要是整數
row.names(data) <- row.names(gset)

## 4.2分組矩陣，配對分析與常規分析最大的區別就在分組矩陣

condition = group_list
# 配對分析要加上這段代碼，知道誰和誰是一對，比如1,1是一對，5,5是一對
subject <- factor(c(1,2,3,4,5,1,2,3,4,5))  

coldata <- data.frame(row.names = colnames(data), condition)

# 注意在design中加上配對信息
dds <- DESeqDataSetFromMatrix(countData = data,
                              colData = coldata,
                              design = ~subject +condition) 

dds$condition<- relevel(dds$condition, ref = "control") 

## 4.3差異表達矩陣，還是和常規分析一樣

dds <- DESeq(dds)
nrDEG_DESeq2 <- as.data.frame(results(dds))
rld <- rlog(dds)
# 這裡我還提取了標準化後的表達矩陣，可以用於後續的熱圖繪製等等
normal_gset <- assay(rld) 
nrDEG_DESeq2 = nrDEG_DESeq2[order(nrDEG_DESeq2$log2FoldChange),] 

## 4.4定義差異基因

nrDEG <- nrDEG_DESeq2
nrDEG$Group = "notsignificant"

logFC_cutoff <- 0.6
nrDEG$Group[which( (nrDEG$pvalue < 0.05) & (nrDEG$log2FoldChange > logFC_cutoff) )] = "upregulated"
nrDEG$Group[which( (nrDEG$pvalue < 0.05) & (nrDEG$log2FoldChange < -logFC_cutoff) )] = "downregulated"

table(nrDEG$Group)
此時終於成功得到了1200+的差異基因，通過對比公司的分析結果和我做的結果，幾乎完成了復現。有一點區別在於我做了一些低表達基因的過濾，導致log2Foldchang和pvalue略微有些變化，但這區別可以忽略不計。
總結來說，由於算法的不同，不同差異分析的R包得到的差異基因數量不完全一致。重要的是，針對配對的樣本，如果不進行配對分析而用常規的差異分析，這樣的結果可能會大不相同。因此，在分析數據的時候，一定要明白實驗設計。

最後，我還發現有意思的一個情況。在進行clusterProfilerR包的GSEA分析的時候，我用非配對分析得到的log2FoldChang出的GSEA結果，和配對分析得到的log2FoldChang出的GSEA結果幾乎是一致的，儘管兩種分析方法得到的log2FoldChang有很大差別。
PS：公眾號後臺回復「入群」，備註  姓名+單位/學校+研究方向  即邀請您進交流群！◆ ◆ ◆  ◆ ◆
精心整理（含圖版）|R語言生信分析，可視化，你要的全拿走，建議收藏！

相關焦點

DESeq2差異表達分析

在前文scRNA-seq marker identification(二)，我們我們提到了差異分析，下面我們來詳細了解下學習目標了解如何準備用於pseudobulk差異表達分析的單細胞RNA-seq原始計數數據利用DESeq2工具對特定細胞類型聚類進行pseudobulk差異表達分析創建函數以遍歷不同細胞類型的pseudobulk差異表達分析
表達差異分析: edgeR簡明中文手冊

，因為：低表達沒有生物學意義去除低表達數據可以對數據中均值-方差關係有更精確的估計減少了觀察差異表達下遊分析中的運算量edgeR包中的filterByExpr函數提供了自動過濾基因的方法，可保留儘可能多的有足夠表達計數的基因。
qRT-PCR差異分析及P值計算

那麼樣品間基因表達差異倍數多少則可以認為有差異呢？P值的計算：P值的算法有很多種，最常用的是T檢驗（T-test），亦稱student t檢驗（Student's t test），主要用於樣本含量較小（例如n < 30），總體標準差σ未知的正態分布。T檢驗是用t分布理論來推論差異發生的概率，從而比較兩個平均數的差異是否顯著。
使用 ALDEx2 進行差異分析

ALDEx2 是進行微生物組差異分析較為常見的方法。
微生物組間差異分析之LEfSe分析

LEfSe分析，可以分析組間菌群差異，找出各組間差異的微生物種類，有助於開發biomaker等研究，因此LEfSe分析在微生物相關文章中經常出現
R語言mRNA差異表達分析

這裡面其實就是下載的182個樣本，每個樣本的信息單獨保存在一個文件夾。這種數據不能直接拿來做分析，因此先要合併。這是因為TMM 法認為樣本間大部分的基因都沒有發生差異表達，而那些真正差異表達的基因並不會受到normalization的嚴重影響。如此一來，便將那些由於測序引起的差異表達基因的表達量給校正了，消除了一部分的假陽性。為什麼要做Normalization呢？
Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)

Alpha多樣性差異檢驗在微生物群落的alpha多樣性指數分析中，最常用的就是利用統計學分析檢驗不同組樣本間微生物群落alpha多樣性指數的差異顯著性。兩組樣本分析當研究的樣本只有兩組時，一般使用t-test檢驗組間差異。
簡單使用limma做差異分析

首先需要說明的是，limma是一個非常全面的用於分析晶片以及RNA-Seq的差異分析，按照其文章所說：limma is an R/
一條代碼完成完成無限分組的微生物差異分析

寫在前面今天是2020年10月6日，這幾天都很忙碌，許多批次的數據需要再次分析和進一步分析，許多材料需要趕出來，百忙之中還有幾位同學的婚禮，確實非南京很難到場
差異基因分析方法——p-value

我們都知道，在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候，一般選取兩個標準：1）FoldChangeFoldChange，很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。可以用RPKM值來計算，關於RPKM的計算方法，我們上周已經分享了，大家可以戳這裡查看。
差異分析完整解決方案:Easystat

（兩種差異表示，三種圖形展示）柱狀圖展示方差分析或非參數檢驗結果（aovMuiBarPlot）在這個包中將差異檢測和出圖部分分離，方便選擇合適的圖表和差異可視化的策略。最終要的參數是result ：為前面差異分析結果中的第一個表單，格式為第一列差異顯著字母，第二列分組標籤，列名，分組標籤。如果只是用可視化的函數，直接從外面導入類似數據即可。# ?
手把手教你用 GraphPad 做配對樣本 t 檢驗

在統計學分析裡，最重要的元素是數據，因為數據的屬性決定了用什麼樣的方式來比較數據，不同的數據比較方式就決定了統計分析方法以及對應的統計圖。 Graphpad prism 8.0是一款強大統計分析軟體，兼有分析數據和作圖的能力。
配對樣本t檢驗(Paired Samples t-test)——jamovi軟體實現

本案例的分析目的是比較兩種檢測方法對同一批樣本檢測的結果是否存在差異，由於檢測的指標是計量資料，因此可以使用配對樣本t檢驗。但需要滿足五個條件：條件1：觀察變量為連續變量。本研究中的生化指標(X)含量為連續變量，該條件滿足。條件2：觀察變量為配對設計。本研究中，兩組數據均是對同一批研究對象測量所得，因此屬於配對樣本。該條件滿足。
配對樣本t檢驗(Paired Samples t-test)——SPSS軟體實現

本案例的分析目的是比較兩種檢測方法對同一批樣本檢測的結果是否存在差異，由於檢測的指標是計量資料，因此可以使用配對樣本t檢驗。但需要滿足五個條件：條件1：觀察變量為連續變量。本研究中的生化指標(X)含量為連續變量，該條件滿足。條件2：觀察變量為配對設計。本研究中，兩組數據均是對同一批研究對象測量所得，因此屬於配對樣本。該條件滿足。
配對樣本t檢驗(Paired Samples t-test)——R軟體實現

本案例的分析目的是比較兩種檢測方法對同一批樣本檢測的結果是否存在差異，由於檢測的指標是計量資料，因此可以使用配對樣本t檢驗。但需要滿足五個條件：條件1：觀察變量為連續變量。本研究中的生化指標(X)含量為連續變量，該條件滿足。條件2：觀察變量為配對設計。本研究中，兩組數據均是對同一批研究對象測量所得，因此屬於配對樣本。該條件滿足。
負二項分布在差異分析中的應用

無論是DESeq還是edgeR, 在文章中都會提到是基於負二項分布進行差異分析的。為什麼要要基於負二項分布呢？從統計學的角度出發，進行差異分析肯定會需要假設檢驗，通常對於分布已知的數據，運用參數檢驗結果的假陽性率會更低。轉錄組數據中，raw count值符合什麼樣的分布呢？
什麼是理化分析中的誤差分析? | 如何減小平行樣差異?

2、平行樣間的分析間隔某些物質的含量或性質會隨著時間而改變(例如一些需顯色或者衍生化反應後分析的待測物質)，此時隨著平行樣間的分析間隔增加．可能會增大平行樣結果的差異。同時，由於測量儀器也可能隨時間變化發生波動．因而平行樣測試時，最好能規定並儘量減少平行樣問的測量時間間隔。
典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集

，下面是如何利用Limma和線性模型鑑定差異基因，並進行GO富集分析。我們這裡主要用limma包構建線性模型進行差異表達分析。這個包可以同時比較很多實驗組並且儘量維持其易用性。首先對每個基因的表達擬合一個線性模型，然後用經驗貝葉斯 (Empirical Bayes)或其他方法進行殘差分析獲得合適的t統計量，並針對小樣本實驗的方差估計進行優化，使得分析結果更加可靠。
R統計-微生物群落結構差異分析及結果解讀

PERMANOVA(ADONIS)的中文名稱為置換多元方差分析或非參數多元方差分析，利用各種組間距離指數對總方差進行分解，可以分析不同分類因子對群落差異的解釋度，並使用置換檢驗進行統計學檢驗。參數檢驗要求分析數據是正態分布和具有方差齊性，非參數檢驗則對樣本數、數據分布和方差齊性要求不高，因此應用可以比較廣泛。
R語言 | 差異顯著性檢驗

t-test當數據分為兩組並且兩組數據均符合正態分布時，使用t-test進行差異顯著性比較，該分析由t.test函數完成。各參數意義：x和y為待分析數據；alternative規定檢測的類型；mu為原假設，即定義兩組數據均值的假設差異；paired是否進行配對檢驗；var.equal定義是否檢測兩組方差的一致性；conf.level為顯著性等級。

差異分析|DESeq2完成配對樣本的差異分析

相關焦點

DESeq2差異表達分析

表達差異分析: edgeR簡明中文手冊

qRT-PCR差異分析及P值計算

使用 ALDEx2 進行差異分析

微生物組間差異分析之LEfSe分析

R語言mRNA差異表達分析

Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)

簡單使用limma做差異分析

一條代碼完成完成無限分組的微生物差異分析

差異基因分析方法——p-value

差異分析完整解決方案:Easystat

手把手教你用 GraphPad 做配對樣本 t 檢驗

配對樣本t檢驗(Paired Samples t-test)——jamovi軟體實現

配對樣本t檢驗(Paired Samples t-test)——SPSS軟體實現

配對樣本t檢驗(Paired Samples t-test)——R軟體實現

負二項分布在差異分析中的應用

什麼是理化分析中的誤差分析? | 如何減小平行樣差異?

典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集

R統計-微生物群落結構差異分析及結果解讀

R語言 | 差異顯著性檢驗