edgeR分析基因表達矩陣

2021-02-08 醫學統計園

在對基因表達數據進行分析時，常用的R包有limma，DESeq2/DESeq，edgeR，還有一些不常用的，比如SAMSeq，NOIseq以及基於Linux的Cuffdiff等。

在之前的GEO分析教程中，我使用的是limma包，它是原理是基於連續數據的線性模型，對基因表達數據進行擬合分析，最初是被設計用來分析晶片表達數據分析；DESeq2在之前對TCGA數據分析的教程中，有展示具體用法，其是基於負二項分布對數據表達進行分析；edgeR同樣也可以對基因表達數據進行分析，其原理與DESeq2較為類似。關於以上方法具體的差異以及原理，後面還會有詳細的筆記介紹。接下裡會對同一組數據，利用上述三種不同的方法進行分析，直觀的觀察三者之間的差異。

本次使用的TCGA數據，是5例cancer和5例normal組織的RNAseq數據。

1. 安裝與加載包

if (!requireNamespace("BiocManager", quietly = TRUE))    install.packages("BiocManager")
BiocManager::install("edgeR")library(edgeR)

2.加載數據與預處理
load(file="expressMatrix.Rdata")group=rep(c('cancer',"normal"),c(5,5))cData=data.frame(group=as.factor(group))rownames(cData)=colnames(expressMatrix)d<-DGEList(counts = expressMatrix,group = cData$group)

3. 數據過濾
keep_gene<-rowSums(cpm(d)>1)>=2table(keep_gene)d<-d[keep_gene,keep.lib.size=F]
這個是過濾以及normalized之後結果的可視化，10組數據整體表達較為一致

4.計算
design<-model.matrix(~cData$group)d <- calcNormFactors( d )d <- estimateGLMCommonDisp(d, design)d <- estimateGLMTrendedDisp(d, design)d <- estimateGLMTagwiseDisp(d, design)
fit=glmFit(d,design)lrt<-glmLRT(fit)

5. 獲取分析結果
edgeR_results=topTags(lrt,n=Inf)$tableedgeR_results$adjPvalues=p.adjust(edgeR_results$PValue,method = "BH")

6. 差異基因可視化
學過之前數據挖掘課程的小夥伴，現在火山圖應該以及得心應手了吧。

文中使用的代碼和數據在QQ粉絲交流群（642764332）。下一節講述如何使用DESeq2包對該數據進行差異表達分析。

參考文章：

相關焦點

DESeq2分析基因表達矩陣

上一節對基因表達數據使用edgeR進行差異表達分析：edgeR分析基因表達矩陣，那麼接下來，我們就繼續使用DESeq2對expressMatrix
(偽)從零開始學轉錄組(7):差異基因表達分析

對於基因晶片的差異表達分析而言，由於普遍認為其數據是服從正態分布，因此差異表達分析無非就是用t檢驗和或者方差分析應用到每一個基因上。高通量一次性找的基因多，於是就需要對多重試驗進行矯正，控制假陽性。目前在基因晶片的分析用的最多的就是limma。
表達差異分析: edgeR簡明中文手冊

DGEList至少需要的元素：counts、samples（包含group分組信息和lib.size文庫大小），counts用來存放表達矩陣，samples用來標記樣本信息和庫的大小，group聲明組別。
Nanostring的表達矩陣分析也是大同小異

Nanostring是介於傳統的晶片技術和現在的RNA-seq技術之間的一個選擇，有點類似於靶向轉錄組，傳統的qPCR實驗操作步驟多且繁複，不適合高通量的基因表達實驗設計，而新一代RNA-seq價格昂貴並且需要耗費大量生物信息分析資源，難以在短時間內讀取有效數據。NanoString技術原理是基於核酸分子與探針雜交後，對探針上的螢光分子條形碼進行直接測量。
【流程】使用limma、Glimma和edgeR,RNA-seq數據分析易如反掌

摘要簡單且高效地分析RNA測序數據的能力是Bioconductor的核心優勢。RNA-seq分析通常從基因水平的序列計數開始，涉及到數據預處理，探索性數據分析，差異表達檢驗以及通路分析，得到的結果可用於指導進一步實驗和驗證研究。
B站課程《三陰性乳腺癌表達矩陣探索》筆記之文獻解讀

(Weighted gene correlation network analysis)是一個非常強大的網絡分析工具，這些工具可以被用來識別發生在樣本之間的高度相關的基因群體。因此基因可以被分為模塊，而且這些模塊可以通過其他的特徵（必須是連續變量）聯繫在一起可用來做WGCNA的指標：Stage I-III， purity of tumor , the size of tumor 以及age,可以用來做WGCNA，找到跟這些指標相關的基因集NMF（Non-negative Matrix Factorization)，非負矩陣分解，一種特殊的聚類非負矩陣分解
表達矩陣的歸一化和標準化,去除極端值,異常值

標準化：按照表達矩陣中的一個基因在不同樣本中的表達量處理數據，每個樣本點都能對標準化產生影響，通過求z-score值，轉換為標準正態分布，經過處理的數據的均值為0，標準差為1，因此z-score也稱為零-均值規範化。取log對表達量的影響原始的raw counts矩陣是一個離散型的變量，離散程度很高。
DESeq2差異表達分析

在前文scRNA-seq marker identification(二)，我們我們提到了差異分析，下面我們來詳細了解下學習目標了解如何準備用於pseudobulk差異表達分析的單細胞RNA-seq原始計數數據利用DESeq2工具對特定細胞類型聚類進行pseudobulk差異表達分析創建函數以遍歷不同細胞類型的pseudobulk差異表達分析
R語言mRNA差異表達分析

以上這個表格，在表達差異分析中很常見，第一列是基因名稱。，刪除在所有樣品上基本不表達或者低表達的基因，剩下17922個基因。也可以採用cpm校準化的基因表達量作為過濾低表達基因的標準。
表達矩陣逆轉為10X的標準輸出3個文件

而有些公共數據並不會提供3個數據，比如: SE117988_raw.expMatrix_PBMC.csv.gz , 就是 10x的表達矩陣。我們會使用下面的代碼來讀取這個表達矩陣，進行Seurat分析。
比較不同流程(limma/voom,edgeR,DESeq2 )差異分析的區別

幾天前，曾老師在群裡給我布置了一份學徒作業，比較不同流程（limma/voom，edgeR，DESeq2 ）差異分析的區別，擬使用的數據集是TCGA-BRCA的counts值矩陣。作為非腫瘤口的生信新人，秉著無知者無畏的態度試了一試。以下是具體過程。
【論文精選】廣靈驢HSL基因克隆、序列分析與差異表達

摘要：試驗旨在對廣靈驢的激素敏感脂酶(hormone sensitive lipase，HSL)基因進行克隆和序列分析，並對HSL基因在廣靈驢不同組織中的差異表達水平進行分析。使用RT-PCR法擴增並克隆廣靈驢HSL基因CDS區部分序列，將序列拼接後得到HSL基因完整的CDS區全長序列，並對序列進行一系列生物信息學分析，通過實時螢光定量PCR檢測HSL基因mRNA在廣靈驢的心臟、肝臟、脾臟、肺臟、腎臟、背最長肌和皮下脂肪7個組織中的表達情況。
差異分析|DESeq2完成配對樣本的差異分析

data = gset## 2.2分組矩陣design <- model.matrix(~0+group_list)rownames(design) = colnames(data)colnames(design) <- levels(group_list)## 2.3差比表達矩陣構建，並過濾DGElist <
生信小課堂 | 矩陣分解在NGS數據分析中的應用

從技術角度上，『降維』，『矩陣分解』和『非監督聚類』是有很大程度的重合性的。它們都涉及從生物數據中提取特定的特徵。用RNA-Seq舉例，我們用一個N*M的矩陣來描述N個基因在M個樣本中的表達。矩陣分解的核心是將N*M分解為N*C和C*M兩個矩陣。如下圖所示。
基因晶片小知識(一)

然而，晶片實驗產生的數據量日益增長，由於不同的分析方法，會得出不同結論，因而分析起著關鍵作用。基因晶片分析就是為了通過生物信息學方法從這些晶片數據中發現可能對生物效應起作用的關鍵基因，從中尋找特定模式並對每個基因給予注釋，從而挖掘出隱含的生物學過程並抽提出生物學的或功能層面上的意義。根據晶片的使用目的，一張晶片可能包含數十、數百甚至數十萬的不同序列。
基因表達、男女有別:Science、Cell等發布15篇人類遺傳最新成果

研究人員對來自838名死亡捐贈者49個組織的15,201份樣本進行了RNA測序，並分析了每個捐贈者的全基因組測序數據。整個研究使用的一種關鍵方法為基因表達數量性狀位點（eQTL）分析，以鑑定影響基因表達的遺傳變異以及分析剪接變異數量性狀位點（sQTL）；其中一篇論文還使用CRISPR分析了罕見病的調控變異。
基因表達調控

4．真核基因表達調控的特點是什麼?5.簡述真核基因啟動子、增強子及轉錄因子的概念、結構和功能。6.RNAi是在什麼水平上對基因表達進行調控的?參考答案一、名詞解釋1．基因表達gene expression 基因表達就是基因轉錄及翻譯的過程，即生成具有生物學功能產物的過程。2．管家基因housekeeping gene某些基因產物對生命全過程都是必需的或必不可少的。
象限圖、矩陣圖、五力分析圖是表達工具,誤用於思考反而束縛思維

由此，這個信息接收者最終就能在TA的「意識空間」裡還原出與表達者相同的「意識影像」。但是，在現實中，大多數人都只會在「認知界面」上還原成「現實影像」，而不會在「意識空間」裡還原出「意識影像」。在一個組織中，經常遇到這樣的問題，下級很難真正理解上級的指令，對上級下達的指令，總是執行不到位。
基因表達的噪音如何影響細胞命運?

VarID根據基因表達譜的相似性將細胞連接起來，並在局部相似細胞群中量化基因表達的變異性（或噪音）。近日，德國馬克斯普朗克研究所的Dominic Grün研究員提出了一種基於單細胞數據量化必需基因表達變異性的方法。
第三十六講:矩陣數據分析法

第三十六講：矩陣數據分析法項目質量管理中提及的老QC七大手法工具已經講解完畢，開始簡述下新QC七大手法，今天是最後一個：矩陣數據分析法。一、基本概念矩陣數據分析法（Matrix Data Analysis Chart，MDAC）是指通過運用主成分分析等計算方法，準確地整理和分析在矩陣圖上用數據定量化表示的各元素間關係的一種方法，是一種定量分析問題的方法。矩陣數據分析法是在QC新七大手法中唯一一種利用數據分析問題的方法。

edgeR分析基因表達矩陣

相關焦點

DESeq2分析基因表達矩陣

(偽)從零開始學轉錄組(7):差異基因表達分析

表達差異分析: edgeR簡明中文手冊

Nanostring的表達矩陣分析也是大同小異

【流程】使用limma、Glimma和edgeR,RNA-seq數據分析易如反掌

B站課程《三陰性乳腺癌表達矩陣探索》筆記之文獻解讀

表達矩陣的歸一化和標準化,去除極端值,異常值

DESeq2差異表達分析

R語言mRNA差異表達分析

表達矩陣逆轉為10X的標準輸出3個文件

比較不同流程(limma/voom,edgeR,DESeq2 )差異分析的區別

【論文精選】廣靈驢HSL基因克隆、序列分析與差異表達

差異分析|DESeq2完成配對樣本的差異分析

生信小課堂 | 矩陣分解在NGS數據分析中的應用

基因晶片小知識(一)

基因表達、男女有別:Science、Cell等發布15篇人類遺傳最新成果

基因表達調控

象限圖、矩陣圖、五力分析圖是表達工具,誤用於思考反而束縛思維

基因表達的噪音如何影響細胞命運?

第三十六講:矩陣數據分析法