採用DESeq2對表達量進行PCA和聚類分析

2020-10-18 生信修煉手冊

得到基因/轉錄本的表達量之後,通常會通過以下三種類型的圖表來檢驗和分析生物學樣本和實驗設計間關係。

1.  樣本的聚類樹

利用所有樣本的表達量數據,對樣本進行聚類。理論上如果樣本和實驗操作都沒有問題,那麼屬於同一組的生物學重複樣本會聚到一起。示意圖如下

上圖中,樣本的名稱用組別代替,可以看到,同一條件的樣本聚在了一起。

2. PCA圖

通過主成分分析進行降維,在二維或者三維平面上展示樣本點的分布,根據點的位置,也可以看出屬於同一組的樣本是否在一起,不同組之間的樣本有沒有明顯分開,示意如下


從圖中可以看到,不同條件的樣本區分的很明顯,而生物學重複之間距離較近,表明生物學重複的一致性和不同分組的差異性較好。

3.  熱圖

相比樣本的聚類樹,熱圖包含了更多的信息,比如可以直觀的展示不同分組間表達量的差異,也是常見的可視化手段之一,示意如下

只要有樣本的表達量矩陣,DESeq2可以輕鬆的畫出以上3種圖表。但是我們應該選擇原始的表達量矩陣,還是歸一化之後的表達量矩陣來畫呢?或者有沒有其他的選擇呢?

輸入的矩陣不同,得出的結論也會不同。由於基因的表達水平在不同樣本間本身就存在一定的差異,所以無論是採用原始的還是歸一化之後的表達量矩陣,效果都不理想。針對這一問題,DESeq2提出了兩種count值的轉換算法,rlogVST轉換。

1. rlog 轉換

rlog 轉換的用法如下

rld <- rlog(dds)

2. VST 轉換

用法如下

vsd <- vst(dds)

兩種轉換本質上是在降低生物學重複之間的差異,使得樣本聚類和PCA分析的效果更好。轉換之後的表達量數據可以採用assay函數進行提取,代碼如下

> head(assay(rld)[, 1:2])      sample1   sample2gene1 2.049029 1.6828707gene2 8.151262 6.8552583gene3 0.818971 0.2964686gene4 5.340361 4.4766682gene5 6.316175 6.8345783gene6 2.157821 1.9264385

對於raw count定量表格,建議採用rlog或者VST轉換之後的數據去進行PCA和聚類分析,效果會更好。

利用DESeq2提供的示例數據pasilla,分別用原始的count, 歸一化之後的count, rlog, vst 轉換的count 進行PCA分析,代碼如下

dds <- estimateSizeFactors(dds)raw <- SummarizedExperiment(counts(dds, normalized=FALSE),                               colData=colData(dds))nor <- SummarizedExperiment(counts(dds, normalized=TRUE),                               colData=colData(dds))vsd <- vst(dds)rld <- rlog(dds)pdf("PCA.pdf")plotPCA( DESeqTransform(raw), intgroup=c("condition", "type") )plotPCA( DESeqTransform(nor), intgroup=c("condition", "type") )plotPCA(vsd, intgroup=c("condition", "type"))plotPCA(rld, intgroup=c("condition", "type"))dev.off()

raw count 的結果如下


歸一化之後count結果如下

VST轉換之後的結果如下

rlog轉換之後的結果如下

可以很明顯看出,原始的count和歸一化之後的count, 其PCA圖是雜亂無序的,沒什麼明顯規律,而VST和rlog轉換之後,生物學重複之間更佳的接近,不同分組也區分的較為明顯。

·end·

相關焦點

  • 聚類樹和PCA等排序圖的組合繪製
    聚類分析和排序分析(降維分析)都是用於探索多元數據結構的常用方法,二者的結果也可以結合在一起通過一張圖呈現,本篇展示一些常見的示例。https://pan.baidu.com/s/1dQxyRcBuGDoec9ZKm77Y6w示例數據包含15個樣本(對象),20個變量,下文對它執行聚類和降維,並作圖展示。
  • 用 PCA 方法進行數據降維
    所得結果如圖3和圖4所示。各維度之間的散點關係圖從圖中可以大致看出,sepal_length和petal_length與petal_width都有較強的相關性,而petal_length和petal_width的相關性最強,達到0.96。下面我們來用PCA具體來分析一下該數據集,首先先看看該數據在選取4個主成分下的情況,這時候其主成分的數量和原數據的維度數相等。其結果如圖5所示。
  • 使用python+sklearn實現概率PCA和因子分析進行模型選擇
    概率PCA和因子分析都是概率模型,新數據的似然性(likelihood)可用於模型選擇和協方差估計
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。
  • 聚類分析與SPSS實操演練
    聚類分析變量的聚類分析類似於因素分析。兩者都可用於辨別變量的相關組別。不同在於,因素分析在合併變量的時候,是同時考慮所有變量之間的關係;而變量的聚類分析,則採用層次式的判別方式,根據個別變量之間的親疏程度逐次進行聚類。
  • SPSS聚類分析 I K-均值聚類法案例實操
    今天想寫一下聚類分析方法之一:K—Mean聚類法 PART 01 聚類分析模型簡介 聚類分析沒有過多的統計理論支持,也沒有統計檢驗對聚類結果的正確性「
  • 因子分析與聚類分析在消費者生活形態研究中的應用
    下面本文主要介紹如何通過因子分析和聚類分析方法來對消費者進行分類。經事先的小樣本測試篩選,最終的測試語句為:我喜歡購買新潮的東西在其他人眼中我是很時髦的我用穿著來表達個人性格我對自己的成就有很大期望生命的意義是接受挑戰和冒險我會參加/自學一些英語和電腦課程來接受未來的挑戰我習慣依計劃行事我喜歡品味獨特的生活放假時我喜歡放縱自己,什麼事都不做無所事事會使我感到不安我的生活節奏很緊湊
  • 用StackOverflow訪問數據實現主成分分析(PCA)
    大數據文摘出品編譯:汪小七、張馨月、雲舟主成分分析(PCA:Principal Component Analysis)非常有助於我們理解高維數據,我利用Stack Overflow的每日訪問數據對主成分分析進行了實踐和探索,你可以在rstudio :: conf 2018上找到其中一篇演講的錄音。
  • 主成分分析PCA預測未知分類信息
    但是,本次樣本量很多,我並不能判斷,所以這次不作批次處理,並不影響我們的下遊分析,第三,差異分析。這裡的方法我們在這個帖子裡面也講過 Limma 求差異基因構建矩陣的兩種方式 這裡我想知道癌和癌旁中的差異基因,轉移和癌旁中的差異基因,轉移和癌的差異基因,所以選擇多組矩陣構建library(limma)f <- tumortype_class# 分組矩陣design <- model.matrix(~0+f)
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • 使用DESeq2進行兩組間的差異分析
    讀取數據讀取基因的表達量表格和樣本的分組信息兩個文件,其中表達量的文件示例如下gene_id ctrl-1 ctrl-2 ctrl-3 case-1 case-2 case-3geneA 14  0  11  4  0  12geneB 125 401 442 175 59 200
  • 基於TensorFlow理解三大降維技術:PCA、t-SNE 和自編碼器
    機器之心對本文進行了編譯介紹。代碼地址:https://github.com/eliorc/Medium/blob/master/PCA-tSNE-AE.ipynb在這篇文章中,我將盡我所能揭秘三種降維技術:PCA、t-SNE 和自編碼器。我做這件事的主要原因是基本上這些方法都被當作黑箱對待,因此有時候會被誤用。
  • 使用樹莓派控制16路舵機驅動板(pca9685)
    使用樹莓派控制16路舵機驅動板(pca9685)在樹莓派上,可以通過RPI.GPIO方便地輸出PWM進行舵機控制。這時可以藉助舵機控制板來進行多路PWM控制。這是某寶常見的舵機控制板,這個板子也比較便宜,十幾塊錢一個。使用晶片PCA9685,I2C通信,只需要幾根i2c線就可以控制16路pwm,周期和佔空比都可控。
  • DESeq2分析基因表達矩陣
    上一節對基因表達數據使用edgeR進行差異表達分析:edgeR分析基因表達矩陣,那麼接下來,我們就繼續使用DESeq2對expressMatrix
  • 新技術助力單細胞RNA測序數據聚類分析
    新技術助力單細胞RNA測序數據聚類分析 作者:小柯機器人 發布時間:2020/5/6 14:35:34 英國威康桑格研究所Mara K. N.
  • 這篇Nature子刊文章的蛋白組學數據PCA分析竟花費了我兩天時間來重現|附全過程代碼
    單細胞分析表明,T細胞構成了一個轉錄連續體(transcriptional continuum),從幼稚到中樞和效應記憶T細胞,形成了一種效應梯度,並伴隨著趨化因子和細胞因子表達的增加。最後,作者表明,T細胞活化和細胞因子反應受效應梯度的影響。
  • 基於Web of Scienece資料庫及共詞聚類分析的腸內營養研究熱點
    本研究對腸內營養研究進行文獻計量學分析,梳理腸內營養研究脈絡,探討腸內營養發展趨勢及研究熱點,為臨床護理人員和科研人員提供參考。1、資料基於Web of Science資料庫,應用Hist Cite軟體對建庫至2018年4月腸內營養研究進行文獻計量學分析,並應用Cite Space軟體進行共詞聚類分析。
  • 給定一系列訓練集數據並且對其進行訓練
    這個數據集裡包含了23000條數據(48個主題),每一條數據包含1行和1列的標籤。訓練集中以平均值為自變量,最大值為因變量,n是特徵數量。首先,我們對獲取的特徵進行主成分分析(pca)。以上圖為例子,該特徵包含一個坐標,一條線,一個列,一個方向。每一列的值為1/13。為什麼需要pca?原因在於最小二乘法的假設函數是一個線性方程組,如果直接用最小二乘法的擬合方法求解,會有誤差存在。
  • 使用PCA可視化數據
    這些測量包括細胞半徑和細胞對稱性。最後,為了得到特徵值,我們計算了每個度量值的平均值、標準誤差和最大值(不太好的),這樣我們總共得到30個特徵值。在圖中,我們仔細觀察了其中兩個特徵——細胞的平均對稱性(Benign)和最差平滑度(worst smoothness)。在圖中,我們看到這兩個特徵可以幫助區分這兩個類。那就是良性腫瘤往往更為對稱和光滑。