sleuth:基於TPM值的差異分析

2020-10-18 生信修煉手冊

kallisto等alignment-free轉錄本定量軟體,會給出TPM值的定量結果。基於這種類型的結果進行差異分析時,有兩種策略可以選擇。

第一種是採用tximportR包,將結果導入到DESeq2種進行分析;第二種是直接採用sleuthR包進行差異分析。本章主要介紹sleuth的使用。

這個包的原始碼存放在github上,連結如下

https://github.com/pachterlab/sleuth

github上的R包其安裝方式比較特殊, 具體過程如下

source("http://bioconductor.org/biocLite.R")biocLite("rhdf5")library(devtools)install_github("pachterlab/sleuth")

首先從Bioconductor上安裝依賴的rhdf5包,因為kallisto的定量結果為HDF5格式,這個R包用來讀取數據,然後採用devtools這個R包,自動從github的原始碼進行安裝。

所有差異分析需要的都是定量結果和樣本分組這兩個基本元素,只不過不同的R包要求的格式不同。在sleuth中,將這兩種信息存儲在一個三列的數據框中,示例如下

> s2c   samples   group              paths1 control-1 control kallisto/control-12 control-2 control kallisto/control-23 control-3 control kallisto/control-34    case-1    case    kallisto/case-15    case-2    case    kallisto/case-26    case-3    case    kallisto/case-3

第一列為樣本名稱,第二列為樣本對應的分組信息,第三列為每個樣本kallisto定量結果的文件夾。通過這樣的一個數據框,就包含了差異分析所需的所有信息。

假定有6個樣本,分成control,case 兩組, 每組3個生物學重複,可以通過以下代碼構建上述的數據框

samples = c("control-1","control-2","control-3","case-1","case-2","case-3")s2c <- data.frame(samples = samples,group   = rep(c("control", "case"), each = 3),paths   = paste("kallisto", samples, sep = "/"))

上述代碼要求將所有樣本的定量結果放在同一個文件夾下,目錄結構如下

kallisto/├── control-1├── control-2├── control-3├── case-1├── case-2└── case-3

上述數據框準備好之後,就可以讀取數據進行差異分析了,完整的代碼如下

library(sleuth)so <- sleuth_prep(s2c, extra_bootstrap_summary = TRUE)so <- sleuth_fit(so, ~condition, 'full')so <- sleuth_fit(so, ~1, 'reduced')so <- sleuth_lrt(so, 'reduced', 'full')sleuth_table <- sleuth_results(so, 'reduced:full', 'lrt', show_all = FALSE)

以上用法只是進行兩組間的差異分析,更多的用法請參考官方文檔。

·end·

相關焦點

  • 大年初一,單細胞分析從nature communication開始
    我們先進行單細胞論著的文章解讀,對單細胞系列的文章有一個大致的認識之後,接著開始通過兩篇綜述學習單細胞分析的一些常識和前沿知識。這也是酸菜校長在《三十六策》教給大家的一種方法:通過閱讀綜述學習一個領域的常識。兩篇綜述解讀完如果覺得不夠的話,可以再加兩篇,這個我們後續再說。第二部分:模塊分析。
  • 微生物群落差異分析方法大揭秘
    基於16s測序的差異分析無外乎就是物種差異,α 多樣性差異以及
  • R語言mRNA差異表達分析
    第四列是P值,其零假設是這個基因的表達在正常組織和癌症組織上是一樣的,因此P<0.05可認為某個基因在兩組間表達有顯著差異。第五列FDR是對P值的校正結果,一般使用FDR小於0.05。這種數據不能直接拿來做分析,因此先要合併。
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • OmicShare差異分析工具上線了!
    首先簡單介紹一下OmicShare差異分析工具的算法:工具採用edgeR軟體的算法,輸入基因read count數作差異表達分析。能否用RPKM值或FPKM值來作差異分析?小師妹真是痛心疾首,你們都沒有聽周老師的課啊~在第14期在線交流課堂——RNA-seq中的基因表達量計算和差異表達分析(下),周老師已經詳細地講解了edgeR等差異分析軟體的分析原理,以及為什麼差異分析輸入的數據是read count而不是RPKM。
  • 差異基因分析方法——p-value
    點擊關注基迪奧,立即漲姿勢~上周,我們分享了用RPKM值計算差異基因的方法,這周我們繼續分享另外一種方法
  • lnRNA生信一站式分析神器!差異表達臨床分析ceRNA網絡
    BAM文件並使用RPKM值來量化lncRNA表達水平的。如圖,第一行為HOTAIR在不同AJCC病理分型的乳腺癌組織中表達情況,P值0.456,表示組間無顯著性差異。,展示lncRNA表達水平與患者總生存期的相關性,提供基於單變量Cox比例風險模型的P值和通過Kaplan-Meier圖進行對數秩檢驗的P值兩種結果。
  • 微生物組間差異分析之LEfSe分析
    LEfSe分析,可以分析組間菌群差異,找出各組間差異的微生物種類,有助於開發biomaker等研究,因此LEfSe分析在微生物相關文章中經常出現
  • 營養與健康所等開發新的定量蛋白質組數據差異分析計算模型
    Cell Discovery 在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普計算生物學研究所)邵振課題組研究論文「MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes」,報導了一種新計算模型MAP,用於統計分析基於同位素標記產生的定量蛋白質組數據並鑑定其中差異表達的蛋白質
  • 甲基化晶片數據的差異分析
    /Rdata/step2_filtered_pd_myNorm.Rdata")dim(myNorm)#> [1] 412481     52dim(pd)#> [1] 52  4此處需要補充兩個知識點:beta值的生物學意義beta>=0.6 完全甲基化beta<=0.2 完全未甲基化0.2&
  • 差異基因表達分析(上)
    第二種就是統計檢驗,寫文章的時候總需要給出一個p值告訴主編這個結果可信的(雖然p值也存在爭論)。複習一下:p值指的碰巧是拒絕零假設機會。P值越大假陽性越低,同時真實結果也可能會剔除。註: 基因表達分析的零假設是: 基因在不同處理下的表達量相同。
  • 差異表達基因時的Log2FC和FDR值的含義?
    轉錄組分析差異表達基因時,結果中會出現Log2FC和FDR值,這兩個是什麼意思呢?
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    RNA-seq是通過NGS技術來檢測基因表達量的測序方法,在衡量基因表達量方面,若是單純以比對到參考基因的Reads個數(我們通常稱之為Count值)來衡量基因的表達量,在統計上是非常不合理的,所以需要一種方法進以橫向比較。今天介紹一下以下的幾個概念:Counts值、RPKM、FPKM、TPM和RPM幫大家更好地了解數據的歸一化。
  • 統計學中的P值,「差異具有顯著性」和「具有顯著差異」
  • peak差異分析的工具那麼多,如何選擇?
    peak 差異分析與peak caling的結果緊密相依,在上述文獻中,將peak差異分析總結為了兩大類,示意如下第一類,類似轉錄組差異分析的策略,首先基於peak calling的結果,統計peak區域在各個樣本中的表達量,然後進行歸一化,差異分析;第二類,採用了隱馬可夫模型,將基因組的區域分為了非差異,上調,下調3種不同狀態,構建3
  • 【統計學】讓人糾結的P值
    計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。
  • 使用DESeq2進行兩組間的差異分析
    DESeq2 接受raw count的定量表格,然後根據樣本分組進行差異分析,具體步驟如下1.差異分析代碼如下dds <- nbinomWaldTest(dds)res <- results(dds)為了簡化調用,將第二部到第四部封裝到了DESeq這個函數中,代碼如下dds <- DESeq(dds)res <- results
  • 基於人口特徵的重慶市收入差距分解分析
    由於缺乏可靠的微觀調查數據的支持,大量對我國居民收入問題的實證研究往往停留在簡單的計算收入分配差異大小程度上,缺乏針對收入分配差異結構的分析和造成收入分配差異擴大原因的深入探討和定量分析。近年來,部分研究者投入大量時間和精力收集整理了一些反映中國居民收入情況的微觀抽樣調查數據(陳宗勝,1997;趙人偉,李實,李思勤,1999;Yao, Zhang and Hanmer, 2004;萬廣華,周章躍,陸遷,2005),基於這些抽樣調查數據的研究為深入分析中國目前的收入分配差異情況提供了依據。
  • EmpiReS:可變剪切差異分析
    因此,倍數變化的分析是標準方法,但是通常需要對變化的變化進行雙重差分分析。差異性可變剪切是雙重差異性分析的一個例子,即,基因的不同同工型在條件之間的倍數變化。EmpiRe是一種基於生物學對象適當特徵的倍數變化的各種組學數據的定量方法。這些倍數變化的經驗誤差分布可從「重複測量」中估算出來,並用於量化特徵倍數變化及其方向。我們使用模擬數據評估EmpiRe檢測應用於RNA-Seq的差異表達基因的性能。
  • 流程大揭秘——基於LC-MS的代謝組學數據分析
    下面咱一起看一看基於LC-MS的代謝組學數據分析的流程。目前用於代謝物組學分析的方法主要有酶分析法、核磁共振NMR、薄層色譜TLC、高效液相HPLC、氣相色譜GC、質譜以及質譜連用等技術。可以方便的得到帶分析的代謝組分的定性結果。但是GC只能對其中的揮發性組分實現直接分析,而無法得到體系中難揮發的大多數代謝組分的信息。氣相色譜和二級質譜聯用具有較高的解析度和靈敏度,因此,與之相關的技術發展很快;利用氣相色譜與飛行時間質樸TOF2MS聯用可以進行高通量分析。由於質譜技術的不斷完善及其自身的優勢、使得這種技術已經稱為代謝組學研究的重要手段之一。