計算差異表達分析方法(rna-seq)

2021-02-13 生信人


比較了11種RNA-seq數據的差異表達分析方法。主要結果如下:

DESeq - Conservative with default settings. Becomes more conservative when outliers are introduced.

- Generally low TPR.

- Poor FDR control with 2 samples/condition, good FDR control for larger sample sizes, also with outliers.

- Medium computational time requirement, increases slightly with sample size.

edgeR - Slightly liberal for small sample sizes with default settings. Becomes more liberal when outliers are introduced.

- Generally high TPR.

- Poor FDR control in many cases, worse with outliers.

- Medium computational time requirement, largely independent of sample size.

NBPSeq - Liberal for all sample sizes. Becomes more liberal when outliers are introduced.

- Medium TPR.

- Poor FDR control, worse with outliers. Often truly non-DE genes are among those with smallest p-

values.

- Medium computational time requirement, increases slightly with sample size.

TSPM - Overall highly sample-size dependent performance.

- Liberal for small sample sizes, largely unaffected by outliers.

- Very poor FDR control for small sample sizes, improves rapidly with increasing sample size.

Largely unaffected by outliers.

- When all genes are overdispersed, many truly non-DE genes are among the ones with smallest p-

values. Remedied when the counts for some genes are Poisson distributed.

- Medium computational time requirement, largely independent of sample size.

voom / vst

- Good type I error control, becomes more conservative when outliers are introduced.

- Low power for small sample sizes. Medium TPR for larger sample sizes.

- Good FDR control except for simulation study B04000. Largely unaffected by introduction of outliers.

- Computationally fast.

baySeq - Highly variable results when all DE genes are regulated in the same direction. Less variability when the DE genes are regulated in different directions.

- Low TPR. Largely unaffected by outliers.

- Poor FDR control with 2 samples/condition, good for larger sample sizes in the absence of outliers. Poor FDR control in the presence of outliers.

- Computationally slow, but allows parallelization.

EBSeq - TPR relatively independent of sample size and presence of outliers.

- Poor FDR control in most situations, relatively unaffected by outliers.

- Medium computational time requirement, increases slightly with sample size.

NOISeq - Not clear how to set the threshold for qNOISeq to correspond to a given FDR threshold.

- Performs well, in terms of false discovery curves, when the dispersion is different between the

conditions (see supplementary material).

- Computational time requirement highly dependent on sample size.

SAMseq - Low power for small sample sizes. High TPR for large enough sample sizes.

- Performs well also for simulation study B04000.

- Largely unaffected by introduction of outliers.

- Computational time requirement highly dependent on sample size.

ShrinkSeq - Often poor FDR control, but allows the user to use also a fold change threshold in the inference procedure.

- High TPR.

- Computationally slow, but allows parallelization.

 

沒有哪種單獨的方法對所有情形都是最優的,特定情形下方法的選擇取決於實驗條件。本文評價的這些方法中,基於穩定方差的變換與limma組合的方法在很多情況下都表現不錯,而且不受例外點影響、計算很快,但是要求每條件下至少3個樣本來提供充分的檢定力。而且在兩條件下散度不同時表現更糟糕。非參數方法SAMseq在大樣本量時是性能最優的方法,需要至少每條件下4-5個樣本提供充分的檢定力。對於高表達基因,SAMseq的統計顯著性所需的倍數變化比很多其他方法要低,這可能潛在地折中了一些統計顯著的DEGs的生物學顯著性。對ShrinkSeq也是一樣,不過它有一個選項在推斷過程中強加一個倍數變化要求。

小樣本導致一些方法的誤報率遠超FDR閾值。對於參數方法,這可能是因為均值和方差估計不精確。TSPM受樣本量影響最大,可能因為它使用了漸進估計。儘管發展指向大樣本量,而且barcoding和multiplexing創造了固定成本分析更多樣本的機會,但是目前為止RNA-seq實驗仍然太貴而不允許廣泛的重複。本研究所傳達的結果強烈建議小樣本差異表達基因應該謹慎解釋,真實FDR可能超出所選FDR閾值數倍。

DESeq、edgeR和NBPSeq基於類似的原理,因此基因排序的精確度很類似。但是相同閾值選取出的DEGs有很大不同,這是因為它們估計散度參數的方法不同。在預設設置和合理的大樣本量下,DESeq通常過於保守而edgeR和NBPSeq通常過於慷慨而得出大量假DEGs。分析表明參數選擇影響很大,而且預設推薦參數事實上選擇的很好通常能得到最佳結果。

EBSeq、baySeq、ShrinkSeq使用了不同的推斷方法來估計每個基因差異表達的後驗概率。baySeq一些條件下表現不錯,但是高度可變,特別是所有基因都上調或都下調時。大樣本量條件下有異常值時,EBSeq比baySeq的假陽性低,小樣本量時baySeq比EBSeq的假陽性低。

原文:http://blog.sina.com.cn/s/blog_3eaf29360101n5lv.html

歡迎關注生信人


相關焦點

  • 研究探討RNA-seq數據分析方法
    然而,測序之後的數據分析才是真正的挑戰。在RNA-seq之後,還需要一些強大的計算工具,才能繪製出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。該綜述文章從四個層面(樣本,基因,轉錄本,和外顯子)對RNA-seq數據的分析方法進行了總結,旨在歸納看似不同的方法背後共通的統計假設和模型。
  • ...屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性
    鑑定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用於轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
  • scRNA-seq數據差異基因表達分析的有效方法有哪些?
    scRNA-seq數據差異基因表達分析的有效方法有哪些?我們知道RNA-seq即轉錄組測序,是某個物種或者特定細胞類型產生的所有轉錄本的集合,而單細胞RNA測序(single-cell RNA-seq,簡稱scRNA-seq)則是以單個細胞為特定研究對象,提取其mRNA進行逆轉錄並進行高通量測序分析,可體現出個體細胞內表達水平的具體變化,目前已廣泛應用在生物學、醫藥研發、臨床醫學等各個領域。
  • RNA-seq的標準化方法的不完全整理
    TMM(trimmed mean of M value)方法出現在2010年,比TC、 UQ、Med, CPM方法高級一點,基本假設是絕大數的基因不是差異表達基因.計算方法有點複雜,簡單的說就是移除一定百分比的數據後
  • RNA-seq的3的差異分析R包你選擇哪個
    很多課題組導師都認為做一個RNA-seq項目就能發CNS啦,就跟這兩年大家以為做一個單細胞轉錄組項目就可以發CNS的堅信程度是一模一樣的!直到現在(2020),基於高通量測序技術的RNA-Seq方法仍然是轉錄組學研究中必不可少的工具。截止到(2016)已經普遍接受的是,標準化預處理步驟可以顯著提高分析質量,特別是對於差異基因表達分析而言。
  • C-Myc 與RNA-seq分析
    如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。
  • 3*差異分析方法和可視化方法匯總
    這次我們推出的課程更加側重於分析技能和技巧的講解,相信客戶能夠更好的進行復現和重複。2、所涉及的代碼操作,參數全部外置,客戶可以不用讀懂代碼也可以操作。4、所有的課程都提供demo數據測試,並經過了內部審核。Limma、RankRrod、Deseq2、edgeR、t-test。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    RNA-seq數據分析在過去的十年中,用於分析RNA-seq以確定差異表達的計算方法的數量已成倍增加,即使對於簡單的RNA-seq DGE,在每個階段的分析實踐中也存在很大差異。第二階段量化與每個基因或轉錄本來源的reads數量,構建表達矩陣。該過程可能包括1個或多個子過程如比對,組裝和定量,或者它也可以一個從讀取計數生成表達矩陣。通常有一個第三階段,包括過濾低表達的基因和至關重要的移除樣品間技術差異的標準化過程。DGE的最後階段是構建樣本分組和其它協變量的統計模型,計算差異表達置信度。
  • 差異基因分析方法——p-value
    我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:1)FoldChangeFoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。
  • lnRNA生信一站式分析神器!差異表達臨床分析ceRNA網絡
    這次給大家帶來的是一款集lncRNA注釋和表達信息、可視化和臨床相關分析等多種功能~啊~不~是才華與美貌於一身的TANRIC資料庫使用方法,不要走開哦~!TCGA-BLCA-rnaexpr.tsv和數據描述信息TCGA-BLVA-rnaexpr-META.tsv文件。
  • DEBKS | 專門的環狀RNA差異分析工具
    「出道即巔峰」的edgeR或DESeq被廣泛應用於高通量測序的差異表達分析,包括環狀RNA的差異表達分析。然而,做過環狀RNA差異表達分析的老師應該都清楚,反向剪切(back-splicing)的環狀RNA並不像mRNA或lncRNA那樣馴服。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • 差異基因表達分析(上)
    RNA-seq數據和microassay在差異表達分析上的區別:RNA-Seq觀察到的數據是抽樣過程中產生的離散(discrete)count形式。也就是說總體是恆定的,表達量越高的基因在抽樣結果中所佔的比例越大。表達量低的基因可能即便有也無法被檢測出來。當然,重新對相同文庫進行測序,還是有可能找到更多表達的轉錄本microassay檢測的是螢光信號的連續度量。
  • Genome Biology|VIPER:在單細胞RNA測序中為精確的基因表達恢復...
    採用不同的方法對每個數據進行插補,並將來自scRNA-seq的插補值與批量RNA測序數據一起顯示 (圖4)。基因表達熱圖顯示,在批量RNA測序數據中幾乎沒有零項,但在插補前的原始scRNA-seq數據中有很大比例的零。此外,scRNA-seq數據顯示每個細胞亞群的細胞間存在大量的基因表達差異。
  • R語言mRNA差異表達分析
    以上這個表格,在表達差異分析中很常見,第一列是基因名稱。熱圖數據使用:根據每個樣本中每個基因的表達量繪製熱圖。其中每個小方格表示每個基因,顏色表示該基因表達量的大小。表達量越大,顏色越深(一般紅色為上調,綠色為下調)    根據樣本名稱區分正常組織和癌症組織。首先加載上次處理後的數據集,上次用兩種方法生成兩個數據集,本次我們以第一個數據集為例子。
  • 研究解析RNA深度測序分析方法
    新一代測序技術又稱作深度測序技術,主要特點是測序通量高,測序時間和成本顯著下降,把這種高通量測序技術應用到RNA上,也就是將各種類型的轉錄本用深度測序技術進行高通量定量檢測,統稱作RNA-seq或RNA測序。隨著新一代高通量DNA測序技術的快速發展,RNA測序(RNA-seq)已成為基因表達和轉錄組分析的重要手段。
  • The Scientist:從晶片到RNA-seq的轉型之路
    在這一技術最輝煌的時期,準備研究基因表達模式的人都會想到使用晶片。不過隨著測序成本的直線下降,RNA測序(RNA-seq)成為了越來越受歡迎的轉錄組分析方法。DNA晶片上排列著大量的核酸探針,可以代表生物的整個基因組或部分基因組,比如外顯子、miRNA、單核苷酸多態性SNP等等。用晶片分析基因表達需要抽提RNA,將其反轉錄為cDNA,然後進行螢光標記。
  • 如何做GO和KEGG富集分析(GSEA)?
    我們做完RNA-seq差異基因表達分析後,一個頭疼的問題就是如何完成GO和KEGG的富集分析。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    跨膜結構分析9、信號肽分析10、亞細胞定位預測11、調控目的基因的miRNA預測12、啟動子分析13、基因表達分析14、單個基因生物信息分析課程-資料基因組學講義1、實驗技能課系列--高通量測序實踐2、蛋白質組分析資料3、陳連福第三期NGS生物信息學講習與交流會議邀請函