計算差異表達分析方法(rna-seq)

2021-03-06 生信人


比較了11種RNA-seq數據的差異表達分析方法。主要結果如下:

DESeq - Conservative with default settings. Becomes more conservative when outliers are introduced.

- Generally low TPR.

- Poor FDR control with 2 samples/condition, good FDR control for larger sample sizes, also with outliers.

- Medium computational time requirement, increases slightly with sample size.

edgeR - Slightly liberal for small sample sizes with default settings. Becomes more liberal when outliers are introduced.

- Generally high TPR.

- Poor FDR control in many cases, worse with outliers.

- Medium computational time requirement, largely independent of sample size.

NBPSeq - Liberal for all sample sizes. Becomes more liberal when outliers are introduced.

- Medium TPR.

- Poor FDR control, worse with outliers. Often truly non-DE genes are among those with smallest p-

values.

- Medium computational time requirement, increases slightly with sample size.

TSPM - Overall highly sample-size dependent performance.

- Liberal for small sample sizes, largely unaffected by outliers.

- Very poor FDR control for small sample sizes, improves rapidly with increasing sample size.

Largely unaffected by outliers.

- When all genes are overdispersed, many truly non-DE genes are among the ones with smallest p-

values. Remedied when the counts for some genes are Poisson distributed.

- Medium computational time requirement, largely independent of sample size.

voom / vst

- Good type I error control, becomes more conservative when outliers are introduced.

- Low power for small sample sizes. Medium TPR for larger sample sizes.

- Good FDR control except for simulation study B04000. Largely unaffected by introduction of outliers.

- Computationally fast.

baySeq - Highly variable results when all DE genes are regulated in the same direction. Less variability when the DE genes are regulated in different directions.

- Low TPR. Largely unaffected by outliers.

- Poor FDR control with 2 samples/condition, good for larger sample sizes in the absence of outliers. Poor FDR control in the presence of outliers.

- Computationally slow, but allows parallelization.

EBSeq - TPR relatively independent of sample size and presence of outliers.

- Poor FDR control in most situations, relatively unaffected by outliers.

- Medium computational time requirement, increases slightly with sample size.

NOISeq - Not clear how to set the threshold for qNOISeq to correspond to a given FDR threshold.

- Performs well, in terms of false discovery curves, when the dispersion is different between the

conditions (see supplementary material).

- Computational time requirement highly dependent on sample size.

SAMseq - Low power for small sample sizes. High TPR for large enough sample sizes.

- Performs well also for simulation study B04000.

- Largely unaffected by introduction of outliers.

- Computational time requirement highly dependent on sample size.

ShrinkSeq - Often poor FDR control, but allows the user to use also a fold change threshold in the inference procedure.

- High TPR.

- Computationally slow, but allows parallelization.

 

沒有哪種單獨的方法對所有情形都是最優的,特定情形下方法的選擇取決於實驗條件。本文評價的這些方法中,基於穩定方差的變換與limma組合的方法在很多情況下都表現不錯,而且不受例外點影響、計算很快,但是要求每條件下至少3個樣本來提供充分的檢定力。而且在兩條件下散度不同時表現更糟糕。非參數方法SAMseq在大樣本量時是性能最優的方法,需要至少每條件下4-5個樣本提供充分的檢定力。對於高表達基因,SAMseq的統計顯著性所需的倍數變化比很多其他方法要低,這可能潛在地折中了一些統計顯著的DEGs的生物學顯著性。對ShrinkSeq也是一樣,不過它有一個選項在推斷過程中強加一個倍數變化要求。

小樣本導致一些方法的誤報率遠超FDR閾值。對於參數方法,這可能是因為均值和方差估計不精確。TSPM受樣本量影響最大,可能因為它使用了漸進估計。儘管發展指向大樣本量,而且barcoding和multiplexing創造了固定成本分析更多樣本的機會,但是目前為止RNA-seq實驗仍然太貴而不允許廣泛的重複。本研究所傳達的結果強烈建議小樣本差異表達基因應該謹慎解釋,真實FDR可能超出所選FDR閾值數倍。

DESeq、edgeR和NBPSeq基於類似的原理,因此基因排序的精確度很類似。但是相同閾值選取出的DEGs有很大不同,這是因為它們估計散度參數的方法不同。在預設設置和合理的大樣本量下,DESeq通常過於保守而edgeR和NBPSeq通常過於慷慨而得出大量假DEGs。分析表明參數選擇影響很大,而且預設推薦參數事實上選擇的很好通常能得到最佳結果。

EBSeq、baySeq、ShrinkSeq使用了不同的推斷方法來估計每個基因差異表達的後驗概率。baySeq一些條件下表現不錯,但是高度可變,特別是所有基因都上調或都下調時。大樣本量條件下有異常值時,EBSeq比baySeq的假陽性低,小樣本量時baySeq比EBSeq的假陽性低。

原文:http://blog.sina.com.cn/s/blog_3eaf29360101n5lv.html

歡迎關注生信人


相關焦點

  • RNA-seq差異表達分析步驟
    BioNews,專注於報導生命科學領域相關新聞,長按下方二維碼即可關注"BioNews"(id : iBioNews)我們將簡要描述差異表達分析的主要步驟,這是RNA-seq數據分析中最為常規的任務。分析每一步,我們都會描述分析目的,一些典型的選項,輸入和輸出的文件,並指出可以找到詳細步驟的完整章節。我們希望提供整個RNA-seq數據分析流程的概述,以便使用者可以看到各個步驟間是如何相互關聯的。
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    討論RNA-seq分析流程主要步驟:實驗設計,質控,比對,基因水平和轉錄組水平定量,可視化,基因差異表達,可變剪接,功能分析,融合基因檢測,eQTL (expression quantification trait loci,表達數量性狀位點)。展望轉錄組研究存在的問題。
  • RNA-seq數據分析最佳實踐調查
    RNA-seq實驗中應包含的重複數取決於RNA-seq程序中的技術變異性和所研究系統的生物學變異性,以及所需的統計能力(即,檢測實驗組之間基因表達的統計學顯著差異的能力)。這兩個方面是功率分析計算的一部分(圖  1a;方框1)。充分計劃測序實驗以避免技術偏差與良好的實驗設計一樣重要,尤其是當實驗涉及大量需要分批處理的樣品時。
  • C-Myc 與RNA-seq分析
    如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。
  • 差異可變剪接分析工具--rMATS
    可變剪接(Alternative splicing;又稱「選擇性剪接」)是一種在真核生物中非常普遍的基因表達方式,具體表現為一個基因的外顯子以不同的組合方式剪接形成不同的成熟RNA,從而在不同的時空環境和狀態下形成不同的蛋白質,執行不同的生物學功能。
  • 使用salmon和sleuth進行小麥RNA-seq差異表達分析
    上次我們在「評估salmon和kallisto在小麥RNA-seq定量中的異同」中論證了salmon能夠充分區分小麥的同源基因,哪怕只有一個SNP也能夠有效區分。同時我們也發現,早期版本的kallisto有重大bug,要儘快升級到最新版本。以前使用kallisto進行定量時,有專門的軟體sleuth進行差異表達分析。那麼sleuth是何方神聖?
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。3)信息分析 RNA-seq數據分析:mapping至玉米基因組(軟體TopHat2.0.6)、DEGs分析、LncRNA分析(軟體PhyloCSF) CHIP-seq數據分析
  • 新司機帶你學RNA-Seq數據分析
    An overview of the 'new Tuxedo' protocol這個protocol首先從原始RAN-seq數據入手,輸出數據包括基因list,轉錄本,及每個樣本的表達量,能夠表現差異表達基因的表格並完成顯著性的計算
  • 乾貨分享丨一文詳解常規RNA-seq與3'mRNAseq優勢與局限
    在過去的十年中, RNA-seq已經成為全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具,被應用於研究RNA生物學的方方面面,包括基因表達
  • 人類血液樣本RNA-seq研究現狀
    12 RNA-seq是什麼呢?它就是一項基於二代測序技術發展而來的可以分析基因轉錄表達模式的工具,它可以幫助我們定量不同條件下的差異基因表達。為什麼要用它呢?然後我們再來一起看看幹實驗部分,也就是右圖展示給大家的這樣,我們拿到測序下機的數據後,需要將測序的reads比對到參考基因組上,然後進行組裝,一般組裝的策略有兩種,一種是基於參考轉錄本的組裝,另一種就是從頭組裝;接著就是表達定量和歸一化,拿到樣本的表達譜,最後進行後續的分析。比如檢測差異基因、基因剪切事件等等。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    R語言數據可視化第十一期 (報名線上課還可免費參加線下課)摘要RNA測序(RNA-seq)在過往十年裡逐漸成為全轉錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。RNA-seq數據分析在過去的十年中,用於分析RNA-seq以確定差異表達的計算方法的數量已成倍增加,即使對於簡單的RNA-seq DGE,在每個階段的分析實踐中也存在很大差異。而且,每個階段使用的方法的差異以及不同技術組合形成的分析流程都可能會對從數據得出的生物學結論產生重大影響。最優工具組合取決於研究的特定生物學問題以及可用的計算資源。
  • Nature重磅綜述:關於RNA-seq,你想知道的都在這
    )在過往十年裡逐漸成為全轉錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。RNA-seq數據分析在過去的十年中,用於分析RNA-seq以確定差異表達的計算方法的數量已成倍增加,即使對於簡單的RNA-seq DGE,在每個階段的分析實踐中也存在很大差異。而且,每個階段使用的方法的差異以及不同技術組合形成的分析流程都可能會對從數據得出的生物學結論產生重大影響。最優工具組合取決於研究的特定生物學問題以及可用的計算資源。
  • | RNA-seq的十年(上)
    摘要在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用於研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。
  • RNA-seq的十年(上),每人必讀!值得收藏!
    摘要在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用於研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • RNA-seq測序基本知識
    在我們的RNA-seq研究中計算覆蓋率統計是一個很好的做法。粗略計算,人類基因組有3000Mnt,其中大約1/30被用於蛋白質編碼基因。這意味著要測序的RNA大約在100M nt。如果我們使用單端測序100nt(或雙端測序50nt),則1M reads給出100M nt序列數據,其等於1×覆蓋。普通平臺的典型Read輸出是30Mreads,將提供30×覆蓋。
  • DESeq2差異表達分析
    在前文scRNA-seq marker identification(二),我們我們提到了差異分析,下面我們來詳細了解下學習目標了解如何準備用於pseudobulk差異表達分析的單細胞RNA-seq原始計數數據利用DESeq2工具對特定細胞類型聚類進行pseudobulk差異表達分析創建函數以遍歷不同細胞類型的pseudobulk差異表達分析
  • 【流程】使用limma、Glimma和edgeR,RNA-seq數據分析易如反掌
    摘要簡單且高效地分析RNA測序數據的能力是Bioconductor的核心優勢。RNA-seq分析通常從基因水平的序列計數開始,涉及到數據預處理,探索性數據分析,差異表達檢驗以及通路分析,得到的結果可用於指導進一步實驗和驗證研究。
  • (偽)從零開始學轉錄組(7):差異基因表達分析
    對於基因晶片的差異表達分析而言,由於普遍認為其數據是服從正態分布,因此差異表達分析無非就是用t檢驗和或者方差分析應用到每一個基因上。高通量一次性找的基因多,於是就需要對多重試驗進行矯正,控制假陽性。目前在基因晶片的分析用的最多的就是limma。
  • 如何解決RNA-seq量化誤差?
    >