RNA-seq的3的差異分析R包你選擇哪個

2021-01-14 生信技能樹

在2010-2015年間,RNA-seq本身就是跟現在的單細胞差不多的當紅炸子雞的地位,無數的軟體工具,網頁資料庫,測評文章湧現出來。很多課題組導師都認為做一個RNA-seq項目就能發CNS啦,就跟這兩年大家以為做一個單細胞轉錄組項目就可以發CNS的堅信程度是一模一樣的!

直到現在(2020),基於高通量測序技術的RNA-Seq方法仍然是轉錄組學研究中必不可少的工具。截止到(2016)已經普遍接受的是,標準化預處理步驟可以顯著提高分析質量,特別是對於差異基因表達分析而言。然而,彼時尚未找到金標準歸一化方法。我在生信技能樹的教程呢,通常是直接就推薦3大R包(limma,edgeR,DEseq2),轉錄組的基本分析教程合輯

上遊分析視頻以及代碼資料在:https://share.weiyun.com/5QwKGxi

下遊主要是基於counts矩陣的標準分析的代碼 https://share.weiyun.com/50hfuLi

很多人就問我這樣推薦的理由,有沒有參考文獻,但是前些日子一直比較忙,就沒有回覆大家。恰好最近整理我五年前收集的RNA-seq資料,重新發現了一個能比較好支持3大R包(limma,edgeR,DEseq2)的文獻。

文章詳情:Maza E (2016) In Papyro Comparison of TMM (edgeR), RLE (DESeq2), and MRN Normalization Methods for a Simple Two-Conditions-Without-Replicates RNA-Seq Experimental Design. Front Genet 7:164. [article]

一圖概況如下:


文章提到了以下3個算法,做了一下測試數據的比較:

The first method is the 「Trimmed Mean of M-values」 normalization (TMM) described in and implemented in the edgeR package.The second method is the 「Relative Log Expression」 normalization (RLE) implemented in the DESeq2 package.The third method is the 「Median Ratio Normalization」 (MRN).

作者的測試數據是:a matrix of counts: 34675 rows (genes) and 9 columns (samples from 3 stages and 3 biological replicates per stage). 一個  in silico calculations carried out on a given real data set from the tomato fruit set.

作者的結論很有意思:

For a very simple experimental design, i.e., about two conditions and no replicates, users can use any of the three studied normalization methods with no impact on results.But, for a more complex experimental design, the MRN method could be adopted.

學徒作業,以僅提供bam文件的RNA-seq項目重新分析 教程提到的數據集為例子,比較3大R包(limma,edgeR,DEseq2)差異分析的結果,繪製一個韋恩圖或者其它可視化的展現形式!因為這個RNA-seq項目的資料庫連結在:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947,僅僅是提供bam文件,如果你搞不定表達矩陣,可以發郵件找我索取,然後完成學徒作業!!!

歷年學徒作業目錄如下:如果你也想加入我們的知識分享團隊

還等什麼呢,趕快行動起來吧!發郵件(jmzeng1314@163.com)給生信技能樹創始人jimmy就有驚喜哦!當然了,不能是辣雞或者騷擾郵件啦,帶上自己的簡歷和想學習交流的誠心吧!

Long-press QR code to transfer me a reward

不點讚也不打賞,為什麼呢?

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • 計算差異表達分析方法(rna-seq)
    比較了11種RNA-seq數據的差異表達分析方法。
  • C-Myc 與RNA-seq分析
    如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs
    4.3 計算peak 對應序列GC/CpG含量4.4 根據設定的大小準備背景序列用於尋找motif 區域大小使用("-size <#>")設置。HOMER 一般選取基因TSS +/- 50kb區域分成設定大小;然後計算這些背景序列GC/CpG% 儲存起來用於後續分析。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
  • 研究探討RNA-seq數據分析方法
    然而,測序之後的數據分析才是真正的挑戰。在RNA-seq之後,還需要一些強大的計算工具,才能繪製出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
  • 3步教你構建RNAseq文庫
    構建RNAseq文庫的過程取決於所使用的平臺。然而,一般來說,所有這些文庫都是通過以下步驟獲得的。RNAseq文庫準備的成功依賴於每個階段的精心控制,本文介紹創建RNAseq文庫的前兩個階段(步驟1- 3)。
  • 明碼標價之RNA-Seq數據的內含子保留分析
    我看了看粉絲髮過來的文章,發表於  January 2021,  在CELL雜誌的文章《Spliceosome-targeted therapies trigger an antiviral immune response in triple-negative breast cancer》,連結是:https://doi.org/10.1016
  • R語言mRNA差異表達分析
    這種數據不能直接拿來做分析,因此先要合併。>    edgeR這個包將數據存儲在DGEList對象中,需要指定的參數包括counts 和 group。   在差異分析中,我們常常更關注的是相對表達量的變化,例如處理組的A基因表達量相對於對照組的而言是上調還是下調了。而基因表達量的定量準確性則在差異分析中不太重要,因此,在進行差異分析時,像RPKM/FPKM這種對轉錄本長度進行normalization方法是並不常用,也是沒有必要的。
  • 環狀RNA(circRNA)資料庫大匯總,快來看看有沒有你需要的!
    CIRCpedia v2 (http://www.picb.ac.cn/rnomics/circpedia/)CIRCpedia v2 是一個更新的綜合資料庫,包含來自 6 個不同物種的 180 多個 RNA-seq 數據集共 262782 條的 circRNA 注釋。
  • 3*差異分析方法和可視化方法匯總
    這次我們推出的課程更加側重於分析技能和技巧的講解,相信客戶能夠更好的進行復現和重複。2、所涉及的代碼操作,參數全部外置,客戶可以不用讀懂代碼也可以操作。4、所有的課程都提供demo數據測試,並經過了內部審核。Limma、RankRrod、Deseq2、edgeR、t-test。
  • peak差異分析的工具那麼多,如何選擇?
    對於ATAC_seq, chip_seq等抗體富集型文庫而言,peak calling是分析的第一步。通過peak calling,可以得到抗體富集的區域,這些區域有對應的生物學功能,在chip_seq中,可以是轉錄因子結合區或者發生組蛋白修飾的區域,ATAC中對應的就是開放染色質區域。
  • RNAseq下遊分析(一)--標準化及簡單可視化
    前言做轉錄組一般拿到基因表達矩陣之後工作即可開始做差異分析,在此之前還有一步就是對矩陣做標準化,常見的幾種RPKM、FPKM、TMM等,雖然RPKM、FPKM方法被吐槽的尤為厲害,但是大多數測序公司給出的結果依然還是很多在使用這種方法,同樣網上對各種標準化的方法也各有見解,如何選擇建議大家多去google了解每種方法的優劣,適用於何種情形,
  • scRNA-seq數據差異基因表達分析的有效方法有哪些?
    scRNA-seq數據差異基因表達分析的有效方法有哪些?我們知道RNA-seq即轉錄組測序,是某個物種或者特定細胞類型產生的所有轉錄本的集合,而單細胞RNA測序(single-cell RNA-seq,簡稱scRNA-seq)則是以單個細胞為特定研究對象,提取其mRNA進行逆轉錄並進行高通量測序分析,可體現出個體細胞內表達水平的具體變化,目前已廣泛應用在生物學、醫藥研發、臨床醫學等各個領域。
  • 如何做GO和KEGG富集分析(GSEA)?
    我們做完RNA-seq差異基因表達分析後,一個頭疼的問題就是如何完成GO和KEGG的富集分析。
  • RNA-seq的標準化方法的不完全整理
    在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。為了方便理解,假設目前你在一次測序中(即剔除批次效應)檢測了一個物種的3個樣本,A,B,C,這個物種有三個基因G1,G2,G3, 基因長度分別為100, 500, 1000.
  • DEBKS | 專門的環狀RNA差異分析工具
    「出道即巔峰」的edgeR或DESeq被廣泛應用於高通量測序的差異表達分析,包括環狀RNA的差異表達分析。然而,做過環狀RNA差異表達分析的老師應該都清楚,反向剪切(back-splicing)的環狀RNA並不像mRNA或lncRNA那樣馴服。
  • ...屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性
    鑑定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用於轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
  • non-coding RNA databases匯總
    21世紀初期,通過對人類和小鼠基因組分析發現,98%的序列被劃分到「junk「 DNA之列,除被注釋的mRNA之外,大多收轉錄本似乎是不能encode蛋白質的,而這些轉錄本便是ncRNA, ncRNA因此也正式進入科學家的視野。隨著測序技術的發展與計算生物學的興起,使得人們對RNA領域的理解越來越深入,ncRNA領域也越發火熱。ncRNA參與了大多數生物學過程,調節生理,發育甚至疾病。
  • The Scientist:從晶片到RNA-seq的轉型之路
    不過隨著測序成本的直線下降,RNA測序(RNA-seq)成為了越來越受歡迎的轉錄組分析方法。DNA晶片上排列著大量的核酸探針,可以代表生物的整個基因組或部分基因組,比如外顯子、miRNA、單核苷酸多態性SNP等等。用晶片分析基因表達需要抽提RNA,將其反轉錄為cDNA,然後進行螢光標記。晶片上各點的信號強弱,代表了該探針目的基因的表達量。