TCGA RNAseq數據中FPKM與TPM轉換介紹

2021-01-09 網易

2019-01-16 10:28:21 來源: 慕谷基因

舉報

  在新版數據中TCGA的RNAseq數據主要提供了三種數據下載,FPKM,FPKM-UQ,Counts,如果要用edgR等篩選差異的話會下載使用Counts數據,但是筆者在過去的數據分析中發現TCGA數據使用edgR等軟體篩選差異基因並不理想,細思主要有兩方面原因:

  一、腫瘤數據本身異質性很高

  二、正常樣本嚴重偏少

  基於此筆者幾乎很少使用edgR等軟體來篩選差異了,那麼就很少下載Counts數據了,所以大多數情況下都是用RPKM,但是RPKM數據本身也是飽受詬病,像cbioportal使用的是RSEM軟體做的定量即TPM,在老版TCGA中也可以直接下載到這些數據,那麼新版如何得到這樣的數據呢,簡單的辦法是從FPKM轉TPM

  怎麼轉?

  首先我們需要了解一下FPKM和TPM的公式

  FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千個鹼基的轉錄每百萬映射讀取的fragments

  TPM:TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千個鹼基的轉錄每百萬映射讀取的Transcripts

  他們的計算公式如下:

  FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

   total exon reads:某個樣本mapping到特定基因的外顯子上的所有的reads

   mapped reads (Millions) :某個樣本的所有reads總和

   exon length(KB):某個基因的長度(外顯子的長度的總和,以KB為單位)

  TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)

   Ni:mapping到基因i上的read數; Li:基因i的外顯子長度的總和;m:為所有基因的總數

  從以上公式我們可以進一步推導如下:

  1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))

  2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)

  3、FPKMi*(mapped reads (Millions)=(Ni/Li)

  4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)

  5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))

  6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)

  最終我們得到了TPM和FPKM的轉換公公式,從公式裡可以看到TPM就是等於該基因的FPKM佔所有基因的FPKM的總和的比例乘以一百萬,那麼值得注意的是每個樣本所有基因的TPM加和就等於一百萬了,這很類似樣本間標準化

  最後你下載的TCGA FPKM數據轉換TPM就不會懵逼了吧

  參考文獻:https://academic.oup.com/bioinformatics/article/26/4/493/243395/RNA-Seq-gene-expression-estimation-with-read

  

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 研究探討RNA-seq數據分析方法
    然而,測序之後的數據分析才是真正的挑戰。在RNA-seq之後,還需要一些強大的計算工具,才能繪製出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • RPKM、FPKM 和 TPM還是傻傻分不清?
    為了了解TPM與RPKM、FPKM的差異,我們先從數學的角度進行原理演示:假設如下是RNA-seq數據。故需要除以Kilobase和Million,reads對應的是RNA-seq中,某基因匹配到的reads計數,Kilobase對應的是基因的長度,而Million對應的是測序深度。Step 1:對每個樣本的測序深度進行標準化。 在每個樣本中,計算reads總數。
  • FPKM和TPM
    因此在 RNA-Seq 中研究基因的轉錄水平,更推薦使用 TPM 值。 圖 6在圖 6 中,RNA組成,樣本間表達差異較大的基因,樣本間表達基因數量的差異,或汙染的存在,都可能使某些類型的歸一化方法出現偏差。
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    在RNA-seq中,對基因或轉錄本的reads數目進行標準化是非常重要的一步,因為落在一個基因區域內的read counts
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。近日,加州大學洛杉磯分校(UCLA)的李婧翌(Jingyi Jessica Li)教授和她的學生李維(Wei Vivian Li)第一次從統計建模與分析的角度對第二代RNA測序數據的計算方法進行了總結和討論,發表在最新一期的Quantitative Biology期刊中(Modeling and analysis of RNA-seq data:a review from a statistical
  • Circular RNA的產生機制、功能及RNA-seq數據鑑定方法
    比如GCN1L1基因產生的circRNA在人類中明顯表達,但在小鼠中卻很少表達(如下圖B所示)。因為circRNA不含有poly A尾巴,所以circRNA主要富集在沒有ploy A尾巴的RNA中,建議使用poly (A)- RNA-seq技術或 用RNase R降解線性RNA後的poly (A)- RNA-seq技術(具體如下圖A所示)。傳統的poly (A)+ RNA-seq技術主要富集了線性的RNA;而ribo- RNA-seq技術,主要只去除了核糖體RNA(rRNA)。
  • RPKM, FPKM, TPM有什麼區別?
    在高通量測序(比如RNA-seq)中很重要的一塊就是檢測基因的表達量,基因表達量計算和差異表達分析是轉錄組數據分析的基礎
  • RNA-seq 檢測變異之 GATK 最佳實踐流程
    RNA-seq 序列比對對 RNA-seq 產出的數據進行變異檢測分析,與常規重測序的主要區別就在序列比對這一步,因為 RNA-seq 的數據是來自轉錄本的
  • ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs
    HOMER 最初設計的目的用於ChIP-Seq peaks 中尋找富集motifs 。輸入文件格式格式:HOMER peak/Positions 文件和BED 格式文件HOMER peak文件有至少5列:BED 格式文件至少有6列:Peak/Position 和 BED兩種格式之間可以相互轉換,使用Homer自帶腳本:pos2bed.pl 或bed2pos.pl3.
  • TCGA資料庫任意腫瘤任意基因,隨意分析
    ))library(tidyverse)#讀取數據ALLdata <- data.table::fread("tcga_RSEM_gene_tpm",data.table = F)ALLdata[1:5,1:5]
  • 解讀單細胞RNA-seq技術
    單細胞RNA測序(RNA-seq),是從2008年高通量測序變革陰影中出現的新一代測序(NGS)應用,當時有幾個實驗室報導了測定生物學樣本RNA含量的不同方法。在過去的六年中,RNA-seq已經給我們展示了RNA世界的驚人多樣性,從我們已經知道的轉錄合成蛋白質的mRNA,到在細胞中發揮調節作用的非編碼RNA。
  • 從數據分析到結論產生,談談scATAC-seq
    為了克服ScATAC-seq數據分析中的這些限制,在過去幾年中開發了新的方法和軟體工具。然而,關於scATAC-seq數據分析的最佳實踐還沒有達成共識。在這篇綜述中,我們討論了scATAC-seq技術和數據分析方法,從預處理到下遊分析,以及涉及該方法應用的最新研究成果。我們希望這篇綜述將為成功的數據產出和分析方法提供指導,使用適當的軟體工具和資料庫研究單細胞解析度下染色質的可及性。
  • TCGA數據下載 | TCGAbiolinks、gdc-client、UCSC、官網等方式下載TCGA數據
    TCGA現在的數據均收錄在GDC中,而GDC同時也收錄了TARGET資料庫的數據,在GDC中可以通過GDC Data Portal 和 GDC Legacy Archive 這兩種方式獲得TCGA數據,GDC Data Portal 中的數據是最新經過統一標準整理的,但有些數據還未開放,而 GDC Legacy Archive 中的數據是所有未經處理的數據
  • RPKM, FPKM和TPM淺談
    大家都知道RNA-seq能夠對基因的表達量進行定量。在衡量基因的表達量時,有幾種衡量方法,RPKM和FPKM是常用的標準。它們分別表示什麼意思,為什麼要這麼計算呢?可能有些同學剛剛打開電視機(刪除線),對這些還不了解,今天帶大家複習下。有同學可能會說,將測到的resds  map到基因組上,map上多少不就是有多少量麼。一看好像是沒問題,但是在統計學上,這麼做是不合理的。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    這個酶可以把全長和截斷的RNA都轉換成cDNA。反轉錄酶只將5』-capped mRNA轉換成cDNA,這樣就降低了由於RNA降解、RNA斷裂導致的轉錄本截斷生成的cDNA和不完整的cDNA合成,從而提高數據質量。但是這些逆轉錄酶對ONT平臺的測序reads讀長有反作用。
  • The Scientist:從晶片到RNA-seq的轉型之路
    RNA-seq主要是將RNA轉化為cDNA文庫,然後進行直接測序。雖然處理原始數據比較麻煩,但RNA-seq能夠做得到晶片做不到的事。RNA-seq可以揭示未知的轉錄本、基因融合和遺傳多態性,而晶片只能檢出明確的已知目標。在測序深度足夠的情況下,RNA-seq在高豐度和低豐度轉錄本檢測中都比晶片有效。
  • 淺談RPKM,FPKM,RPM,TPM的區別
    在RNA-Seq的分析中,我們常用RPKM、FPKM和TPM作為轉錄組數據定量的表示方法
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    來源自簡書第1篇:ATAC-seq的背景介紹以及與ChIP-Seq的異同優勢 實驗設計 實戰流程 注意一些黑名單(微衛星序列,重複序列),去除掉不要當做peaks1.數據下載 通過SRP055881 下載原始數據,獲得sraruntable與accession list,找到樣本對應的信息(例如樣本名,分組等)
  • RNA-seq的標準化方法的不完全整理
    >基因長度不同,為了能夠比較不同的樣本,比較不同的基因的表達量,以及使表達水品分布符合統計方法的基本假設,就需要對原始數據進行標準化。在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。為了方便理解,假設目前你在一次測序中(即剔除批次效應)檢測了一個物種的3個樣本,A,B,C,這個物種有三個基因G1,G2,G3, 基因長度分別為100, 500, 1000.