在新版數據中TCGA的RNAseq數據主要提供了三種數據下載,FPKM,FPKM-UQ,Counts,如果要用edgR等篩選差異的話會下載使用Counts數據,但是筆者在過去的數據分析中發現TCGA數據使用edgR等軟體篩選差異基因並不理想,細思主要有兩方面原因:
一、腫瘤數據本身異質性很高
二、正常樣本嚴重偏少
基於此筆者幾乎很少使用edgR等軟體來篩選差異了,那麼就很少下載Counts數據了,所以大多數情況下都是用RPKM,但是RPKM數據本身也是飽受詬病,像cbioportal使用的是RSEM軟體做的定量即TPM,在老版TCGA中也可以直接下載到這些數據,那麼新版如何得到這樣的數據呢,簡單的辦法是從FPKM轉TPM
怎麼轉?
首先我們需要了解一下FPKM和TPM的公式
FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千個鹼基的轉錄每百萬映射讀取的fragments
TPM:TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千個鹼基的轉錄每百萬映射讀取的Transcripts
他們的計算公式如下:
FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))
total exon reads:某個樣本mapping到特定基因的外顯子上的所有的reads
mapped reads (Millions) :某個樣本的所有reads總和
exon length(KB):某個基因的長度(外顯子的長度的總和,以KB為單位)
TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)
Ni:mapping到基因i上的read數; Li:基因i的外顯子長度的總和;m:為所有基因的總數
從以上公式我們可以進一步推導如下:
1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))
2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)
3、FPKMi*(mapped reads (Millions)=(Ni/Li)
4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)
5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))
6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)
最終我們得到了TPM和FPKM的轉換公公式,從公式裡可以看到TPM就是等於該基因的FPKM佔所有基因的FPKM的總和的比例乘以一百萬,那麼值得注意的是每個樣本所有基因的TPM加和就等於一百萬了,這很類似樣本間標準化
最後你下載的TCGA FPKM數據轉換TPM就不會懵逼了吧
參考文獻:https://academic.oup.com/bioinformatics/article/26/4/493/243395/RNA-Seq-gene-expression-estimation-with-read
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.