RPKM, FPKM, TPM有什麼區別?

2021-01-19 基迪奧生物

在高通量測序(比如RNA-seq)中很重要的一塊就是檢測基因的表達量,基因表達量計算和差異表達分析是轉錄組數據分析的基礎。與q-PCR類似,轉錄組數據基因表達量的衡量也是採用相對定量的方法。那麼,到底該如何定量呢?


假設通過比對得到了A B C D 四個基因在 3個樣本中的 read counts 如下表,那麼,用比對到參考基因的Reads個數來衡量不同樣本基因的表達量可以嗎?可以認為樣本1中gene B比gene C表達量高嗎?或者gene B在樣本3中比樣本1表達量高嗎?


表1 不同基因比對得到的Read個數(示例數據來源網絡)

 

答案是當然不可以。原因主要有兩點:

 

 基因長度的影響

 

在同一個樣本中,基因越長,隨機打斷得到的片段就越多,該基因被測到的概率就越大,比對到該基因的 reads 就越多。

 

② 測序深度的影響

 

不同樣本中,樣本的測序深度越高,同一基因被測到的次數越多,比對到該基因的 reads 就越多。

 

為了能進行不同樣本不同基因間的比較,就需要給這些數據同樣的「起跑線」,類似物理學的參照系。簡單來說也就是給 該基因的read counts 除以總 Reads 數和基因長度,消除測序深度和基因長度的影響。於是就有了常見的RPKM、FPKM、TPM 等標準化方法。

 


RPKM(Reads PerKilobase Million):即Reads PerKilobase of exon model per Million mapped reads。

 

計算公式:


RPKM= total exon reads/ (mapped reads(Millions) * exon length(KB))


total exon reads:某個樣本mapping到特定基因的外顯子上的所有的reads;

mapped reads (Millions) :某個樣本的所有reads總和;

exon length(KB):某個基因的長度(外顯子的長度的總和,以KB為單位)。

 

也就是一個樣本中一個基因的RPKM等於落在這個基因上的總的read數(total exon reads)與這個樣本的總read數(mapped reads (Millions))和基因長度(exon length(KB)) 的乘積的比值。

 

下面是依照公式計算上表中基因的RPKM值(注意:為了便於顯示,這裡將公式中的100萬改為100):

 

表2 不同基因的RPKM值的計算結果(「M」為100時)

 


FPKM(Fragments PerKilobase Million): Fragments Per Kilobase of exon modelper Million mapped fragments

 

FPKM和RPKM的計算方法基本一致,只不過把reads換成了Fragments。對於單末端測序數據,由於Cufflinks軟體計算的時候是將一個read當做一個fragment來算的,故而FPKM等同於RPKM.

 

對於雙末端測序,如果一對paired-read都比對上了,那麼這一對paired-read稱之為一個fragment;而如果只有一個比對上了,另外一個沒有比對上,那麼就將這個比對上的read稱為一個fragment。而計算RPKM時,一對paired-read會當成兩個read分別計算。

 

關於Fragments和Reads的區別見下圖:

 


TPM(Transcripts PerKilobase Million):Transcripts Per Kilobase of exonmodel per Million mapped reads

 

而TPM 的計算公式:

 

TPMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)


Ni:mapping到基因i上的read數; Li:基因i的外顯子長度的總和

 

一個樣本中某基因的TPM值的計算方法:先對每個基因的read數用基因的長度進行校正,之後再用校正後的這個基因read數(Ni/Li)與校正後的這個樣本的所有read數(sum(Ni/Li+……..+ Nm/Lm))求商。


下面是依照公式計算上表中基因的TPM值(注意:為了便於顯示,同上,將公式中的100萬改為100):

 

表3 不同基因的TPM值的計算結果(「M」為100時)

 

不管是計算FPKM、RPKM,還是計算TPM,我們需要一個Read Count的數據矩陣(行為基因,列為樣本)。在計算TPM是先對基因長度進行標準化,之後再對列進行標準化。

 

這樣使得最終的TPM矩陣的每列總和都相同(等於1000000),也就是說每個樣本中的TPM的總和都是一樣的。理論上,這使得我們更容易比較不同樣本中所佔同一基因的read數的比例。


更多關於RPKM, FPKM, TPM的優缺點以及基因表達量計算的優化方法,周老師在《基因表達量計算與差異表達分析》教學視頻有詳細的講解,大家可通過點擊 閱讀原文 或在基迪奧生物公眾號菜單欄的 在線課堂 觀看。


今天的內容就到這裡啦~


拓展閱讀

《RPKM與TPM ,you choose who?》

《RPKM值是怎麼計算的?》

《RNAseq看表達量高低是看哪個值?》

《RNA-seq沒有生物學重複 被審稿人argue怎麼辦?》


相關焦點

  • RPKM, FPKM, TPM到底有什麼區別?最淺顯的解釋!
    RPKM用於單端RNA-Seq,就是說,每個read對應一個測序片段(fragment)。FPKM用於雙端RNA-Seq,那麼2個reads對應一個測序片段。這兩者的區別在於FPKM考慮到2個reads回帖到同一個片段上,所以就不會重複計算測序reads。        TPM其實跟RPKM,FPKM也很相似。
  • 淺談RPKM,FPKM,RPM,TPM的區別
    FPKM和RPKM的區別就是一個是fragment,一個是read。對於單末端測序數據,由於Cufflinks計算的時候是將一個read當做一個fragment來算的,故而FPKM等同於RPKM。對於單末端測序,雖然理論上FPKM等同於RPKM, 但是實際上即使是使用同一個mapping軟體得到的mapping結果,然後再分別去計算同一個基因的RPKM (自己人工計算,或者用現成的一些軟體都能算)和FPKM(用Cufflinks計算),結果卻仍然是不同,因為Cufflinks有自己的模型和自己的一些內在算法。
  • RPKM, FPKM和TPM淺談
    在衡量基因的表達量時,有幾種衡量方法,RPKM和FPKM是常用的標準。它們分別表示什麼意思,為什麼要這麼計算呢?可能有些同學剛剛打開電視機(刪除線),對這些還不了解,今天帶大家複習下。有同學可能會說,將測到的resds  map到基因組上,map上多少不就是有多少量麼。一看好像是沒問題,但是在統計學上,這麼做是不合理的。
  • RPKM、FPKM 和 TPM還是傻傻分不清?
    考慮到測序深度和基因長度對基因測序counts數有影響,故需要找一個尺度變換因子(scaling factor)對測序結果進行尺度變換(scale),實現該過程的方法包括計算TPM與RPKM、FPKM。為了了解TPM與RPKM、FPKM的差異,我們先從數學的角度進行原理演示:假設如下是RNA-seq數據。
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    Counts值的校正有多種算法,下面介紹幾種常見的算法。total exon reads:某個樣本mapping到特定基因的外顯子上的所有的readsmapped reads (Millions) :某個樣本的所有reads總和exon length(KB):某個基因的長度(外顯子的長度的總和,以KB為單位)FPKM和RPKM的原理是相似的,區別在於
  • 【乾貨】這麼說,FPKM和RPKM真的是錯的咯?!——關於FPKM/RPKM的深度反思
    FPKM是Fregments Per Kilobase per Million的縮寫,它的計算與RPKM極為類似,如下:FPKM = (10 ^ 6 × n_f) / (L × N) 其中,n_f是比對至目標基因的fregment數量。
  • FPKM和TPM
    圖 5在圖 5 中,基因X和基因Y有相似的表達水平,但是映射到基因X的讀取序列數量會比映射到基因Y的讀取序列數量多很多,因為基因X更長。
  • 【伯豪課堂】——為什麼說FPKM/RPKM是錯的?!
    FPKM 是 Fregments Per Kilobase per Million 的縮寫,它的計算與 RPKM 極為類似,如下:上面的式子看起來似乎合情合理,但是它們卻都做錯了。2. 為什麼 FPKM/RPKM 是錯的要回答這個問題,我們需要先撇開所有形式上的計算,重新思考到底什麼是 RNA 轉錄本的表達豐度這個問題。
  • 為什麼說FPKM和RPKM都錯了?
    FPKM和RPKM分別是什麼RPKM是Reads Per Kilobase per Million的縮寫,它的計算方程非常簡單:與RPKM唯一的區別為:F是fragments,R是reads,如果是PE(Pair-end)測序,每個fragments會有兩個reads,FPKM只計算兩個reads能比對到同一個轉錄本的fragments數量,而RPKM計算的是可以比對到轉錄本的reads數量而不管PE的兩個reads是否能比對到同一個轉錄本上。
  • TCGA RNAseq數據中FPKM與TPM轉換介紹
    在新版數據中TCGA的RNAseq數據主要提供了三種數據下載,FPKM,FPKM-UQ,Counts,如果要用edgR等篩選差異的話會下載使用Counts數據,但是筆者在過去的數據分析中發現TCGA數據使用edgR等軟體篩選差異基因並不理想,細思主要有兩方面原因
  • 電纜與電線有什麼區別 電纜與光纜區別有哪些
    那麼,電纜與電線有什麼區別?電纜與光纜區別有哪些?那麼,電纜與電線有什麼區別?電纜與光纜區別有哪些?電纜與電線有什麼區別其實,「電線」和「電纜」並沒有嚴格的界限。通常將芯數少、產品直徑小、結構簡單的產品稱為電線,沒有絕緣的稱為裸電線,其他的稱為電纜;導體截面積較大的(大於6平方毫米)稱為大電線,較小的(小於或等於6平方毫米)稱為小電線,絕緣電線又稱為布電線。
  • 清水泵和汙水泵有什麼區別?(離心泵和排汙泵有什麼區別?)
    最近有朋友在問清水泵和汙水泵有什麼區別,也有的朋友在問離心泵和排汙泵有什麼不一樣?清水≠乾淨;汙水≠髒水;舉例:農藥、洗潔精、硫酸,這些都是不能吃的,不能算是乾淨的吧,應該選什麼泵呢?,河水有時候也很髒,裡面有雜草,有石子,有生活垃圾;工廠生產用的廢水選什麼泵呢?這些水排出來,有些是清澈見底;有些是一半泥沙一半水;廠家有時候幫你選清水泵,有時候幫你選汙水泵,關鍵依據到底是什麼呢?秘訣是啥?簡單來說一句話——清水泵和汙水泵的本質區別——輸送的物料裡面有沒有顆粒!
  • 電纜與光纜有什麼區別
    [導讀]總會有朋友會問有關於電纜與光纜方面的知識,比如最多朋友會問:「電纜與光纜有什麼區別
  • 中藥與西藥有什麼區別?
    在我國一般人的印象裡,中藥是由天然藥物製成的,而西藥是化學物質合成的,事實上,中藥與西藥的區別還遠遠不止這些,具體要怎樣認識它們的區別? 中藥與西藥確實存在著很多的差別,正像大家所說的那樣。
  • 口袋妖怪劍與盾有什麼區別
    口袋妖怪劍與盾有什麼區別?還有不少玩家不知道兩個版本有什麼不同,該買劍好還是盾好,這裡小編給大家帶來一篇關於口袋妖怪劍與盾區別介紹,還不清楚的小夥伴,快來看看吧。
  • 無紡布與不織布有什麼區別?
    無紡布與不織布有什麼區別? 2017-06-19 10:47:53 來源:全球紡織網 無紡布與不織布有什麼區別?
  • 黃芪與北芪有什麼區別 黃芪和北芪的區別
    相信很多人都知道聽過黃芪,也知道有北芪這種藥,很多人都會混淆它們兩個,不知道這兩種藥到底有什麼區別聯繫。那麼,黃芪與北芪到底有什麼區別呢?其實黃芪與北芪屬於同一種藥材,只是產地不一樣,北芪產於東北,而道地藥材黃芪原產地是內蒙古、甘肅、黑龍江等地,黃芪有溫補脾胃,補益中氣的作用,現代認為可以提高人體免疫,增強對疾病的抵抗能力,具有保肝、利尿、能擴張冠狀動脈,改善心肌供血,提高免疫功能,而且能夠延緩細胞衰老的進程。