在高通量測序(比如RNA-seq)中很重要的一塊就是檢測基因的表達量,基因表達量計算和差異表達分析是轉錄組數據分析的基礎。與q-PCR類似,轉錄組數據基因表達量的衡量也是採用相對定量的方法。那麼,到底該如何定量呢?
假設通過比對得到了A B C D 四個基因在 3個樣本中的 read counts 如下表,那麼,用比對到參考基因的Reads個數來衡量不同樣本基因的表達量可以嗎?可以認為樣本1中gene B比gene C表達量高嗎?或者gene B在樣本3中比樣本1表達量高嗎?
表1 不同基因比對得到的Read個數(示例數據來源網絡)
答案是當然不可以。原因主要有兩點:
① 基因長度的影響。
在同一個樣本中,基因越長,隨機打斷得到的片段就越多,該基因被測到的概率就越大,比對到該基因的 reads 就越多。
② 測序深度的影響。
不同樣本中,樣本的測序深度越高,同一基因被測到的次數越多,比對到該基因的 reads 就越多。
為了能進行不同樣本不同基因間的比較,就需要給這些數據同樣的「起跑線」,類似物理學的參照系。簡單來說也就是給 該基因的read counts 除以總 Reads 數和基因長度,消除測序深度和基因長度的影響。於是就有了常見的RPKM、FPKM、TPM 等標準化方法。
RPKM(Reads PerKilobase Million):即Reads PerKilobase of exon model per Million mapped reads。
計算公式:
RPKM= total exon reads/ (mapped reads(Millions) * exon length(KB))
total exon reads:某個樣本mapping到特定基因的外顯子上的所有的reads;
mapped reads (Millions) :某個樣本的所有reads總和;
exon length(KB):某個基因的長度(外顯子的長度的總和,以KB為單位)。
也就是一個樣本中一個基因的RPKM等於落在這個基因上的總的read數(total exon reads)與這個樣本的總read數(mapped reads (Millions))和基因長度(exon length(KB)) 的乘積的比值。
下面是依照公式計算上表中基因的RPKM值(注意:為了便於顯示,這裡將公式中的100萬改為100):
表2 不同基因的RPKM值的計算結果(「M」為100時)
FPKM(Fragments PerKilobase Million): Fragments Per Kilobase of exon modelper Million mapped fragments
FPKM和RPKM的計算方法基本一致,只不過把reads換成了Fragments。對於單末端測序數據,由於Cufflinks軟體計算的時候是將一個read當做一個fragment來算的,故而FPKM等同於RPKM.
對於雙末端測序,如果一對paired-read都比對上了,那麼這一對paired-read稱之為一個fragment;而如果只有一個比對上了,另外一個沒有比對上,那麼就將這個比對上的read稱為一個fragment。而計算RPKM時,一對paired-read會當成兩個read分別計算。
關於Fragments和Reads的區別見下圖:
TPM(Transcripts PerKilobase Million):Transcripts Per Kilobase of exonmodel per Million mapped reads
而TPM 的計算公式:
TPMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
Ni:mapping到基因i上的read數; Li:基因i的外顯子長度的總和
一個樣本中某基因的TPM值的計算方法:先對每個基因的read數用基因的長度進行校正,之後再用校正後的這個基因read數(Ni/Li)與校正後的這個樣本的所有read數(sum(Ni/Li+……..+ Nm/Lm))求商。
下面是依照公式計算上表中基因的TPM值(注意:為了便於顯示,同上,將公式中的100萬改為100):
表3 不同基因的TPM值的計算結果(「M」為100時)
不管是計算FPKM、RPKM,還是計算TPM,我們需要一個Read Count的數據矩陣(行為基因,列為樣本)。在計算TPM是先對基因長度進行標準化,之後再對列進行標準化。
這樣使得最終的TPM矩陣的每列總和都相同(等於1000000),也就是說每個樣本中的TPM的總和都是一樣的。理論上,這使得我們更容易比較不同樣本中所佔同一基因的read數的比例。
更多關於RPKM, FPKM, TPM的優缺點以及基因表達量計算的優化方法,周老師在《基因表達量計算與差異表達分析》教學視頻有詳細的講解,大家可通過點擊 閱讀原文 或在基迪奧生物公眾號菜單欄的 在線課堂 觀看。
今天的內容就到這裡啦~
拓展閱讀
《RPKM與TPM ,you choose who?》
《RPKM值是怎麼計算的?》
《RNAseq看表達量高低是看哪個值?》
《RNA-seq沒有生物學重複 被審稿人argue怎麼辦?》