FPKM :Fragment per kilo base per million mapped reads(每千鹼基片段每百萬映射讀取的 reads 數)
TPM : Transcripts per million (每百萬映射讀取的 Transcripts)
圖 1
圖 2
計算 FPKM 的方法:第一步, 計算總reads 數;第二步,標準化總的reads 數;第三步,將總的reads 數除以基因長度,計算得到FPKM 值。計算 TPM 的方法,第一步,將總的reads 數除以基因長度 ;第二步,計算總reads 數;第三步,標準化總的reads 數,計算得到TPM 值。
圖 3
FPKM 和 TPM 相比,對於 FPKM 來說,每個重複的總reads 數都不同。對於 TPM 來說,每個重複的 TPM 值是一樣的。因此在 RNA-Seq 中研究基因的轉錄水平,更推薦使用 TPM 值。
圖 4
在圖 4 中,樣本A相對於樣本B,每個基因的表達似乎都增加了一倍,但這是樣本A的測序深度增加了一倍的結果。
圖 5
在圖 5 中,基因X和基因Y有相似的表達水平,但是映射到基因X的讀取序列數量會比映射到基因Y的讀取序列數量多很多,因為基因X更長。
圖 6
在圖 6 中,RNA組成,樣本間表達差異較大的基因,樣本間表達基因數量的差異,或汙染的存在,都可能使某些類型的歸一化方法出現偏差。
圖 7 Tissue type
圖 8 Library preparation
使用人類血液和結腸組織樣本,評估臨床 RNA 測序中 polyA+ 選擇和 rRNA 缺失的基因定量(Zhao et all.2018)。使用兩種方案製備和測序相同的樣本。將所有原始測序 reads 存入 NCBI 序列。對於血液和結直腸樣本,polyA+ 選擇最豐富的類別是蛋白質編碼基因,而在 rRNA 消耗協議中是小 rRNA 。由於不同的樣本製備方案,TPM 值不能直接比較,儘管他們是從相同樣本中得到的。對於編碼蛋白質的基因,在 polyA+ 的選擇中 TPM 值往往較高,而對於小 rRNA 則相反。
參考文獻:
1.Zhao S, Ye Z, Stanton R. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols[J]. RNA, 2020: rna. 074922.120.
2.Statquest: RPKM, FPKM and TPM, clearly explained