FPKM和TPM

2021-03-01 EvoDevo好好玩

FPKM ：Fragment per kilo base per million mapped reads（每千鹼基片段每百萬映射讀取的 reads 數）

TPM : Transcripts per million （每百萬映射讀取的 Transcripts）

圖 1

圖 2

計算 FPKM 的方法：第一步，計算總reads 數；第二步，標準化總的reads 數；第三步，將總的reads 數除以基因長度，計算得到FPKM 值。計算 TPM 的方法，第一步，將總的reads 數除以基因長度；第二步，計算總reads 數；第三步，標準化總的reads 數，計算得到TPM 值。

圖 3

FPKM 和 TPM 相比，對於 FPKM 來說，每個重複的總reads 數都不同。對於 TPM 來說，每個重複的 TPM 值是一樣的。因此在 RNA-Seq 中研究基因的轉錄水平，更推薦使用 TPM 值。

圖 4

在圖 4 中，樣本A相對於樣本B，每個基因的表達似乎都增加了一倍，但這是樣本A的測序深度增加了一倍的結果。

圖 5

在圖 5 中，基因X和基因Y有相似的表達水平，但是映射到基因X的讀取序列數量會比映射到基因Y的讀取序列數量多很多，因為基因X更長。

圖 6

在圖 6 中，RNA組成，樣本間表達差異較大的基因，樣本間表達基因數量的差異，或汙染的存在，都可能使某些類型的歸一化方法出現偏差。

圖 7 Tissue type

圖 8 Library preparation

使用人類血液和結腸組織樣本，評估臨床 RNA 測序中 polyA+ 選擇和 rRNA 缺失的基因定量（Zhao et all.2018）。使用兩種方案製備和測序相同的樣本。將所有原始測序 reads 存入 NCBI 序列。對於血液和結直腸樣本，polyA+ 選擇最豐富的類別是蛋白質編碼基因，而在 rRNA 消耗協議中是小 rRNA 。由於不同的樣本製備方案，TPM 值不能直接比較，儘管他們是從相同樣本中得到的。對於編碼蛋白質的基因，在 polyA+ 的選擇中 TPM 值往往較高，而對於小 rRNA 則相反。

參考文獻：

1.Zhao S, Ye Z, Stanton R. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols[J]. RNA, 2020: rna. 074922.120.

2.Statquest: RPKM, FPKM and TPM, clearly explained

相關焦點

RPKM, FPKM和TPM淺談

這兩個的本質是對基因長度（基因間的比較）和總數據量（樣本間的比較）做矯正。看起來似乎是個好方法？我們來想像這麼一種情況：兩個樣本A和B，兩者測序數據量相同。假設兩者只有一個基因具有高差異表達，差異量為D。想下，因為兩者具有相同的數據量，那麼這個差異基因表達的差異量D就會佔據了高表達樣本（假設為B）中其他基因的數據量，即B的平均測序深度低了。
淺談RPKM,FPKM,RPM,TPM的區別

FPKM (推薦軟體，cufflinks) 和RPKM 的計算方法基本一致。FPKM和RPKM的區別就是一個是fragment，一個是read。對於單末端測序，雖然理論上FPKM等同於RPKM, 但是實際上即使是使用同一個mapping軟體得到的mapping結果，然後再分別去計算同一個基因的RPKM (自己人工計算，或者用現成的一些軟體都能算)和FPKM(用Cufflinks計算)，結果卻仍然是不同，因為Cufflinks有自己的模型和自己的一些內在算法。
RPKM, FPKM, TPM有什麼區別?

在高通量測序（比如RNA-seq）中很重要的一塊就是檢測基因的表達量，基因表達量計算和差異表達分析是轉錄組數據分析的基礎
RPKM、FPKM 和 TPM還是傻傻分不清?

RPKM和FPKM：消除測序深度和基因長度對結果的影響測序的深度越深，匹配到每個基因的reads越多；基因的長度越長，匹配到每個基因的reads越多。考慮到測序深度和基因長度對基因測序counts數有影響，故需要找一個尺度變換因子（scaling factor）對測序結果進行尺度變換(scale)，實現該過程的方法包括計算TPM與RPKM、FPKM。
TCGA RNAseq數據中FPKM與TPM轉換介紹

首先我們需要了解一下FPKM和TPM的公式　　FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千個鹼基的轉錄每百萬映射讀取的fragments　　TPM：TranscriptsPerKilobase of exonmodel per Million
RPKM, FPKM, TPM到底有什麼區別?最淺顯的解釋!
掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹

在RNA-seq中，對基因或轉錄本的reads數目進行標準化是非常重要的一步，因為落在一個基因區域內的read counts數目取決於基因長度和測序深度
如何計算cuffdiff中的FPKM值(含Q&A)

第二就是查看那些沒有gene name的轉錄區域是否真的沒有已知注釋。但是沒有gene name的轉錄區並不意味著一定就是新的未知轉錄區。A：我想你可以在read_groups.info以及genes.read_group_tracking文件中找到自己需要的答案。
【乾貨】這麼說,FPKM和RPKM真的是錯的咯?!——關於FPKM/RPKM的深度反思

總的來說，越長的轉錄本，測得的Read（Fregment）數越多。（2）由測序文庫的不同大小而引來的差異。即同一個轉錄本，其測序深度越深，通過測序獲得的Read（Fregment）數就越多。也就是說，不管我們使用了什麼統計量，它所描述出來的轉錄本豐度應該得是其真實豐度(r_g)的m倍（m必須是一個根據模型定出的不變值），它的均值也將是r_mean的m倍，至少這樣才是得到有意義的結果的前提！（那麼）現在，我們回過頭來看看FPKM和RPKM的計算式，就會發現它們根本做不到。
為什麼說FPKM和RPKM都錯了?

這樣的討論是有益的，放在今天也不過時，我也願意和更多的朋友一起進一步討論這個問題。曾經（2015年），我接觸了一個RNA-seq的項目，做完之後，我重新思考了FPKM和RPKM的計算，覺得它們很可能是不對的（當時是第一次接觸RNA-seq數據，還不知道TPM的存在），後來查閱了一些文獻終於驗證了我的想法。現在我重新將這個過程記錄下來。
「TPM」談談TPM的8大支柱(中英文)

一旦實現這一點，就應該基本沒有缺陷、停機時間和事故。有了全員生產維護（TPM），在維護上投入適量的資金應該會對總體的成本、生產效率和設備的壽命產生積極的影響，進而提高整個組織的效率。具有各種技能和豐富的經驗，將有助於團隊更快地去解決問題。
TPM(全員生產保全)金字塔

TPM（全員生產保全）是一種全員參與生產系統極限效率確保的有效手段和理念。以效率的極限追求為目的，將生產體系維持在理想狀態的活動。TPM從二十世紀五十年代發展起來，距今已有70多年的歷史了，經過這麼多年各國、各行業的發展，方法、手段、理念、思想、階段、步驟等多種多樣，需要不斷地學習和了解。而且針對的層級不同，需要了解的內容也不同。為了更全面的了解TPM推進所涉及到的各方面內容，我們把每個層級所對應的方法、手段、理念、思想、階段等按照三角形的形狀搭建成一個面。
TPM推進基礎四大要素

FPKM和TPM

相關焦點

RPKM, FPKM和TPM淺談

淺談RPKM,FPKM,RPM,TPM的區別

RPKM, FPKM, TPM有什麼區別?

RPKM、FPKM 和 TPM還是傻傻分不清?

TCGA RNAseq數據中FPKM與TPM轉換介紹

RPKM, FPKM, TPM到底有什麼區別?最淺顯的解釋!

掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹

如何計算cuffdiff中的FPKM值(含Q&A)

【乾貨】這麼說,FPKM和RPKM真的是錯的咯?!——關於FPKM/RPKM的深度反思

為什麼說FPKM和RPKM都錯了?

「TPM」談談TPM的8大支柱(中英文)

TPM(全員生產保全)金字塔

TPM推進基礎四大要素