FPKM和TPM

2021-03-01 EvoDevo好好玩

FPKM :Fragment per kilo base per million mapped reads(每千鹼基片段每百萬映射讀取的 reads 數)

TPM : Transcripts per million (每百萬映射讀取的 Transcripts)

圖 1

 

圖 2

計算 FPKM 的方法:第一步, 計算總reads 數;第二步,標準化總的reads 數;第三步,將總的reads 數除以基因長度,計算得到FPKM 值。計算 TPM 的方法,第一步,將總的reads 數除以基因長度 ;第二步,計算總reads 數;第三步,標準化總的reads 數,計算得到TPM 值。

 

圖 3

FPKM 和 TPM 相比,對於 FPKM 來說,每個重複的總reads 數都不同。對於 TPM 來說,每個重複的 TPM 值是一樣的。因此在 RNA-Seq 中研究基因的轉錄水平,更推薦使用 TPM 值。

 

圖 4

在圖 4 中,樣本A相對於樣本B,每個基因的表達似乎都增加了一倍,但這是樣本A的測序深度增加了一倍的結果。

 

 

圖 5

在圖 5 中,基因X和基因Y有相似的表達水平,但是映射到基因X的讀取序列數量會比映射到基因Y的讀取序列數量多很多,因為基因X更長。

 

圖 6

在圖 6 中,RNA組成,樣本間表達差異較大的基因,樣本間表達基因數量的差異,或汙染的存在,都可能使某些類型的歸一化方法出現偏差。

 

圖 7 Tissue type

 

 

圖 8 Library preparation

使用人類血液和結腸組織樣本,評估臨床 RNA 測序中 polyA+ 選擇和 rRNA 缺失的基因定量(Zhao et all.2018)。使用兩種方案製備和測序相同的樣本。將所有原始測序 reads 存入 NCBI 序列。對於血液和結直腸樣本,polyA+ 選擇最豐富的類別是蛋白質編碼基因,而在 rRNA 消耗協議中是小 rRNA 。由於不同的樣本製備方案,TPM 值不能直接比較,儘管他們是從相同樣本中得到的。對於編碼蛋白質的基因,在 polyA+ 的選擇中 TPM 值往往較高,而對於小 rRNA 則相反。

參考文獻:

1.Zhao S, Ye Z, Stanton R. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols[J]. RNA, 2020: rna. 074922.120.

2.Statquest: RPKM, FPKM and TPM, clearly explained

 

 

相關焦點

  • RPKM, FPKM和TPM淺談
    這兩個的本質是對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正。看起來似乎是個好方法?我們來想像這麼一種情況:兩個樣本A和B,兩者測序數據量相同。假設兩者只有一個基因具有高差異表達,差異量為D。想下,因為兩者具有相同的數據量,那麼這個差異基因表達的差異量D就會佔據了高表達樣本(假設為B)中其他基因的數據量,即B的平均測序深度低了。
  • 淺談RPKM,FPKM,RPM,TPM的區別
    FPKM (推薦軟體,cufflinks) 和RPKM 的計算方法基本一致。FPKM和RPKM的區別就是一個是fragment,一個是read。對於單末端測序,雖然理論上FPKM等同於RPKM, 但是實際上即使是使用同一個mapping軟體得到的mapping結果,然後再分別去計算同一個基因的RPKM (自己人工計算,或者用現成的一些軟體都能算)和FPKM(用Cufflinks計算),結果卻仍然是不同,因為Cufflinks有自己的模型和自己的一些內在算法。
  • RPKM, FPKM, TPM有什麼區別?
    在高通量測序(比如RNA-seq)中很重要的一塊就是檢測基因的表達量,基因表達量計算和差異表達分析是轉錄組數據分析的基礎
  • RPKM、FPKM 和 TPM還是傻傻分不清?
    RPKM和FPKM:消除測序深度和基因長度對結果的影響測序的深度越深,匹配到每個基因的reads越多;基因的長度越長,匹配到每個基因的reads越多。考慮到測序深度和基因長度對基因測序counts數有影響,故需要找一個尺度變換因子(scaling factor)對測序結果進行尺度變換(scale),實現該過程的方法包括計算TPM與RPKM、FPKM。
  • TCGA RNAseq數據中FPKM與TPM轉換介紹
    首先我們需要了解一下FPKM和TPM的公式  FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千個鹼基的轉錄每百萬映射讀取的fragments  TPM:TranscriptsPerKilobase of exonmodel per Million
  • RPKM, FPKM, TPM到底有什麼區別?最淺顯的解釋!
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    在RNA-seq中,對基因或轉錄本的reads數目進行標準化是非常重要的一步,因為落在一個基因區域內的read counts數目取決於基因長度和測序深度
  • 如何計算cuffdiff中的FPKM值(含Q&A)
    第二就是查看那些沒有gene name的轉錄區域是否真的沒有已知注釋。但是沒有gene name的轉錄區並不意味著一定就是新的未知轉錄區。A:我想你可以在read_groups.info以及genes.read_group_tracking文件中找到自己需要的答案。
  • 【乾貨】這麼說,FPKM和RPKM真的是錯的咯?!——關於FPKM/RPKM的深度反思
    總的來說,越長的轉錄本,測得的Read(Fregment)數越多。(2)由測序文庫的不同大小而引來的差異。即同一個轉錄本,其測序深度越深,通過測序獲得的Read(Fregment)數就越多。也就是說,不管我們使用了什麼統計量,它所描述出來的轉錄本豐度應該得是其真實豐度(r_g)的m倍(m必須是一個根據模型定出的不變值),它的均值也將是r_mean的m倍,至少這樣才是得到有意義的結果的前提!(那麼)現在,我們回過頭來看看FPKM和RPKM的計算式,就會發現它們根本做不到。
  • 為什麼說FPKM和RPKM都錯了?
    這樣的討論是有益的,放在今天也不過時,我也願意和更多的朋友一起進一步討論這個問題。曾經(2015年),我接觸了一個RNA-seq的項目,做完之後,我重新思考了FPKM和RPKM的計算,覺得它們很可能是不對的(當時是第一次接觸RNA-seq數據,還不知道TPM的存在),後來查閱了一些文獻終於驗證了我的想法。現在我重新將這個過程記錄下來。
  • 「TPM」談談TPM的8大支柱(中英文)
    一旦實現這一點,就應該基本沒有缺陷、停機時間和事故。有了全員生產維護(TPM),在維護上投入適量的資金應該會對總體的成本、生產效率和設備的壽命產生積極的影響,進而提高整個組織的效率。具有各種技能和豐富的經驗,將有助於團隊更快地去解決問題。
  • TPM(全員生產保全)金字塔
    TPM(全員生產保全)是一種全員參與生產系統極限效率確保的有效手段和理念。以效率的極限追求為目的,將生產體系維持在理想狀態的活動。TPM從二十世紀五十年代發展起來,距今已有70多年的歷史了,經過這麼多年各國、各行業的發展,方法、手段、理念、思想、階段、步驟等多種多樣,需要不斷地學習和了解。而且針對的層級不同,需要了解的內容也不同。為了更全面的了解TPM推進所涉及到的各方面內容,我們把每個層級所對應的方法、手段、理念、思想、階段等按照三角形的形狀搭建成一個面。
  • TPM推進基礎四大要素