RPKM, FPKM和TPM淺談

2021-01-15 源宜基因

嗯,首先,這是一篇乾貨!非戰鬥人員想撤還來得及。大家都知道RNA-seq能夠對基因的表達量進行定量。在衡量基因的表達量時,有幾種衡量方法,RPKM和FPKM是常用的標準。它們分別表示什麼意思,為什麼要這麼計算呢?可能有些同學剛剛打開電視機(刪除線),對這些還不了解,今天帶大家複習下。

有同學可能會說,將測到的resds  map到基因組上,map上多少不就是有多少量麼。一看好像是沒問題,但是在統計學上,這麼做是不合理的。在隨機抽樣的情況下,基因的序列越長,它被抽到的機率就會越高,如此一來,序列長的基因就會被認為表現量較高,從而引起錯估。而在不同樣本間進行基因表達量的比較時,因為不同樣本的核酸提取、建庫、測序等試驗步驟必然存在差異,這也需要我們建立一種方法以進行橫向比較。其實,說白了,這是一種歸一化處理,有點兒類似於螢光定量裡面的相對定量。在高通量測序過程中,樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上存在差別。這種情況下,我們是不能直接比較表達量的,必須將數據進行歸一化處理,消除掉這些因素的影響,這樣才具有比較的意義。

RPKM全稱為Reads Per Kilobase per Million,是將map到基因的reads數除以map到genome的所有reads數(以million為單位)與RNA的長度,計算公式為

 

rg:map到目標基因的reads數;flg:目標基因的長度(kb);R:map到基因組的總有效reads數

FPKM是Fregments Per Kilobase per Million,它與RPKM極為類似,唯一的區別是公式中的rg換為了nf,即map到目標基因的fregment數量。咦,好像是一樣的?在雙端測序中,每個fregment有兩個reads,FPKM此時計算的是兩個reads能比對到目標基因的fregment數量,而RPKM計算的是比對到目標基因的reads數量。在單端測序中,兩者是沒有差別的。

這兩個的本質是對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正。看起來似乎是個好方法?

我們來想像這麼一種情況:

兩個樣本A和B,兩者測序數據量相同。假設兩者只有一個基因具有高差異表達,差異量為D。想下,因為兩者具有相同的數據量,那麼這個差異基因表達的差異量D就會佔據了高表達樣本(假設為B)中其他基因的數據量,即B的平均測序深度低了。

對於某個具有相同表達量的基因g:

A   RPKMg=(rg×109)/(flg×R);

B   RPKMg =(rg×R/(R+D)×109)/(flg×R);

計算出來,真實情況下應該是無差異的兩個基因成為差異表達了。當然了,如果D遠遠小於R,可以認為無視之。即高表達的差異基因會使得低表達基因呈現假陽性。

同理,A和B兩個樣本,測序數據量相同的前提下,A共有1000個基因表達了,而B只有800個基因表達。這200個基因必定是差異表達基因。如果那800個基因具有相同的表達量,那麼結果會和上面的例子一樣。

我們現在再來看那個公式,將其拆開看的話。一個是rg/flg,一個是109/R。rg/flg可以認為是對基因的長度進行了歸一處理,那麼理論上應該再對樣本總體數據量進行歸一處理。可是,我們看,109/R並沒有進行處理啊!R明顯是和測序深度直接關聯的。摔,坑爹呢!

看到這裡的童鞋除了三觀崩潰估計心裡還有一個想法:既然你說RPKM和FPKM是不對的,可是人家好多論文都是用的這個哎,人家還都驗證出結果了呢……

想了下,一個是,剛剛說這兩者的問題是存在於樣本間的,同樣本內確實是有效的。第二個是,大家都懂的,你做驗證實驗時肯定不是只挑了論文中寫的那一兩個基因做的不是?我覺得此處應該有表情。而且,定量PCR的精度和誤差,嘿嘿嘿。再有一個就是,在small RNA測序中,這個算法是沒有問題的。至於為什麼,繼續往下看。

其實早在12年,就有學者指出RPKM和FPKM存在嚴重的問題了。當然啦,大家聽不聽改不改又是另外一個事情了。有研究者提出了一個新的標準——TPM,Transcripts Per Million。不說廢話,先上公式:



rg:map到目標基因的reads數;rl:reads的平均長度; flg:目標基因的長度(kb);


仔細看,其實TPM和RPKM是有一定關係的:



 

設Q=rg×rl/flg,那麼Q明顯表示的是基因的測序深度,T表示的則是樣本的測序深度,兩者的比值TPM——便是基因g的轉錄本豐度。剛剛上面提到的在small RNA測序裡,TPM和RPKM沒有區別,大家看公式自己想想是為什麼。這算是給大家留了一個思考題。畫外音:難道不是小編腦細胞陣亡了好多而無力再寫了麼……

在文獻的對比裡面,RPKM的假陽性率是偏高的。除了RPKM與TPM之外還有許多算法,比如TMM、DESequ等等等等,限於篇幅和智商所限,今天就說這麼多了,小編要去補補智商了。下期再見!


文案:崔鵬鵬

編輯:王   倩

長按左側二維碼關注

相關焦點

  • 淺談RPKM,FPKM,RPM,TPM的區別
    FPKM (推薦軟體,cufflinks) 和RPKM 的計算方法基本一致。FPKM和RPKM的區別就是一個是fragment,一個是read。對於單末端測序,雖然理論上FPKM等同於RPKM, 但是實際上即使是使用同一個mapping軟體得到的mapping結果,然後再分別去計算同一個基因的RPKM (自己人工計算,或者用現成的一些軟體都能算)和FPKM(用Cufflinks計算),結果卻仍然是不同,因為Cufflinks有自己的模型和自己的一些內在算法。
  • RPKM, FPKM, TPM有什麼區別?
    在高通量測序(比如RNA-seq)中很重要的一塊就是檢測基因的表達量,基因表達量計算和差異表達分析是轉錄組數據分析的基礎
  • RPKM、FPKM 和 TPM還是傻傻分不清?
    RPKM和FPKM:消除測序深度和基因長度對結果的影響測序的深度越深,匹配到每個基因的reads越多;基因的長度越長,匹配到每個基因的reads越多。考慮到測序深度和基因長度對基因測序counts數有影響,故需要找一個尺度變換因子(scaling factor)對測序結果進行尺度變換(scale),實現該過程的方法包括計算TPM與RPKM、FPKM。
  • FPKM和TPM
    圖 3FPKM 和 TPM 相比,對於 FPKM 來說,每個重複的總reads 數都不同。對於 TPM 來說,每個重複的 TPM 值是一樣的。圖 5在圖 5 中,基因X和基因Y有相似的表達水平,但是映射到基因X的讀取序列數量會比映射到基因Y的讀取序列數量多很多,因為基因X更長。
  • RPKM, FPKM, TPM到底有什麼區別?最淺顯的解釋!
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    在RNA-seq中,對基因或轉錄本的reads數目進行標準化是非常重要的一步,因為落在一個基因區域內的read counts數目取決於基因長度和測序深度
  • 【乾貨】這麼說,FPKM和RPKM真的是錯的咯?!——關於FPKM/RPKM的深度反思
    總的來說,越長的轉錄本,測得的Read(Fregment)數越多。(2)由測序文庫的不同大小而引來的差異。即同一個轉錄本,其測序深度越深,通過測序獲得的Read(Fregment)數就越多。也就是說,不管我們使用了什麼統計量,它所描述出來的轉錄本豐度應該得是其真實豐度(r_g)的m倍(m必須是一個根據模型定出的不變值),它的均值也將是r_mean的m倍,至少這樣才是得到有意義的結果的前提!(那麼)現在,我們回過頭來看看FPKM和RPKM的計算式,就會發現它們根本做不到。
  • 為什麼說FPKM和RPKM都錯了?
    這樣的討論是有益的,放在今天也不過時,我也願意和更多的朋友一起進一步討論這個問題。曾經(2015年),我接觸了一個RNA-seq的項目,做完之後,我重新思考了FPKM和RPKM的計算,覺得它們很可能是不對的(當時是第一次接觸RNA-seq數據,還不知道TPM的存在),後來查閱了一些文獻終於驗證了我的想法。現在我重新將這個過程記錄下來。
  • 【伯豪課堂】——為什麼說FPKM/RPKM是錯的?!
    總的來說,越長的轉錄本,測得的 Read(Fregment)數越多。(2)由測序文庫的不同大小而引來的差異。即同一個轉錄本,其測序深度越深,通過測序獲得的 Read(Fregment)數就越多。也就是說,不管我們使用了什麼統計量,它所描述出來的轉錄本豐度應該得是其真實豐度 rg的 m 倍(m 必須是一個根據模型定出的不變值),它的均值也將是rmean的 m 倍,至少這樣才是得到有意義的結果的前提!(那麼)現在,我們回過頭來看看 FPKM 和 RPKM 的計算式,就會發現它們根本做不到。
  • TCGA RNAseq數據中FPKM與TPM轉換介紹
    首先我們需要了解一下FPKM和TPM的公式  FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千個鹼基的轉錄每百萬映射讀取的fragments  TPM:TranscriptsPerKilobase of exonmodel per Million
  • 淺談標準砝碼的使用步驟和檢定周期
    淺談標準砝碼的使用步驟和檢定周期介紹: 標準砝碼作為計量檢定工作中重要的儀器設備,傳統的計量儀器已不能滿足現在市場需求,在這種形勢下大型計量儀器設備應運而生。計量檢定在檢定規格較大的計量儀器時要有相應數量的標準砝碼,這樣才能確保大型計量儀器的校準,其在市場上有各種各樣的計量儀器。
  • 低溫循環裝置淺談冷凝器的巨大作用
    低溫循環裝置淺談冷凝器的巨大作用   無錫冠亞恆溫製冷技術有限公司致力於致力於製冷加熱控溫系統、超低溫冷凍機、新能源汽車部件測試系統、VOCs冷凝回收裝置、加熱循環系統、防爆電氣設備、試驗設備等生產和銷售,低溫循環裝置,運行穩定可靠,自動化程度高,如有需要,歡迎選購
  • 淺談電源變壓器的基本參數
    打開APP 淺談電源變壓器的基本參數 工程師之餘 發表於 2018-11-05 09:52:21 電源變壓器,是變壓器中的一個類型
  • 淺談星象學和心理學
    而玄學家:佔星預測師、瑜伽師、道佛修行者等,則是從人體最內在的覺、覺悟、覺識——這是比心理活動潛意識更深的『覺』,來去了解自我和本源之間的某種真相性的聯繫。今天淺談星象學和心理學中潛意識中的某種關聯先聊聊潛意識(subconscious):我們年紀很小的時候,有一次吃魚蛋導致生病了,之後我們雖然把這件事情忘了,但我們從此變得討厭吃魚蛋,那就是吃魚蛋導致生病的這個不被我們感知的潛意識的認知影響了我們有意識的行為。
  • 淺談MOS管的高端驅動和低端驅動
    打開APP 淺談MOS管的高端驅動和低端驅動 Soil_L 發表於 2020-01-31 17:21:00
  • 淺談自然界中的碳循環和氧循環
    淺談自然界中的碳循環和氧循環 2011-03-19 19:23 來源:中學生學習庫 作者:
  • 《DNF手遊》淺談真流星落與50SS太刀強弱怎麼樣 淺談真流星落與...
    導 讀 下面給大家分享的是《DNF手遊》淺談真流星落與50SS太刀強弱比較,一起看看吧!