RPKM、FPKM 和 TPM還是傻傻分不清?

2021-01-19 醫科研

過去常常使用RPKM和FPKM對樣本基因進行標準化,但是現在更常用的是TPM。但是在edgeR或者DEseq2中均未使用這些標準化的方法,而是使用其他方法作為替代,這在接下來的學習中將一一提及。
1. RPKM和FPKM:消除測序深度和基因長度對結果的影響測序的深度越深,匹配到每個基因的reads越多;基因的長度越長,匹配到每個基因的reads越多。考慮到測序深度和基因長度對基因測序counts數有影響,故需要找一個尺度變換因子(scaling factor)對測序結果進行尺度變換(scale),實現該過程的方法包括計算TPM與RPKM、FPKM。為了了解TPM與RPKM、FPKM的差異,我們先從數學的角度進行原理演示:假設如下是RNA-seq數據。
1.1 RPKM(Reads Per Kilobase Million)

字面理解:RPKM(Reads Per Kilobase Million)的分子是reads計數,分母是Kilobase和Million。故需要除以Kilobase和Million,reads對應的是RNA-seq中,某基因匹配到的reads計數,Kilobase對應的是基因的長度,而Million對應的是測序深度。

Step 1:對每個樣本的測序深度進行標準化。 在每個樣本中,計算reads總數。考慮到這裡只有4個基因,故reads總數進行尺度變換時,除以10,得到每百萬尺度變換因子。在實際測序數據歸一化時,需要將reads總數除以100萬以進行尺度變換,此為RPKM分母中每百萬尺度變換因子的由來。 將每個基因的測序counts除以每百萬尺度變換因子,實現對每個樣本的測序深度標準化。

Step 2:對每個基因的長度進行標準化。 將測序深度標準化後的每個基因counts數除以該基因的長度,得到每kb長度的counts數。

FPKM: FPKM(fragments per kilobase million)與RPKM(reads per kilobase million)尺度變換的原理相似,均是先對測序深度進行歸一化,然後對基因長度進行歸一化。兩者的區別在於RPKM是單末端RNA-seq,FPKM是雙末端RNA-seq,後者的兩個末端均可匹配到基因組,故每個DNA片段可得到2個reads。有時候雙末端中一個末端reads質量低,僅餘下一個末端具有高質量的reads。FPKM記錄的是DNA片段的軌跡,故配對的2個reads並不會被記錄兩次。

1.2 TPM(transcripts per million)TPM與RPKM和FPKM是相似的,但是其對測序深度和基因長度歸一化的順序不一致,得到的結果也略有差別。

Step 1:對每個基因的長度進行歸一化。 每個基因的counts數除以其對應基因的長度,得到每kb鹼基長度的counts數。

Step 2:對每個樣本的測序深度進行歸一化。 在每個樣本中,計算每個樣本的reads總數,並將reads總數除以尺度轉換因子(考慮到基因總數為4,故除以10而不是100萬),得到每百萬變換因子。再將基因長度歸一化後的基因counts數值除以每百萬尺度變換因子,得到測序深度歸一化後的counts數據。

1.3 RPKM與TPM的比較

RPKM與TPM均較正了測序深度和基因長度對基因counts數的影響,但是得到的每個樣本的總reads數不一樣。例如在RPKM結果中,rep1、rep2和rep3的reads總數分別為4.29、4.5和4.25;而在TPM結果中,rep1、rep2和rep3的reads總數均為10。

在TPM結果中:在每個樣本的reads總數相同的情況下(總體相同),更能清楚的知道,rep1中匹配到基因A的reads數比例(3.33)多於rep3中匹配到基因A的reads數比例(3.326)。

在RPKM結果中:在每個樣本的reads總數不相同的情況下(總體不相同),不能直接比較不同樣本間每個基因reads所佔的比例的大小。

利用公式轉換與推導,TPM值就是RPKM的百分比,RPKM/FPKM與TPM可以互相轉換。TPM等於該基因的FPKM佔所有基因的FPKM的總和的比例乘以一百萬,即每個樣本所有基因的TPM加和等於一百萬,類似於樣本間標準化。

參考視頻:https://www.youtube.com/watch?v=TTUrtCY2k-w&list=PLblh5JKOoLUJo2Q6xK4tZElbIvAACEykp&index=6

           生信專輯 | SEER資料庫專輯 | 臨床預測模型 | 

SCI期刊投稿

R語言小白專輯 | 臨床研究與meta | 文獻深度解讀

相關焦點

  • 血清、血漿和全血傻傻分不清?
    血清、血漿和全血傻傻分不清?其實這與我們進行的化驗是需要全血還是血清或血漿有關。那麼這三者到底有什麼不同呢?血液經抗凝處理後的全部血液為全血;離心除去血細胞後所得到的淡黃色液體為血漿。
  • RPKM, FPKM和TPM淺談
    在衡量基因的表達量時,有幾種衡量方法,RPKM和FPKM是常用的標準。它們分別表示什麼意思,為什麼要這麼計算呢?可能有些同學剛剛打開電視機(刪除線),對這些還不了解,今天帶大家複習下。有同學可能會說,將測到的resds  map到基因組上,map上多少不就是有多少量麼。一看好像是沒問題,但是在統計學上,這麼做是不合理的。
  • 這隻小萌寵是狐狸還是貓咪?傻傻分不清!仙氣十足太可愛了
    這隻小萌寵是狐狸還是貓咪?傻傻分不清!仙氣十足太可愛了 原標題:這隻小萌寵是狐狸還是貓咪?傻傻分不清!
  • 胎兒打嗝和胎動,你會傻傻分不清嗎?
    經歷過孕期的寶媽都知道胎兒時期胎兒出現打嗝,大部分孕媽媽都能辨別,可能有少部分的孕媽媽還傻傻分不清。那對新手準媽媽來說,如何辨別打嗝和胎動呢?當胎兒打嗝或胎動時孕媽媽肚皮都在動,到底哪種動是打嗝?哪種又是胎動呢?
  • k金和鉑金一樣嗎? k金鉑金傻傻分不清?純乾貨來了
    k金和鉑金一樣嗎? k金鉑金傻傻分不清?純乾貨來了時間:2020-11-01 00:55   來源:遊戲369    責任編輯:沫朵 川北在線核心提示:原標題:k金和鉑金一樣嗎? k金鉑金傻傻分不清?純乾貨來了 k金和鉑金一樣嗎?
  • 白內障還是老花眼?別再傻傻分不清!
    隨著年齡的增長,眼睛也會出現各種的疾病問題,老花眼和白內障也會不約而同的找上門來,很多人將白內障誤以為是老花眼,不去在意,但是沒準稍不注意,就可能引起眼睛失明......
  • 聖女果是蔬菜還是水果,你還傻傻分不清嗎?
    有一個問題, 請大家3秒內回答: 聖女果是蔬菜還是水果? 是不是覺得兩個答案都是對的? 那麼,正確答案到底是哪個呢?
  • 傻傻分不清:陰超?腹超?肛超?
    傻傻分不清:陰超?腹超?肛超?檢查採取的體位多是截石位,它的優勢在於不需要大量喝水,不需要憋尿,檢查圖像顯示較腹部超聲更清晰,常用於孕前監測卵泡,檢查子宮、卵巢是否有異常等。早孕期間看胚囊、卵黃囊、胚芽發育情況,排除宮外孕,陰超優勢明顯。另外,重要的事情說三遍:陰超不會誘發流產!陰超不會誘發流產!陰超不會誘發流產!!!
  • 淺談RPKM,FPKM,RPM,TPM的區別
    它們都是對表達量進行標準化的方法,為何不直接用read數表示,而選標準化呢,因為落在一個基因區域內的read數目取決於基因長度和測序深度。基因越長read數目越多,測序深度越高,則一個基因對應的read數目也相對越多。所以必須要標準化,而標準化的對象就是基因長度與測序深度。
  • RPKM, FPKM, TPM有什麼區別?
    表1 不同基因比對得到的Read個數(示例數據來源網絡) 答案是當然不可以。原因主要有兩點: ① 基因長度的影響。簡單來說也就是給 該基因的read counts 除以總 Reads 數和基因長度,消除測序深度和基因長度的影響。於是就有了常見的RPKM、FPKM、TPM 等標準化方法。
  • 是模型還是實物?在海綿寶寶餐吧我傻傻分不清
    海綿寶寶 所以在海綿寶寶餐吧這裡,你看到的這些美食,看似像模型,其實它就是做得足夠精美,不用擔心放了什麼不必要的材料上去,如果你真的和我一樣傻傻分不清
  • 傻傻分不清!教你輕鬆分辨到底是蛾還是蝴蝶?
    原創作品,未經許可,請勿轉載)常言彩蝶如幻,觀賞蝴蝶多變的色彩和輕盈的飛行姿態,能給人帶來美好的精神愉悅。但是大自然中種類眾多的蝴蝶,讓人目不暇接,更有那一部分蛾類「冒充」蝴蝶,越發讓人暈頭轉向了。教你一招,讓你輕鬆辨認到底是蝴蝶還是蛾,不再傻傻分不清!
  • 樹懶樹獺傻傻分不清
    (原標題:樹懶樹獺傻傻分不清) 《瘋狂動物城》熱映帶動影迷惡補動物知識
  • 人工智慧、機器學習、深度學習和神經網絡傻傻分不清?看這兒!
    人工智慧、機器學習、深度學習和神經網絡這些詞傻傻分不清?這四個都是非常熱門的詞彙,很多人甚至將四者看成是一種等價的關係,在很多報導中,會混雜使用。事實上,這四者之間既有一定的聯繫,但也有明顯的區別。不過,假如目前談到機器學習,99.9%都是在指深度學習;而談到神經網絡,99.9%都是在指多層神經網絡,那麼在絕大多數場景中,把機器學習、深度學習和神經網絡這三者劃等號,也沒有什麼原則性的錯誤。至於要不要把人工智慧和這三個概念劃等號?
  • 夢境和現實傻傻分不清
    夢境和現實傻傻分不清各位童鞋們大家好,吹牛可不是一個好習慣,但是有些人卻非常習慣吹牛,覺得這樣能顯得自己非常厲害,衰衰就是其中的一名,他得知外星人是為了尋找功夫大師而來,他就吹自己是現在最厲害的功夫大師,任何會功夫的人都是自己的手下敗將,因此衰衰收下了這兩名外星人,當衰衰把功夫教給他們之後,卻把臉臉和好友給揍了一頓,原來這是夢境和現實的區別,這一點筆者認為任何違反常識的事情
  • 花開知多少:兩種傻傻分不清孿生姐妹花
    也許我們很多人都知道或見過蔥蓮和韭蓮,而且儘管二者有很多不同點,但我們總是傻傻分不清到底誰是蔥蓮或者誰是韭蓮。相信大家都吃過大蔥和韭菜,它們有什麼區別?我們知道,蔥的葉子一般呈圓柱狀,而韭菜的葉子呈扁平狀,這就是蔥與韭菜的很明顯的區別。所以,當我們區分蔥蓮和韭蓮時,我們可以從它們本身的名字進行區分,蔥蓮的葉子一般細長,雖然不是圓柱形,但其更接近圓柱狀而且更窄,而韭蓮的葉子如大葉韭菜般扁平而寬。
  • 傻傻分不清的早開堇菜與紫花地丁
    紫花地丁是一味常見的中藥,也是很多小夥伴常見卻又傻傻分辨不清的一種植物,特別是與它的「孿生姐妹」早開堇菜
  • 矽溶膠和水玻璃還在傻傻分不清嗎?
    矽溶膠和水玻璃還在傻傻分不清嗎?下面科翰矽溶膠為大家講解下!矽溶膠的特性矽溶膠是納米二氧化矽顆粒在水或溶劑中的分散體,屬於無臭無毒的膠體溶液。矽溶膠是納米二氧化矽顆粒在水或溶劑中的一種分散體。由於矽溶膠中二氧化矽含有大量的水和羥基,所以矽溶膠也可以表示為SiO2.nH2O水玻璃的特性水玻璃處於水玻璃溶液狀態。在南方,它被稱為水玻璃,在北方,它被稱為泡騰鹼。水玻璃是水玻璃的水溶液。在以水為分散劑的體系中,矽酸鈉是無色、微色透明或半透明的黏稠液體。固體矽酸鈉是無色、淺色透明或半透明的玻璃塊。
  • 罌粟和虞美人不能傻傻分不清
    很多人罌粟與虞美人傻傻分不清。6月3日,西崗區禁毒委組織區委政法委、公安分局、團區委、八一路街道、白雲街道等成員單位,帶領平安志願者、青年志願者和轄區群眾共同組織開展禁種鏟毒活動。深入開展毒品原植物種植隱患排查,詳細講解了罌粟辨別指南。毒品原植物種植隱患排查 不留死角6月的大連,草木繁茂,同時也是毒品原植物罌粟、大麻等生長的旺季。
  • IC50和EC50是啥?傻傻分不清
    小夥伴們經常會接觸到IC50和EC50這樣的說法,是不是容易傻傻分不清呢?下面我們簡單介紹下這2個概念,幫大家區分清楚。IC50 (half maximal inhibitory concentration)是指被測量的拮抗劑的半抑制濃度。