RPKM、FPKM 和 TPM還是傻傻分不清?

2021-01-19 醫科研

過去常常使用RPKM和FPKM對樣本基因進行標準化，但是現在更常用的是TPM。但是在edgeR或者DEseq2中均未使用這些標準化的方法，而是使用其他方法作為替代，這在接下來的學習中將一一提及。
1. RPKM和FPKM：消除測序深度和基因長度對結果的影響測序的深度越深，匹配到每個基因的reads越多；基因的長度越長，匹配到每個基因的reads越多。考慮到測序深度和基因長度對基因測序counts數有影響，故需要找一個尺度變換因子（scaling factor）對測序結果進行尺度變換(scale)，實現該過程的方法包括計算TPM與RPKM、FPKM。為了了解TPM與RPKM、FPKM的差異，我們先從數學的角度進行原理演示：假設如下是RNA-seq數據。
1.1 RPKM(Reads Per Kilobase Million)

字面理解：RPKM(Reads Per Kilobase Million)的分子是reads計數，分母是Kilobase和Million。故需要除以Kilobase和Million，reads對應的是RNA-seq中，某基因匹配到的reads計數，Kilobase對應的是基因的長度，而Million對應的是測序深度。

Step 1:對每個樣本的測序深度進行標準化。在每個樣本中，計算reads總數。考慮到這裡只有4個基因，故reads總數進行尺度變換時，除以10，得到每百萬尺度變換因子。在實際測序數據歸一化時，需要將reads總數除以100萬以進行尺度變換，此為RPKM分母中每百萬尺度變換因子的由來。將每個基因的測序counts除以每百萬尺度變換因子，實現對每個樣本的測序深度標準化。

Step 2:對每個基因的長度進行標準化。將測序深度標準化後的每個基因counts數除以該基因的長度，得到每kb長度的counts數。

FPKM: FPKM(fragments per kilobase million)與RPKM(reads per kilobase million)尺度變換的原理相似，均是先對測序深度進行歸一化，然後對基因長度進行歸一化。兩者的區別在於RPKM是單末端RNA-seq，FPKM是雙末端RNA-seq，後者的兩個末端均可匹配到基因組，故每個DNA片段可得到2個reads。有時候雙末端中一個末端reads質量低，僅餘下一個末端具有高質量的reads。FPKM記錄的是DNA片段的軌跡，故配對的2個reads並不會被記錄兩次。

1.2 TPM(transcripts per million)TPM與RPKM和FPKM是相似的，但是其對測序深度和基因長度歸一化的順序不一致，得到的結果也略有差別。

Step 1:對每個基因的長度進行歸一化。每個基因的counts數除以其對應基因的長度，得到每kb鹼基長度的counts數。

Step 2：對每個樣本的測序深度進行歸一化。在每個樣本中，計算每個樣本的reads總數，並將reads總數除以尺度轉換因子（考慮到基因總數為4，故除以10而不是100萬），得到每百萬變換因子。再將基因長度歸一化後的基因counts數值除以每百萬尺度變換因子，得到測序深度歸一化後的counts數據。

1.3 RPKM與TPM的比較

RPKM與TPM均較正了測序深度和基因長度對基因counts數的影響，但是得到的每個樣本的總reads數不一樣。例如在RPKM結果中，rep1、rep2和rep3的reads總數分別為4.29、4.5和4.25；而在TPM結果中，rep1、rep2和rep3的reads總數均為10。

在TPM結果中：在每個樣本的reads總數相同的情況下（總體相同），更能清楚的知道，rep1中匹配到基因A的reads數比例(3.33)多於rep3中匹配到基因A的reads數比例(3.326)。

在RPKM結果中：在每個樣本的reads總數不相同的情況下（總體不相同），不能直接比較不同樣本間每個基因reads所佔的比例的大小。

利用公式轉換與推導，TPM值就是RPKM的百分比，RPKM/FPKM與TPM可以互相轉換。TPM等於該基因的FPKM佔所有基因的FPKM的總和的比例乘以一百萬，即每個樣本所有基因的TPM加和等於一百萬，類似於樣本間標準化。

參考視頻：https://www.youtube.com/watch?v=TTUrtCY2k-w&list=PLblh5JKOoLUJo2Q6xK4tZElbIvAACEykp&index=6

生信專輯 | SEER資料庫專輯 | 臨床預測模型 |

SCI期刊投稿

R語言小白專輯 | 臨床研究與meta | 文獻深度解讀

相關焦點

血清、血漿和全血傻傻分不清?

血清、血漿和全血傻傻分不清？其實這與我們進行的化驗是需要全血還是血清或血漿有關。那麼這三者到底有什麼不同呢？血液經抗凝處理後的全部血液為全血；離心除去血細胞後所得到的淡黃色液體為血漿。
RPKM, FPKM和TPM淺談

在衡量基因的表達量時，有幾種衡量方法，RPKM和FPKM是常用的標準。它們分別表示什麼意思，為什麼要這麼計算呢？可能有些同學剛剛打開電視機（刪除線），對這些還不了解，今天帶大家複習下。有同學可能會說，將測到的resds map到基因組上，map上多少不就是有多少量麼。一看好像是沒問題，但是在統計學上，這麼做是不合理的。
這隻小萌寵是狐狸還是貓咪?傻傻分不清!仙氣十足太可愛了

這隻小萌寵是狐狸還是貓咪？傻傻分不清！仙氣十足太可愛了原標題：這隻小萌寵是狐狸還是貓咪？傻傻分不清！
胎兒打嗝和胎動,你會傻傻分不清嗎?

經歷過孕期的寶媽都知道胎兒時期胎兒出現打嗝，大部分孕媽媽都能辨別，可能有少部分的孕媽媽還傻傻分不清。那對新手準媽媽來說，如何辨別打嗝和胎動呢？當胎兒打嗝或胎動時孕媽媽肚皮都在動，到底哪種動是打嗝？哪種又是胎動呢？
k金和鉑金一樣嗎? k金鉑金傻傻分不清?純乾貨來了

k金和鉑金一樣嗎？ k金鉑金傻傻分不清？純乾貨來了時間：2020-11-01 00:55 來源：遊戲369 責任編輯：沫朵川北在線核心提示：原標題：k金和鉑金一樣嗎？ k金鉑金傻傻分不清？純乾貨來了 k金和鉑金一樣嗎？
白內障還是老花眼?別再傻傻分不清!

隨著年齡的增長，眼睛也會出現各種的疾病問題，老花眼和白內障也會不約而同的找上門來，很多人將白內障誤以為是老花眼，不去在意，但是沒準稍不注意，就可能引起眼睛失明......
聖女果是蔬菜還是水果,你還傻傻分不清嗎?

有一個問題，請大家3秒內回答：聖女果是蔬菜還是水果？是不是覺得兩個答案都是對的？那麼，正確答案到底是哪個呢？
傻傻分不清:陰超?腹超?肛超?

傻傻分不清：陰超？腹超？肛超？檢查採取的體位多是截石位，它的優勢在於不需要大量喝水，不需要憋尿，檢查圖像顯示較腹部超聲更清晰，常用於孕前監測卵泡，檢查子宮、卵巢是否有異常等。早孕期間看胚囊、卵黃囊、胚芽發育情況，排除宮外孕，陰超優勢明顯。另外，重要的事情說三遍：陰超不會誘發流產！陰超不會誘發流產！陰超不會誘發流產！！！
淺談RPKM,FPKM,RPM,TPM的區別

它們都是對表達量進行標準化的方法，為何不直接用read數表示，而選標準化呢，因為落在一個基因區域內的read數目取決於基因長度和測序深度。基因越長read數目越多，測序深度越高，則一個基因對應的read數目也相對越多。所以必須要標準化，而標準化的對象就是基因長度與測序深度。
RPKM, FPKM, TPM有什麼區別?

表1 不同基因比對得到的Read個數（示例數據來源網絡）答案是當然不可以。原因主要有兩點： ① 基因長度的影響。簡單來說也就是給該基因的read counts 除以總 Reads 數和基因長度，消除測序深度和基因長度的影響。於是就有了常見的RPKM、FPKM、TPM 等標準化方法。
是模型還是實物?在海綿寶寶餐吧我傻傻分不清

海綿寶寶所以在海綿寶寶餐吧這裡，你看到的這些美食，看似像模型，其實它就是做得足夠精美，不用擔心放了什麼不必要的材料上去，如果你真的和我一樣傻傻分不清
傻傻分不清!教你輕鬆分辨到底是蛾還是蝴蝶?

原創作品，未經許可，請勿轉載）常言彩蝶如幻，觀賞蝴蝶多變的色彩和輕盈的飛行姿態，能給人帶來美好的精神愉悅。但是大自然中種類眾多的蝴蝶，讓人目不暇接，更有那一部分蛾類「冒充」蝴蝶，越發讓人暈頭轉向了。教你一招，讓你輕鬆辨認到底是蝴蝶還是蛾，不再傻傻分不清！
樹懶樹獺傻傻分不清

（原標題：樹懶樹獺傻傻分不清）《瘋狂動物城》熱映帶動影迷惡補動物知識
人工智慧、機器學習、深度學習和神經網絡傻傻分不清?看這兒!

人工智慧、機器學習、深度學習和神經網絡這些詞傻傻分不清？這四個都是非常熱門的詞彙，很多人甚至將四者看成是一種等價的關係，在很多報導中，會混雜使用。事實上，這四者之間既有一定的聯繫，但也有明顯的區別。不過，假如目前談到機器學習，99.9%都是在指深度學習；而談到神經網絡，99.9%都是在指多層神經網絡，那麼在絕大多數場景中，把機器學習、深度學習和神經網絡這三者劃等號，也沒有什麼原則性的錯誤。至於要不要把人工智慧和這三個概念劃等號？
夢境和現實傻傻分不清

夢境和現實傻傻分不清各位童鞋們大家好，吹牛可不是一個好習慣，但是有些人卻非常習慣吹牛，覺得這樣能顯得自己非常厲害，衰衰就是其中的一名，他得知外星人是為了尋找功夫大師而來，他就吹自己是現在最厲害的功夫大師，任何會功夫的人都是自己的手下敗將，因此衰衰收下了這兩名外星人，當衰衰把功夫教給他們之後，卻把臉臉和好友給揍了一頓，原來這是夢境和現實的區別，這一點筆者認為任何違反常識的事情
花開知多少：兩種傻傻分不清孿生姐妹花

也許我們很多人都知道或見過蔥蓮和韭蓮，而且儘管二者有很多不同點，但我們總是傻傻分不清到底誰是蔥蓮或者誰是韭蓮。相信大家都吃過大蔥和韭菜，它們有什麼區別？我們知道，蔥的葉子一般呈圓柱狀，而韭菜的葉子呈扁平狀，這就是蔥與韭菜的很明顯的區別。所以，當我們區分蔥蓮和韭蓮時，我們可以從它們本身的名字進行區分，蔥蓮的葉子一般細長，雖然不是圓柱形，但其更接近圓柱狀而且更窄，而韭蓮的葉子如大葉韭菜般扁平而寬。
傻傻分不清的早開堇菜與紫花地丁

紫花地丁是一味常見的中藥，也是很多小夥伴常見卻又傻傻分辨不清的一種植物，特別是與它的「孿生姐妹」早開堇菜
矽溶膠和水玻璃還在傻傻分不清嗎?

矽溶膠和水玻璃還在傻傻分不清嗎？下面科翰矽溶膠為大家講解下！矽溶膠的特性矽溶膠是納米二氧化矽顆粒在水或溶劑中的分散體，屬於無臭無毒的膠體溶液。矽溶膠是納米二氧化矽顆粒在水或溶劑中的一種分散體。由於矽溶膠中二氧化矽含有大量的水和羥基，所以矽溶膠也可以表示為SiO2.nH2O水玻璃的特性水玻璃處於水玻璃溶液狀態。在南方，它被稱為水玻璃，在北方，它被稱為泡騰鹼。水玻璃是水玻璃的水溶液。在以水為分散劑的體系中，矽酸鈉是無色、微色透明或半透明的黏稠液體。固體矽酸鈉是無色、淺色透明或半透明的玻璃塊。
罌粟和虞美人不能傻傻分不清

很多人罌粟與虞美人傻傻分不清。6月3日，西崗區禁毒委組織區委政法委、公安分局、團區委、八一路街道、白雲街道等成員單位，帶領平安志願者、青年志願者和轄區群眾共同組織開展禁種鏟毒活動。深入開展毒品原植物種植隱患排查，詳細講解了罌粟辨別指南。毒品原植物種植隱患排查不留死角6月的大連，草木繁茂，同時也是毒品原植物罌粟、大麻等生長的旺季。
IC50和EC50是啥?傻傻分不清

小夥伴們經常會接觸到IC50和EC50這樣的說法，是不是容易傻傻分不清呢？下面我們簡單介紹下這2個概念，幫大家區分清楚。IC50 (half maximal inhibitory concentration)是指被測量的拮抗劑的半抑制濃度。

RPKM、FPKM 和 TPM還是傻傻分不清?

相關焦點

血清、血漿和全血傻傻分不清?

RPKM, FPKM和TPM淺談

這隻小萌寵是狐狸還是貓咪?傻傻分不清!仙氣十足太可愛了

胎兒打嗝和胎動,你會傻傻分不清嗎?

k金和鉑金一樣嗎? k金鉑金傻傻分不清?純乾貨來了

白內障還是老花眼?別再傻傻分不清!

聖女果是蔬菜還是水果,你還傻傻分不清嗎?

傻傻分不清:陰超?腹超?肛超?

淺談RPKM,FPKM,RPM,TPM的區別

RPKM, FPKM, TPM有什麼區別?

是模型還是實物?在海綿寶寶餐吧我傻傻分不清

傻傻分不清!教你輕鬆分辨到底是蛾還是蝴蝶?

樹懶樹獺傻傻分不清

人工智慧、機器學習、深度學習和神經網絡傻傻分不清?看這兒!

夢境和現實傻傻分不清

花開知多少：兩種傻傻分不清孿生姐妹花

傻傻分不清的早開堇菜與紫花地丁

矽溶膠和水玻璃還在傻傻分不清嗎?

罌粟和虞美人不能傻傻分不清

IC50和EC50是啥?傻傻分不清