嗯,首先,這是一篇乾貨!非戰鬥人員想撤還來得及。大家都知道RNA-seq能夠對基因的表達量進行定量。在衡量基因的表達量時,有幾種衡量方法,RPKM和FPKM是常用的標準。它們分別表示什麼意思,為什麼要這麼計算呢?可能有些同學剛剛打開電視機(刪除線),對這些還不了解,今天帶大家複習下。
有同學可能會說,將測到的resds map到基因組上,map上多少不就是有多少量麼。一看好像是沒問題,但是在統計學上,這麼做是不合理的。在隨機抽樣的情況下,基因的序列越長,它被抽到的機率就會越高,如此一來,序列長的基因就會被認為表現量較高,從而引起錯估。而在不同樣本間進行基因表達量的比較時,因為不同樣本的核酸提取、建庫、測序等試驗步驟必然存在差異,這也需要我們建立一種方法以進行橫向比較。其實,說白了,這是一種歸一化處理,有點兒類似於螢光定量裡面的相對定量。在高通量測序過程中,樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上存在差別。這種情況下,我們是不能直接比較表達量的,必須將數據進行歸一化處理,消除掉這些因素的影響,這樣才具有比較的意義。
RPKM全稱為Reads Per Kilobase per Million,是將map到基因的reads數除以map到genome的所有reads數(以million為單位)與RNA的長度,計算公式為
rg:map到目標基因的reads數;flg:目標基因的長度(kb);R:map到基因組的總有效reads數
FPKM是Fregments Per Kilobase per Million,它與RPKM極為類似,唯一的區別是公式中的rg換為了nf,即map到目標基因的fregment數量。咦,好像是一樣的?在雙端測序中,每個fregment有兩個reads,FPKM此時計算的是兩個reads能比對到目標基因的fregment數量,而RPKM計算的是比對到目標基因的reads數量。在單端測序中,兩者是沒有差別的。
這兩個的本質是對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正。看起來似乎是個好方法?
我們來想像這麼一種情況:
兩個樣本A和B,兩者測序數據量相同。假設兩者只有一個基因具有高差異表達,差異量為D。想下,因為兩者具有相同的數據量,那麼這個差異基因表達的差異量D就會佔據了高表達樣本(假設為B)中其他基因的數據量,即B的平均測序深度低了。
對於某個具有相同表達量的基因g:
A RPKMg=(rg×109)/(flg×R);
B RPKMg =(rg×R/(R+D)×109)/(flg×R);
計算出來,真實情況下應該是無差異的兩個基因成為差異表達了。當然了,如果D遠遠小於R,可以認為無視之。即高表達的差異基因會使得低表達基因呈現假陽性。
同理,A和B兩個樣本,測序數據量相同的前提下,A共有1000個基因表達了,而B只有800個基因表達。這200個基因必定是差異表達基因。如果那800個基因具有相同的表達量,那麼結果會和上面的例子一樣。
我們現在再來看那個公式,將其拆開看的話。一個是rg/flg,一個是109/R。rg/flg可以認為是對基因的長度進行了歸一處理,那麼理論上應該再對樣本總體數據量進行歸一處理。可是,我們看,109/R並沒有進行處理啊!R明顯是和測序深度直接關聯的。摔,坑爹呢!
看到這裡的童鞋除了三觀崩潰估計心裡還有一個想法:既然你說RPKM和FPKM是不對的,可是人家好多論文都是用的這個哎,人家還都驗證出結果了呢……
想了下,一個是,剛剛說這兩者的問題是存在於樣本間的,同樣本內確實是有效的。第二個是,大家都懂的,你做驗證實驗時肯定不是只挑了論文中寫的那一兩個基因做的不是?我覺得此處應該有表情。而且,定量PCR的精度和誤差,嘿嘿嘿。再有一個就是,在small RNA測序中,這個算法是沒有問題的。至於為什麼,繼續往下看。
其實早在12年,就有學者指出RPKM和FPKM存在嚴重的問題了。當然啦,大家聽不聽改不改又是另外一個事情了。有研究者提出了一個新的標準——TPM,Transcripts Per Million。不說廢話,先上公式:
rg:map到目標基因的reads數;rl:reads的平均長度; flg:目標基因的長度(kb);
仔細看,其實TPM和RPKM是有一定關係的:
設Q=rg×rl/flg,那麼Q明顯表示的是基因的測序深度,T表示的則是樣本的測序深度,兩者的比值TPM——便是基因g的轉錄本豐度。剛剛上面提到的在small RNA測序裡,TPM和RPKM沒有區別,大家看公式自己想想是為什麼。這算是給大家留了一個思考題。畫外音:難道不是小編腦細胞陣亡了好多而無力再寫了麼……
在文獻的對比裡面,RPKM的假陽性率是偏高的。除了RPKM與TPM之外還有許多算法,比如TMM、DESequ等等等等,限於篇幅和智商所限,今天就說這麼多了,小編要去補補智商了。下期再見!
文案:崔鵬鵬
編輯:王 倩
長按左側二維碼關注