Differential gene expression analysis:差異表達基因分析
Differentially expressed gene (DEG):差異表達基因
Volcano Plot:火山圖
差異倍數(fold change)
fold change翻譯過來就是倍數變化,假設A基因表達值為1,B表達值為3,那麼B的表達就是A的3倍。一般我們都用count、TPM或FPKM來衡量基因表達水平,所以基因表達值肯定是非負數,那麼fold change的取值就是(0, +∞).
為什麼我們經常看到差異基因裡負數代表下調、正數代表上調?因為我們用了log2 fold change。當expr(A) < expr(B)時,B對A的fold change就大於1,log2 fold change就大於0(見下圖),B相對A就是上調;當expr(A) > expr(B)時,B對A的fold change就小於1,log2 fold change就小於0。通常為了防止取log2時產生NA,我們會給表達值加1(或者一個極小的數),也就是log2(B+1) - log2(A+1). 【需要一點對數函數的基礎知識】
為什麼不直接用表達之差,差直接有正負啊?假設A表達為1,B表達為8,C表達為64;直接用差B相對A就上調了7,C就相對B上調了56;用log2 fold change,B相對A就上調了3,C相對B也只上調了3. 通過測序觀察我們發現,不同基因在細胞裡的表達差異非常巨大,所以直接用差顯然不合適,用log2 fold change更能表示相對的變化趨勢。
雖然大家都在用log2 fold change,但顯然也是有缺點的:一、到底是5到10的變化大,還是100到120的變化大?二、5到10可能是由於技術誤差導致的。所以當基因總的表達值很低時,log2 fold change的可信度就低了,尤其是在接近0的時候。A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差異的顯著性(P-value)這就是統計學的範疇了,顯著性就是根據假設檢驗算出來的。
假設檢驗首先必須要有假設,我們假設A和B的表達沒有差異(H0,零假設),然後基於此假設,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現的概率,就得到了P-value,如果P-value<0.05,那麼說明小概率事件出現了,我們應該拒絕零假設,即A和B的表達不一樣,即有顯著差異。
顯著性只能說明我們的數據之間具有統計學上的顯著性,要看上調下調必須回去看差異倍數。
這裡只說了最基本的原理,真正的DESeq2等工具裡面的算法肯定要複雜得多。
這張圖對q-value(校正了的p-value)取了負log,相當于越顯著,負log就越大,所以在火山圖裡,越外層的巖漿就越顯著,差異也就越大。