點擊關注基迪奧,立即漲姿勢~
上周,我們分享了用RPKM值計算差異基因的方法,這周我們繼續分享另外一種方法p-value。
我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:
1)FoldChange
FoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。可以用RPKM值來計算,關於RPKM的計算方法,我們上周已經分享了,大家可以戳這裡查看。
2)FDR校正後的p-value,即q-value
FDR值的計算方法又可分為以下2種:
假設觀測到基因A對應的reads數為x,已知在一個大文庫中,每個基因的表達量只佔所有基因表達量的一小部分,在這種情況下,p(x)的分布服從泊松分布。已知樣本一中唯一比對到基因組的總reads數為N1,樣本二中唯一比對到基因組的總reads數為N2,樣本一中唯一比對到基因A的總reads數為x,樣本二中唯一比對到基因A的總reads數為y,則基因A在兩樣本中表達量相等的概率可由以下公式計算:
FDR錯誤控制法是Benjamini於1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%.
對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m。
然後,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。 因此,FDR的計算公式如下:
如果你的數據用以上2種方法分析都差異不顯著,又或者差異基因太多,那也真是心塞呢。不過基迪奧的技術們還是有分析辦法的。戳下面題目查看~
基迪奧近期最受歡迎文章,點擊題目查看,更多原創文章請回復「目錄」查看
新朋友可以長按下方二維碼加我們為好友噢~