差異基因分析方法——p-value

2022-01-06 基迪奧生物



點擊關注基迪奧,立即漲姿勢~

上周,我們分享了用RPKM值計算差異基因的方法,這周我們繼續分享另外一種方法p-value。

我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:

1)FoldChange

FoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。可以用RPKM值來計算,關於RPKM的計算方法,我們上周已經分享了,大家可以戳這裡查看。

2)FDR校正後的p-value,即q-value

FDR值的計算方法又可分為以下2種:

假設觀測到基因A對應的reads數為x,已知在一個大文庫中,每個基因的表達量只佔所有基因表達量的一小部分,在這種情況下,p(x)的分布服從泊松分布。已知樣本一中唯一比對到基因組的總reads數為N1,樣本二中唯一比對到基因組的總reads數為N2,樣本一中唯一比對到基因A的總reads數為x,樣本二中唯一比對到基因A的總reads數為y,則基因A在兩樣本中表達量相等的概率可由以下公式計算:

用FDR錯誤控制法對p-value作多重假設檢驗校正

FDR錯誤控制法是Benjamini於1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%.

對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m。


然後,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。 因此,FDR的計算公式如下:


如果你的數據用以上2種方法分析都差異不顯著,又或者差異基因太多,那也真是心塞呢。不過基迪奧的技術們還是有分析辦法的。戳下面題目查看~

基迪奧近期最受歡迎文章,點擊題目查看,更多原創文章請回復「目錄」查看

新朋友可以長按下方二維碼加我們為好友噢~


相關焦點

  • 差異表達基因分析:差異倍數(fold change), 差異的顯著性(P-value) | 火山圖
    Differential gene expression analysis:差異表達基因分析Differentially expressed
  • qRT-PCR差異分析及P值計算
    ,他的計算方法有很多,常用的相對定量數據分析方法是KJ Livak(Applied Biosystems)等人在2001年提出的「比較Ct法相對定量」,即:利用ΔCt值差異來推算基因表達差異(Ct目的基因 – Ct內參基因 = ΔCt),該方法的具體計算方法請參見文章:qRT-PCR相對定量計算詳解。
  • 什麼,你算出的P-value看上去像齊天大聖變的廟?
    前幾天,Nature上一篇comment再度引發關於p-value如何使用和解釋的文章:Scientists rise up against statistical significance,800多名科學家聯合聲明拒絕使用基於p-value或置信區間或貝葉斯因子等的二分法將研究結果分為統計顯著和統計不顯著兩個部分,而是應該把置信區間改為兼容性區間, 描述區間所有值的實際含義,尤
  • p.value和FDR
    最近用limma作差異分析,接觸p.value和adj.p.value比較多,今天就重點解釋下p.value和FDR吧:在topTable
  • 想不想體驗手動模擬計算p value的快感!
    最近剛結束生物統計課的助教生涯,想與大家分享一下非常非常非常形象的p value的計算方法,希望能加強大家的理解。無論是從事幹實驗還是溼實驗研究的人大概都知道p value是假設檢驗中進行檢驗決策的一個重要依據,一般以p value是否小於0.05來衡量是否具有統計學差異。
  • 差異表達基因時的Log2FC和FDR值的含義?
    轉錄組分析差異表達基因時,結果中會出現Log2FC和FDR值,這兩個是什麼意思呢?
  • (偽)從零開始學轉錄組(7):差異基因表達分析
    對於基因晶片的差異表達分析而言,由於普遍認為其數據是服從正態分布,因此差異表達分析無非就是用t檢驗和或者方差分析應用到每一個基因上。高通量一次性找的基因多,於是就需要對多重試驗進行矯正,控制假陽性。目前在基因晶片的分析用的最多的就是limma。
  • R語言添加p-value和顯著性標記
    "jco", add = "jitter") # 添加p-value, 默認是Wilcoxon testp+stat_compare_means()stat_compare_means(label.y = 50) # Add global p-value
  • 典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集
    我們這裡主要用limma包構建線性模型進行差異表達分析。這個包可以同時比較很多實驗組並且儘量維持其易用性。首先對每個基因的表達擬合一個線性模型,然後用經驗貝葉斯 (Empirical Bayes)或其他方法進行殘差分析獲得合適的t統計量,並針對小樣本實驗的方差估計進行優化,使得分析結果更加可靠。
  • 對於P_value的理解
    說到P值,就要先說為什麼要做檢驗,在工作中我們常做ABtest,檢驗方法其實只是為了驗證我們實驗結論的可信度。通常有t檢驗(用於樣本含量較小,倆樣本均數以及兩本均數與總體均數的之間的比較)、z檢驗(用於樣本含量較大,兩個平均數的差異是否顯著)、卡方檢驗(用於倆定類變量,實際觀測值和理論推導值的偏離程度)等~     通常,我們會設定原假設為H0,指兩樣本無差異,Ha為H0的補,指兩者有差異,而所謂P值:「p-value is the probability we get this sample or
  • R語言可視化學習筆記之添加p-value和顯著性標記
    jco", add = "jitter")#添加p-valuep+stat_compare_means()stat_compare_means(label.y = 50) # Add global p-value
  • 差異基因展示之對稱散點圖
    偶爾今天寫了個簡書;偶爾的偶爾,今天中午有點時間,那就搬運過來:之前大家展示差異基因最常用的是這個rm(list=ls())#清除環境變量setwd("")#設置工作路徑#讀取示例數據express <- read.delim('gene_diff.txt', sep = '\t')#RNA-seq差異分析後的數據
  • 【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value
    主題顯著還是不顯著,這是個問題 - p-value漫談在大數據的時代,海量的信息給各行各業帶來了前所未有的機遇,然而數據收集、存儲、查詢和分析等各個環節也都面臨新的挑戰。例如傳統的統計學方法如果直接應用於大數據的假設檢驗的話,就會得出所有的結果都具有統計顯著性的結論。假設檢驗和基於p-value的差異顯著性判斷長期以來在實踐中被大多數學者視為是統計學中的金科玉律,對p-value的過分依賴和誤解也是一個非常普遍的問題。在統計學內部關於p-value的討論也一直都是熱點。
  • R統計-微生物群落結構差異分析及結果解讀
    = c(p.value,ad$signif) } p.adjusted =p.adjust(p.value,method=p.adjust.m) pairw.res = data.frame(pairs, R, p.value,p.adjusted) return(pairw.res)} # 不需要更改pairwise.anosim(spe, group$grazing, sim.method
  • 一個簡單的轉錄組差異分析就走hub基因流程吧
    最簡單的當然是差異分析差異分析相信大家都不陌生了,基本上看我六年前的表達晶片的公共資料庫挖掘系列推文即可;差異分析的前提是數據合理,我們對轉錄組會要求相關性圖,主成分分析圖,帶有層次聚類的熱圖來說明組間差異是大於組內差異的
  • Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)
    ,本文將不會花費大量篇幅介紹這些基礎知識,而是重點帶來對alpha多樣性進行統計學分析並直接生成圖像的方法。Alpha多樣性差異檢驗在微生物群落的alpha多樣性指數分析中,最常用的就是利用統計學分析檢驗不同組樣本間微生物群落alpha多樣性指數的差異顯著性。兩組樣本分析當研究的樣本只有兩組時,一般使用t-test檢驗組間差異。
  • RNA-seq中的P value與Q value怎麼用?
    二代測序數據是典型的大數據,統計是數據分析的基礎。不同情況的P value估算是最常見的分析了。
  • P-Value--機器學習筆記
    讓我們來好好分析一下,看看連續2次頭朝上,算不算神奇。先看一下,一枚硬幣,連續拋2次,會發生什麼?按照一般經驗來說,p-value的值小於5%,算是稀奇。P-Value總是由3部分組成,1. 稀奇事兒本身的概率 2. 一樣稀奇其它事兒的概率 3. 更稀奇事兒的概率。再舉一個例子,你認為一朵花,特別稀奇。
  • 差異分析、顯著性標記及統計作圖的自動實現R代碼示例
    當原始數據不滿足方差分析的條件時,可以考慮轉化數據(如log轉換),看轉化後的數據是否滿足。或者更換為非參數的方法,這裡展示一個針對於非參數檢驗的方法示例,先執行Kruskal-Wallis檢驗比較整體差異,再執行Behrens-Fisher的非參數多重比較查看兩兩差異。本人的很多經驗學自《R語言實戰 第二版》,它的154頁有這一段話。
  • 計算差異表達分析方法(rna-seq)
    比較了11種RNA-seq數據的差異表達分析方法。