如何用R語言計算t檢驗,秩和檢驗和FDR校正

2020-11-21 CSDN技術社區

二項分布是重複n次的實驗,且每次實驗都是獨立的,只有兩種結果,並且相互對立的,生活中最常見的是投硬幣~~~在生物領域內也有很多符合此類分布的,如二倍體動物等位基因,來源於父本和母本的重組等。具體公式什麼的博主就不寫了,寫個關於ASE的例子吧。

# cat binom.r | R --slave --args <file>args <- commandArgs()fa <- read.table(args[4], header=FALSE, sep="\t")n1 = fa$V8n2 = fa$V12len = length(n1)pv = numeric(len)for(i in 1:len){pv[i] = 0if(n1[i] > n2[i]) pv[i]=binom.test(n1[i], n1[i]+n2[i], p=1/2, alternative="greater")$p.value else pv[i]=binom.test(n2[i], n1[i]+n2[i], p=1/2, alternative="greater")$p.value}qv <- p.adjust(pv, method="fdr")#fdr校正fa$pv = formatC(pv, digits=4)fa$fdr = formatC(qv, digits=4)write.table(fa, file=paste(args[4],".out",sep=""), sep="\t", col.names=FALSE, row.names=FALSE, quote=FALSE)

其實也不算是什麼例子,就是把過程寫下來熟悉一下寫法而已。

通過控制FDR(False Discovery Rate)來決定P值的域值。假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%。對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m。然後,挑選對應p(1),p(2),……,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。

相關焦點

  • r 秩和檢驗 - CSDN
    所述配對雙樣品的Wilcoxon檢驗一種的非參數檢驗,其可以被用於比較樣品的兩個獨立數據。 本文介紹如何在ř中計算兩個樣本的秩檢驗。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    但在現實中這種假設不可能滿足,於是衍生了一系列備選方法:使用lme4包中的lmer()函數擬合線性混合模型;使用car包中的Anova()函數調整傳統檢驗統計量以彌補球形假設的不滿足(例如Geisser-Greenhouse校正);使用nlme包中的gls()函數擬合給定方差-協方差結構的廣義最小二乘模型;用多元方差分析對重複測量數據進行建模。
  • R語言:t檢驗
    (不同自由度)了解r語言幾個函數:dt,pt,qt,rt分別與dnorm,rnorm,pnorm,qnorm和rnorm對應 > * dt() 的返回值是正態分布概率密度函數(density)> * pt()返回值是正態分布的分布函數(probability)> * 函數qt()的返回值是給定概率p後的下百分位數(quantitle)>
  • 基於R語言實現多組獨立樣本的非參數檢驗(Kruskal-Wallis秩和檢驗)及兩兩比較
    如果不服從正態分布,採用中位數(四分位數間距)進行統計描述,組間比較採用非參數檢驗(Kruskal-Wallis秩和檢驗),當組間總的有統計學差異,進一步採用Dunn法(也可以是其它方法)進行多重比較。我們想比較不同BMI組人群的年齡是否有差異,經正態性檢驗,年齡不符合正態分布,故選用非參數檢驗(Kruskal-Wallis秩和檢驗)。
  • 非參數中的秩和檢驗到底怎麼做的?
    文章來源: 丁點幫你微信公眾號作者:丁點helper今天,我們開始講非參數檢驗。對於非參數檢驗,大家可能主要是把它和「不符合正態分布」一起記憶的。剛開始學統計的時候,我們都知道:數據符合正態分布就用t檢驗,不符合就用非參數檢驗,更具體點,就是所謂的「秩和檢驗」。
  • r語言卡方檢驗算法_r語言符號檢驗算法 - CSDN
    correct是邏輯變量,TRUE(預設值)表示在計算檢驗統計量時用連續修正,FALSE是不用修正。    以上資料中有以人(即6號顧客)表示對咖啡和奶茶有同樣愛好,用0表示,因此在樣本容量中不加計算,所以實際上N=12.如果H0假設為真,那麼符合p為1/2的二項分布,如果H1為真,那麼顧客喜歡奶茶的人數小於理論值,al="l",因此用R軟體進行計算,顯著性水平取α = 0.10,    R語言代碼:    binom.test(3,12
  • 非參數檢驗-配對樣本的Wilcoxon符號秩和檢驗
    之前我們學習了單樣本的K-S檢驗常用來檢測數據是否滿足正態分布,並不是單樣本t檢驗的代替方法。
  • 第二十一章 秩和檢驗--第一節 配對資料的比較
    第二十一章 秩和檢驗   提要秩和檢驗是一種非參數統計方法。用於配對資料、兩組資料以及多組資料的比較。   前面討論的u檢驗、t檢驗和方差分析都是假定樣本的數據來自正態或近似正態分布的總體。在實際工作中往往碰到非正態資料或不了解現有的數據來自何種分布。
  • r語言檢驗 是否相關 - CSDN
    #分析:按題意,需檢驗#H0: μ ≤ 225 H1: μ > 225#此問題屬於單邊檢驗問題,可以使用R語言t.test#t.test(x,y=NULL,alternative=c(「two.sided」,「less」,「greater」),mu=0,paired=FALSE,var.equal=FALSE,conf.level=0.95
  • 多重檢驗校正與Bonferroni校正
    好久沒有更新了,趁著新學期第一次組會的餘熱開個頭~組會上提到了Bonferroni校正,查了查資料寫一篇mark一下。生物學研究中顯著性檢驗被廣泛應用於判斷樣本之間是否存在顯著的差異。而在很多情況下我們需要進行多次判斷,如判斷兩組樣本對應的10000個基因的表達量是否存在組間差異:基因A是否存在差異?基因B,C,D.. .. ..是否存在差異?如此就需要進行10000次比較。
  • 兩樣本t檢驗原理與R語言實現
    戈塞特先生作為一個擁有化學和數學兩個學位的牛津大學新秀,於1899年因化學專長進入愛爾蘭都柏林的吉尼斯釀造公司工作。戈塞特先生在公司解決的第一個難題是:如何準確測量一個瓶中酵母細胞的數量。一般情況下,工人會提取瓶中一定量的液體,在顯微鏡下觀察,計量他們所看到的酵母細胞的數量。但酵母會不斷的分裂和繁殖,且在瓶中不斷運動。因此,我們真正得到的是單位液體中酵母細胞的概率分布。
  • 第十三講 R-配對樣本Wilcoxon檢驗
    在第十二講 R-配對樣本t檢驗中,我們講到了配對樣本t檢驗的假設條件是兩組間差值分布需要符合正態性。如果配對兩組的數據相同,則其差值會關於零點對稱,對稱中心兩側數據的疏密和取負值的數據交錯出現,取正值數據在樣本絕對值樣本中的秩和與取負值數據在絕對值樣本中的秩和應近似相等,概率均為0.5。
  • 淺入淺出 | 學生t檢驗 (附qPCR計算升級版)
    假設檢驗假設檢驗這個東西,我們顧名思義,就是檢驗某一個假設,所以,這就很自然地引出兩個重點,欸對,兩個重點就是:我們可以這麼理解student t檢驗這個東西:我有兩組數據,A和B。這裡有兩個統計學的術語:除了T檢驗,還有別的檢驗,不同的檢驗都有對應的假設和檢驗方法,比如F-檢驗,卡方檢驗,秩和檢驗等,適用於不同的情況,有不同的目的,使用前要搞清楚。
  • 回歸係數顯著性t檢驗 - CSDN
    為響應變量觀測值的校正平方和。殘差平方和有n-2 個自由度,因為兩個自由度與得到(方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。,計算|t|,|t| ≥ tα/2  , 拒絕 H0|t| < tα/2  , 接受 H0
  • R語言統計篇:配對t檢驗
    單樣本t檢驗;2. 獨立樣本t檢驗;3. 配對t檢驗。往期文章介紹了單樣本t檢驗(R語言統計篇:單樣本t檢驗)以及獨立樣本t檢驗(R語言統計篇:獨立樣本t檢驗),今天介紹配對t檢驗(Paired t-test)。
  • t檢驗的目的_單樣本t檢驗的目的 - CSDN
    單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。若兩總體方差相等,則直接用t檢驗,若不等,可採用t』檢驗或變量變換或秩和檢驗等方法。 其中要判斷兩總體方差是否相等,就可以用F檢驗。
  • t檢驗 方差分析 - CSDN
    配對樣本t檢驗:配對樣本t檢驗可視為單樣本t檢驗的擴展,其實質就是對差值進行單樣本t檢驗。「分析」–「描述統計」–「探索」中進行)3.T檢驗的適用類型單樣本T檢驗:比較樣本均數和總體均數獨立樣本T檢驗:比較成組設計的兩個樣本,如比較兩個班學生的某科目成績配對樣本T檢驗:如用藥前和用藥後的兩個人群的樣本、同一樣品用兩種方法的比較,
  • t檢驗中t值的意義 - CSDN
    test (KS檢驗)適用:連續分布,擬合優度思想:依據總體分布狀況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到從分類變量進行分析的目的。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    本篇文章介紹基於R語言的相關性分析、相關係數的顯著性檢驗及可視化,該教程為個人筆記,大家也可參考學習,不足之處也歡迎大家批評指正!相關性分析用於評估兩個或多個變量之間的關聯,能通過定量指標描述變量之間的強弱、直接或間接聯繫。
  • r語言 用pearson擬合優度_r語言pearson 擬合優度 - CSDN
    correct是邏輯變量,TRUE(預設值)表示在計算檢驗統計量時用連續修正,FALSE是不用修正。    以上資料中有以人(即6號顧客)表示對咖啡和奶茶有同樣愛好,用0表示,因此在樣本容量中不加計算,所以實際上N=12.如果H0假設為真,那麼符合p為1/2的二項分布,如果H1為真,那麼顧客喜歡奶茶的人數小於理論值,al="l",因此用R軟體進行計算,顯著性水平取α = 0.10,    R語言代碼:    binom.test(3,12