生物統計專題:用R進行獨立性檢驗的4種方法

2021-02-20 R語言中文網

 提示:點擊上方"R語言中文網"↑掌握更多資源

上期內容回顧

上期介紹了一維列聯表、二維列聯表及多維列聯表的生成方法,對本期獨立性檢驗和卡方檢驗有重要意義,下面一起回顧一下吧:

1、一維列聯表:調用table()函數,還可以使用prop.table()函數獲取頻率統計表;

2、二維列聯表:調用table()函數,xtabs()函數(在有頻率的數據表中很有用),gmodels包中的CrossTable()函數;

3、多維列聯表:直接調用table()函數,xtabs()函數。

溫馨提示如果感到有些陌生,那就趕快翻開公眾號歷史消息溫習一下~溫故而知新哦~

本期內容導讀

學會了列聯表的生成,下面便進入了以列聯表為基礎的獨立性檢驗與卡方檢驗,‍主要檢驗變量之間是否獨立或相關。

示例數據:

本期採用的數據為R中自帶的數據集HairEyeColor,該數據集是一個三維數列,包含了592名學生的頭髮顏色、眼睛顏色以及性別的信息。

這裡將數據轉化為數據框,方便查看。

1、卡方獨立性檢驗

調用函數

chisq.test(x, y, correct=TRUE)

參數解釋:x,y均為向量,當然也可直接將處理好的列聯表名稱代替x,y;correct表示是否應用連續性矯正。

函數調用示例如下:

按照α=0.05的標準來看,這裡的P值較小,落在拒絕域,意味著在統計意義上,頭髮顏色與性別不獨立。

2、Fisher精確檢驗

調用函數

fisher.test(x, y, alternative)

參數解釋:x,y同上;alternative可以選擇進行單尾(「greater」、「less」)還是雙尾檢驗(「two.sided」)。

函數調用示例如下:

按照α=0.05的標準來看,這裡的P值在拒絕域中,意為頭髮顏色與性別不獨立,與上面的結果一致。

3、CMH檢驗

CMH檢驗(Cochran-Mantel-Haenszel卡方檢驗)指的是在兩個名義變量(x,y)在第三個變量(z)的每個水平下是否獨立。

調用函數

mantelhaen.test(x, y, z, alternative, correct)

參數解釋:x,y均為向量,當然也可直接將處理好的列聯表名稱代替x,y;z為向量,代表以上概念中的第三個變量;correct表示是否應用連續性矯正;alternative可以選擇進行單尾(「greater」、「less」)還是雙尾檢驗(「two.sided」)。

注意這種檢驗方法假設不存在三個變量的交互作用。

函數調用示例如下:

現在的檢驗驗證了在不同的性別條件下瞳孔顏色與頭髮顏色是否獨立,結果拒絕零假設,即兩個變量是不獨立的,結果表明不同群體間,瞳孔顏色和頭髮顏色有關,生物學上可能存在某些基因影響瞳孔和頭髮顏色。

4、上期補充

當然上一期中提到了gmodels包中的CrossTable()函數,它將生成列聯表以及相應的檢驗(卡方檢驗、Fisher精確檢驗)集成在一起。

調用函數

CrossTable(x, y, digits, prop.chisq, chisq, fisher, …)

參數解釋:x, y為兩個變量,digits為結果的小數位數,prop.chisq、fisher等參數是能夠在生成表的同時進行相應的檢驗。

函數調用示例如下:

這裡的結果,與上面幾個例子相同,故不再贅述。

延伸拓展:

1、vcd數據包中有一個Arthritis數據集,記錄了風溼性關節炎的雙盲臨床試驗的結果,請驗證治療情況(Treatment)和改善情況(Improved)是否相互獨立?

2、與1同樣數據集中,在性別的各種水平下,兩變量(Treatment、Improved)是否相互獨立?

下期預告:

本期就到這裡,下期將會介紹相關係數及相關性檢驗,歡迎大家圍觀!

☆關注我們☆

R語言中文網是國內最大、人數最多的R語言學習樂園。以微教學為主,圖文並茂,實戰實例,點滴間積累所有技能。快快關注我們吧~

—官方網站—

R語言中文網 www.r-china.net

—官方QQ群—

R語言中文論壇-2(1000人群):427060123

R語言中文論壇(2000人群,已滿):74076289

Biostatistician(500):186701945

—官方微博—

新浪微博:@R語言中文網官網

—官方微信—

微信名:R語言中文網 微信號:rchinanet

相關焦點

  • R與生物專題 | 第六講 R-數據正態分布檢驗
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 管理心理學之統計(24)獨立性的卡方檢驗
    卡方也可以被用於檢驗兩個變量間是否存在關係。這種情況下,樣本中的每個個體被歸入兩個不同的變量,通常用矩陣表示。行與一個變量類別相對應,列與另一個變量類別相對應。矩陣的每個單元中的數字表示特定組的頻數。1.獨立性檢驗的虛無假設獨立性卡方檢驗的虛無假設為:被測量的兩個變量是獨立的。這個假設可以被分成兩個不同的概念形式A. 數據被看作一個樣本,每個個體都有在兩個變量上的測量值。例如,H0:對於學生的一般總體,在顏色喜好與性格之間不存在關係。
  • 管理心理學之統計(25)獨立性卡方檢驗的效應假設限定與特殊應用
    B.期望頻數的大小任意一個單元的期望頻數小於5時,不應該使用卡方檢驗。較小的分母fe值會對總卡方值造成較大印象。避免的方法是使用較大的樣本。3.卡方檢驗的特殊應用卡方檢驗是一種非參數檢驗。雖然非參數檢驗有自己的獨特功能,但也可以被看作是參數檢驗的一個代替方法。3.1卡方與皮爾遜相關獨立性卡方檢驗與皮爾遜相關都是用來評估兩個變量間關係的統計技術。當兩個變量由等距或等比量表得到的數值組成時,應使用皮爾遜相關。如果數據是由將個體歸類到類別中得到的稱名或順序量表的測量數據,應使用獨立性卡方檢驗。
  • 3.2獨立性檢驗的基本思想及其初步應用教學設計
    3.2獨立性檢驗的基本思想及其初步應用教學設計1.教學內容與內容解析在在人教A版《數學2-3(選修)》第二章之後,學生已經學習了兩個事件獨立的判斷方法。本冊第3章第2節「獨立性檢驗的基本思想及其初步應用」這一節中進一步介紹獨立性檢驗的基本思想及其初步應用.這部分內容《教師用書》共計3課時,第一課時:介紹判斷兩個分類變量有關係的直觀方法;第二課時:從事件的獨立角度分析兩個分類變量有關係的判斷方法,建立獨立性檢驗的基本步驟;第三課時:對比反證法對獨立性檢驗做進一步分析及習題鞏固. 本節課是第二課時的內容.
  • R與生物專題 | 第七講 R-相關性分析及作圖
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。以從淺入深,層層遞進的形式在投必得學術公眾號更新。可以使用Shapiro-Wilk test進行檢查。小編將描述幾種相關性分析的方法,並提供示例。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    可以證明r的t統計量服從自由度為n-2的t分布:範例分析某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的數據,列入下表中,根據這些數據對回歸方程相關係數r在顯著水平0.05做雙側檢驗。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    但在現實中這種假設不可能滿足,於是衍生了一系列備選方法:使用lme4包中的lmer()函數擬合線性混合模型;使用car包中的Anova()函數調整傳統檢驗統計量以彌補球形假設的不滿足(例如Geisser-Greenhouse校正);使用nlme包中的gls()函數擬合給定方差-協方差結構的廣義最小二乘模型;用多元方差分析對重複測量數據進行建模。
  • R語言從入門到精通:Day10-R語言統計入門代碼大全
    在計算好相關係數以後,如何對它們進行統計顯著性檢驗呢? 函數cor.test()可以對單個的Pearson、Spearman和Kendall相關係數進行檢驗。cor.test()每次只能檢驗一種相關關係。但幸運的是,psych包中提供的corr.test()函數可以一次做更多事情,並且用法類似。psych包中的pcor.test()函數可以用於偏相關性係數的顯著性檢驗。另外,psych包中的r.test()函數提供了多種實用的顯著性檢驗方法。
  • 回歸方程的擬合優度檢驗 - CSDN
    相信大家如果學過高中生物,都知道孟德爾——遺傳學之父,當時他根據顏色和形狀把豌豆分為四類:黃圓、綠圓、黃皺和綠皺.孟德爾根據遺傳學原理判斷這四類的比例應為9:3:3:1.為做驗證,孟德爾分別統計了這四類豌豆的個數,正是利用檢驗證明了這令人激動的結論在處理分類數據時,這些類別值本身對統計檢驗沒有多大用處,比如像「男性」、「女性」和「其他」這樣的類別數據沒有任何數學意義。
  • 統計檢驗:實證會計研究方法的核心
    一、統計檢驗與實證會計研究方法之關係  有比較才能有鑑別。為認清實證會計研究方法的特點,我們不妨先把它和傳統的規範會計作一考察對比。  而實證研究中所說的假設,是對所研究問題的結果或狀態的一種預期,需要通過假設檢驗,用證據判斷其真偽。也就是說,經過實證研究,開始時提出的假設,最終可能因得到實際資料的支持而被認可,也可能,由於實際資料不支持而被拒絕。若一個假設可以用統計方法加以檢驗的話,則這種假設就可視為能夠檢驗的,也就是「可證偽的」,當然,並非它一定會被證偽。
  • 回歸分析檢驗_回歸分析中f檢驗和t檢驗 - CSDN
    不同的卡方檢驗使用不同的計算公式計算統計量,卡方檢驗都假設其使用的統計量服從卡方分布。對分類數據進行分析的統計方法主要是利用卡方分布,也被稱作卡方檢驗。卡方檢驗的應用主要表現在兩個方面,分別是擬合優度檢驗和獨立性檢驗,前者用於單變量,後者用於雙變量。
  • 卡方檢驗相關性專題及常見問題 - CSDN
    過濾式方法是先按照某種規則對數據集進行特徵選擇,然後再訓練學習器,特徵選擇過程與後續學習器無關,這相當於先用特徵選擇過程對初始特徵進行「過濾」,再用過濾後的特徵來訓練模型。相關係數法、卡方檢驗法和互信息法是進行特徵選擇時常用的幾種過濾式方法。
  • t檢驗回歸方程專題及常見問題 - CSDN
    (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。)  拒絕原假設也有兩種情況,一種是直線模型就是合適的,如圖 3,另一種情況為存在 x 對 y 的線性影響,也可通過 x 的高階多項式得到更好的結果,如圖 4。
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    輸出結果中的F 統計量檢驗所有的預測變量預測響應變量是否都在某個機率水平之上。由於簡單回歸只有一個預測變量,此處F檢驗等同於身高回歸係數的t檢驗。  但是,沒有任何輸出告訴我們模型是否合適,對模型參數推斷的信心依賴於它在多大程度上滿足OLS模型統計假設(這將決定回歸分析得出的模型應用到真實世界中時的預測效果)。下面我們要對模型進行診斷(回歸診斷)。  R基礎安裝中提供了大量檢驗回歸分析中統計假設的方法。
  • 活動紀實丨12月23日高中數學聯研項目「利用成對數據進行獨立性...
    12月23日下午,由中國教師研修網舉辦的「基於核心素養的中學數學教學策略與方法行動研究」項目——「利用成對數據進行獨立性檢驗 提升學生數據分析素養」主題教研活動在北京市昌平區第二中學如期舉行  ▎北京師範大學良鄉附屬中學王曉正老師現場授課《獨立性檢驗》  王老師從現實生活中的問題出發引入課堂主題,讓學生思考如何判斷兩個隨機事件的獨立性,教師從統計的思想出發讓學生經歷統計數據
  • 使用非參數統計檢驗進行分析的指南
    問題是沒有人告訴你如何進行像假設檢驗這樣的分析。統計檢驗用於制定決策。為了使用中位數進行分析,我們需要使用非參數檢驗。非參數測試是分布獨立的檢驗,而參數檢驗假設數據是正態分布的。說參數檢驗比非參數檢驗更加的臭名昭著是沒有錯的,但是前者沒有考慮中位數,而後者則使用中位數來進行分析。接下來我們就進入非參數檢驗的內容。
  • r 秩和檢驗 - CSDN
    可以按組計算匯總統計數據(中位數和四分位數間距(IQR))。在這裡,我們將使用ggpubr R包進行基於ggplot2的簡單數據可視化從GitHub上的安裝最新版本的ggpubr如下(推薦):# 安裝if(!
  • 第十三講 R-配對樣本Wilcoxon檢驗
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 一元線性回歸顯著性檢驗專題及常見問題 - CSDN
    (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。)  拒絕原假設也有兩種情況,一種是直線模型就是合適的,如圖 3,另一種情況為存在 x 對 y 的線性影響,也可通過 x 的高階多項式得到更好的結果,如圖 4。
  • r 平穩性檢驗 語言_r語言平穩性檢驗方法 - CSDN
    協整檢驗是為了檢驗非平穩序列的因果關係,協整檢驗是解決偽回歸為問題的重要方法。利用最小二乘法對回歸方程進行估計,從回歸方程中提取殘差進行檢驗。(VAR)模型進行檢驗的方法,適用於對多重一階單整I(1)序列進行協整檢驗。