SPSS超詳細操作:卡方檢驗(R*C列聯表)

2021-02-20 醫咖會

醫咖會之前推送過一些卡方檢驗相關的文章,包括:卡方檢驗(2x2)、卡方檢驗(2xC)、配對卡方檢驗、分層卡方檢驗等。今天我們再和大家分享一下,如何用SPSS來做RxC列聯表的卡方檢驗。

研究者擬分析購房人與購房類型的關係,共招募了在過去12個月中有過購房記錄的333位受試者,收集了購房人類型(buyer_type)和房屋類型(property_type)的變量信息。

其中研究對象類型按照單身男性(single male)、單身女性(single female)、已婚兩人(married couple)和多人家庭(family)分類;房屋類型按照樓房(flat)、平房(bungalow)、獨棟別墅(detached house)和聯排別墅(terrace)分類,部分數據如下圖。

其中,Individual scores for each paticipant(左圖)列出了每一個研究對象的情況,而Total count data (frequencies)(右圖)則是對相同情況研究對象的數據進行了匯總。

研究者想分析多種購房人類型與多種房屋類型的關係,建議使用卡方檢驗(R×C),但需要先滿足3項假設:

假設1:存在兩個無序多分類變量,如本研究中購房人類型和房屋類型均為無序分類變量。

假設2:具有相互獨立的觀測值,如本研究中各位研究對象的信息都是獨立的,不會相互幹擾。

假設3:樣本量足夠大,最小的樣本量要求為分析中的任一期望頻數大於5。

本研究數據符合假設1和假設2,那麼應該如何檢驗假設3,並進行卡方檢驗(R×C)呢?

1. 數據加權

如果數據是匯總格式(如上圖中的Total count data),則在進行卡方檢驗之前,需要先對數據加權。如果數據是個案格式(如上圖中的Individual scores for each paticipant),則可以跳過「數據加權」步驟,直接進行卡方檢驗的SPSS操作。

數據加權的步驟如下:

在主頁面點擊Data→Weight Cases

彈出Weight Cases對話框後,點擊Weight cases by,激活Frequency Variable窗口。

 

將freq變量放入Frequency Variable欄,點擊OK。

2. 卡方檢驗(R×C)

在主頁面點擊Analyze→Descriptive Statistics→Crosstabs,彈出Crosstabs對話框。將變量buyer_type和property_type分別放入Row(s)欄和Column(s)欄。

 

點擊Statistics後,彈出的對話框中點擊Chi-square,並點擊Nominal欄中的Phiand Cramer’s V。

 

點擊Continue→Cells,在彈出的對話框中,點擊Counts欄Expected選項,並點擊Percentages欄中的Row和Column選項,Residuals欄中的Adjusted Standardized,點擊Continue→OK。

 

經上述操作,SPSS輸出預期頻數結果如下圖。

結果顯示,本研究最小的期望頻數是6.5,大於5,滿足假設3,具有足夠的樣本量。Chi-Square Tests 表格也對該結果做出提示,如下圖。

即在本研究中,沒有小於5的期望頻數,可以直接進行卡方檢驗(R×C)。

1. 統計描述

在進行卡方檢驗(R×C)的結果分析之前,我們需要先對研究數據有個基本的了解。SPSS輸出結果如下圖。

這個結果比較複雜,我們需要分類逐項獲取信息。首先從觀測值(Count行)開始,結果顯示不同類型購房人的實際購房類型。比如,單身男性(single male)主要購買樓房(flat)(40/68),如下圖。

再比如,相對於樓房(flat)(n=10)和平房(bungalow)(n=16),多人家庭(family)主要購買了獨棟別墅(detached house)(n=42)和聯排別墅(terrace)(n=39)。

同時,Crosstabulation表也匯報了各觀測值所佔的比例。

「% within buyer_type」行顯示的是:某類購房人的總購房量中,各房屋類型所佔的比例。比如,單身男性(single male)總購房量為68,樓房(flat)所佔比例為58.8%(40/68)。

而「% within property_type」行顯示的是某類型房屋總購房量中,各類購房人所佔的比例。比如,樓房類(flat)總購房量為96,購房人為單身男性(single male)所佔的比例為41.7%(40/96)。

2. 卡方檢驗(R×C)

本研究中任一期望頻數均大於5,所以根據Chi-Square Tests表格判斷各組的差別。

 

卡方檢驗(R×C)結果顯示χ2=82.504,P < 0.001,提示不同類型的購房者購買的房屋類型不同,購房人類型與房屋類型之間存在相關。

如果想了解購房人類型與房屋類型之間的相關強度,可以參看SPSS輸出的Symmetric Measures表格。

該表提示的Phi (φ)和Cramer's V係數均是提供分類變量相關強度的指數。但是Phi (φ)僅適用於2×2的數據格式,而Cramer's V係數的適用範圍較廣。當數據中只有2個二分量變量時,Cramer's V係數的結果與Phi (φ)相同。

針對本研究的數據情況,我們要關注Cramer's V係數。Cramer's V係數的取值範圍在0到1之間,數值越大相關性越強,具體對應關係見下圖。

可以看出購房人類型與房屋類型之間的弱強度相關,Cramer's V = 0.287,P < 0.001。

3. 卡方檢驗(R×C)中的Post hoc testing檢驗

卡方檢驗(R×C)的結果只能判斷各組之間是否存在差異,但不能說明具體是哪兩組之間有差異。因此,我們需要對結果進行更加深入的分析。這時,可以採用之前介紹過的卡方檢驗結果兩兩比較的方法(Bonferroni法調整α水平)。

但是,就R×C的數據結構而言,兩兩比較過於繁瑣,所以,我們建議使用Post hoc testing檢驗,根據調整後的標化殘差(adjusted standardized residuals)判斷各組的差異。

一般來說,調整後的標化殘差可以是正值,也可以是負值。正值說明觀測頻數大於期望頻數,負值說明觀測頻數小於期望頻數。

調整後的標化殘差服從均數為0,標準差為1的標準正態分布。因此,當調整後標化殘差的絕對值大於2時,我們就認為該數值的觀測頻數與期望頻數之間的差異存在統計學意義。這是因為,標準正態分布95%CI的邊界為1.96倍標準差(為了方便起見,可以選擇絕對值為2)。

由於涉及到多重比較,為了估計更加保守,可以選擇調整後標化殘差的絕對值以3為界。當大於3時,我們就認為該數值的觀測頻數與期望頻數之間的差異存在統計學意義[1-3]。

在上述SPSS的操作中,在Cells對話框,選擇Residuals欄中的Adjusted Standardized後,SPSS操作可輸出以下結果。

 

可見,單身男性(single male)和多人家庭(family)購買樓房(flat)的調整後標化殘差的絕對值最大。以單身男性購買樓房為例,觀測頻數比期望頻數大兩倍多,調整後標化殘差為6.1,差異存在統計學意義,說明單身男性傾向於購買樓房

 

再比如,多人家庭(family)購買樓房(flat)的觀測值不到期望值的三分之一,調整後的標化殘差為-5.4,說明多人家庭類型的購買人不傾向於買樓房

 

如果研究數據中只有幾個調整後的標化殘差絕對值大於3,我們可以逐個匯報這些結果。但是在本研究中,有8個大於3,不方便逐一說明,我們建議使用表格形式向讀者展示結果,如下圖。

本研究招募了在過去12個月中有過購房記錄的333位研究對象,分析購房人與購房類型的關係。結果顯示,本研究任一期望頻數均大於5,可以採用卡方檢驗,χ2=82.504,P < 0.001,提示不同類型的購房人所購買的房屋類型不同。購房人類型與房屋類型之間存在弱強度相關,Cramer's V = 0.287,P < 0.001。本研究各組之間Post hoc testing檢驗結果,詳見表1。

參考文獻

1. Agresti, A. (2002). Categorical Data Analysis (2nd Ed.). New York: Wiley. (the definition is on page 81.)

2. http://www.statisticshowto.com/what-is-a-standardized-residuals/

3. https://www-304.ibm.com/support/docview.wss?uid=swg21479605

(如果想使用文中數據進行練習,請使用電腦打開以下網址:

http://www.mediecogroup.com/method_article_detail/73/

點擊左側「數據下載」免費下載原始數據)

關注醫咖會,輕鬆學習統計學~

有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。如果想進群,添加小咖時請註明「加群」二字。

點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些統計教程

相關焦點

  • spss卡方_spss卡方檢驗 - CSDN
    spss交叉表分析方法與步驟: 1、在spss中打開數據,然後依次打開:analyze--descriptive--crosstabs,打開交叉表對話框 2、將性別放到行列表,將對讀物的選擇變量放到列,這樣就構成了一個交叉表
  • 1151期-3:【統計】卡方檢驗詳細講解
    1四格表資料的卡方檢驗用於進行兩個率或兩個構成比的比較應用條件:要求樣本含量應大於40且每個格子中的理論頻數不應小於5。而多個率的兩兩比較可採用行×列表分割的辦法SPSS操作步驟:操作與四格表操作一致3、列聯表資料的卡方檢驗同一組對象,觀察每一個個體對兩種分類方法的表現,結果構成雙向交叉排列的統計表就是列聯表。
  • 卡方檢驗在實際工作中的應用
    在列聯表中,由於行或列總數一定,因此行或列中受限制條件數為1,列聯表總df=(行數-1)×(列數-1)。e.g. 2×2列聯表中df=1,在3×2列聯表中df=2(3)結合df及p值確定χ2分布中的臨界值,與計算所得χ2值比較e.g. df=1,p值為0.05情況下,χ2臨界值為3.84如果我們計算所得的χ2值>3.84
  • 「spss數據分析系列」卡方檢驗-2x2
    前面的t檢驗都是對均值的分析,這類分析主要是針對於連續性變量,比如身高,溫度,降雨量等,但是如果針對於分類變量的差異分析怎麼分析呢,這裡就用到了我們所說的卡方檢驗,但是卡方檢驗對應的情況有很多種,這裡我將第一種,就是2x2的表格,2x2意思就是兩個變量都是2分類的變量。
  • 卡方檢驗適用條件及R*C交叉表 - CDA數據分析師
    >以上n代表總的樣本量,如果是四格表卡方檢驗,就是兩組人群之和,如下圖,常用的符號了解一下:上述表格也稱」四格表「明白了卡方檢驗的適用條件,我們來看看什麼是R*C交叉表檢驗,以前的教材也叫R*C列聯表。
  • 給大家推薦一款輕便的RC列聯表卡方統計分析工具
    1在這裡啦:自編的RC列聯表統計分析軟體(卡方檢驗、Fisher精確檢驗等)http://blog.sina.com.cn/s/blog_44befaf60101gx31.html▇原文:列聯表分析在統計中用應用範圍很廣泛,出於簡單易用考慮,(王老師)編寫了一個列聯表統計軟體。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    本章中將學習如何對多種統計檢驗進行功效分析,包括比例檢驗、t檢驗、卡方檢驗、平衡的單因素ANOVA、相關性分析,以及線性模型分析。由於功效分析針對的是假設檢驗,我們將首先簡單回顧零假設顯著性檢驗(NHST)過程,然後學習如何用R進行功效分析,主要關注於pwr包。
  • 【物理師科研小助手】SPSS統計軟體基本操作——卡方檢驗
    卡方檢驗主要應用於無序分類變量的假設檢驗,用於比較分類變量在不同分組中的分布是否相同,其核心思想就是比較觀察頻數和期望頻數之間是否存在差異
  • 卡方檢驗最全總結
    資料類型詳細步驟 → 【卡方檢驗】核心步驟詳細步驟 →【卡方檢驗之兩兩比較】核心步驟勾選「Bonferroni」資料類型,下面為2 X 2表格,也可有R X R列聯表當樣本量較小時,應使用Fisher確切概率法詳細步驟 →【配對設計的卡方檢驗】核心步驟 勾選「McNemar」
  • 卡方檢驗結果分析專題及常見問題 - CSDN
    R語言卡方檢驗與結果可視化1,卡方分析簡介與實例2,R語言chisq.test()3,基於ggstatsplot包的可視化分析卡方分析簡介與實例:卡方檢驗是生物學中應用很廣的一種假設檢驗,可以通過對構成比,率進行檢驗,進而判斷分類資料間的偏差程度。
  • 【1007】R*C卡方的Fisher確切概率法為什麼會有卡方值
    一位老師問松哥:Fisher確切概率法計算的直接是P值,可是為什麼R×C表的Fisher確切概率法,卻有卡方值,這到底是怎麼回事呢?
  • r語言卡方檢驗算法_r語言符號檢驗算法 - CSDN
    chisq.test(Y,p=p)   提示結果可能不準確,因為皮爾森卡方擬合由度檢驗要求分組後每組的頻數至少要大於等於5,而後三組中出現的頻率分別為3,2,    3.2.2.列聯表數據的檢驗    例10.
  • 卡方檢驗和精確概率法及兩兩比較
    對於只會SPSS軟體的同學來說,做兩兩比較的卡方檢驗或精確概率法時,需要一次次選擇個案,一次次點菜單,太浪費時間和精力。用R軟體的優勢在於做兩兩比較時,不用再一次一次點菜單了,直接用幾行命令就可以了。我們想看看不同工作崗位的男女比例是否有差異。
  • Stata第六章 卡方檢驗
    [,allchi2exactcellcolumnrow]·列聯表分析>)檢驗,似然比(likelihoodratio)檢驗 以及一些統計描述指標和檢驗,但不包括Fisher精確檢驗;exact表示Fisher精確檢驗;chi2表示 c2檢驗;lichi2表示likelihoodratio檢驗;cell表示輸出的列聯表中顯示每個觀察計數值佔該列聯表總觀察計數值的比例;row
  • 教程| 傻瓜式SPSS數據分析1:卡方檢驗
    今天分享的是「卡方檢驗」。什麼時候要用到卡方檢驗?例:甲班有35個男生,98個女生;乙班有45個男生,31個女生。這兩個班級的男女比例有差異嗎?此處需注意,上面的例子中有2個分組,一個是班級分組(甲、乙班,表中第一列1,1,2,2,即是),一個是性別(男、女,表中1,2,1,2即是)。所以要按照兩種分組分別輸入數據,如圖所示:
  • 卡方檢驗多種用途總結
    操作步驟:(1)卡方擬合優度檢驗支持兩種數據格式:整理後的加權數據 或 原始數據。處理好數據後,上傳數據到SPSSAU,開始分析。(2)選擇【實驗/醫學研究】→【卡方優度檢驗】。交叉卡方卡方優度檢驗是對一個分類變量的檢驗,在實際研究中,研究兩組分類變量的關係更加常見,例如想要了解閱讀習慣與學歷是否有關,此時可使用交叉表卡方分析。
  • 生物統計專題:用R進行獨立性檢驗的4種方法
    上期內容回顧上期介紹了一維列聯表、二維列聯表及多維列聯表的生成方法,對本期獨立性檢驗和卡方檢驗有重要意義,下面一起回顧一下吧:1、一維列聯表:調用table()函數,還可以使用prop.table()函數獲取頻率統計表
  • 科研SPSS統計思維實戰研討會
    78) 卡方分布與卡方檢驗及SPSS如何實現?79) 線性回歸的步驟及思維邏輯是怎樣的?80) 何為多重共線性?85) 如何進行獨立樣本四格表資料的卡方檢驗?86) 如何進行多個獨立樣本R×C列聯表資料的卡方檢驗?
  • T檢驗、F檢驗和卡方檢驗
    T檢驗、F檢驗、卡方檢驗是統計學中常見的假設檢驗,今天記錄下這幾個假設檢驗的原理和應用場景。
  • 六西格工具之卡方(Chi-square)檢驗
    什麼是卡方(Chi-square)檢驗     卡方(Chi-Square)檢驗,被譽為二十世紀科學技術所有分支中的20大發明之一,它的發明者是英國的數學家卡爾·皮爾遜(Karl Pearson)。     卡方(Chi-Square)檢驗是當影響因子(X)和結果(Y)是分類/屬性數據時的一種假設檢驗。