醫咖會之前推送過一些卡方檢驗相關的文章,包括:卡方檢驗(2x2)、卡方檢驗(2xC)、配對卡方檢驗、分層卡方檢驗等。今天我們再和大家分享一下,如何用SPSS來做RxC列聯表的卡方檢驗。
研究者擬分析購房人與購房類型的關係,共招募了在過去12個月中有過購房記錄的333位受試者,收集了購房人類型(buyer_type)和房屋類型(property_type)的變量信息。
其中研究對象類型按照單身男性(single male)、單身女性(single female)、已婚兩人(married couple)和多人家庭(family)分類;房屋類型按照樓房(flat)、平房(bungalow)、獨棟別墅(detached house)和聯排別墅(terrace)分類,部分數據如下圖。
其中,Individual scores for each paticipant(左圖)列出了每一個研究對象的情況,而Total count data (frequencies)(右圖)則是對相同情況研究對象的數據進行了匯總。
研究者想分析多種購房人類型與多種房屋類型的關係,建議使用卡方檢驗(R×C),但需要先滿足3項假設:
假設1:存在兩個無序多分類變量,如本研究中購房人類型和房屋類型均為無序分類變量。
假設2:具有相互獨立的觀測值,如本研究中各位研究對象的信息都是獨立的,不會相互幹擾。
假設3:樣本量足夠大,最小的樣本量要求為分析中的任一期望頻數大於5。
本研究數據符合假設1和假設2,那麼應該如何檢驗假設3,並進行卡方檢驗(R×C)呢?
1. 數據加權
如果數據是匯總格式(如上圖中的Total count data),則在進行卡方檢驗之前,需要先對數據加權。如果數據是個案格式(如上圖中的Individual scores for each paticipant),則可以跳過「數據加權」步驟,直接進行卡方檢驗的SPSS操作。
數據加權的步驟如下:
在主頁面點擊Data→Weight Cases
彈出Weight Cases對話框後,點擊Weight cases by,激活Frequency Variable窗口。
將freq變量放入Frequency Variable欄,點擊OK。
2. 卡方檢驗(R×C)
在主頁面點擊Analyze→Descriptive Statistics→Crosstabs,彈出Crosstabs對話框。將變量buyer_type和property_type分別放入Row(s)欄和Column(s)欄。
點擊Statistics後,彈出的對話框中點擊Chi-square,並點擊Nominal欄中的Phiand Cramer’s V。
點擊Continue→Cells,在彈出的對話框中,點擊Counts欄Expected選項,並點擊Percentages欄中的Row和Column選項,Residuals欄中的Adjusted Standardized,點擊Continue→OK。
經上述操作,SPSS輸出預期頻數結果如下圖。
結果顯示,本研究最小的期望頻數是6.5,大於5,滿足假設3,具有足夠的樣本量。Chi-Square Tests 表格也對該結果做出提示,如下圖。
即在本研究中,沒有小於5的期望頻數,可以直接進行卡方檢驗(R×C)。
1. 統計描述
在進行卡方檢驗(R×C)的結果分析之前,我們需要先對研究數據有個基本的了解。SPSS輸出結果如下圖。
這個結果比較複雜,我們需要分類逐項獲取信息。首先從觀測值(Count行)開始,結果顯示不同類型購房人的實際購房類型。比如,單身男性(single male)主要購買樓房(flat)(40/68),如下圖。
再比如,相對於樓房(flat)(n=10)和平房(bungalow)(n=16),多人家庭(family)主要購買了獨棟別墅(detached house)(n=42)和聯排別墅(terrace)(n=39)。
同時,Crosstabulation表也匯報了各觀測值所佔的比例。
「% within buyer_type」行顯示的是:某類購房人的總購房量中,各房屋類型所佔的比例。比如,單身男性(single male)總購房量為68,樓房(flat)所佔比例為58.8%(40/68)。
而「% within property_type」行顯示的是某類型房屋總購房量中,各類購房人所佔的比例。比如,樓房類(flat)總購房量為96,購房人為單身男性(single male)所佔的比例為41.7%(40/96)。
2. 卡方檢驗(R×C)
本研究中任一期望頻數均大於5,所以根據Chi-Square Tests表格判斷各組的差別。
卡方檢驗(R×C)結果顯示χ2=82.504,P < 0.001,提示不同類型的購房者購買的房屋類型不同,購房人類型與房屋類型之間存在相關。
如果想了解購房人類型與房屋類型之間的相關強度,可以參看SPSS輸出的Symmetric Measures表格。
該表提示的Phi (φ)和Cramer's V係數均是提供分類變量相關強度的指數。但是Phi (φ)僅適用於2×2的數據格式,而Cramer's V係數的適用範圍較廣。當數據中只有2個二分量變量時,Cramer's V係數的結果與Phi (φ)相同。
針對本研究的數據情況,我們要關注Cramer's V係數。Cramer's V係數的取值範圍在0到1之間,數值越大相關性越強,具體對應關係見下圖。
可以看出購房人類型與房屋類型之間的弱強度相關,Cramer's V = 0.287,P < 0.001。
3. 卡方檢驗(R×C)中的Post hoc testing檢驗
卡方檢驗(R×C)的結果只能判斷各組之間是否存在差異,但不能說明具體是哪兩組之間有差異。因此,我們需要對結果進行更加深入的分析。這時,可以採用之前介紹過的卡方檢驗結果兩兩比較的方法(Bonferroni法調整α水平)。
但是,就R×C的數據結構而言,兩兩比較過於繁瑣,所以,我們建議使用Post hoc testing檢驗,根據調整後的標化殘差(adjusted standardized residuals)判斷各組的差異。
一般來說,調整後的標化殘差可以是正值,也可以是負值。正值說明觀測頻數大於期望頻數,負值說明觀測頻數小於期望頻數。
調整後的標化殘差服從均數為0,標準差為1的標準正態分布。因此,當調整後標化殘差的絕對值大於2時,我們就認為該數值的觀測頻數與期望頻數之間的差異存在統計學意義。這是因為,標準正態分布95%CI的邊界為1.96倍標準差(為了方便起見,可以選擇絕對值為2)。
由於涉及到多重比較,為了估計更加保守,可以選擇調整後標化殘差的絕對值以3為界。當大於3時,我們就認為該數值的觀測頻數與期望頻數之間的差異存在統計學意義[1-3]。
在上述SPSS的操作中,在Cells對話框,選擇Residuals欄中的Adjusted Standardized後,SPSS操作可輸出以下結果。
可見,單身男性(single male)和多人家庭(family)購買樓房(flat)的調整後標化殘差的絕對值最大。以單身男性購買樓房為例,觀測頻數比期望頻數大兩倍多,調整後標化殘差為6.1,差異存在統計學意義,說明單身男性傾向於購買樓房。
再比如,多人家庭(family)購買樓房(flat)的觀測值不到期望值的三分之一,調整後的標化殘差為-5.4,說明多人家庭類型的購買人不傾向於買樓房。
如果研究數據中只有幾個調整後的標化殘差絕對值大於3,我們可以逐個匯報這些結果。但是在本研究中,有8個大於3,不方便逐一說明,我們建議使用表格形式向讀者展示結果,如下圖。
本研究招募了在過去12個月中有過購房記錄的333位研究對象,分析購房人與購房類型的關係。結果顯示,本研究任一期望頻數均大於5,可以採用卡方檢驗,χ2=82.504,P < 0.001,提示不同類型的購房人所購買的房屋類型不同。購房人類型與房屋類型之間存在弱強度相關,Cramer's V = 0.287,P < 0.001。本研究各組之間Post hoc testing檢驗結果,詳見表1。
參考文獻
1. Agresti, A. (2002). Categorical Data Analysis (2nd Ed.). New York: Wiley. (the definition is on page 81.)
2. http://www.statisticshowto.com/what-is-a-standardized-residuals/
3. https://www-304.ibm.com/support/docview.wss?uid=swg21479605
(如果想使用文中數據進行練習,請使用電腦打開以下網址:
http://www.mediecogroup.com/method_article_detail/73/
點擊左側「數據下載」免費下載原始數據)
關注醫咖會,輕鬆學習統計學~
有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。如果想進群,添加小咖時請註明「加群」二字。
點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些統計教程。