通常情況下,卡方檢驗是研究分類數據與分類數據之間關係的分析方法,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0.05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯繫。在具體差異分析的基礎上,進一步分析不同性別樣本戴隱形眼鏡的百分比,例如,男性戴隱形眼鏡的百分比為30%,而女性戴隱形眼鏡的百分比為50%,說明女性樣本戴隱形眼鏡的比例要明顯高於男性樣本。
除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以檢驗定類數據的分布特徵是否與預期保持一致。比如本來預計男性和女性的比例各佔一半(50%),但收集回來的數據卻是45%和55%,那麼收集回來的數據是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。
卡方檢驗在實際使用過程中,還可用於問卷多選題的分析(也稱作多重響應分析),比如多選題的選擇比例是否均勻,也或者單選題和多選題之間的差異關係情況如何呢,均可使用卡方檢驗進行分析。下表格為卡方檢驗的實際使用類型說明:
卡方檢驗實際應用
1卡方檢驗理論說明
通常理解的卡方檢驗,其檢驗目的在於定類和定類數據的差異。比如性別和是否戴眼鏡的關係,性別和是否戴眼鏡都是定類數據,因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。
除此之外,還有一種卡方檢驗(準確說是卡方擬合優度檢驗),其目的是研究定類數據各選項的分布比例上是否有著差異性,比如性別男和女預期是50%和50%,那事實上的樣本是否明顯的偏離這一比例呢,這種即卡方擬合優度檢驗。
在問卷研究裡面,有很多的多選題,多選題各項的比例是否均勻呢?那麼就可以利用卡方擬合優度檢驗進行分析(SPSSAU默認提供);如果想研究單選題和多選題的選擇差異關係,那麼這種是研究定類數據和定類數據的差異性,SPSSAU默認也提供卡方檢驗結果。
2 如何使用SPSSAU進行卡方檢驗
卡方檢驗SPSSAU操作
1) 絕大多數情況下,均是直接研究定類和定類數據差異,SPSSAU共有兩個地方可實現,分別是通用方法裡面的「交叉(卡方)」和醫學研究裡面的卡方檢驗。如果是匯總數據,即加權數據,此時只能使用醫學研究裡面的卡方檢驗,同時,如果希望提供更多詳細的數據指標,比如自由度,列聯繫數,Cramer V等,均需要使用醫學研究裡面的卡方檢驗。
2) 如果是進行卡方擬合優度檢驗,即研究定類數據選項佔比差異,此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示:
默認SPSSAU會假定選項的選擇比例完全一致,即男和女的比例是50%和50%。如果預期是40%和60%,那麼可對「期望值設置(默認相等)」這個按鈕進行設置,如下圖:
3) 如果是問卷研究裡面的多選題操作,直接使用SPSSAU問卷研究裡面對應多選題的按鈕即可,比如下圖:
如果是希望研究多選題的選擇比例和選擇差異情況,那麼直接使用『多選題』;
如果是研究單選題和多選題的差異情況,使用『單選-多選』;
如果是研究多選題和單選題的差異情況,使用『多選-單選』;
如果是研究多選題和多選題的差異情況,使用『多選-多選』;
特別說明一點:多選題的數據格式非常特殊,一個選項一個標題,比如5個選項就有5個標題,而且需要使用數字標識『選中』還是『沒有選中』,一般情況下數字1表示『選中』,數字0表示『沒有選中』。
如果原始數據使用數字表示選中,null值表示沒有選中,那麼需要把null值全部替換成數字0,可使用SPSSAU數據處理->異常值功能進行批量處理,把null值即缺失值填補成數字0即可。
3 卡方檢驗相關問題?
使用卡方檢驗時,數據格式非常重要,因為SPSSAU支付加權和非加權兩種格式,而且有時想利用卡方檢驗查看相關關係情況,此時還需要看一些新的指標,比如列聯繫數、Cramer V或Lambda指標等。當然還會有一些其它問題,匯總如下圖:
第1點:卡方檢驗數據格式問題?
SPSSAU共支持2種數據格式,分別是常規數據格式(非加權格式)和加權格式,如下說明:
上圖為常規格式(即非加權格式),一行代表一個樣本,一列代表一個屬性,將全部的原始數據信息列出即可,比如有100個樣本,那麼就有100行數據。
在醫學/實驗研究時,很多時候只有匯總數據,即帶加權項的數據,比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本,如果是使用常規格式(即非加權格式),此時應該有170行;但加權格式則只需要6行即可表示,如下圖:
在使用SPSSAU醫學研究-》卡方檢驗,也或者醫學研究-》卡方擬合優度檢驗時,SPSSAU均支持加權數據格式。一旦數據是加權格式,那麼分析時需要把『加權項』放到對應的框中即可。
第2點:fisher卡方值問題?
在SPSSAU的醫學研究->卡方檢驗裡面,如果數據是2*2格式,比如性別為男和女2個選項,學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合,此時spssau默認會提供fisher卡方檢驗值。
當然,SPSSAU還會提供一些其它的卡方指標值,包括pearson卡方,連續校正卡方,各選擇單元格的期望值和比例值等中間過程值等等(當然具體應該使用那一個,SPSSAU會自動進行判斷和選擇),下圖僅為中間過程值等。
第3點:相關關係問題?
如果希望看出差異的幅度,而不僅僅是看是否有差異。除了使用肉眼進行分析,即對比選擇百分比的具體值情況進行分析外。還可以使用效應量(effect size),effect size值通常包括Phi、列聯繫數、校正列聯繫數、Cramer V和Lambda等。此五個係數的意義都是查看差異幅度,但使用的前提並不一樣,通常只需要使用其中一個即可,具體使用的標準和說明如下:
第4點:到底用卡方,還是方差,也或者非參數檢驗?
有時候會出現一種疑問,比如看下面的例子。
當前想研究性別和滿意度的差異關係,滿意度分為「非常不滿意、比較不滿意、一般、滿意和非常滿意」共五項。滿意度看上去更像是定量數據,而非定類數據,但看成是定類數據也可以。
那麼此時到底用卡方呢,還是使用方差(也或者非參數檢驗呢?)。其實這裡的滿意度是一種有序的定類數據,一般這種數據可能看成是定量更多,即使用方差分析更適合(當然也可使用卡方檢驗)。
但比如醫學裡面有這樣的數據「未見療效,好轉和治癒」,這個也是有序的定類數據,這個僅3項,看成是定類數據就更適合了,所以使用卡方檢驗較好。