別錯過,卡方檢驗實用總結!

2020-11-29 SPSSAU

通常情況下,卡方檢驗是研究分類數據與分類數據之間關係的分析方法,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0.05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯繫。在具體差異分析的基礎上,進一步分析不同性別樣本戴隱形眼鏡的百分比,例如,男性戴隱形眼鏡的百分比為30%,而女性戴隱形眼鏡的百分比為50%,說明女性樣本戴隱形眼鏡的比例要明顯高於男性樣本。

除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以檢驗定類數據的分布特徵是否與預期保持一致。比如本來預計男性和女性的比例各佔一半(50%),但收集回來的數據卻是45%和55%,那麼收集回來的數據是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。

卡方檢驗在實際使用過程中,還可用於問卷多選題的分析(也稱作多重響應分析),比如多選題的選擇比例是否均勻,也或者單選題和多選題之間的差異關係情況如何呢,均可使用卡方檢驗進行分析。下表格為卡方檢驗的實際使用類型說明:

卡方檢驗實際應用

1卡方檢驗理論說明

通常理解的卡方檢驗,其檢驗目的在於定類和定類數據的差異。比如性別和是否戴眼鏡的關係,性別和是否戴眼鏡都是定類數據,因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。

除此之外,還有一種卡方檢驗(準確說是卡方擬合優度檢驗),其目的是研究定類數據各選項的分布比例上是否有著差異性,比如性別男和女預期是50%和50%,那事實上的樣本是否明顯的偏離這一比例呢,這種即卡方擬合優度檢驗。

在問卷研究裡面,有很多的多選題,多選題各項的比例是否均勻呢?那麼就可以利用卡方擬合優度檢驗進行分析(SPSSAU默認提供);如果想研究單選題和多選題的選擇差異關係,那麼這種是研究定類數據和定類數據的差異性,SPSSAU默認也提供卡方檢驗結果。

2 如何使用SPSSAU進行卡方檢驗

卡方檢驗SPSSAU操作

1) 絕大多數情況下,均是直接研究定類和定類數據差異,SPSSAU共有兩個地方可實現,分別是通用方法裡面的「交叉(卡方)」和醫學研究裡面的卡方檢驗。如果是匯總數據,即加權數據,此時只能使用醫學研究裡面的卡方檢驗,同時,如果希望提供更多詳細的數據指標,比如自由度,列聯繫數,Cramer V等,均需要使用醫學研究裡面的卡方檢驗。

2) 如果是進行卡方擬合優度檢驗,即研究定類數據選項佔比差異,此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示:

默認SPSSAU會假定選項的選擇比例完全一致,即男和女的比例是50%和50%。如果預期是40%和60%,那麼可對「期望值設置(默認相等)」這個按鈕進行設置,如下圖:

3) 如果是問卷研究裡面的多選題操作,直接使用SPSSAU問卷研究裡面對應多選題的按鈕即可,比如下圖:

如果是希望研究多選題的選擇比例和選擇差異情況,那麼直接使用『多選題』;

如果是研究單選題和多選題的差異情況,使用『單選-多選』;

如果是研究多選題和單選題的差異情況,使用『多選-單選』;

如果是研究多選題和多選題的差異情況,使用『多選-多選』;

特別說明一點:多選題的數據格式非常特殊,一個選項一個標題,比如5個選項就有5個標題,而且需要使用數字標識『選中』還是『沒有選中』,一般情況下數字1表示『選中』,數字0表示『沒有選中』。

如果原始數據使用數字表示選中,null值表示沒有選中,那麼需要把null值全部替換成數字0,可使用SPSSAU數據處理->異常值功能進行批量處理,把null值即缺失值填補成數字0即可。

3 卡方檢驗相關問題?

使用卡方檢驗時,數據格式非常重要,因為SPSSAU支付加權和非加權兩種格式,而且有時想利用卡方檢驗查看相關關係情況,此時還需要看一些新的指標,比如列聯繫數、Cramer V或Lambda指標等。當然還會有一些其它問題,匯總如下圖:

第1點:卡方檢驗數據格式問題?

SPSSAU共支持2種數據格式,分別是常規數據格式(非加權格式)和加權格式,如下說明:

上圖為常規格式(即非加權格式),一行代表一個樣本,一列代表一個屬性,將全部的原始數據信息列出即可,比如有100個樣本,那麼就有100行數據。

在醫學/實驗研究時,很多時候只有匯總數據,即帶加權項的數據,比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本,如果是使用常規格式(即非加權格式),此時應該有170行;但加權格式則只需要6行即可表示,如下圖:

在使用SPSSAU醫學研究-》卡方檢驗,也或者醫學研究-》卡方擬合優度檢驗時,SPSSAU均支持加權數據格式。一旦數據是加權格式,那麼分析時需要把『加權項』放到對應的框中即可。

第2點:fisher卡方值問題?

在SPSSAU的醫學研究->卡方檢驗裡面,如果數據是2*2格式,比如性別為男和女2個選項,學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合,此時spssau默認會提供fisher卡方檢驗值。

當然,SPSSAU還會提供一些其它的卡方指標值,包括pearson卡方,連續校正卡方,各選擇單元格的期望值和比例值等中間過程值等等(當然具體應該使用那一個,SPSSAU會自動進行判斷和選擇),下圖僅為中間過程值等。

第3點:相關關係問題?

如果希望看出差異的幅度,而不僅僅是看是否有差異。除了使用肉眼進行分析,即對比選擇百分比的具體值情況進行分析外。還可以使用效應量(effect size),effect size值通常包括Phi、列聯繫數、校正列聯繫數、Cramer V和Lambda等。此五個係數的意義都是查看差異幅度,但使用的前提並不一樣,通常只需要使用其中一個即可,具體使用的標準和說明如下:

第4點:到底用卡方,還是方差,也或者非參數檢驗?

有時候會出現一種疑問,比如看下面的例子。

當前想研究性別和滿意度的差異關係,滿意度分為「非常不滿意、比較不滿意、一般、滿意和非常滿意」共五項。滿意度看上去更像是定量數據,而非定類數據,但看成是定類數據也可以。

那麼此時到底用卡方呢,還是使用方差(也或者非參數檢驗呢?)。其實這裡的滿意度是一種有序的定類數據,一般這種數據可能看成是定量更多,即使用方差分析更適合(當然也可使用卡方檢驗)。

但比如醫學裡面有這樣的數據「未見療效,好轉和治癒」,這個也是有序的定類數據,這個僅3項,看成是定類數據就更適合了,所以使用卡方檢驗較好。

相關焦點

  • 全流程總結卡方檢驗,幫你理清分析思路
    卡方分析卡方檢驗是研究數據比率上的差異性,用於比較定類與定類數據的關係情況。1. 數據類型卡方檢驗要求X、Y項均為定類數據,即數字大小代表分類。除了上述研究場景外,卡方檢驗還可用於研究配對數據的差異性,比如用兩種方法診斷癌症,看兩種方法的診斷結果是否有差異,則要使用配對卡方檢驗。如果研究目的在於分析實際觀測的比例與期望比例是否一致。比如實際抽樣的男女比例,與預期比例是否存在差異,此時可使用卡方擬合優度。
  • 卡方檢驗多種用途總結
    概念卡方檢驗是一種用途廣泛的分析定類數據差異性的方法,主要用於比較定類與定類數據的關係情況,以及分析實際數據的比例與預期比例是否一致。02.卡方優度檢驗卡方優度檢驗,是對一列數據進行統計檢驗,分析單個分類變量實際觀測的比例與期望比例是否一致。案例:當前收集了100份數據用於研究,其中有48名男性,52位女性。
  • 卡方分布與卡方檢驗
    本文轉載自CSDNsselssbh的卡方分布與卡方檢驗 https://blog.csdn.net/bitcarmanlee
  • 卡方檢驗最全總結
    資料類型詳細步驟 → 【卡方檢驗】核心步驟當n<40 或 T<1 ,則選用Fisher確切概率法此類資料基本原理與2 X 2相同,通過計算卡方值來判斷多個組間是否存在差異,但不能確定哪兩個組間存在差異。
  • 卡方檢驗
    對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述
  • 什麼是卡方檢驗?
    卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。很多不知道的人,一聽到這個名詞,會馬上聯想到, 啊?還要拿張卡來檢驗嗎?其實卡方檢驗是英文Chi-Square Test 的諧音。在大數據運營場景中,通常用在某個變量(或特徵)值是不是和應變量有顯著關係。
  • spss卡方_spss卡方檢驗 - CSDN
    8、先看到的第一個表格就是交叉表,性別為行、選擇的讀物為列   9、卡方檢驗結果:主要看pearson卡方檢驗,sig值小於0.05,因此認為不同的性別的人對周末讀物的選擇有顯著的差別   10、最後一個表格,輸出的是phi值和V值,兩個都代表兩個變量之間的關係的緊密度,數值小於0.1說明關係不緊密,即性別與周末讀物的選擇沒有明顯的關係,這個結論和上面的卡方檢驗有出入,所以需要進一步進行兩兩比較。
  • 卡方檢驗講解
    這個時候就不可以使用方差分析了,就需要使用專門用於分類變量比較的卡方檢驗。接下來我們具體看一下卡方分析是怎麼做的。現在某個研究機構為了驗證一下吸菸與肺病的關係,通過抽樣調查得到如下數據:Ai為實際頻數(出現的次數),Ti為理論頻數。我們把第一個表中各組的值稱為實際頻數,把第二個表中各組的值稱為理論頻數。
  • T檢驗、F檢驗和卡方檢驗
    T檢驗、F檢驗、卡方檢驗是統計學中常見的假設檢驗,今天記錄下這幾個假設檢驗的原理和應用場景。
  • python卡方檢驗 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 卡方檢驗,T檢驗和F檢驗
    卡方檢驗、T-test、F檢驗區別卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。
  • 卡方檢驗在實際工作中的應用
    答案是:卡方檢驗。為什麼用卡方檢驗?定義是什麼?既然是對兩個分類變量(設計因素、高低CTR)做相關分析,卡方檢驗很適用於此案例。卡方檢驗怎麼做?思路是什麼?結論不符合預期時,卡方檢驗結論如何解讀?至此完成了卡方檢驗的基本操作,但檢驗結果僅代表數據的顯著性,該顯著性是否有意義仍需要結合實際情況來看。當數據顯著性出現與假設、預期不相符時,多是以下幾種情況。1. 描述統計差異較大但卡方檢驗不顯著e.g.
  • 卡方檢驗(2x2表格)
    摘自:醫學統計園(微信公眾號)臨床上會遇到評價兩種藥物,對治療同一種疾病的不同患者,哪一種療效會更好,如下表,這時就需要用到卡方檢驗。卡方檢驗是針對計數資料的一種檢驗方法。如果卡方值越大,超出了設定檢驗水準(α=0.05)下的卡方值(χdf,0.05),則認為實際值與理論值之間偏差屬於隨機誤差的概率較小,故而拒絕H0假設;若卡方值為0,則表示觀察值與理論值完全一致。下面介紹如何使用SPSS對2x2表格,進行卡方檢驗;如前所述,對數據的預處理,是數據分析過程中花費時間最多也是最麻煩的,因此我們先講述如何將計量資料輸入SPSS。
  • 卡方檢驗原理與應用實例
    本文簡單介紹卡方檢驗的原理和兩個類型的卡方檢驗實例。本期推送的另外幾篇文章,來自微信公眾號「amegroups  」,長按下方二維碼,關注該公眾號。關注後,回復「卡方檢驗」即可看原文,給出出處,以防止轉載過程中,關鍵信息丟失影響閱讀時,找不到原文。
  • 多選題如何進行卡方檢驗?
    差異關係 差異研究主要包括方差分析、t檢驗和卡方檢驗。如果是定類和定類,此時應該使用卡方分析;如果是定類和定量,此時應該使用方差或者t檢驗。 多選題也屬於定類數據,分析時類似於單選題,通常是研究兩個分類數據之間的關係,即使用卡方分析。
  • python 卡方檢驗專題及常見問題 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 每天學習一點R:44.卡方檢驗
    卡方檢驗卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度
  • 1151期-3:【統計】卡方檢驗詳細講解
    1四格表資料的卡方檢驗用於進行兩個率或兩個構成比的比較應用條件:要求樣本含量應大於40且每個格子中的理論頻數不應小於5。當有T<1或1<T<5的格子較多時,可採用並行並列、刪行刪列、增大樣本含量的辦法使其符合行×列表資料卡方檢驗的應用條件。
  • 教程| 傻瓜式SPSS數據分析1:卡方檢驗
    正好在做一些數據分析,順手將一些數據分析步驟總結了出來。有需要參考的同志們可以照著做進行一個初步的數據分析。
  • 管理心理學之統計(24)獨立性的卡方檢驗
    卡方也可以被用於檢驗兩個變量間是否存在關係。這種情況下,樣本中的每個個體被歸入兩個不同的變量,通常用矩陣表示。行與一個變量類別相對應,列與另一個變量類別相對應。矩陣的每個單元中的數字表示特定組的頻數。觀察頻數與期望頻數獨立性卡方檢驗使用與擬合度檢驗一樣的基本邏輯。樣本分布頻數被稱為觀察頻數f0。期望頻數fe的計算公式為:其中fc是列總和,fr是行總和。期望頻數的具體計算如下表:3.