SPSS 統計分析策略(11):兩組率比較的統計方法​(卡方和Fisher法)

2021-02-25 醫學論文與統計分析

第11講 實驗性研究分類數據統計策略(1):

兩組率比較的統計方法

系列課程「SPSS教程」1-10講為實驗性定量數據統計分析策略。從第11文開始,介紹實驗性分類數據結局的基本統計分析方法。

分類結局包括這兩種形式,一種無序分類的結局,一種是有序分類結局。無序分類結局又包括二分類結局和多分類結局。

本文的內容是二分類結局的分析。二分類結局往往以率的形式開展描述,因此統計分析探討的是率有無差異。

吲達帕胺片治療原發性高血壓療效,將患者隨機分為兩組。試驗組用吲達帕胺片加輔助治療,對照組用安慰劑加輔助治療。試分析兩組率有無統計學差異?數據詳見ht.sav

這個案例需要思考:

-該研究屬於何種類型的研究設計?

-結局變量屬於什麼類型的變量?

-分組數是多少?

-正態性問題如何考慮?

本案例結局為療效為二分類結局。該結局開展描述時計算有效率,比如治療組有效率、對照組有效率等。分組變量為處理因素,分為2個水平:吲達帕胺片組和安慰劑組。

如此數據,在統計描述上,可以繪製出三線表

該研究核心數據有2行2列(紅框內),因此稱之為2*2行列表或者交叉表資料。此外,由於紅框中的結果在表格中佔據4個單元格(a、b、c、d),這樣的交叉表資料被俗稱為四格表資料。

一般來說,分析四格表資料就等同於分析兩個率的差異性。

最後,兩組率的差異分析,不考慮正態性問題。

兩個率的差異如何分析呢?基本統計學方法有三類:z檢驗、卡方檢驗和Fisher確切概率法。最常見的就是卡方檢驗(c2檢驗,Chi-square)和Fisher確切概率法。

卡方檢驗是統計學奠基人Kar-Pearson百年前提出,其基本理論是比較理論值(期望值)和實際值的吻合程度來探討不同樣本是否來源於同一個總體。具體原理不再贅述。Fisher確切概率法是另外一位統計學奠基人Fisher提出,主要基於二項分布和二項分布函數,計算極端事件發生概率是否屬於小概率事件的一種方法。

總結來說,

具體來說,採用卡方檢驗還是Fisher確切概率法,一般有如下考慮:

1.如果整個研究樣本量≥40,四個單元格(a,b,c,d)的理論值T,又稱期望值,(expectation)都大於或等於5,則可採用卡方檢驗進行比較。

n≥40,且T ≥ 5,卡方檢驗

2.如果整個研究樣本量≥40 ,四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少有一個在1-5之間,普通的卡方檢驗的結果不太可靠,需要對卡方檢驗方法進行改進,採用校正卡方檢驗進行比較。

n≥40,且至少一個1≤T <5,校正卡方檢驗

3.如果整個研究樣本量<40,或者四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少小於1,則無論卡方或者校正卡方都不可靠,須採用Fisher確切概率法。

n<40或至少1個T <1 ,Fisher確切概率法

值得注意的是,上述方法均為我國教材流傳至今的常規操作。實際工作可便宜行事,具體可見最後的討論。

分析-描述統計 -交叉表

在「交叉表」對話框中,分別選擇分組變量和結局變量到「行」和「列」中。

①、②:行」 和 「列」分別放哪個變量沒有規定,結果是一致的(分組變量可以放「行」 ,也可以放「列」中)。一般建議與最後論文報告中的行列方向一致。

③ 精確:點擊選擇「精確」選項,進行Fisher檢驗

④統計:選擇「卡方」,進行卡方檢驗

⑤單元格:可進行計算①實際頻數(必選)和期望頻數(可選,不建議選擇),②選擇計算百分比中的行與列,不必同時選擇,選擇一項即可,一般和交叉表的分組變量的放入行」「列」位置一致。

結果主要為2張表格。

第1表:分組統計描述結果,分別給出試驗組和對照組的各自的結局,包括發生數以及相應的百分比。


第2表:卡方和Fisher確切檢驗的結果。該結果同時展示了卡方、校正卡方、和Fisher確切概率分析結果,也顯示了總樣本量、理論(期望)頻數的情況。

閱讀表格,首先要關注總樣本量和理論(期望)頻數。總樣本量在表格最後一行①:有效個案數。需要關注是否≥40。理論(期望)頻數在表格下方第一個注釋a②。注釋前半句說的是多少單元格期望數小於5,這半句將決定是否採用卡方檢驗;後半句指出最小期望數,將決定是否採用Fisher法。

卡方檢驗,當n≥40,且T ≥ 5,選擇第一行的「皮爾遜卡方」①,卡方值②,選擇P值(漸進顯著性雙側)③。

校正卡方檢驗,n≥40,且至少一個1≤T <5,選擇第二行「連續性修正」①,

,卡方值②,選擇P值(漸進顯著性雙側)③。

Fisher確切概率法,n<40或至少1個T <1 ,選擇第四行的「費希爾精確檢驗」①,選擇值(精確顯著性雙側)②。

對於本例,樣本量70,0單元格(0%)期望計數小5,最小為10.77,應選擇一般的卡方檢驗,卡方值8.399,P=0.004。兩組人群的有效率存在著統計學差異。

規範文字:吲達帕胺片組有效率80.77%,安慰劑組有效率45.45%,兩組有效率存在著統計學差異(差值0.35,差值這95%CI0.14-0.56,P=0.004)。

規範的統計表(其中一種形式)為:

提醒:和均數一樣,率也建議計算置信區間。怎麼計算?系列文章將很快推出!

1. 兩組率的比較方法,基於Poisson 分布檢驗了解下?

除了本文介紹的常規二分類結局,有些醫學研究的結局是罕見事件的結局(腫瘤的發病、出生缺陷發生率等)。例如,開展以下兩個率的比較,試驗組和對照組發生率分別為6.7/10萬,5.0 /十萬。

二分類數據中,陽性事件數的分布屬於二項分布,而當率非常低時,陽性事件數(例如本例的發生數)分布可視為另一個特殊的分布:泊松(Poisson)分布。

泊松分布數據的比較有相應的檢驗方法,但SPSS軟體不好實現,可通過R語言快速實現假設檢驗,這裡展示一下R語言程序和結果

①R語言程序

poisson.test(c(30,10), c(300000,200000),

             alternative = c("two.sided"),

             conf.level = 0.95)

 

②R語言分析結果。

上文寫到,Fisher方法應用條件是n<40或至少1個T <1 。實際上,這一條件可以放寬。理論上,Fisher方法可以使用在所有分類數據的比較上,當然也包括四格表資料,而且它的結果更為精確。所以不要覺得Fisher是配角,Fisher使用沒有條件限制。

那為什麼一直以來卡方檢驗更常見而不是Fisher法呢?部分原因是計算能力的問題,Fisher對計算機的性能要求較高。Fisher很難人工進行運算,或者早些年在計算機運算能力較弱的時,Fisher法會卡殼!而卡方就沒有這個問題,而且大樣本時卡方檢驗結果和Fisher幾乎一致。所以,之前教材一直推崇卡方而不是Fisher。現在情況不同了,一般軟體都能應付大部分的Fisher檢驗。所以不要被「n<40或至少1個T <1 條件限制,不要覺得達不到這個條件Fisher結果不正確。比如一篇小樣本研究的論文,按照四格表統計分析的條件,有一些需要卡方、有一些需要校正卡方、有一些是Fisher法,為了統一,全部用Fisher方法,也沒有任何問題的,只要SPSS能夠給出Fisher的結果。

特別是,當卡方檢驗P值在0.05附近時,更推薦Fisher法。因為Fisher結果更精確,它能夠真正判斷一項研究P值到底>0.05,還是<0.05。總結起來,卡方受條件限制,而Fisher不受數據限制,只受計算機運算能力限制,很多時候,Fisher方法可以成為主角。https://evod.zcmu.edu.cn/resource.html?stationID=1&resourceid=429&isprivate=false&cateid=102

-本講結束-

本公眾號在傳播統計學知識的同時,也放置了一些常用的資源來方便大家科研。有資源全部免費下載,有興趣的朋友可以關注下載。

1.  醫學統計學習全套視頻,妙趣+高級+SPSS+測試題,讓你從入門到精通!

2.  如何讓excel繪製出精美的統計圖?EXCEL  插件來幫忙!

3.  醫學統計學習全套視頻,妙趣+高級+SPSS+測試題,讓你從入門到精通!

4.  如何讓excel繪製出精美的統計圖?EXCEL  插件來幫忙!

5.  最新!2019年衛生健康統計年鑑來了!2006-2019中國衛生統計年鑑合集下載

6.  不做實驗如何利用臨床資料庫發表論文?精選臨床預測模型視頻合集

7.  重磅推薦:全網最全的醫學統計相關軟體,免費下載,均已破解。

8.  如何製作與分析量表?中英文權威書籍來幫忙。

9.【統計視頻】 流行病學與統計學完美結合:公共健康數據分析

10.  推薦幾本臨床研究方法的經典書籍

相關焦點

  • 30天打卡學習醫學統計與SPSS(Day 11):多組率比較的統計方法​
    Day 11: 多組率比較的統計方法隸屬第三章:實驗性研究定性數據的統計分析策略從第10日開始,介紹實驗性分類數據結局的統計分析方法。第10日介紹了兩組二分類結局的比較,即兩組率的比較,俗稱四格表資料的統計分析。
  • 30天打卡學習醫學統計與SPSS(Day 10):兩組率比較的統計方法​
    具體通告可見:Day 10: 兩組率比較的統計方法隸屬第三章:實驗性研究定性數據的統計分析策略系列課程前面2-9日為實驗性定量數據統計分析策略。從第10日開始,介紹實驗性分類數據結局的基本統計分析方法。
  • 30天學習醫學統計與SPSS(Day 12):等級資料的比較,秩和還是卡方?
    由於它兼具了定量數據和分類數據的一些特點,分析策略更為靈活。研究目的不同,採用的統計策略將有所區別。本文就卡方檢驗和秩和檢驗方法的在等級資料中的應用進行比較分析。•例1:某醫生用某種中藥治療糖尿病患者共45例,隨機分為兩組結果如下,問該中藥對兩型糖尿病的療效有無差異?見diabete.sav
  • 基於SPSS軟體實現多組比較的卡方檢驗及兩兩比較
    再送兩個介紹多組間比較的統計分析:數值變量如果服從正態分布,採用均數±標準差進行統計描述,採用方差分析進行組間比較,如果組間差異有統計學意義,進一步採用LSD法(也可以是其它方法)進行兩兩比較。如果不服從正態分布,採用中位數(四分位數間距)進行統計描述,組間比較採用非參數檢驗(Kruskal-Wallis秩和檢驗),當組間總的有統計學差異,進一步採用Dunn法(也可以是其它方法)進行多重比較。
  • 科研SPSS統計思維實戰研討會
    本課程以目前科研界最廣泛使用的SPSS軟體為操作載體,教大家如何把握核心,一步一步分析應對各種科研工作中常見的統計設計及數據統計分析,包括複雜多元統計。課程配有詳細的內部筆記資料供複習,兩整天的現場課程重在掌握各種統計模型的關注點、整套分析邏輯與思維,及了解統計設計和數據分析中常犯的錯誤及如何避免。同時自帶電腦當場練習、交流、提問,以加深印象。
  • SPSS卡方檢驗操作步驟、結果解讀
    :主要看pearson卡方檢驗,sig值小於0.05,因此認為不同的性別的人對周末讀物的選擇有顯著的差別  10、最後一個表格,輸出的是phi值和V值,兩個都代表兩個變量之間的關係的緊密度,數值小於0.1說明關係不緊密,即性別與周末讀物的選擇沒有明顯的關係,這個結論和上面的卡方檢驗有出入,所以需要進一步進行兩兩比較。
  • 卡方檢驗和精確概率法及兩兩比較
    看過許多統計教程,這篇是我最推薦的介 紹數值變量如果服從正態分布,採用均數±標準差進行統計描述,採用方差分析進行組間比較,如果組間差異有統計學意義,進一步採用LSD法(也可以是其它方法)進行兩兩比較。
  • 松哥統計(武松)帶您學SPSS統計思維與實戰線上學習班
    松哥執著統計20年,主編2本SPSS著作,在京東與噹噹銷量排名第一。授課風格幽默,能將複雜難懂的統計理論通過比喻簡單秒殺,是業界最受學員認可的統計學講師之一。主辦單位對培訓課程的內容和講師已考核,放心報名,講解案例與實戰案例的選擇都進行了精心設計,並結合了既往學員的反饋意見、眾多科研工作者科研需求以及資深統計學專家教學經驗精煉而成。
  • 卡方合併檢驗 vs 卡方分割檢驗
    2*C列聯表資料的卡方合併檢驗 某研究者為探究某種疾病的基因型(3種)在男女之間的分布有無差異,其想達到的目的是看每種基因型在男女之間的差別有無統計學意義,用統計圖表表達如下:在進行統計分析前,首先確定擬分析的數據類型
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。
  • 如何快速搞定 SPSS 卡方檢驗?
    例如,樣本來自的總體數據不符合正態分布,此時可採用卡方檢驗完成。另外研究定類變量和定序變量之間的關係時,由於定類或者定序變量都不具有完備的運算性能,因此無法對總體某種參賽的計算,可採用非參數檢驗如卡方檢驗來完成。
  • 手把手帶你搞定 SPSS 卡方檢驗
    例如,樣本來自的總體數據不符合正態分布,此時可採用卡方檢驗完成。另外研究定類變量和定序變量之間的關係時,由於定類或者定序變量都不具有完備的運算性能,因此無法對總體某種參賽的計算,可採用非參數檢驗如卡方檢驗來完成。
  • SPSS問卷數據統計分析之項目分析 ——【杏花開生物醫藥統計】
    (圖1)①點擊「轉換」-「計算變量」,然後我們將30題項的總分加起來,生成一個新的變量叫「總分」。具體操作為:點擊「分析」-「描述」-「頻率」,將「總分」選入變量框,點擊右側的「統計」按鈕,在彈出的對話框中勾選「百分位數」,分別輸入27和73點擊添加,最後點擊確定。得出低分組和高分組的臨界值分別為56和77分。表明總分低於56分為低分組,總分高於77分為高分組。
  • SPSS | 快速掌握描述性統計分析及統計各類圖形!
    一、SPSS數據分析—描述性統計分析二、spss常見統計圖形SPSS用於描述性統計分析的過程大部分都在分析—描述統計菜單中
  • 醫學科研課堂丨統計說說(六):基於分類變量的卡方檢驗(一)
    在上一講我們談到「針對常用的基本統計學方法,一般而言說的就是t檢驗、單因素方差分析和卡方檢驗,這也是大家在寫論文、閱讀論文時經常遇到的統計學方法(幾乎每篇文章都會涉及到這一種或幾種方法)」,今天我們就來說一說這個卡方(χ2)檢驗。
  • 「spss數據分析系列」卡方檢驗-2x2
    前面的t檢驗都是對均值的分析,這類分析主要是針對於連續性變量,比如身高,溫度,降雨量等,但是如果針對於分類變量的差異分析怎麼分析呢,這裡就用到了我們所說的卡方檢驗,但是卡方檢驗對應的情況有很多種,這裡我將第一種,就是2x2的表格,2x2意思就是兩個變量都是2分類的變量。
  • 分類資料的差異比較常用統計方法選擇及SPSS實現
    卡方檢驗表格下方顯示最小期望值(理論值)13.80,小於5的期望值格子數為0(0%),滿足Pearson χ2 的條件,如不滿足條件則需要採用似然比卡方(Likeihood Ratio)或者增加樣本、數據合併來實現。多重比較結果顯示物理療法的效果要好於藥物治療和外用膏藥(P<0.05),而藥物治療和外用膏藥的有效率卻無統計學差異(P>0.05)。
  • 30天打卡學習醫學統計與SPSS(Day 5):配對設計資料的統計分析
    歡迎諸位一起學習醫學統計學與SPSS操作方法,我將每天一篇、大概30篇推文左右,講述基於不同醫學研究類型的各種統計分析策略,諸位可以結合視頻
  • 卡方檢驗在實際工作中的應用
    卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用,如兩個或多個率/構成比之間的比較以及分類資料的相關分析等。同時,圖片被分為高低CTR兩組,也屬於分類變量。既然是對兩個分類變量(設計因素、高低CTR)做相關分析,卡方檢驗很適用於此案例。卡方檢驗怎麼做?思路是什麼?
  • 30天學會醫學統計與SPSS公益課程(Day 5):配對設計資料的統計分析
    我將每天推送視頻和文字教程,講授基於醫學數據的各種統計分析策略。如果你能跟得上節奏,我相信在一個月後,您將會掌握醫學數據分析方法。2.此外面向醫務工作者,我們也開設「統計跟學課程」【學不會全額退款】:Day 5: 配對設計資料的統計分析隸屬第二章:實驗性研究定量數據的統計分析策略實驗性性研究常見包括隨機設計和配對(