第11講 實驗性研究分類數據統計策略(1):
兩組率比較的統計方法
系列課程「SPSS教程」1-10講為實驗性定量數據統計分析策略。從第11文開始,介紹實驗性分類數據結局的基本統計分析方法。
分類結局包括這兩種形式,一種無序分類的結局,一種是有序分類結局。無序分類結局又包括二分類結局和多分類結局。
本文的內容是二分類結局的分析。二分類結局往往以率的形式開展描述,因此統計分析探討的是率有無差異。
吲達帕胺片治療原發性高血壓療效,將患者隨機分為兩組。試驗組用吲達帕胺片加輔助治療,對照組用安慰劑加輔助治療。試分析兩組率有無統計學差異?數據詳見ht.sav
這個案例需要思考:
-該研究屬於何種類型的研究設計?
-結局變量屬於什麼類型的變量?
-分組數是多少?
-正態性問題如何考慮?
本案例結局為療效為二分類結局。該結局開展描述時計算有效率,比如治療組有效率、對照組有效率等。分組變量為處理因素,分為2個水平:吲達帕胺片組和安慰劑組。
如此數據,在統計描述上,可以繪製出三線表
該研究核心數據有2行2列(紅框內),因此稱之為2*2行列表或者交叉表資料。此外,由於紅框中的結果在表格中佔據4個單元格(a、b、c、d),這樣的交叉表資料被俗稱為四格表資料。
一般來說,分析四格表資料就等同於分析兩個率的差異性。
最後,兩組率的差異分析,不考慮正態性問題。
兩個率的差異如何分析呢?基本統計學方法有三類:z檢驗、卡方檢驗和Fisher確切概率法。最常見的就是卡方檢驗(c2檢驗,Chi-square)和Fisher確切概率法。
卡方檢驗是統計學奠基人Kar-Pearson百年前提出,其基本理論是比較理論值(期望值)和實際值的吻合程度來探討不同樣本是否來源於同一個總體。具體原理不再贅述。Fisher確切概率法是另外一位統計學奠基人Fisher提出,主要基於二項分布和二項分布函數,計算極端事件發生概率是否屬於小概率事件的一種方法。
總結來說,
具體來說,採用卡方檢驗還是Fisher確切概率法,一般有如下考慮:
1.如果整個研究樣本量≥40,四個單元格(a,b,c,d)的理論值T,又稱期望值,(expectation)都大於或等於5,則可採用卡方檢驗進行比較。
n≥40,且T ≥ 5,卡方檢驗
2.如果整個研究樣本量≥40 ,四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少有一個在1-5之間,普通的卡方檢驗的結果不太可靠,需要對卡方檢驗方法進行改進,採用校正卡方檢驗進行比較。
n≥40,且至少一個1≤T <5,校正卡方檢驗
3.如果整個研究樣本量<40,或者四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少小於1,則無論卡方或者校正卡方都不可靠,須採用Fisher確切概率法。
n<40或至少1個T <1 ,Fisher確切概率法
值得注意的是,上述方法均為我國教材流傳至今的常規操作。實際工作可便宜行事,具體可見最後的討論。
分析-描述統計 -交叉表
在「交叉表」對話框中,分別選擇分組變量和結局變量到「行」和「列」中。
①、②:行」 和 「列」分別放哪個變量沒有規定,結果是一致的(分組變量可以放「行」 ,也可以放「列」中)。一般建議與最後論文報告中的行列方向一致。
③ 精確:點擊選擇「精確」選項,進行Fisher檢驗
④統計:選擇「卡方」,進行卡方檢驗
⑤單元格:可進行計算①實際頻數(必選)和期望頻數(可選,不建議選擇),②選擇計算百分比中的行與列,不必同時選擇,選擇一項即可,一般和交叉表的分組變量的放入行」「列」位置一致。
結果主要為2張表格。
第1表:分組統計描述結果,分別給出試驗組和對照組的各自的結局,包括發生數以及相應的百分比。
第2表:卡方和Fisher確切檢驗的結果。該結果同時展示了卡方、校正卡方、和Fisher確切概率分析結果,也顯示了總樣本量、理論(期望)頻數的情況。
閱讀表格,首先要關注總樣本量和理論(期望)頻數。總樣本量在表格最後一行①:有效個案數。需要關注是否≥40。理論(期望)頻數在表格下方第一個注釋a②。注釋前半句說的是多少單元格期望數小於5,這半句將決定是否採用卡方檢驗;後半句指出最小期望數,將決定是否採用Fisher法。
卡方檢驗,當n≥40,且T ≥ 5,選擇第一行的「皮爾遜卡方」①,卡方值②,選擇P值(漸進顯著性雙側)③。
校正卡方檢驗,n≥40,且至少一個1≤T <5,選擇第二行「連續性修正」①,
,卡方值②,選擇P值(漸進顯著性雙側)③。
Fisher確切概率法,n<40或至少1個T <1 ,選擇第四行的「費希爾精確檢驗」①,選擇值(精確顯著性雙側)②。
對於本例,樣本量70,0單元格(0%)期望計數小5,最小為10.77,應選擇一般的卡方檢驗,卡方值8.399,P=0.004。兩組人群的有效率存在著統計學差異。
規範文字:吲達帕胺片組有效率80.77%,安慰劑組有效率45.45%,兩組有效率存在著統計學差異(差值0.35,差值這95%CI0.14-0.56,P=0.004)。規範的統計表(其中一種形式)為:
提醒:和均數一樣,率也建議計算置信區間。怎麼計算?系列文章將很快推出!
1. 兩組率的比較方法,基於Poisson 分布檢驗了解下?
除了本文介紹的常規二分類結局,有些醫學研究的結局是罕見事件的結局(腫瘤的發病、出生缺陷發生率等)。例如,開展以下兩個率的比較,試驗組和對照組發生率分別為6.7/10萬,5.0 /十萬。
二分類數據中,陽性事件數的分布屬於二項分布,而當率非常低時,陽性事件數(例如本例的發生數)分布可視為另一個特殊的分布:泊松(Poisson)分布。
泊松分布數據的比較有相應的檢驗方法,但SPSS軟體不好實現,可通過R語言快速實現假設檢驗,這裡展示一下R語言程序和結果
①R語言程序
poisson.test(c(30,10), c(300000,200000),
alternative = c("two.sided"),
conf.level = 0.95)
②R語言分析結果。
上文寫到,Fisher方法應用條件是n<40或至少1個T <1 。實際上,這一條件可以放寬。理論上,Fisher方法可以使用在所有分類數據的比較上,當然也包括四格表資料,而且它的結果更為精確。所以不要覺得Fisher是配角,Fisher使用沒有條件限制。
那為什麼一直以來卡方檢驗更常見而不是Fisher法呢?部分原因是計算能力的問題,Fisher對計算機的性能要求較高。Fisher很難人工進行運算,或者早些年在計算機運算能力較弱的時,Fisher法會卡殼!而卡方就沒有這個問題,而且大樣本時卡方檢驗結果和Fisher幾乎一致。所以,之前教材一直推崇卡方而不是Fisher。現在情況不同了,一般軟體都能應付大部分的Fisher檢驗。所以不要被「n<40或至少1個T <1 」條件限制,不要覺得達不到這個條件Fisher結果不正確。比如一篇小樣本研究的論文,按照四格表統計分析的條件,有一些需要卡方、有一些需要校正卡方、有一些是Fisher法,為了統一,全部用Fisher方法,也沒有任何問題的,只要SPSS能夠給出Fisher的結果。
特別是,當卡方檢驗P值在0.05附近時,更推薦Fisher法。因為Fisher結果更精確,它能夠真正判斷一項研究P值到底>0.05,還是<0.05。總結起來,卡方受條件限制,而Fisher不受數據限制,只受計算機運算能力限制,很多時候,Fisher方法可以成為主角。https://evod.zcmu.edu.cn/resource.html?stationID=1&resourceid=429&isprivate=false&cateid=102-本講結束-
本公眾號在傳播統計學知識的同時,也放置了一些常用的資源來方便大家科研。所有資源全部免費下載,有興趣的朋友可以關注下載。1. 醫學統計學習全套視頻,妙趣+高級+SPSS+測試題,讓你從入門到精通!
2. 如何讓excel繪製出精美的統計圖?EXCEL 插件來幫忙!
3. 醫學統計學習全套視頻,妙趣+高級+SPSS+測試題,讓你從入門到精通!
4. 如何讓excel繪製出精美的統計圖?EXCEL 插件來幫忙!
5. 最新!2019年衛生健康統計年鑑來了!2006-2019中國衛生統計年鑑合集下載
6. 不做實驗如何利用臨床資料庫發表論文?精選臨床預測模型視頻合集
7. 重磅推薦:全網最全的醫學統計相關軟體,免費下載,均已破解。
8. 如何製作與分析量表?中英文權威書籍來幫忙。
9.【統計視頻】 流行病學與統計學完美結合:公共健康數據分析
10. 推薦幾本臨床研究方法的經典書籍