系列17-22我們已經介紹了四格表卡方檢驗方法及其SAS實現,今天開始介紹列聯表資料的假設檢驗方法及其SAS實現。 列聯表(Contingency Tables)是觀測數據兩個或更多個屬性分類時所列出的頻數表,又稱交互分類表,交互分類的目的是為了將兩個變量分組,然後比較各組的分布狀況,從而分析變量間的關係。一般,總體中的個體按屬性A與B分類,A有R(A1,A2,…,AR)個等級,B有C個等級,從總體中抽取大小為n的樣本設有nij個屬於等級Ai和Bj,nij稱為頻數,將R×C個nij(i=1,2,…,R;j=1,2,…,C)排列為一個R行C列的二維列聯表(表2),簡稱R×C表。若考慮的屬性多於兩個,也可按這種方式做出列聯表,即多維列聯表,多維列聯表分析屬於離散多元分析的範疇,列聯表分析在醫學、生物學及社會科學中,有重要的應用。列聯表看似簡單,做起來卻是有一定的難度,在做這類數據分析時我們一定要注意列聯表中的邏輯關係,在做這一類資料時,我會把相應列聯表數據呈現出現,大家可以細細分析雙向無序、單向有序、雙向有序資料。
*===多個樣本率的卡方檢驗;DATA THERAPY;DO R=1 TO 3;DO C=1 TO 2;INPUT FREQ @@;OUTPUT;END;END;DATALINES;199 7 164 18 118 26;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;圖9-65 PROC FREQ過程步的列聯表χ2檢驗結果 圖9-65是PROC FREQ過程步的列聯表χ2檢驗結果,χ2=21.0377,P<0.0001,按α=0.05的檢驗水準,可認為三種療法的有效率有差別,至於是哪兩組間有差別,還需要進一步幫兩兩比較。兩兩比較結果可以通過PROC FREQ和PROC GENMOD過程步來實現。*====兩兩比較;*===PROC FREQ的兩兩比較;PROC FREQ DATA=THERAPY;WHERE R IN (1,2);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (1,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (2,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;*===PROC GENMOD的兩兩比較;PROC GENMOD DATA=THERAPY;CLASS R C;MODEL FREQ=R C R*C /DIST=POISSON TYPE3;CONTRAST "COMPARISON1:R1 VS R2"R*C 1 -1 -1 1;CONTRAST "COMPARISON2:R1 VS R3"R*C 1 -1 0 0 -1 1;CONTRAST "COMPARISON3:R2 VS R3"R*C 0 0 1 -1 -1 1;RUN;圖9-66 PROC FREQ過程步的兩兩比較結果圖9-67 PROC GENMOD過程步的兩兩比較結果列聯表資料兩兩比較時,從R*C列聯表中行變量中任取兩個不同的行組成新2*C的列聯表,共有次,分別計算各子表的χ2值,最後根據比較次數做Bonferroni adjustment。PROC FREQ和PROC GENMOD過程步的兩兩比較結果一致,物理療法組分別與藥物療法組、外用膏藥組的差別有統計學意義,藥物療法組與外用膏藥組的差別無統計學意義。表9-7 DN組與無DN組2型糖尿病患者ACE基因型分布的比較*===樣本構成比的卡方檢驗;DATA DIABET;DO R=1 TO 2;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;42 48 21 30 72 36;PROC FREQ;TABLES R*C/CHISQ NOPERCENT NOCOL;WEIGHT FREQ;RUN;圖9-67 PROC FREQ過程步的χ2檢驗結果 圖9-67結果顯示:χ2=7.9127,P=0.0191,按α=0.05的檢驗水準,可認為兩組的2型糖尿病患者的ACE基因型分布不同。對於雙向無序資料,研究者常常更關心兩個分類變量之間有無關聯?關係的密切程序如何?列表資料的χ2檢驗可用來推斷兩個分類變量間有無關聯,如果有關聯,可計算Pearson列聯繫數(Contingency Coefficient),列聯繫數聚取值在0~1之間,0表示無關聯,1表示完全相關;越接近0,關係越不密切;越接近1,關係越密切。表9-8 DN組與無DN組2型糖尿病患者ACE基因型分布的比較*===雙向無序資料的關聯性檢驗;DATA BLOOD;DO R=1 TO 4;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;431 490 902 388 410 800495 587 950 137 179 32;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;圖9-69 PROC FREQ過程步的χ2檢驗結果圖9-69結果顯示:χ2=213.1616,P<0.0001,按α=0.05的檢驗水準,可認為兩種血型間有關聯,其關聯繫數為0.1883,由關聯繫數可知兩血型的關聯程度不太密切。[1] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010.[2] 夏莊坤, 徐唯 , 潘紅蓮, 等. 深入解析SAS——數據處理、分析優化與商業應用[M]. [3] 高惠璇. SAS系統Base SAS軟體使用手冊[M]. 北京:中國統計出版社, 1997.[4] 孫振球, 徐勇勇. 醫學統計學(第4版)[M]. 北京: 人民衛生出版社, 2014.