SAS系列23:列聯表資料假設檢驗方法

2021-02-17 精鼎統計
      系列17-22我們已經介紹了四格表卡方檢驗方法及其SAS實現,今天開始介紹列聯表資料的假設檢驗方法及其SAS實現。       列聯表(Contingency Tables)是觀測數據兩個或更多個屬性分類時所列出的頻數表,又稱交互分類表,交互分類的目的是為了將兩個變量分組,然後比較各組的分布狀況,從而分析變量間的關係。一般,總體中的個體按屬性A與B分類,A有R(A1,A2,…,AR)個等級,B有C個等級,從總體中抽取大小為n的樣本設有nij個屬於等級Ai和Bj,nij稱為頻數,將R×C個nij(i=1,2,…,R;j=1,2,…,C)排列為一個R行C列的二維列聯表(表2),簡稱R×C表。若考慮的屬性多於兩個,也可按這種方式做出列聯表,即多維列聯表,多維列聯表分析屬於離散多元分析的範疇,列聯表分析在醫學、生物學及社會科學中,有重要的應用。列聯表看似簡單,做起來卻是有一定的難度,在做這類數據分析時我們一定要注意列聯表中的邏輯關係,在做這一類資料時,我會把相應列聯表數據呈現出現,大家可以細細分析雙向無序、單向有序、雙向有序資料。
*===多個樣本率的卡方檢驗;DATA THERAPY;DO R=1 TO 3;DO C=1 TO 2;INPUT FREQ @@;OUTPUT;END;END;DATALINES;199 7 164 18 118 26;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;

圖9-65 PROC FREQ過程步的列聯表χ2檢驗結果     圖9-65是PROC FREQ過程步的列聯表χ2檢驗結果,χ2=21.0377,P<0.0001,按α=0.05的檢驗水準,可認為三種療法的有效率有差別,至於是哪兩組間有差別,還需要進一步幫兩兩比較。兩兩比較結果可以通過PROC FREQ和PROC GENMOD過程步來實現。
*====兩兩比較;*===PROC FREQ的兩兩比較;PROC FREQ DATA=THERAPY;WHERE R IN (1,2);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (1,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (2,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;*===PROC GENMOD的兩兩比較;PROC GENMOD DATA=THERAPY;CLASS R C;MODEL FREQ=R C R*C /DIST=POISSON TYPE3;CONTRAST "COMPARISON1:R1 VS R2"R*C 1 -1 -1 1;CONTRAST "COMPARISON2:R1 VS R3"R*C 1 -1 0 0 -1 1;CONTRAST "COMPARISON3:R2 VS R3"R*C 0 0 1 -1 -1 1;RUN;

圖9-66 PROC FREQ過程步的兩兩比較結果圖9-67 PROC GENMOD過程步的兩兩比較結果列聯表資料兩兩比較時,從R*C列聯表中行變量中任取兩個不同的行組成新2*C的列聯表,共有次,分別計算各子表的χ2值,最後根據比較次數做Bonferroni adjustment。PROC FREQ和PROC GENMOD過程步的兩兩比較結果一致,物理療法組分別與藥物療法組、外用膏藥組的差別有統計學意義,藥物療法組與外用膏藥組的差別無統計學意義。表9-7  DN組與無DN組2型糖尿病患者ACE基因型分布的比較
*===樣本構成比的卡方檢驗;DATA DIABET;DO R=1 TO 2;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;42 48 21 30 72 36;PROC FREQ;TABLES R*C/CHISQ  NOPERCENT NOCOL;WEIGHT FREQ;RUN;

圖9-67 PROC FREQ過程步的χ2檢驗結果 圖9-67結果顯示:χ2=7.9127,P=0.0191,按α=0.05的檢驗水準,可認為兩組的2型糖尿病患者的ACE基因型分布不同。對於雙向無序資料,研究者常常更關心兩個分類變量之間有無關聯?關係的密切程序如何?列表資料的χ2檢驗可用來推斷兩個分類變量間有無關聯,如果有關聯,可計算Pearson列聯繫數(Contingency Coefficient),列聯繫數聚取值在0~1之間,0表示無關聯,1表示完全相關;越接近0,關係越不密切;越接近1,關係越密切。表9-8  DN組與無DN組2型糖尿病患者ACE基因型分布的比較
*===雙向無序資料的關聯性檢驗;DATA BLOOD;DO R=1 TO 4;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;431 490 902 388 410 800495 587 950 137 179  32;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;

圖9-69 PROC FREQ過程步的χ2檢驗結果圖9-69結果顯示:χ2=213.1616,P<0.0001,按α=0.05的檢驗水準,可認為兩種血型間有關聯,其關聯繫數為0.1883,由關聯繫數可知兩血型的關聯程度不太密切。[1] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010.[2] 夏莊坤, 徐唯 , 潘紅蓮, 等. 深入解析SAS——數據處理、分析優化與商業應用[M]. [3] 高惠璇. SAS系統Base SAS軟體使用手冊[M]. 北京:中國統計出版社, 1997.[4] 孫振球, 徐勇勇. 醫學統計學(第4版)[M]. 北京: 人民衛生出版社, 2014.

相關焦點

  • 【花滿帶你學SAS】SAS中的列聯表分析
    列聯表分析在SAS一般步驟:proc freq data=data noprint;       tables Var*group/outpct out=test expected;quit;通過以上步驟計算出數據的總樣本數總樣本數(N),、最小的理論頻數(T),T<5的格子數的個數(TN)等 ,expected表是輸出理論頻數
  • SAS列聯表分析
    有時我們得到的數據是每一個觀測的變量取值,比如,我們有每一個學生的性別(SEX)情況和來源(FROM)情況,可以輸入這些原始數據,如:data class; input sno sex $ from $; label sex='性別' from='來源'; cards;1 男 本地2 女 外地3 男 外地…………/* 所有學生的記錄 */;run;
  • SAS系列22:定性數據假設檢驗
    系列17-21我們已經介紹了單變量定量數據的假設檢驗方法及其SAS實現,今天開始介紹定性數據的假設檢驗方法及其SAS實現。
  • SAS系列10:SAS基礎統計過程(二)
    PROCFREQ過程可執行定性數據的描述性統計以及假設檢驗。PROC FREQ過程可產生從1維到n維的表格,即頻數表以及列聯表。圖10-1  PROC FREQ列聯表輸出結果      (2)PROC TABULATE過程主要作用是制表,但是在製作表格前,理清思路、做好表格布局是非常重要的。
  • 列聯表篇之二:四格表的分析
    在列聯表中,二維表是最基礎的一類表,在二維表中,四格表是最基礎的一類表。
  • SPSS分析技術:列聯表分析;男生肺活量一定比女生大嗎?
    對於定類數據和定序數據這類數據總體,因為計算均值和方差是沒有意義的,所以應該用非參數檢驗對它們進行分析,而列聯表分析就非參數檢驗中的一種,特別適用於定類數據的分析。列聯表分析經常用來分析問卷調查的數據,可以比較好地反映出兩個因素之間有無關聯性,兩個因素與現象之間的相關關係。根據收集的樣本數據,產生二維或多維交叉列聯表。列聯表是兩個或兩個以上的變量交叉分組後形成的頻數分布。它由表頭、行、列、排序、計算和求百分比等部分構成。
  • 列聯表篇之一: 雙向無序列聯表的分析
    本單元主要討論列聯表,在六西格瑪的課程中,列聯表涉及的內容很少,並且是以多比率比較的方式引入。馬逢時老師《六西格瑪管理統計指南》中對內容作了一些拓展,而且引入了三維的列聯表,介紹了Simpson悖論。    當我著手準備開始本單元時,發現列聯表的形式多種多樣,統計學家們提出的分析方法也很多,且各有針對性,如果不是很熟悉的話很容易用錯。
  • 參數估計與假設檢驗(七)-- 獨立雙樣本均值T檢驗
    如果從Q-Q圖中看出數據明顯不服從正態分布,且樣本容量不大時,可以使用非參數檢驗方法比較兩組數據的均值是否存在顯著差異,SAS中的NPAR1WAY過程可以進行該項非參數檢驗。TTEST過程輸出的統計報表如圖10.23所示。圖10.23 例10.4描述統計量報表第一張報表中展示了兩組樣本的描述性統計量及兩組樣本均值之差的標準差和標準誤差。
  • 非參數檢驗—兩相關樣本資料
    本文3881字〡28圖〡預計閱讀24分鐘   兩個相關樣本資料的統計分析在平時比較常見,今天的學習以配對設計列聯表資料為主,當遇到下面資料時,該考慮使用何種檢驗方法以及在SPSS中如何操作?
  • 統計學知識系列:一篇搞懂假設檢驗
    原假設與備擇假設:待檢驗的假設又叫原假設(零假設),一般表示為H0,原假設一般表示兩者沒有顯著性差異。與原假設進行對比的叫備擇假設,表示為H1。一般在比較的時候,主要有等於、大於、小於。檢驗統計量:即計算檢驗的統計量。根據給定的顯著性水平,查表得出相應的臨界值。
  • 醫學科研課堂丨統計說說(八)—基本統計學方法之等級資料的非參數檢驗
    (三分類有程度上差別:缺乏、不足、適宜);分組變量屬於計數資料(二分類:夏季、冬季)(無序,即沒有程度上差別),形成的交叉表也稱2*3表(表1紅框)(R=2,C=3);4.反應變量是等級資料,採用非參數檢驗(秩和檢驗)。
  • R語言檢驗獨立性:卡方檢驗(Chi-square test)
    p=3715 統計測試最常見的領域之一是測試列聯表中的獨立性。在這篇文章中,我將展示如何計算列聯表,我將在列聯表中引入兩個流行的測試:卡方檢驗和Fisher精確檢驗。什麼是列聯表?列聯表提供關於兩個分類變量的測量的整數計數。
  • R語言實現統計分析——非參數假設檢驗
    ,且分布情況不明時,用來檢驗數據是否來自同一個總體假設等一類檢驗方法。4 列聯表數據獨立性檢驗:卡方獨立性檢驗chisq.test() 可以做列聯表數據獨立性檢驗,只要將數據寫成矩陣形式就可以。#根據列聯表判斷吸菸與致癌是否有關係#p值很小,拒絕無關係的假設,應該有關係> x = matrix(c(60,3,32,11),nrow=2)> chisq.test
  • 臨度科研 | 數據統計的理解和運用(七)列聯表數據分析詳解
    接第四期的列聯表之卡方檢驗,這一期,臨度黃老師和大家聊聊列聯表數據分析。列聯表分類眾多,粗略分為以下幾類:成組設計橫斷面研究四格表資料統計分析成組設計隊列研究四格表資料統計分析成組設計病例對照研究四格表資料統計分析成組設計結果變量為多值有序變量的 2XC 表資料統計分析成組設計結果變量為多值名義變量的 2XC 表資料統計分析單因素多水平設計有序原因變量
  • 精益六西格瑪管理-列聯表的獨立性檢驗,離散記錄的分析實例
    因為列聯表的獨立性檢驗應用非常廣泛;尤其在市場管理方面的應用,可以指導組織的行為,使組織在市場營銷方面更有針對性。>實例先看一個實例;02分析步驟列聯表獨立性檢驗分析步驟所以拒絕原假設,認為三個城市之間,辦事效率的差異顯著。
  • 生物統計專題:用R進行獨立性檢驗的4種方法
    上期內容回顧上期介紹了一維列聯表、二維列聯表及多維列聯表的生成方法,對本期獨立性檢驗和卡方檢驗有重要意義,下面一起回顧一下吧:1、一維列聯表:調用table()函數,還可以使用prop.table()函數獲取頻率統計表
  • 精益六西格瑪管理-列聯表的獨立性檢驗
    前面我們分享的假設檢驗方法,基本上是針對總體均值和方差的。用來判斷總體均值,方差是否存在顯著差異,以及基於此的單因子,兩因子方差分析,以判斷因子的顯著性。接下來我們進入列聯表的獨立性檢驗。它與適合性檢驗同屬卡方檢驗。
  • 大白話系列:分析方法之假設檢驗
    今天我們來講假設檢驗分析方法。假設檢驗分析方法主要分為三步提出假設:根據要解決的問題來提出假設收集證據:收集證明來證明之前的假設得出結論:不是主觀猜想出來的,是通過收集證據證明才能得出結論那麼在工作中裡,我們該如何使用假設檢驗呢?
  • 卡方檢驗在實際工作中的應用
    卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用。在電商平臺中,廣告圖到處可見,引起用戶興趣,為商品或者店鋪帶去流量。表徵廣告圖是否「優秀」的關鍵數據就是CTR(Click-Through-Rate,點擊通過率)。
  • python 卡方檢驗專題及常見問題 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。