SAS系列22:定性數據假設檢驗

2021-02-17 精鼎統計

系列17-21我們已經介紹了單變量定量數據的假設檢驗方法及其SAS實現，今天開始介紹定性數據的假設檢驗方法及其SAS實現。

圖9-56 定性數據假設檢驗方法選擇

定性數據最常用的是χ2檢驗，是利用χ2分布的原理進行兩個或多個樣本率間的比較。χ2分布是一種連續型分布，其參數只一個，即自由度υ。χ2分布的形狀依賴於自由度υ的大小，當自由度υ≤2時，曲線呈L形；隨著υ的增加，曲線逐漸趨於對稱；當自由度υ趨近於無窮大，χ2分布趨近正態分布，χ2分布具有可加性的特性。可以用來處理單變量定性數據的常用SAS過程有PROC FREQ過程步。PROC FREQ過程步可實現χ2檢驗，關聯性測量和檢驗，針對四格的危險度以及危險度差別、比值比、相對危險度的計算，趨勢檢驗，一致性檢驗和測量，分層分析等。PROC FREQ語法如下：

樣本率與總體率作比較的目的是推斷樣本率所代表的總體率p與某已知總體率p0是否相等。應根據資料的不同情況，採用不同的假設檢驗方法：（1）若總體率p0很小，可用Poisson分布原理作檢驗；（2）若總體率p0不太靠近0或1時，可用二項分布原理作檢驗。當樣本含量n足夠大時，二項分布逼近正態分布，或np0≥5且n(1-p0)≥5，這種近似是滿意的，可用u檢驗或χ2檢驗。應用SAS實現時可以直接調用SAS的正態分布函數、卡方分布函數來計算相關的統計量和P值。例題：據臨床經驗認為，一般的胃潰瘍患者有20%會出現胃出血症狀。某醫院觀察了304例65歲以上的胃潰瘍病患者，其中96例發生胃出血，佔31.58%，問老年患者是否較一般患者容易出血？

*===樣本率與總體率的比較：u檢驗的SAS實現;DATA RATE;  INPUT PAI PAI0 N;  U=ABS(PAI-PAI0)/SQRT(PAI*(1-PAI)/N);  P=2*(1-PROBNORM(U));  DATALINES;0.2  0.3158  304;PROC PRINT;  VAR PAI PAI0 N U P;RUN;
圖9-57 樣本率與總體率比較u檢驗結果
*===樣本率與總體率的比較：χ2檢驗的SAS實現;DATA RATE;  INPUT A1 A0 N PAI0;  T1=N*PAI0;  T0=N-T1;  CHI=(A1-T1)**2/T1+(A0-T0)**2/T0;  P=1-PROBCHI(CHI,1);  DATALINES;96 208 304 0.2;PROC PRINT;  VAR PAI0 CHI P;RUN;
圖9-58 樣本率與總體率比較χ2檢驗結結果
      圖9-57和圖58的結果一致，還不能認為樣本所來自的總體率與已知總體率相同。
 
2.四格表資料的假設檢驗
2.1一般四格表資料的假設檢驗
*===四格表資料卡方檢驗;DATA F;  DO R=1 TO 2;    DO C=1 TO 2;      INPUT FREQ @@;      OUTPUT;    END;  END;  DATALINES;52 19 39 3;PROC FREQ DATA=F;  TABLE R*C/CHISQ;  WEIGHT FREQ;RUN;
圖9-59 一般四格表資料統計描述結果
圖9-60 一般四格表資料χ2檢驗結果
圖9-61 一般四格表資料Fisher確切概率法結果
       
       圖9-59是創建的二維表格，每個單元格中包括頻數、點總數的百分比、佔行合計的百分比以及佔列合計的百分比。本資料的N>40，且T>5（結果中未提示T<5），圖9-60是χ2檢驗結果顯示χ2=6.4777，P=0109，按檢驗水準α=0.05，還不能認為兩組大白鼠感染率相同。      配對定性資料作比較的目的是通過單一樣本數據推斷兩種處理的結果有無差別。常用於比較兩種檢驗方法、兩種提取方法、兩種培養方法乖的差別。其特點是對同一樣本的每一檢品分別用兩種方法處理，觀察其陽性或陰性結果。*===配對四格表資料卡方檢驗;DATA MC;  DO R=1 TO 2;    DO C=1 TO 2;      INPUT FREQ @@;      OUTPUT;    END;  END;  DATALINES;36 34 0 135;PROC FREQ DATA=F;  TABLE R*C/AGREE;  WEIGHT FREQ;RUN;
圖9-62 配對四格表資料統計描述結果
圖9-63 配對四格表資料χ2檢驗結果
     
     圖9-63是創建的二維表格，內容同一般四格表的內容。本資料的b+c>40，圖9-60是McNemarχ2檢驗結果顯示：χ2=6.8966，P=0086，按檢驗水準α=0.05，還不能認為兩種培養基的結果相同。 
     整理不易，歡迎點亮再看哦！
參考文獻：
[1] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010.
[2] 夏莊坤, 徐唯 , 潘紅蓮, 等. 深入解析SAS——數據處理、分析優化與商業應用[M]. 
[3] 高惠璇. SAS系統Base SAS軟體使用手冊[M]. 北京：中國統計出版社，1997.

相關焦點

參數估計與假設檢驗(七)-- 獨立雙樣本均值T檢驗

回復「朝陽35處」可查看「說人話的大數據」系列合輯前面文章我們提到，TTEST過程可以進行單樣本、獨立雙樣本、配對樣本均值T檢驗和置信區間的計算。TTEST過程中默認輸出的直方圖和Q-Q圖可以快速檢查數據是否滿足正態性條件（如圖10.21和圖10.22所示）。圖10.22 例10.4Q-Q圖可以看到，Q-Q圖顯示數據點都集中在直線附近，可以判斷兩個組中數據都服從近似正態分布。
SAS系列10:SAS基礎統計過程(二)

PROCFREQ過程可執行定性數據的描述性統計以及假設檢驗。PROC FREQ過程可產生從1維到n維的表格，即頻數表以及列聯表。OUTPCT; WEIGHT F;RUN;*===統計結果數據集輸出;PROC EXPORT DATA=RESULTS_FREQ OUTFILE="E:\study file\Jindingtongji\SAS\RESULTS_FREQ.xls" DBMS=xls REPLACE;RUN;
SAS系列23:列聯表資料假設檢驗方法

系列17-22我們已經介紹了四格表卡方檢驗方法及其SAS實現，今天開始介紹列聯表資料的假設檢驗方法及其SAS實現。
SAS系列21:SAS統計推斷(六)

系列20我們已經介紹了重複測量資料的方差分析，今天接著介紹定量數據的非參數秩和檢驗及其SAS實現。
R-統計描述與假設檢驗

此外，對於醫學中常用的幾種假設檢驗，我們將相關的R語言代碼進行了整理，以供快速查看和使用。，對於R語言繪製統計圖形，可參考公眾號之前的文章：R-可視化基礎專欄(2) —— 條形圖(一)R-可視化基礎專欄(3)—— 條形圖(二)R-可視化基礎(5)——散點圖、折線圖R-可視化基礎(6)——箱圖&小提琴圖二、假設檢驗2.1 醫學中常用的假設檢驗總結：
機器學習:數據的準備和探索——數據假設檢驗

數據假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。那我們啥時候會用到假設檢驗呢？問題：檢驗被告人是否有罪。根據這個問題，我們可以提出兩個互為相反的假設：零假設：被告人沒有罪。備選假設：被告人有罪。有了假設，接下來需要明確證據是什麼。根據中心極限定理，足夠多合理的樣本可以代表總體，所以我們要找到合理的樣本數據來做證據。
SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量

>「朝陽35處」可查看「說人話的大數據」系列合輯上一篇文章介紹了可以用來描述數據集中趨勢和數據離散程度的描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時，通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解，檢查數據是否大致服從某種分布，然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法，一種是計算統計量，一種是作圖。百分位數是一種位置指標。
數據分析必備統計學(二):假設檢驗

假設檢驗實操假設檢驗常用的方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法，秩和檢驗等。以t-假設檢驗舉例。根據上面的數據，我們可以使用Excel中的假設檢驗方法來判斷（以前我用手算過，好累呀，有了Excel等工具，很簡單方便，省時省力）。分析工具中的假設檢驗方法有多種，使用不同的方法，觀察值在檢驗前後的關係就不同，所以需要先選擇合適的方案。
Excel數據分析:假設檢驗的5大知識點!

-Excel數據分析工具庫中假設檢驗含5個知識點：Z-檢驗：雙樣本均值差檢驗T-檢驗：平均值的成對二樣本檢驗T-檢驗：雙樣本等方差假設T-檢驗：雙樣本異方差假設F檢驗：雙樣本方差檢驗Z檢驗：雙樣本平均差檢驗Z檢驗：雙樣本均值差檢驗概述
Excel數據分析:假設檢驗的5個知識點!

Excel數據分析工具庫中假設檢驗含5個知識點：Z-檢驗：雙樣本均值差檢驗T-檢驗：平均值的成對二樣本檢驗
統計學知識系列:一篇搞懂假設檢驗

不僅工作中會經常運用其概念，且也幾乎是數據分析師工作的面試必考題(尤其是校招以及轉行的朋友，當實戰經驗少的時侯會更關注基礎功底是否紮實)。所以我準備開始以較簡練的語言，輔以簡單易懂案例，總結一些統計學核心的知識點。我們常用的ab實驗，其背後的原理就是統計學中的假設檢驗，今天我們來詳細說說假設檢驗。
從程式設計師到數據科學家:SAS 編程基礎 (5)- 邏輯庫與數據集

技術大咖——巫銀良先生繼續分享「如何從程式設計師成為一名數據科學家」
大白話系列:分析方法之假設檢驗

今天我們來講假設檢驗分析方法。假設檢驗分析方法主要分為三步提出假設：根據要解決的問題來提出假設收集證據：收集證明來證明之前的假設得出結論：不是主觀猜想出來的，是通過收集證據證明才能得出結論那麼在工作中裡，我們該如何使用假設檢驗呢？
假設檢驗、Z檢驗與T檢驗

概述假設檢驗是統計學、分析學和數據科學中的一個關鍵概念了解假設檢驗的工作原理、Z檢驗和t檢驗之間的區別以及其他統計概念介紹冠狀病毒大流行使我們大家都成了一個統計學家。我們不斷地核對數字，對大流行將如何發展做出自己的假設，並對何時出現「高峰」提出假設。
顯著性檢驗、假設檢驗和原假設顯著性檢驗

因而，每一批產品，企業要進行質量檢驗，看看產品是否合格。檢驗的原假設就是H0:d = 1cm，而備選假設就是直徑超過0.01的範圍了。在這裡效應非常清晰，為0.01cm，生產過程中，螺母直徑可能符合要求，也可能不符合要求（即有時H0為真，有時H1為真）。
合理利用假設檢驗,讓你看清產品數據

你真的會數據分析嗎？什麼才是數據分析的正確打開方式？文章中舉出了幾種數據分析的常用例子與檢驗方式，一起來學習下。幾個常用場景的數據分析方法及具體操作運營活動效果數據分析常規：UV、PV、拉新、訂單等均值及提升比精確：前後活動的UV、PV、拉新、訂單數據的假設檢驗，如果是在全站做活動，則使用配對樣本T檢驗；如果是分平臺
[理論+spss實戰]假設檢驗——單樣本t檢驗

反證法思想是先提出假設(檢驗假設H0)，再用適當的統計方法確定假設成立的可能性大小，如可能性小（即最後計算出P值小於0.05），則認為假設不成立。假設檢驗其實就是驗證你事先提出的假設是落在了置信區間內部，還是落在了置信區間外部(稱為：拒絕域)。如圖，若落在了拒絕區域內（陰影部分），則拒絕H0，此時P<0.05。
假設檢驗學習筆記

在實際工作和研究中，往往只能獲得數據的一部分，通常指這個數據為樣本，而通過樣本對整體的估計被稱為假設檢驗。假設檢驗分析思路為了得到用戶的年齡情況，參數估計，基於用戶樣本數據估計整體用戶年齡。假設檢驗思路根據經驗或者其他方面的信息假設一個總體用戶的年齡的可能值，在根據樣本情況，使用工具來驗證假設是否正確。
假設檢驗的前世今生

其實，「前世今生」系列的文章我已經看到過好幾篇了，比如「正太分布的前世今生」、「Meta分析的前世今生」。不知為何，我個人也很喜歡「前世今生」這個詞。今天呢，就聊一聊我知道的一點「假設檢驗的前世今生」吧。假設檢驗是統計學裡最重要、最基礎的的概念，即便是不知道，不了解這個術語，與統計學毫不相干的人，在日常生活中，也不知不覺地應用了假設檢驗。
【SAS Says】基礎篇:1. SAS軟體入門

開發數據（一）6. 開發數據（二） 7. SAS宏初步8. 相關、回歸等基本統計您可以在微信公眾號「數說工作室」（微信ID：shushuojun）中回復「sasbase」查看。商業合作：jiayounet@163.com《概率論-上帝的賭術》系列【GLL】第一話：古典概率論，一場賭局引發的血案【GLL】第二話：大數定律，看不見的神的秩序【GLL】第三話：正態分布，眾生的百態【GLL】第四話：暴走的假設檢驗

SAS系列22:定性數據假設檢驗

相關焦點

參數估計與假設檢驗(七)-- 獨立雙樣本均值T檢驗

SAS系列10:SAS基礎統計過程(二)

SAS系列23:列聯表資料假設檢驗方法

SAS系列21:SAS統計推斷(六)

R-統計描述與假設檢驗

機器學習:數據的準備和探索——數據假設檢驗

SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量

數據分析必備統計學(二):假設檢驗

Excel數據分析:假設檢驗的5大知識點!

Excel數據分析:假設檢驗的5個知識點!

統計學知識系列:一篇搞懂假設檢驗

從程式設計師到數據科學家:SAS 編程基礎 (5)- 邏輯庫與數據集

大白話系列:分析方法之假設檢驗

假設檢驗、Z檢驗與T檢驗

顯著性檢驗、假設檢驗和原假設顯著性檢驗

合理利用假設檢驗,讓你看清產品數據

[理論+spss實戰]假設檢驗——單樣本t檢驗

假設檢驗學習筆記

假設檢驗的前世今生

【SAS Says】基礎篇:1. SAS軟體入門