描述性統計分析是對一組數據的各個特徵進行分析,以便於描述測量樣本的各種特徵及其所代表的總體特徵。描述性統計分析的內容很多,常用的有平均數、標準差、中位數、頻數分布、正態或偏態程度等。這些分析是複雜統計分析的基礎。本文主要介紹如何運用SAS中的過程步進行描述性統計量的計算。
運用PROC MEANS可以計算數值型變量的均值、中位數、眾數等描述性統計量。其基本用法為:
PROC MEANS DATA=數據集 選項;
VAR 變量1 變量2...;
RUN;
其中,如忽略VAR語句則分析數據集中所有數值型變量。另外,選項可以用來指定統計量的輸出格式,不填寫選項系統則默認輸出頻數、均值、標準差、最大值和最小值。輸出指定統計量列表如下:
PROC UNIVARIATE和PROC MEANS一樣可以計算數值型變量的均值、中位數、眾數等描述性統計量。但相比PROC MEANS,其優勢在於可以繪製直方圖,從而更加直觀地給出變量的分布情況。其基本用法為:
PROC UNIVARIATE DATA=數據集;
VAR 變量;
BY 變量;
CLASS 變量;
HISTOGRAM 變量 選項;
QQPLOT 變量 選項;
PROBPLOT 變量 選項;
RUN;
其中,如忽略VAR語句則分析數據集中所有數值型變量。BY與CLASS的用法基本相同,用於指定分組的變量。HISTOGRAM 語句可以針對指定變量繪製直方圖。QQPLOT語句用於控制Q-Q圖的繪製。PROBPLOT 語句可以指定作出概率圖,比較數據是否服從某已知分布,如正態分布、二項分布、泊松分布等。
從輸出結果可以看出,PROC MEANS幫助用戶選擇性的輸出所需的統計量,而PROC UNIVARIATE 則輸出了幾乎所有分析所需的統計量,同時,還可以選擇性的輸出一些分析所需的統計圖(如P-P,Q-Q,直方圖),並進行正態性檢驗。
參考資料:《深入解析SAS:數據處理、分析優化與商業分析》