如何使用PROC MEANS和PROC UNIVARIATE進行統計描述

2021-03-02 SAS中文論壇

描述性統計分析是對一組數據的各個特徵進行分析,以便於描述測量樣本的各種特徵及其所代表的總體特徵。描述性統計分析的內容很多,常用的有平均數、標準差、中位數、頻數分布、正態或偏態程度等。這些分析是複雜統計分析的基礎。本文主要介紹如何運用SAS中的過程步進行描述性統計量的計算。

運用PROC MEANS可以計算數值型變量的均值、中位數、眾數等描述性統計量。其基本用法為:

PROC MEANS DATA=數據集 選項;

VAR 變量1 變量2...;

RUN;


其中,如忽略VAR語句則分析數據集中所有數值型變量。另外,選項可以用來指定統計量的輸出格式,不填寫選項系統則默認輸出頻數、均值、標準差、最大值和最小值。輸出指定統計量列表如下:



PROC UNIVARIATE和PROC MEANS一樣可以計算數值型變量的均值、中位數、眾數等描述性統計量。但相比PROC MEANS,其優勢在於可以繪製直方圖,從而更加直觀地給出變量的分布情況。其基本用法為:

PROC UNIVARIATE DATA=數據集;

VAR 變量;

BY 變量;

CLASS 變量;

HISTOGRAM 變量 選項;

QQPLOT 變量 選項;

PROBPLOT 變量 選項;

RUN;

其中,如忽略VAR語句則分析數據集中所有數值型變量。BY與CLASS的用法基本相同,用於指定分組的變量。HISTOGRAM 語句可以針對指定變量繪製直方圖。QQPLOT語句用於控制Q-Q圖的繪製。PROBPLOT 語句可以指定作出概率圖,比較數據是否服從某已知分布,如正態分布、二項分布、泊松分布等。



從輸出結果可以看出,PROC MEANS幫助用戶選擇性的輸出所需的統計量,而PROC UNIVARIATE 則輸出了幾乎所有分析所需的統計量,同時,還可以選擇性的輸出一些分析所需的統計圖(如P-P,Q-Q,直方圖),並進行正態性檢驗。


參考資料:《深入解析SAS:數據處理、分析優化與商業分析》


相關焦點

  • SAS-PROC UNIVARIATE相關用法
    介紹一下PROC UNIVARIATE語句在統計描述中的用法~一定要看到最後,有彩蛋哦~~~基本CODE:
  • 第四講:SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • 【每天學點應用軟體】SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • PROC UNIVARIATE 自動生成分位數分組
    分析數據時,經常會遇到要求將指標按三分位數、四分位數或五分位數等進行分組 ,納入模型,探究變量間的劑量反應關係。
  • 兩個主題:躲避execve與分析/proc/目錄
    今天比較特別,講兩個主題,主要是為了承上啟下,進行補充和過渡。躲避execve,是在原來的文章的基礎上補充一個小思路,分析/proc/目錄 是為了下一篇講解內存中修改函數做準備,要讓大家提前知道這回事。本公眾號以原創乾貨為主,原創不易,大家如果喜歡本篇文章的話,記得點在看和轉發朋友圈。1.
  • SAS統計分析系列:描述性統計分析 (四)-- MEANS過程的更多功能
    表9.2 常見描述性統計量若計算描述性統計量(均值、標準差、標準誤差、總和、權重和等)時,需要使用權重變量,可以通過兩種方法指定權重變量,一種是在VAR語句中使用選項WEIGHT=,第二種是直接在PROC步中使用WEIGHT語句來指定權重變量。
  • SAS中用PROC SQL管理數據
    用PROC SQL作查詢的最簡單的用法如下:PROC SQL; SELECT 第一項,第二項,…,第n項 FROM 數據集 WHERE 觀測選擇條件; RUN;其中SELECT是一個語句,FROM和WHERE叫做子句,注意語句是在最後結尾的,中間沒有分號。SELECT子句中指定的各項一般為變量名,中間用逗號分隔(注意不是用空格分隔)。
  • 比較 merge by 與 proc sql 的外連接(一)
    我們講個內容少點的 topic --- merge by 與 proc sql 外連接的比較之左連接。為了讓大家時刻對外連接不迷糊,咱們約定一下,以後外連接,咱們統一叫成***外連接橫向匹配合併***。如此一來,我相信,你不會有突然對外連接感到陌生的時刻。
  • 如何使用K-MEANS聚類算法解決分類問題
    k個初始類聚類質心的選取對聚類結果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的質心,初始地代表一個聚類結果,當然這個結果一般情況不是合理的,只是隨便地將數據集進行了一次隨機的劃分,具體進行修正這個質心還需要進行多輪的計算,來一步步逼近我們期望的聚類結果:具有相似性的對象聚集到一個組中,它們都具有共同的一個質心。
  • 技術派|一文告訴你SAS如何解決穩健性問題
    描述性統計中一般用於描述數據整體狀況的指標,包括集中性、離散性的統計量,對應於穩健性問題中,這兩個指標為位置統計量和尺度統計量。
  • SAS用K-Means 聚類最優k值的選取和分析
    K-Means算法如何工作?使用proc檢查數據集proc means data=work.iris N Nmiss mean median max min;run;它具有150個觀測值和5個變量。未檢測到缺失值或離群值。我們將僅使用四個變量,即sepal_length,sepal_width,petal_length和petal_width。
  • 如何在 Linux 伺服器上設置 ulimit 和文件描述符數限制 | Linux 中國
    因為許多應用程式是基於 Java 和 Apache 的,安裝和配置它們可能會導致打開過多的文件(文件描述符)。如果打開的文件描述符超過了默認設置的限制,就可能會面臨訪問控制問題,受阻於打開文件的挑戰。許多生產環境因此而陷入停滯狀態。幸運的是,在基於 Linux 的伺服器上,都有 ulimit 命令,通過它可以查看、設置、獲取文件打開的狀態和配置詳情。
  • 【SAS Says】基礎篇:ODS的使用(上)
    PCT Printer Control LanguagePDF、MARKUP、DOCUMENTDOCUMENT 目的地,允許創建一個可重複使用的輸出。風格和表模板 模板描述ODS如何制定數據格式並呈現數據。最普通的兩個模板類型和是表模板類型和風格模板類型。表模板類型制定基本的輸出結構,而風格模板類型制定輸出將如何呈現。ODS將過程產生的數據和和表模板結合成輸出對象,輸出對象接著與風格模板結合,並發送到目的地,創建出輸出。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • SAS、SPSS、JMP、Excel四種統計分析軟體實現t檢驗
    t檢驗如何實現?可用公式計算統計量再查表,也可以用SAS、SPSS、Excel、JMP、R等具有統計分析功能的軟體實現。言歸正傳。近期給北京市某單位培訓統計分析課程,發現不同單位甚至不同科室的工作人員常用的統計學分析軟體也不一樣。不過軟體只是個工具,無論黑貓白貓能抓到老鼠的就是好貓。
  • 這麼多統計留學生,他們的的出路在哪裡?
    有一定積累(比如一個月後),就可以在linkedin裡建起個人履歷(歡迎和我建立聯繫),開始坦然面對職場,因為你的簡歷已經有了僱主和獵頭公司搜索所用的有關技能的關鍵詞。假如你在校時修過一些計算機程式語言,那麼就更有優勢了。就統計語言來說,大學裡用的其它統計語言與Stata與Gauss等,公司裡幾乎不用。除非課程要求,沒必要花時間去學。SPSS也用得不多,翻一下書即可。
  • 聊聊 Linux 的內存統計
    縱向的含義以及Swap不需要解釋,我們看橫向的統計項:total — 系統總內存(其實就是從 /proc/meminfo 獲取的)used — 已使用內存free — 未使用的內存shared — 共享內存的大小,主要是 tmpfsbuff / cache — buffers和cache使用的內存之和available