分組進行描述性統計的小技巧 --astx命令介紹

2021-02-13 Stata and Python數據分析
前言
在Stata的初學者進行實證研究時,會遇到各種各樣的小問題,而如何對手中的數據進行分組描述性統計應該是大多數初學者都會頭疼的問題。在中文網際網路上,關於這個問題有不少的解決方法,其中最方便的就是使用tabstat命令。但是,tabstat命令不能把結果輸出到外部的文件之中,所以今天我們要介紹一個很好用的命令--astx命令,來幫助實現結果輸出。astx命令由來自巴基斯坦的大神Attaullah Shah編寫,它能夠根據你設置的分組進行描述性統計計算和t檢驗,並將結果輸出到excel表格之中。在查看astx命令的ado文件之後,小編發現該命令是基於tabstat命令編寫的,tabstat命令是Stata自帶的命令,這樣就保證了結果的準確性。astx命令上傳於2017年,可惜的是三年的時光過去了,在中文網際網路上竟然還無法找到該命令的詳細介紹。為了不使明珠蒙塵,文章接下來就來介紹該命令的用法。一、命令安裝astx命令的安裝極其簡單,使用以下程序安裝即可:

ssc install astx ,replace

二、語法

        astx命令的語法簡單明了,具體如下:

astx varlist, stat(options) by(varlist)

varlist:指需要進行描述性統計的變量名。(可同時輸入多個變量名,但不推薦,原因在下文說明)stat(options) :在此輸入你需要的各種指標,該命令可以輸出的指標如下表所示:選項名說明sd標準差mean平均值semean標準誤差平均值median中位數count非缺失的觀測值個數sum求和range極差(範圍誤差、全距)min最小值max最大值cv變異係數skewness偏度kurtosis峰度iqr四分位距(四分差)p1第1百分位數p5第5百分位數p10第10百分位數p25第25百分位數p50第50百分位p75第75百分位數p99第99百分位數tstatt檢驗三、案例下面我們用一個具體的案例來展示astx命令的魅力。在數據上,我們仍然使用Stata自帶的auto數據集,由於該數據集中變量foreign裡已經根據汽車是否國產對數據進行的分組,國產取值為0,進口取值為1。下面就直接對變量price進行操作。

sysuse auto.dta, clear
astx price,stat(sd mean median max min) by(foreign)

我們可以看到描述性統計結果已經分組展現在我們面前,並且輸出到了名為Summary Statistics by foreign.xlsx的文件之中,你可以直接點擊紅框中的藍色字體打開該文件,也可以在Stata當前指定的路徑下找到該文件打開。文件打開如下:

在本例中,是按照變量foreign進行分組的,所以文件名稱為Summary Statistics by foreign.xlsx 。如果按照變量XXX進行分組,那麼文件名就會是Summary Statistics by XXX.xlsx 。當然,astx命令還可以輸出分組t檢驗的結果。具體如下:

astx price, stat(sd mean median max min tstat) by(foreign)

最後,astx命令是可以同時輸出多個變量的分組描述性統計結果的,但是會有一些瑕疵。這次,我們對price weight rep78三個變量同時進行分組描述性統計,具體如下:

astx price weight rep78,stat(sd mean median max min) by(foreign)

可以看到,當對多個變量同時進行描述性統計輸出時,在輸出的結果之中,無法正確顯示分組情況。我看可以看到紅框之中顯示為0、1、1、1、1、1,這裡實際上是錯誤的。根據小編驗證,前三行是price weight rep78三個變量在foreign = 0時的描述性統計結果,後三行是price weight rep78三個變量在foreign = 1時的描述性統計結果,所以紅框之中正確的顯示應該是0、0、0、1、1、1。還有就是,多個變量時,該命令無法進行t檢驗。所以,在使用astx命令時小編並不推薦同時對多個變量進行分組的描述性統計。四、其他注意事項1、在分組變量by()那一欄,astx命令只能識別數值型的變量作為分組依據。2、在輸出之前,無法對即將輸出的excel文件進行設置,如更改文件名稱、更改字體格式等等。好了,以上就是astx命令的全部介紹了。關於結果輸出,我們爬蟲俱樂部也開發了sum2docxreg2docxt2docxcorr2docx等命令。感興趣的讀者可以閱讀以下推文了解。
對我們的推文累計打賞超過1000元,我們即可給您開具發票,發票類別為「諮詢費」。用心做事,不負您的支持!

微信公眾號「Stata and Python數據分析」分享實用的stata、python等軟體的數據處理知識,歡迎轉載、打賞。我們是由李春濤教授領導下的研究生及本科生組成的大數據處理和分析團隊。

此外,歡迎大家踴躍投稿,介紹一些關於stata和python的數據處理和分析技巧。投稿郵箱:statatraining@163.com
投稿要求:
1)必須原創,禁止抄襲;
2)必須準確,詳細,有例子,有截圖;
注意事項:
1)所有投稿都會經過本公眾號運營團隊成員的審核,審核通過才可錄用,一經錄用,會在該推文裡為作者署名,並有賞金分成。
2)郵件請註明投稿,郵件名稱為「投稿+推文名稱」。
3)應廣大讀者要求,現開通有償問答服務,如果大家遇到有關數據處理、分析等問題,可以在公眾號中提出,只需支付少量賞金,我們會在後期的推文裡給予解答。

相關焦點

  • R描述性統計
    這裡就是描述性統計分析,下面看看描述性統計分析在R中的實現。」      導入數據,這裡我通過choose.files()命令調出複選框選擇我存在電腦中的mydata.csv文件,colClasses是對數據框列類型進行設置,這裡我設置mydata數據前4列為字符型,後8列為數值型。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一、分類變量的常用描述指標頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
  • 描述性統計與分位數回歸
    只要做了都有分,但不按照要求的話,分就相應要低一些充分利用小組合作,相互分享相互學習描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:
  • 第七節 描述性統計與分位數回歸
    描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。通過描述性統計,我們可以根據自己的研究需要,從大量不同類型的數據中,篩選出具有代表性的數據來進行初步的研究分析。數據導入stata軟體實操首先,導入數據集auto.dta通過存儲文件打開該數據的stata命令為:use "D:\你自己存放auto.dta文件的路徑 \auto.dta"。
  • Excel進行描述性統計分析
    ,以便進行後續動作。今天介紹Excel中如何完成描述性統計。一、使用Excel自帶數據分析工具    先介紹自帶的分析工具,可一次性輸出一些統計項的數值,樣例數據85行6列。添加好加載項後,使用步驟如下:點擊「數據」-右側找到「數據分析」,彈出的窗口中,分析工具選擇「描述統計」;「輸入區域」選擇要分析的數據區域,根據需求選擇分組方式及是否勾選
  • 第四講:SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    可以用來描述數據集中趨勢和數據離散程度的描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • 【每天學點應用軟體】SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • python描述性統計之dataframe.describe
    描述性統計使用df.describe()描述性統計,即概括性度量。是用來概括、表述事物整體狀況以及事物間關聯、類屬關係的統計方法。通過統計處理可以簡潔地用幾個統計值來表示一組數據地集中性和離散型 (波動性大小)。集中趨勢指一組數據向某一中心靠攏的程度,反映了一組數據中心點的位置所在。
  • 如何使用PROC MEANS和PROC UNIVARIATE進行統計描述
    描述性統計分析是對一組數據的各個特徵進行分析,以便於描述測量樣本的各種特徵及其所代表的總體特徵。描述性統計分析的內容很多,常用的有平均數、標準差、中位數、頻數分布、正態或偏態程度等。這些分析是複雜統計分析的基礎。本文主要介紹如何運用SAS中的過程步進行描述性統計量的計算。運用PROC MEANS可以計算數值型變量的均值、中位數、眾數等描述性統計量。
  • Stata命令精選之論文描述性分析 tabstat
    描述性統計通常對收集來的數據進行直接的頻率、頻數等描述,描述性統計分析一般對樣本的最小值、最大值、平均值、標準偏差等進行分析,這些數據有助於了解樣本數據特徵
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書,讀者對象主要是醫學統計工作者、醫療衛生機構的統計信息工作者和醫學院校的師生
  • 用Excel進行數據分析:描述性統計分析
    在數據分析的時候,一般首先要對數據進行描述性統計分析(Descriptive Analysis),以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布、以及一些基本的統計圖形,常用的指標有均值、中位數、眾數、方差、標準差等等。》》接下來我們講講在Excel2007中完成描述性統計分析。
  • SPSS+Excel統計分析技巧篇——醫學數據的描述性統計分析
    >點擊「排序」→「自定義排序」:    以上的數據就完全滿足數據分析的格式了,任何統計軟體都可以識別,後續的數據分析也可以順利進行。以上的操作,對於大樣本、大數量的Excel數據整理非常方便,省很多時間!
  • 論文實戰 | 描述統計
    因此,描述性分析是開展數據分析過程中最基礎且必不可少的一環。對數據進行描述性分析主要考察的類別包括: ① 集中趨勢分析 集中趨勢是指一組數據向某一個中心值靠攏的傾向,集中趨勢統計量是反映一組數據一般水平的「代表值」或「中心值」的統計量。常見的集中趨勢統計量包括平均值、中位數和眾數。
  • SPSS統計數據的收集、整理與描述
    收集統計數據之後,要對獲取的數據進行系統化、條理化地整理,以提取有用的信息。1.統計分組根據統計研究的目的和客觀現象的內在特點,按某個標誌(或幾個標誌)把被研究的總體劃分為若干個不同性質的組,稱為統計分組。統計分組的對象是總體。從分組的性質來看,分組具有分和雙重含義。2.
  • R-統計描述與假設檢驗
    ,在本文中,我們將補充一些其他的統計描述代碼,並匯總統計描述的常用可視化方法。此外,對於醫學中常用的幾種假設檢驗,我們將相關的R語言代碼進行了整理,以供快速查看和使用。一、統計描述1.1 統計描述代碼回顧:mean(x)均值median(x)中位數sd(x)標準差var(x)方差quantile(x, probs)分位數(probs∈[0, 1])range(x)值域sum(x)求和min(x)最小值max(x)最大值scale(x)中心化
  • 不可不知的描述性統計 | Descriptive Statistics
    我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。這裡把關鍵詞勾劃一下:1、Describe-描述2、Summarize-總結注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。
  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。
  • 統計學入門級-描述性統計理論
    箱線圖就是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種圖。額,箱線圖經常應用在識別檢測異常值方面。㈣ 平均數平均數也稱為均值,是一組數據相加後除以數據個數得到的結果。