對於一篇實證論文來說,再怎麼關注描述性統計都不為過。通常的描述性統計主要用來呈現清洗完畢後的數據的統計特徵,比如樣本量、均值、中位數、標準差、最小值和最大值。
今天要講的是描述性統計中描述數據特徵的另一種方式:分組均值T檢驗。所謂均值T檢驗,直白點說就是通過t檢驗來判斷兩組樣本的均值在統計上是否有差異。比如我們在研究稅收優惠與企業稅負問題時,就可以用t檢驗來看一看稅收優惠企業與非稅收優惠企業之間的稅負是否存在顯著差異。再比如企業問題研究中通常涉及的產權異質性,我們可以先用t檢驗來看一看關鍵變量在國有企業和非國有企業之間是否存在明顯區別。
相較於通常的描述性統計,均值T檢驗則進一步提供了不同組別之間的差異信息,並能夠為接下來通過實證考察組別異質性提供一定依據——以分組回歸考察異質性為例,我們之所以進行分組回歸,是因為預期關鍵變量的回歸表現(符號、係數或顯著性)在不同組別具有差異性。換言之,如果在不同組別中關鍵變量的表現一致,那麼分組回歸的意義便不大。因此,我們可以提前在描述性統計部分利用均值T檢驗看一看關鍵變量在組別間是否具有顯著的統計差別。(要說明一下的是,均值T檢驗下組別之間無差異並不必然表示分組回歸沒有差異和意義,這是因為做均值T檢驗時並未考慮其他因素的影響。)
在Stata中,可以很容易地實現均值T檢驗,用命令ttest即可,命令格式為:
其中,varname為感興趣的關鍵變量,groupvar為分組變量。以Stata自帶的數據集為例,我們想看一看國產車和外國車價格之間是否存在顯著差異,命令便可以寫成:
結果如下表所示:
命令ttest的操作很簡單,不過缺點在於一次只能執行一個關鍵變量,當我們想同時看一看多個變量在不同組別之間的差異時,需要重複執行多次,既不效率,也不利於多個結果的匯總。因此這裡介紹一個蠻好用的命令ttable3,這個命令由連玉君老師編寫,可以一次性執行多個變量,並可以實現中位數T檢驗。
由於該命令目前尚未被Stata官方收錄,需要手動下載並放至相應的根目錄位置,具體的下載連結為:http://bbs.pinggu.org/thread-2765062-1-1.html 。ttable3的介紹與語法如下,默認的是均值檢驗:
還是以Stata自帶的數據集為例,同時執行多個變量的命令可以寫成:
結果如下所示:
表的最後1列展示了國產車和外國車在各個變量上的均值差異,並給出了顯著性標識。如果我們想得到中位數差異,只需要在by後面加上median選項即可。事實上,我們還可以利用logout命令很方便的把上述結果導出到excel或rtf等文檔中:
由南開大學數量經濟研究所所長王群勇教授及其學術團隊主辦,旨在定期與大家分享計量經濟學的相關理論及軟體使用技巧,覆蓋經濟學、管理學、社會學等學科,為廣大學友提供優質學術內容。▲長按二維碼關注