傾向得分匹配(Propensity Score Matching,簡記 PSM)常用於估計微觀數據的處理效應(treatment effects),特別適用於樣本容量較大,而且協變量(控制變量)較多的情形。
在 Stata 命令中,psmatch2 是較早出現的PSM非官方命令。時至今日,仍不時有學生來諮詢我在使用 psmatch2 過程中所遇到的種種問題,可見其依然流行。然而,雖然 psmatch2 提供了豐富的具體匹配方法,但它最大的缺陷則在於其標準誤(standard errors)並不正確。基於標準誤對於統計推斷的重要性,這是 psmatch2 的致命弱點。
事實上,psmatch2 在匯報 PSM 估計結果時,已經委婉暗示了此局限性。比如,在下圖 psmatch2 估計結果底部的 Note 中,已經聲明「所提供的標準誤並未考慮到傾向得分是估計的」(S.E. does not take into account that the propensity score is estimated)。這意味著,在計算此標準誤中,有個不現實的假定,即假設所估計的傾向得分就是真正的傾向得分;這自然會導致偏差。
那麼,能否用自助法(bootstrap)來得到正確的標準誤呢?很遺憾,也不行,Abadie and Imbens (2008, Econometrica) 已經證明了這一點。這是因為,bootstrap standard errors 的成立有一個前提條件,即統計量必須是樣本數據的連續函數;而對於傾向得分匹配,這一前提並不成立。不難想像這樣一種的情形,即雖然協變量只有微小的變動,卻導致匹配到另一位個體,使得匹配結果發生不連續的劇烈變動。
PSM的正確標準誤直到2012年才由 Abadie and Imbens (2012, working paper) 給出,並最終於2016年發表於Econometrica。Abadie與 Imbens 所提出的 PSM 標準誤,充分考慮到了第一階段估計傾向得分的誤差,故為一致估計。
說起這兩位作者,均是當今的計量大牛。其中,MIT 經濟系教授 Alberto Abadie正是如今炙手可熱的「合成控制法」(Synthetic Control Method)之創始人。而 Stanford 經濟系教授 Guido Imbens 在因果推斷方面建樹頗豐;比如,在使用局部線性回歸(local linear regression)進行斷點回歸時,常用於確定帶寬的IK法,即來自於Imbens and Kalyanaraman (2010)。當然,Imbens 還有一位或許名氣更大的妻子 Susan Athey(曾為微軟首席經濟學家),在此按下不表。
自 Stata 13 以來,推出了關於處理效應的官方命令 teffects,其中的一個主要子命令即為 teffects psmatch。此官方命令雖然提供的匹配方法不如 psmatch2 豐富,但最大的優點是給出了由 Abadie 與 Imbens 所提出的正確標準誤,稱為「AI穩健標準誤」(AI Robust Standard Errors)。猛一看,還以為是「人工智慧穩健標準誤」……
命令 teffects psmatch 的基本格式很簡單:
teffects psmatch (y) (t x1 x2 x3), atet nn(#) caliper(#)
其中,y 為結果變量(outcome variable),t 為處理變量(treatment variable),而 x1,x2 與 x3為協變量(covariates)。默認使用 Logit 估計傾向得分。
選擇項「atet」表示估計「參與者平均處理效應」(Average Treatment Effect on the Treated),默認估計所有個體的「平均處理效應」(Average Treatment Effect)。
選擇項「nn(#)」表示進行「一對#」的最近鄰匹配(nearest neighbor matching),默認為「nn(1)」,即一對一匹配。
選擇項「caliper(#)」表示在某個卡尺範圍內進行匹配;比如「caliper(0.1)」,表示僅考慮在傾向得分的差異不超過0.1的個體之間進行匹配。
下面以 Stata 自帶的數據集 cattaneo2.dta 為例。該數據集可用於研究「懷孕期母親是否抽菸」(mbsmoke)對於「新生兒體重」(bweight)的影響。此例子中的協變量為「母親是否結婚」(mmarried),母親年齡(mage)及其平方,「是否第一胎」(fbaby),以及「母親的教育年限」(medu)。
. webuse cattaneo2
先看一下相關變量的統計特徵。
. sum bweight mbsmoke mmarried c.mage##c.mage fbaby medu
其中,上述命令中的「c.mage##c.mage」包括了「mage」及其平方「c.mage#c.mage」。
進一步,考察吸菸組(處理組)與不吸菸組(控制組)的新生兒體重差異特徵。
. bysort mbsmoke: sum bweight
從上表可知,不吸菸組(nonsmoker)的新生兒平均體重為3412.912克,而吸菸組(smoker)的新生兒平均體重僅為3137.66千克。這兩組新生兒體重的平均差異是否顯著呢?為此,下面進行一對一的傾向得分匹配。
. teffects psmatch (bweight) (mbsmoke mmarried c.mage##c.mage fbaby medu)
上表所提供的標準誤即為「AI Robust Std. Err.」。由上表可知,吸菸組與非吸菸組的新生兒平均體重的差異在1%水平上顯著(p 值為0.000)。
teffects psmatch 默認進行一對一的傾向得分匹配。一對一匹配的優點是偏差(bias)較小,但方差(variance)可能較大。為此,加上選擇項「nn(4)」,進行一對四的傾向得分匹配。
結果表明,此處理效應依然在1%水平上顯著。
更多關於命令 teffects psmatch 的介紹,參見help teffects psmatch,以及相應的Stata手冊(Stata manual)。
參考文獻
陳強,《高級計量經濟學及Stata應用》,第2版,高等教育出版社,2014年。
陳強,《計量經濟學及Stata應用》,高等教育出版社,2015年。(配套教學視頻,可在網易雲課堂學習)
高級計量經濟學與Stata現場班
(北京,2019年4月27日-5月2日六天,詳情點擊底部 閱讀原文)
(聯繫QQ:2881989714,魏老師)
讓計量經濟學從此不再難!
配套本科計量教學視頻,可在網易雲課堂學習
https://study.163.com/course/introduction/1006076251.htm
(c) 2018, 陳強,山東大學經濟學院
www.econometrics-stata.com
轉載請註明作者與出處
Our mission is to make econometrics easy, and facilitate convincing empirical works.