傾向得分匹配:psmatch2 還是 teffects psmatch

2021-03-02 計量經濟學及Stata應用

傾向得分匹配(Propensity Score Matching,簡記 PSM)常用於估計微觀數據的處理效應(treatment effects),特別適用於樣本容量較大,而且協變量(控制變量)較多的情形。

 

在 Stata 命令中,psmatch2 是較早出現的PSM非官方命令。時至今日,仍不時有學生來諮詢我在使用 psmatch2 過程中所遇到的種種問題,可見其依然流行。然而,雖然 psmatch2 提供了豐富的具體匹配方法,但它最大的缺陷則在於其標準誤(standard errors)並不正確。基於標準誤對於統計推斷的重要性,這是 psmatch2 的致命弱點。

 

事實上,psmatch2 在匯報 PSM 估計結果時,已經委婉暗示了此局限性。比如,在下圖 psmatch2 估計結果底部的 Note 中,已經聲明「所提供的標準誤並未考慮到傾向得分是估計的」(S.E. does not take into account that the propensity score is estimated)。這意味著,在計算此標準誤中,有個不現實的假定,即假設所估計的傾向得分就是真正的傾向得分;這自然會導致偏差。

 

那麼,能否用自助法(bootstrap)來得到正確的標準誤呢?很遺憾,也不行,Abadie and Imbens (2008, Econometrica) 已經證明了這一點。這是因為,bootstrap standard errors 的成立有一個前提條件,即統計量必須是樣本數據的連續函數;而對於傾向得分匹配,這一前提並不成立。不難想像這樣一種的情形,即雖然協變量只有微小的變動,卻導致匹配到另一位個體,使得匹配結果發生不連續的劇烈變動。

 

PSM的正確標準誤直到2012年才由 Abadie and Imbens (2012, working paper) 給出,並最終於2016年發表於Econometrica。Abadie與 Imbens 所提出的 PSM 標準誤,充分考慮到了第一階段估計傾向得分的誤差,故為一致估計。

 

說起這兩位作者,均是當今的計量大牛。其中,MIT 經濟系教授 Alberto Abadie正是如今炙手可熱的「合成控制法」(Synthetic Control Method)之創始人。而 Stanford 經濟系教授 Guido Imbens 在因果推斷方面建樹頗豐;比如,在使用局部線性回歸(local linear regression)進行斷點回歸時,常用於確定帶寬的IK法,即來自於Imbens and Kalyanaraman (2010)。當然,Imbens 還有一位或許名氣更大的妻子 Susan Athey(曾為微軟首席經濟學家),在此按下不表。

 

自 Stata 13 以來,推出了關於處理效應的官方命令 teffects,其中的一個主要子命令即為 teffects psmatch。此官方命令雖然提供的匹配方法不如 psmatch2 豐富,但最大的優點是給出了由 Abadie 與 Imbens 所提出的正確標準誤,稱為「AI穩健標準誤」(AI Robust Standard Errors)。猛一看,還以為是「人工智慧穩健標準誤」……

 

命令 teffects psmatch 的基本格式很簡單:

 

teffects psmatch (y) (t x1 x2 x3), atet nn(#) caliper(#)

 

其中,y 為結果變量(outcome variable),t 為處理變量(treatment variable),而 x1,x2 與 x3為協變量(covariates)。默認使用 Logit 估計傾向得分。

選擇項「atet」表示估計「參與者平均處理效應」(Average Treatment Effect on the Treated),默認估計所有個體的「平均處理效應」(Average Treatment Effect)。

選擇項「nn(#)」表示進行「一對#」的最近鄰匹配(nearest neighbor matching),默認為「nn(1)」,即一對一匹配。

選擇項「caliper(#)」表示在某個卡尺範圍內進行匹配;比如「caliper(0.1)」,表示僅考慮在傾向得分的差異不超過0.1的個體之間進行匹配。

 

下面以 Stata 自帶的數據集 cattaneo2.dta 為例。該數據集可用於研究「懷孕期母親是否抽菸」(mbsmoke)對於「新生兒體重」(bweight)的影響。此例子中的協變量為「母親是否結婚」(mmarried),母親年齡(mage)及其平方,「是否第一胎」(fbaby),以及「母親的教育年限」(medu)。

 

. webuse cattaneo2

先看一下相關變量的統計特徵。 

. sum bweight mbsmoke mmarried c.mage##c.mage fbaby medu

 

其中,上述命令中的「c.mage##c.mage」包括了「mage」及其平方「c.mage#c.mage」。

進一步,考察吸菸組(處理組)與不吸菸組(控制組)的新生兒體重差異特徵。

 

. bysort mbsmoke: sum bweight

 

從上表可知,不吸菸組(nonsmoker)的新生兒平均體重為3412.912克,而吸菸組(smoker)的新生兒平均體重僅為3137.66千克。這兩組新生兒體重的平均差異是否顯著呢?為此,下面進行一對一的傾向得分匹配。

 

. teffects psmatch (bweight) (mbsmoke mmarried c.mage##c.mage fbaby medu)

 

上表所提供的標準誤即為「AI Robust Std. Err.」。由上表可知,吸菸組與非吸菸組的新生兒平均體重的差異在1%水平上顯著(p 值為0.000)。

 

teffects psmatch 默認進行一對一的傾向得分匹配。一對一匹配的優點是偏差(bias)較小,但方差(variance)可能較大。為此,加上選擇項「nn(4)」,進行一對四的傾向得分匹配。

 

結果表明,此處理效應依然在1%水平上顯著。

更多關於命令 teffects psmatch 的介紹,參見help teffects psmatch,以及相應的Stata手冊(Stata manual)。

參考文獻

陳強,《高級計量經濟學及Stata應用》,第2版,高等教育出版社,2014年。

陳強,《計量經濟學及Stata應用》,高等教育出版社,2015年。(配套教學視頻,可在網易雲課堂學習)

高級計量經濟學與Stata現場班

(北京,2019年4月27日-5月2日六天,詳情點擊底部 閱讀原文)

(聯繫QQ:2881989714,魏老師)

讓計量經濟學從此不再難!

配套本科計量教學視頻,可在網易雲課堂學習

https://study.163.com/course/introduction/1006076251.htm

(c) 2018, 陳強,山東大學經濟學院

www.econometrics-stata.com

轉載請註明作者與出處

Our mission is to make econometrics easy, and facilitate convincing empirical works. 

相關焦點

  • 統計計量丨傾向得分匹配:psmatch2 還是 teffects psmatch
    比如,在下圖 psmatch2 估計結果底部的 Note 中,已經聲明「所提供的標準誤並未考慮到傾向得分是估計的」(S.E. does not take into account that the propensity score is estimated)。這意味著,在計算此標準誤中,有個不現實的假定,即假設所估計的傾向得分就是真正的傾向得分;這自然會導致偏差。
  • 關於 psmatch2 與 teffects psmatch 估計結果差異的一個原因
    關於 psmatch2 與 teffects psmatch 估計結果差異的一個原因關於具體 PSM 方法的原理,我不做過多闡述,這裡我僅討論teffects psmatch和psmatch2在stata中的估計結果不相同的一個原因。
  • 傾向匹配得分教程【pscore、psmatch2、官方命令Teffects操作及應用】
    本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。
  • 一文讀懂傾向得分匹配法(PSM)舉例及stata實現(一)
    本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。
  • 一文讀懂傾向匹配得分Stata及R操作應用
    本文將介紹Stata及R軟體進行傾向匹配得分操作應用,主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、
  • 傾向匹配得分教程(附PSM操作應用、平衡性檢驗、共同取值範圍、​核密度函數圖)
    計量百科·資源·乾貨:本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。在傾向得分匹配方法( Propensity Score Matching )中,根據處理指示變量將樣本分為兩個 組,一是處理組,在本例中就是在 NSW 實施後接受培訓的組;二是對照組 ( comparison group ),在本例中就是在 NSW 實施後不接受培訓的組。
  • PSM-傾向得分匹配分析的誤區
    [Link1], [Link2]❝「目錄」❞1.背景2.傾向得分匹配3.會計研究中使用情況4.應用案例4.2 解讀:採用 regress 命令完成 PSM 的回歸分分析5.PSM 使用建議 相關課程❝1.
  • 傾向得分匹配(PSM)操作過程與問題反思
    方法五:馬氏距離由於在傾向得分匹配第一階段估計傾向得分時存在不確定性,Abadie and Imbens的相關研究又重新回到更簡單的馬氏距離,進行有放回且允許並列的k近鄰匹配,針對非精確匹配一般存在偏差,提出了偏差校正的方法
  • 內生性問題和傾向得分匹配, 獻給準自然試驗的厚禮
    方法五:馬氏距離由於在傾向得分匹配第一階段估計傾向得分時存在不確定性,Abadie and Imbens的相關研究又重新回到更簡單的馬氏距離,進行有放回且允許並列的k近鄰匹配,針對非精確匹配一般存在偏差,提出了偏差校正的方法,通過回歸的方法估計偏差,然後得到偏差校正匹配估計量。
  • Stata新命令:psestimate - 傾向得分匹配中協變量的篩選
    平衡性假設在 PSM 匹配時,用treat變量對控制變量進行Logit回歸,得到傾向得分值。傾向得分值最接近的控制組個體即為實驗組的配對樣本,通過這種方法可以最大程度減少實驗組與控制組個體存在的系統性差異,從而減少估計偏誤。
  • 玩轉Stata | 傾向得分配對(PSM)內生性檢驗利器
    1、安裝psmatch2          ssc install psmatch2,replace         2、導入數據,方法比較多,可以粘貼複製、也可以使用命令          use E:\BaiduNetdiskDownload\A\labor.dta
  • Propensity Score Matching 傾向得分匹配
    因此,依據傾向得分進行匹配是一個簡單易行的選擇。我們丟棄觀測組中傾向得分低於實驗組傾向得分最小值、以及高於實驗組傾向得分最大值的數據,保證只比較有相似的傾向得分的實驗組和觀測組對象,然後分析數據的分布。
  • 因果推斷簡介之四:因果推斷簡介之四:觀察性研究,可忽略性和傾向得分
    Neyman; propensity score; 傾向得分; 匹配; 可忽略性; 回歸分析; 因果推斷; 混雜因素; 觀察性研究; 隨機化試驗這節採用和前面相同的記號。Z 表示處理變量(1 是處理,0是對照),Y 表示結果,X 表示處理前的協變量。
  • 傾向得分匹配法的詳細解讀.doc
    今天,商小研就要給大家介紹一種可以用來緩解自選擇偏誤的計量方法——傾向得分匹配法!個體的協變量集是多維度的,我們需要考慮如何將個體按照現有的多維度協變量集進行適當的匹配,這就是引入傾向得分值的緣由了。傾向得分值便是按照現有的協變量集計算個體進入處理組的概率(一般是利用probit或logit模型來進行的),這就使得多維協變量集被降到一維變量的層面,之後我們便可通過特定的匹配法則來將我們定義中的傾向得分值接近的個體進行匹配,這便重構了我們的控制組和處理組。接著,在完成了平衡性檢驗後,我們便可以開始計算處理效應了。
  • 傾向得分配對宏
    本篇文章所使用的數據與宏文件如下:連結:http://pan.baidu.com/s/1c2s9LoG 密碼:ytwh連結:http://pan.baidu.com/s/1i5nFSpv 密碼:n7xg[問題]配對好睏難呀,請問傾向得分配對要如何處理呢
  • 傾向性匹配得分分析(PSM)是一種不太靠譜的方法
    2. 我們也可以通過PSM的方法,試驗組接受職業培訓的185例,對照組未接受職業培訓429例,我們從429例對照裡篩選一些人,讓這些人的協變量(age, educ, black, hispan, married, nodegree, re74, re75)與試驗組均衡可比。我們首先進行多元線性回歸分析,多元線性回歸的軟體操作略,計算結果如圖2.所示。
  • R語言:傾向評分匹配(Propensity Score Matching)-1
    ,                         par.0=list(col="blue",lwd=2,lty=2),            xlim=c(-0.5,1))結果:#顯示處理組和非處理傾向評分密度分布,par.1處理組作圖參數,#par.0非處理組作圖參數。
  • R學習|淺談傾向性匹配得分(PSM)
    簡單來說,即將組間一個或者多個不均衡的變量,通過一個綜合指標「傾向評分」達到「降維」的效果。常用的PSM軟體平臺有R,SPSS以及SAS,在這裡筆者習慣使用R語言進行PSM(ps:SPSS需要安裝一堆插件才能運算PSM,我因為懶所以放棄了)。
  • 精神病傾向測試丨你的得分越高說明精神疾病傾向越嚴重
    它有數十項信息,將分值定為0、1、2甚至更高,分值越低代表越不合格,分值越高代表精神指數越高,越趨於安全。測試題目的全面性和跳躍性使測試的準確程度令人信服,心理學家對權威測試題目進行實踐,發現許多罪犯的測試結果高度吻合。