空間計量專題研討班-連享會
傾向得分匹配分析 (PSM) 已經在諸多領域得到了應用。雖然 PSM 不能完全解決內生性問題,但卻能在很大程度上緩解自我選擇問題導致的偏差。在前期文獻中,Becker & Ichino (2002, Stata Journal, 2(4):358-377) 對 PSM 的分析過程進行了詳細的介紹,Stata 中也有多個命令可以執行 PSM 分析,如 pscore, psmatch2, treatrew (Stata Journal, 14(3): 541-561), gpscore (SJ 8(3):354--373), kmatch.
平衡性假設
在 PSM 匹配時,用treat變量對控制變量進行Logit回歸,得到傾向得分值。傾向得分值最接近的控制組個體即為實驗組的配對樣本,通過這種方法可以最大程度減少實驗組與控制組個體存在的系統性差異,從而減少估計偏誤。在進行PSM匹配後的其他估計前比如PSM-DID 估計前,還需進行協變量的平衡性假設檢驗,即匹配後各變量在實驗組和控制組之間是否變得平衡,也就是說實驗組和控制組協變量的均值在匹配後是否具有顯著差異。如果不存在顯著差異,則支持進一步的模型估計。
在平衡性檢驗之前,我們先使用psmatch2命令進行PSM匹配,處理變量為train,協變量為age、educ、black,結果變量為re78,採用一對一近鄰匹配,具體操作如下:
PSM 匹配完成之後,我們需要檢驗匹配後的樣本是否滿足平衡性假設,即實驗組與控制組的匹配協變量是否沒有顯著性差異,在這裡可以使用pstest命令進行檢驗,具體如下:
平衡性假設檢驗結果如下:
根據t檢驗結果發現,以上5個協變量在實驗組與控制組之間不存在顯著性差異。
那麼,在進行 PSM 分析之前,應當如何選擇匹配協變量,使模型實現最佳的擬合效果呢?今天介紹的 psestimate 命令可以通過比較不同模型的極大似然值,幫助我們選擇能實現最佳擬合效果的協變量的一階和二階形式。
The psestimate command estimates the propensity score proposed by Imbens and Rubin (2015). The main purpose of the program is to select a linear or quadratic function of covariates to include in the estimation function of the propensity score.
1. 命令的安裝與示例數據導入在Stata命令窗口執行第一行代碼即可完成對 psestimate 命令的下載,然後輸入第二行命令下載網上示例數據 nswre74.dta(LaLonde, 1986),並執行第三行命令導入數據。
2. 命令的語法該命令的語法如下:
各個主要選項的含義如下:
depvar,必選項,填入處理變量(如 treat),即標記是否參與實驗的虛擬變量
indepvars,可選項,指定基準模型中的協變量
totry(indepvars),可選項,放入供選擇的協變量列表,默認為全部
notry(varlist),可選項,指定不包括的協變量列表,默認為沒有
nolin,可選項,指定不進行一階多項式的選擇
noquad,可選項,指定不進行二階多項式的選擇
clinear(real),可選項,指定一階協變量似然比檢驗的門檻值,默認值為 1
cquadratic(real),可選項,指定二階協變量似然比檢驗的門檻值,默認值是 2.71
iterate(#),可選項,指定在每個 logit 中執行循環的最大值,默認值是 16000
genpscore(newvar),可選項,由於指定程序自動生成的用於記錄傾向得分值的新變量的名稱
genlor(newvar),可選項,生成對數似然比的新變量的名稱
3. 命令操作3.1 命令基本操作下面本文將基於 psestimate 命令的作者提供的數據集 nswre74.dta 來簡要說明如何使用 psestimate 這一命令來選擇能最好擬合處理變量 (treat) 的協變量的一階及二階形式。
在這裡,我們事先選定教育變量 ed 作為基準模型中的一個協變量,意味著 Stata 自動將 ed 放入基準模型中。另外,我們將指定 age、black、hisp、nodeg 四個變量作為待選協變量。代碼如下:
運行結果如下:
根據以上結果,可以確定在傾向得分匹配中,我們應該選取的一階協變量為 nodeg、hisp,二階協變量為 c.nodeg#c.ed。綜上,根據 psestimate 命令的運算結果,我們應該選取 ed、nodeg、hisp、c.nodeg#c.ed 等四個變量作為傾向得分匹配的協變量。
3.2 提升運算速度psestimate命令在運算中會耗費較長時間,而通常來說,該命令在選擇協變量的一階形式時要快於二階形式的選擇,因此,為了加快運算速度,我們可以首先通過加入noquad選項,只對協變量的一階形式進行篩選,當一階形式選定後,將其作為解釋變量放入基準模型中,然後加入nolin 選項跳過一階形式篩選步驟,只對協變量的二階形式進行篩選。具體操作如下。
首先,加入入noquad選項,只篩選協變量的一階形式,如下:
一階協變量的篩選結果如下:
然後,將選定的ed、nodeg、hisp作為解釋變量放入基準模型中,加入nolin選項值進行二階形式的篩選,操作如下:
二階協變量的篩選結果如下:
4. psestimate 的核心思想4.1 協變量一階形式的選擇第一步,該程序首先在基準模型(logit treat ed)基礎上通過循環分別加入 totry() 中指定的四個變量 age、black、hisp、nodeg,進行四次模型估計,如下所示:
每次估計完成後,它將得到的新的極大似然值與基準模型比較,選擇上述四個模型中對數極大似然值 (Log-Likelihood, 簡稱 LL 值) 最大的模型中的協變量放入基準模型中,除非上述四個模型的極大似然值都低於 clinear(real) 中指定的門檻值。若此處假設為 nodeg,則基準模型擴展為 logit treat ed nodeg, 然後第二步,它將估計如下模型:
這一步的協變量篩選原則與第一步相同。可以看出,當供選擇的協變量數量為 時,在確定協變量的一階形式時,該程序理論上會估計 個 Logit 模型。本例中有 4 個供選擇的協變量,則需要估計 10 次(如下括號中所示),該命令選擇的協變量一階形式結果如下:
4.2 協變量二階形式的選擇在協變量二階形式的選擇上,主要分為協變量平方項以及協變量間的交乘項。如果在一階形式中只選擇了 a 這一個協變量,則二階形式的選擇只需要檢驗 a^2 這一變量。但是如果有 a、b 兩個一階協變量被選擇,則二階形式的選擇需要檢驗 a^2、b^2、ab 三個二階協變量形式。具體到本例,確定的一階協變量有 ed、nodeg、hisp 三個,則需要檢驗的二階協變量有六個,即
ed^2、nodeg^2、hisp^2、c.ed#c.nodeg、c.ed#c.hisp、c.nodeg#c.hisp
篩選過程與選擇協變量一階形式的方法一致。因此本例中共需估計 即 21 次(如下括號中所示),結果如下所示:
4.3 流程圖展示如下流程圖可以更加直觀地展現psestimate篩選協變量一階及二階形式的過程,為簡化分析,我們可供選擇的協變量為a、b兩個變量,假設各模型的對數極大似然值存在如下大小關係,LL1>LL2> clinear() >LL3,LL4>LL5>LL6> cquadratic() >LL7>LL8。
5. PSM估計的完整流程示例5.1 psestimate 篩選匹配變量的一階、二階形式第一步,使用psestimate篩選匹配變量
匹配變量選擇如下:
最終選擇的匹配變量為ed、nodeg、hisp、c.nodeg#c.ed
5.2 psmatch2 基於篩選出的匹配變量進行PSM匹配基於上述匹配變量進行PSM匹配:
psmatch2 treat ed nodeg hisp c.nodeg#c.ed, logit ate neighbor(1) common caliper(.05) ties
結果如下:
5.3 pstest 進行平衡性假設檢驗結果如下:
可以發現,匹配後實驗組與控制組的匹配變量均沒有顯著差異,滿足平衡性假設條件.
5.4 psgraph 繪圖直觀呈現各匹配變量的平衡性狀況結果如下:
圖中也可以直觀看出,實驗組與控制組的傾向得分值分布大致平衡。
參考文獻Dehejia, Rajeev H. and Sadek Wahba. 1999. "Causal Effects in Nonexperimental Studies". Journal of the American Statistical Association 94(448): 1053-1062.
Imbens, Guido W. and Donald B. Rubin. 2015. Causal Inference in Statistics, Social, and Biomedical Sciences. New York: Cambridge University Press.
Imbens, Guido W. 2015. 「Matching Methods in Practice: Three Examples.」 Journal of Human Resources 50 (2): 373–419. [PDF1], [PDF2-wp]
LaLonde, Robert J. 1986. 「Evaluating the Econometric Evaluations of Training Programs with Experimental Data.」 The American Economic Review 76 (4): 604–20. [PDF]
一起學習空間計量······