Stata新命令:psestimate - 傾向得分匹配中協變量的篩選

2021-03-01 君泉計量

空間計量專題研討班-連享會

傾向得分匹配分析 (PSM) 已經在諸多領域得到了應用。雖然 PSM 不能完全解決內生性問題,但卻能在很大程度上緩解自我選擇問題導致的偏差。在前期文獻中,Becker & Ichino (2002, Stata Journal, 2(4):358-377) 對 PSM 的分析過程進行了詳細的介紹,Stata 中也有多個命令可以執行 PSM 分析,如 pscore, psmatch2, treatrew (Stata Journal, 14(3): 541-561), gpscore (SJ 8(3):354--373), kmatch.

平衡性假設


在 PSM 匹配時,用treat變量對控制變量進行Logit回歸,得到傾向得分值。傾向得分值最接近的控制組個體即為實驗組的配對樣本,通過這種方法可以最大程度減少實驗組與控制組個體存在的系統性差異,從而減少估計偏誤。在進行PSM匹配後的其他估計前比如PSM-DID 估計前,還需進行協變量的平衡性假設檢驗,即匹配後各變量在實驗組和控制組之間是否變得平衡,也就是說實驗組和控制組協變量的均值在匹配後是否具有顯著差異。如果不存在顯著差異,則支持進一步的模型估計。

在平衡性檢驗之前,我們先使用psmatch2命令進行PSM匹配,處理變量為train,協變量為age、educ、black,結果變量為re78,採用一對一近鄰匹配,具體操作如下:

PSM 匹配完成之後,我們需要檢驗匹配後的樣本是否滿足平衡性假設,即實驗組與控制組的匹配協變量是否沒有顯著性差異,在這裡可以使用pstest命令進行檢驗,具體如下:

平衡性假設檢驗結果如下:

根據t檢驗結果發現,以上5個協變量在實驗組與控制組之間不存在顯著性差異。

那麼,在進行 PSM 分析之前,應當如何選擇匹配協變量,使模型實現最佳的擬合效果呢?今天介紹的 psestimate 命令可以通過比較不同模型的極大似然值,幫助我們選擇能實現最佳擬合效果的協變量的一階和二階形式。

The psestimate command estimates the propensity score proposed by Imbens and Rubin (2015).  The main purpose of the program is to select a linear or quadratic function of covariates to include in the estimation function of the propensity score.

1. 命令的安裝與示例數據導入

在Stata命令窗口執行第一行代碼即可完成對 psestimate 命令的下載,然後輸入第二行命令下載網上示例數據 nswre74.dta(LaLonde, 1986),並執行第三行命令導入數據。

2. 命令的語法

該命令的語法如下:

各個主要選項的含義如下:


depvar,必選項,填入處理變量(如 treat),即標記是否參與實驗的虛擬變量

indepvars,可選項,指定基準模型中的協變量

totry(indepvars),可選項,放入供選擇的協變量列表,默認為全部

notry(varlist),可選項,指定不包括的協變量列表,默認為沒有

nolin,可選項,指定不進行一階多項式的選擇

noquad,可選項,指定不進行二階多項式的選擇

clinear(real),可選項,指定一階協變量似然比檢驗的門檻值,默認值為 1

cquadratic(real),可選項,指定二階協變量似然比檢驗的門檻值,默認值是 2.71

iterate(#),可選項,指定在每個 logit 中執行循環的最大值,默認值是 16000

genpscore(newvar),可選項,由於指定程序自動生成的用於記錄傾向得分值的新變量的名稱

genlor(newvar),可選項,生成對數似然比的新變量的名稱

3. 命令操作3.1 命令基本操作

下面本文將基於 psestimate 命令的作者提供的數據集 nswre74.dta 來簡要說明如何使用 psestimate 這一命令來選擇能最好擬合處理變量 (treat) 的協變量的一階及二階形式。

在這裡,我們事先選定教育變量 ed 作為基準模型中的一個協變量,意味著 Stata 自動將 ed 放入基準模型中。另外,我們將指定 age、black、hisp、nodeg 四個變量作為待選協變量。代碼如下:

運行結果如下:

根據以上結果,可以確定在傾向得分匹配中,我們應該選取的一階協變量為 nodeg、hisp,二階協變量為 c.nodeg#c.ed。綜上,根據 psestimate 命令的運算結果,我們應該選取 ed、nodeg、hisp、c.nodeg#c.ed 等四個變量作為傾向得分匹配的協變量。

3.2 提升運算速度


psestimate命令在運算中會耗費較長時間,而通常來說,該命令在選擇協變量的一階形式時要快於二階形式的選擇,因此,為了加快運算速度,我們可以首先通過加入noquad選項,只對協變量的一階形式進行篩選,當一階形式選定後,將其作為解釋變量放入基準模型中,然後加入nolin 選項跳過一階形式篩選步驟,只對協變量的二階形式進行篩選。具體操作如下。

首先,加入入noquad選項,只篩選協變量的一階形式,如下:

一階協變量的篩選結果如下:

然後,將選定的ed、nodeg、hisp作為解釋變量放入基準模型中,加入nolin選項值進行二階形式的篩選,操作如下:

二階協變量的篩選結果如下:

4. psestimate 的核心思想4.1 協變量一階形式的選擇

第一步,該程序首先在基準模型(logit treat ed)基礎上通過循環分別加入 totry() 中指定的四個變量 age、black、hisp、nodeg,進行四次模型估計,如下所示:

每次估計完成後,它將得到的新的極大似然值與基準模型比較,選擇上述四個模型中對數極大似然值 (Log-Likelihood, 簡稱 LL 值) 最大的模型中的協變量放入基準模型中,除非上述四個模型的極大似然值都低於 clinear(real) 中指定的門檻值。若此處假設為 nodeg,則基準模型擴展為 logit treat ed nodeg, 然後第二步,它將估計如下模型:

這一步的協變量篩選原則與第一步相同。可以看出,當供選擇的協變量數量為  時,在確定協變量的一階形式時,該程序理論上會估計  個 Logit 模型。本例中有 4 個供選擇的協變量,則需要估計 10 次(如下括號中所示),該命令選擇的協變量一階形式結果如下:

4.2 協變量二階形式的選擇


在協變量二階形式的選擇上,主要分為協變量平方項以及協變量間的交乘項。如果在一階形式中只選擇了 a 這一個協變量,則二階形式的選擇只需要檢驗 a^2 這一變量。但是如果有 a、b 兩個一階協變量被選擇,則二階形式的選擇需要檢驗 a^2、b^2、ab 三個二階協變量形式。具體到本例,確定的一階協變量有 ed、nodeg、hisp 三個,則需要檢驗的二階協變量有六個,即

ed^2、nodeg^2、hisp^2、c.ed#c.nodeg、c.ed#c.hisp、c.nodeg#c.hisp

篩選過程與選擇協變量一階形式的方法一致。因此本例中共需估計 即 21 次(如下括號中所示),結果如下所示:

4.3 流程圖展示


如下流程圖可以更加直觀地展現psestimate篩選協變量一階及二階形式的過程,為簡化分析,我們可供選擇的協變量為a、b兩個變量,假設各模型的對數極大似然值存在如下大小關係,LL1>LL2> clinear() >LL3,LL4>LL5>LL6> cquadratic() >LL7>LL8。

5. PSM估計的完整流程示例5.1 psestimate 篩選匹配變量的一階、二階形式

第一步,使用psestimate篩選匹配變量

匹配變量選擇如下:

最終選擇的匹配變量為ed、nodeg、hisp、c.nodeg#c.ed

5.2 psmatch2 基於篩選出的匹配變量進行PSM匹配

基於上述匹配變量進行PSM匹配:

psmatch2 treat ed nodeg hisp c.nodeg#c.ed, logit ate neighbor(1) common caliper(.05) ties

結果如下:

5.3 pstest 進行平衡性假設檢驗

結果如下:

可以發現,匹配後實驗組與控制組的匹配變量均沒有顯著差異,滿足平衡性假設條件.

5.4 psgraph 繪圖直觀呈現各匹配變量的平衡性狀況

結果如下:

圖中也可以直觀看出,實驗組與控制組的傾向得分值分布大致平衡。

參考文獻


Dehejia, Rajeev H. and Sadek Wahba. 1999.  "Causal Effects in Nonexperimental Studies".  Journal of the American Statistical Association 94(448): 1053-1062.

Imbens, Guido W. and Donald B. Rubin. 2015.  Causal Inference in Statistics, Social, and Biomedical Sciences.  New York: Cambridge University Press.

Imbens, Guido W. 2015. 「Matching Methods in Practice: Three Examples.」 Journal of Human Resources 50 (2): 373–419. [PDF1], [PDF2-wp]

LaLonde, Robert J. 1986. 「Evaluating the Econometric Evaluations of Training Programs with Experimental Data.」 The American Economic Review 76 (4): 604–20. [PDF]

一起學習空間計量······

相關焦點

  • 傾向匹配得分教程【pscore、psmatch2、官方命令Teffects操作及應用】
    本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。
  • 一文讀懂傾向得分匹配法(PSM)舉例及stata實現(一)
    本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。
  • 傾向得分匹配(PSM)操作過程與問題反思
    部分模型計算時間超過五分鐘)方法一:近鄰匹配(nearest neighbor matching)含義:最鄰近匹配法是最常用的一種匹配方法,它把控制組中找到的與處理組個體傾向得分差異最小的個體,作為自己的比較對象 。優點:按處理個體找控制個體,所有處理個體都會配對成功,處理組的信息得以充分使用。
  • 玩轉Stata | 傾向得分配對(PSM)內生性檢驗利器
    所以在此介紹傾向得分匹配方法(PSM)。本文在此就不介紹相關理論了,因為小編的理論也不是特別的好,如果想學習的可以參閱連玉君老師的相關視頻(重點推介),大概有5個課時;同時也可以參考陳強老師的《高級計量經濟學及stata應用》中的第28章處理效應。在此小編僅僅介紹stata的相關操作。
  • 傾向得分匹配:psmatch2 還是 teffects psmatch
    ),特別適用於樣本容量較大,而且協變量(控制變量)較多的情形。這是因為,bootstrap standard errors 的成立有一個前提條件,即統計量必須是樣本數據的連續函數;而對於傾向得分匹配,這一前提並不成立。不難想像這樣一種的情形,即雖然協變量只有微小的變動,卻導致匹配到另一位個體,使得匹配結果發生不連續的劇烈變動。
  • 內生性問題和傾向得分匹配, 獻給準自然試驗的厚禮
    Part II 傾向得分匹配方法1.數據來源來源:網絡資源,其實也比較容易找,比如人大經濟論壇。但為了避免相關的版權爭議,我重新寫了一個do文件,處理的方法和變量也有改變。部分模型計算時間超過五分鐘)方法一:近鄰匹配(nearest neighbor matching)含義:最鄰近匹配法是最常用的一種匹配方法,它把控制組中找到的與處理組個體傾向得分差異最小的個體,作為自己的比較對象 。優點:按處理個體找控制個體,所有處理個體都會配對成功,處理組的信息得以充分使用。
  • Propensity Score Matching 傾向得分匹配
    因此,依據傾向得分進行匹配是一個簡單易行的選擇。我們丟棄觀測組中傾向得分低於實驗組傾向得分最小值、以及高於實驗組傾向得分最大值的數據,保證只比較有相似的傾向得分的實驗組和觀測組對象,然後分析數據的分布。
  • 傾向匹配得分教程(附PSM操作應用、平衡性檢驗、共同取值範圍、​核密度函數圖)
    計量百科·資源·乾貨:本文主要包括傾向匹配得分命令簡介、語法格式、傾向匹配得分操作步驟 思路,涉及傾向匹配得分應用、平衡性檢驗、共同取值範圍檢驗、核密度函數圖等內容。The following modules are among the most popular:Stata沒有一個內置的傾向評分匹配的命令,一種非實驗性的抽樣方法,它產生一個控制組,它的協變量分布與被處理組的分布相似。但是,這個方法有幾個用戶編寫的模塊。
  • 一文收藏stata14&15小抄:常用命令匯總
    Basic stata command 本節主要對stata一些基礎命令例如導入導出和描述性分析以及創建新變量進行學習。圖1.4 stata命令語法格式圖1.9  創建新變量 命令gene2   stata數據轉換 Data Transformation本節主要對stata
  • PSM-傾向得分匹配分析的誤區
    [Link1], [Link2]❝「目錄」❞1.背景2.傾向得分匹配3.會計研究中使用情況4.應用案例4.2 解讀:採用 regress 命令完成 PSM 的回歸分分析5.PSM 使用建議 相關課程❝1.
  • 統計計量丨傾向得分匹配:psmatch2 還是 teffects psmatch
    傾向得分匹配(Propensity Score Matching,簡記 PSM)常用於估計微觀數據的處理效應(treatment effects),特別適用於樣本容量較大,而且協變量(控制變量)較多的情形。
  • Stata:斷點回歸分析教程
    斷點回歸相關中文綜述和介紹詳見斷點回歸:3篇中文綜述和介紹,分別為新「擬隨機實驗」方法的興起——斷點回歸及其在經濟學中的應用、斷點回歸設計:基本邏輯、方法、應用述評、斷點回歸設計方法應用的研究綜述 oxline表示在此圖的默認帶寬上畫出一條直線,以便識別 kernel(rectangle)表示使用均勻核(矩陣核),默認使用三角核 covar(varlist) 表示用來指定加入局部線性回歸的協變量 x(varlist) 表示檢驗這些協變量在斷點處是否存在跳躍
  • gsreg:自動模型設定和變量篩選
    滯後結構選項dlags(numlist):允許在候選協變量中包含因變量滯後項。使用此選項時必須指定 tsset。因為有兩個候選協變量,所以只有 3 個可能的模型。相關推文Note:產生如下推文列表的命令為:  lianxh AIC 篩選 挑選, m安裝最新版 lianxh 命令:  ssc install lianxh, replace溫馨提示: 文中連結在微信中無法生效。請點擊底部「閱讀原文」。
  • 傾向得分匹配法的詳細解讀.doc
    為了解決上述的問題,我們可以利用匹配的思想,將控制組的個體按照各特性(協變量集中的變量)「距離」相近的方法與處理組中的個體進行匹配,這就使得匹配過後的個體除是否接受處理外並無顯著差異,所以就在一定程度上緩解了自選擇偏誤。這就是PSM中的匹配法思想。但是,在匹配之前我們需要考慮一個問題。
  • 學術小渣 Stata常用命令
    大學期間覺得學的最有用的軟體之一就是stata了,對stata基本是在血和淚的嘗試中爬過,到了最後基本屬於只要stata不出現紅字錯誤命令就開心得不得了。順便整理一下常用的stata命令如下,應該對付計量方向第一學期的入門問題不大(求stata大神不虐..),所以就只寫了一部分常用的,有時間後面再補充吧。
  • 人生苦短,我學stata
    空間計量、因果推斷計量方法、斷點回歸、雙重差分、傾向匹配得分1、零基礎起步,初級+高級課程,涵蓋數據管理+橫截面+時間序列+面板數據+門限回歸+傾向匹配得分+合成控制法+斷點回歸+雙重差分+空間計量等專題,幫助你建立系統的計量體系2、理論與軟體並重,課程涵蓋理論介紹、軟體操作、案例應用、解釋結果、講解答疑等,手把手教你學Stata軟體操作與分析3、在原有4天班精彩內容基礎上,這次5天高級班又增加了很多乾貨內容
  • 傾向得分配對宏
    [問題剖析]實際上,在財務研究中,配對方法有很多種,傾向得分配對是近幾年來流行的作法,在筆者讀博期間,大多數的配對都是採用相似特徵值配對,這些學術文獻大概都有這樣的論述本篇文章採用與事件公司同一年度、同產業但未發生事件的公司做為配對公司群體,並從中選出與事件公司相似的規模、BM、營利能力(...)等變量進行配對,在準則中,大約是選取鄰近10%-30%的特徵值進行配對
  • 傾向性匹配得分分析(PSM)是一種不太靠譜的方法
    以總收入為結局變量,其它因素為協變量,構建一個多元線性回歸方程,如果是否接受職業的偏回歸係數假設檢驗p<0.05,則可認為其是獨立影響因素。2.我們也可以通過PSM的方法,試驗組接受職業培訓的185例,對照組未接受職業培訓429例,我們從429例對照裡篩選一些人,讓這些人的協變量(age, educ, black, hispan, married, nodegree, re74, re75)與試驗組均衡可比。我們首先進行多元線性回歸分析,多元線性回歸的軟體操作略,計算結果如圖2.所示。
  • 利用separate 命令分類生成新變量
    用stata對數據進行處理時,我們有時需要按照其他變量的分類或是取值大小將某一變量分成多個變量,可以運用if條件語句進行處理。但是如果分類較多則需要多行命令或是使用循環進行處理,這樣比較麻煩。所以,今天小編給大家介紹一個簡便易用的小命令——separate。