Stata:RDD-DID-斷點回歸與倍分法完美結合

2021-12-23 連享會

👇 連享會 · 推文導航 | www.lianxh.cn

🎦 效率分析前沿模型 最新模型和工具
📅 2021 年 11 月 13-14；20-21 日
🔑 張寧教授 (山東大學)；杜克銳副教授 (廈門大學)
🍓 課程主頁：https://gitee.com/lianxh/TE

實現經濟增長的途徑主要有兩個：一是增加投入，二是提高效率。後者不僅能增加經濟總量，還能提升經濟質量。因此，效率分析是經濟學研究中的核心。

顯然，若想發表高水平的論文，就必須緊跟前沿，引領趨勢，這正是本期「效率分析前沿模型」課程的主旨。

張寧教授在環境效率和非期望產出領域學者中排名第二，他在 Science, Nature, Cell 和 Lancet 上均有發表。杜克銳副教授已在 SSC 發布了十餘個 Stata 命令，有三篇論文發表於 Stata Journal，獲得 2020 年 Stata 中國用戶獎。

課程包括參數方法和非參數方法兩個部分：

參數方法主要包括參數線性規劃（Parametric LP）、計量經濟方法和隨機前沿方法（SFA）三大方法。非參數方法，即 DEA 方法，主要包括 DDF, NDDF 和 SBM 等模型。

重要福利： 本課程所涉及的參數和非參數效率模型，老師們都將會提供封裝後的 Stata 估計命令，只需幾條簡單的命令即可實現最新的模型。老師們也會分享編寫過程心得，讓大家有能力對這些封裝程序進行修改和擴展。

掃碼直達課程主頁：

作者： 張超 (中山大學)
郵箱： zhangchaooor@163.com

1. RDD-DID 簡介

1.1 RDD 簡介

1.2 DID 簡介

1.3 RD+DID 簡介

2. RDD-DID 分析

3. stata實例

4. 參考資料

5. 相關推文

溫馨提示： 文中連結在微信中無法生效。請點擊底部「閱讀原文」。或直接長按/掃描如下二維碼，直達原文：

Angrist 和 Pischke 在《精通計量：從原因到結果的探尋之旅》一書中指出計量經濟學研究因果推斷的「蓋世五俠」為隨機實驗、回歸、工具變量 (IV) 、回歸斷點設計 (RD) 以及雙重差分 (DID) 。

上述因果識別方法的單個使用就可以幫助我們實現有效的因果識別，但是有些情況下，需要將其組合使用，如 DID-RDD, 下文首先簡單介紹 DID 與 RDD 在不同研究場景下的使用，在此基礎上介紹 RDD-DID。

1. RDD-DID 簡介1.1 RDD 簡介

RDD 可以用來識別自然實驗或結構性政策變化附近的局部處理效應。Thistlethwaite 和 Campbell (1960) 首次提出使用斷點回歸設計研究處理效應。他們的研究問題是獎學金對於未來學業的影響, 而學生是否獲得獎學金取決於考試的分數。由於獎學金由學習成績決定，故成績剛好達到獲獎標準與差一點達到的學生具有可比性。如果考試分數大於獲獎標準分數, 則進入處理組；如果考試分數小於獲獎標準分數, 則進入控制組。即獲獎標準分數處形成了一個斷點，利用靠近這一斷點附近的樣本來有效估計處理效應，判斷獎學金對未來學業的影響。

後續學者關於 RDD 的研究設計場景大開腦洞，在地理、時間等維度構造斷點。地理斷點方面，如 Dell (2010) 則通過比較殖民時期的強迫勞動制度—— mita 邊界兩側的村莊，即一個屬於 mita 的範圍 (處理組) ，另一個不一個屬於 mita 的範圍 (對照組) ，觀測 mita 對現代的影響。研究發現當年在 mita 範圍內的村莊 (處理組) 在現在仍然比較貧窮。國內關於地理斷點的研究場景如利用地表水水質監測站點帶來的空間斷點，估計了環境監管對企業生產率的影響 (He et al., 2020) , 根據淮河南北採取不同的取暖政策 (淮河以北集中供暖、淮河以南不集中供暖) 來識別長期暴露於空氣汙染對居民預期壽命的的影響 (Chen et al., 2013) 。

時間斷點方面，如中國所有火電廠在同一天的同一個時刻裝上某一種除硫設施，這樣就能夠通過比較在這一時間點前後空氣品質的差異來衡量這一政策對空氣品質的影響；Chen 等 (2019) 則利用 2017 年 8 月濟南市政府取消了買房面積超過90平方米可以落戶的規定，進而估算戶口的價值。

1.2 DID 簡介

一般的 DID 設計是基於個體—時間這兩個維度差異構建進行因果識別，以國內場景為例，如農業稅改革 (陳曉光，2016) 、省直管縣 (李廣眾和賈凡勝，2020) 、環保法庭的設立 (範子英和趙仁傑，2019) 等。

但是也有基於其他維度，如 Shihe Fu and Yizhen Gu (2017) 則基於年度-月 (日) 度雙重時間差異測算國慶節高速免費對空氣汙染的影響。2012 年 7 月中國政府宣布節假日小轎車免費通行，因此作者以 2012 年 9 月 30 日- 10 月 7 日全國 98 個城市國慶免費通行的準自然實驗，以去年國慶節同期作為參考組，評價了取消收費政策對空氣品質的影響。

1.3 RD+DID 簡介

當 RD+DID 時，則是利用年度和月度兩個維度的差異 (當然也可以腦洞其他兩個維度的組合) ，識別假設允許核心解釋變量之外的其他協變量在改革日期前後出現跳躍。如 Persson 和 Rossin-Slater (2019) 在識別父親的工作靈活性是否可以顯著改善母親的產後健康，則是依據 2012 年 1 月 1 日瑞典政府出臺的父親間歇性的育兒假 (『Double Day』) 這一政策。

從 RDD 研究設計的視角看，可以類比上文提到的 Chen 等 (2019) 關於估算戶口價值的論文，可以通過估計 2012 年 1 月 1 日前後三個月 ( RDD 的帶寬) 的產子的母親的心理健康差異，識別這一問題。但是如果前三個月 (10-12月) 的季節是冬天，而後三個月的季節 (1-3月) 是春天，而假設人們在冬天心情不好而在春天心情好，那麼這一系統系差異則會影響僅僅根據 RDD 估計的處理效應。(Note： 此處，有關「冬天心情遭，春天心情好」的假設是推文作者自己為了解釋系統性差異而引入的，論文原文中並沒有這個表述)

從 DID 研究設計的視角看，這種全國一刀切的政策，可以類比上文提到的 Shihe Fu and Yizhen Gu (2017) 基於年度-月(日)度雙重時間差異測算國慶節高速免費對空氣汙染的影響。但是會受到遺漏變量的影響，傳統的基於個體-時間兩個維度的 DID 可能也不適用。

作者則將 RDD 和 DID 結合，通過比較估計 2012 年 1 月 1 日前後三個月 (處理組) 的產子的母親的心理健康差異 (RD1)，並通過與之前年份相同時間區間 (對照組組) 的心理健康差異 (RD2) 的差異 (DID)，消除協變量在改革日期前後也出現跳躍的系統性差異。

梁平漢等 (2020) 在估算出口退稅無紙化申報改革對企業出口行為的影響也採用了 RDD-DID 這一方法。由於論文中樣本企業所在地區的無紙化改革的實施時間是 2017 年 9 月，因此可以觀察這一時點前後企業出口的跳躍情況進而識別政策的經濟效應。但是由於企業的月度出口受國外需求周期的影響，具有較強季節性，因此在一年中遵循一定周期性。而對於同一家企業，可以將自己上一年的月度數據作為對照組，通過量化無紙化改革對同期月度出口績效的影響準確識別其經濟效應。

2. RDD-DID 分析

為了方便讀者們理解和翻閱論文原文，我們在此以 梁平漢等 (2020) 的論文場景為例講解 RDD-DID 。論文中出口退稅的無紙化改革的實施時間是 2017 年 9 月，並選擇 3 個月的帶寬，因此樣本期間是 2017 年 6-11 月 (處理組)，2016 年 6-11 月及 2015 年 6-11 月 (對照組)時間段。

具體的識別如下圖所示 (此處處理組簡化為 2016 年一年) 。

從圖中可以看出，其實 RDD-DID 本質上就是相當於把 DID 中個體在衝擊前後的差異由利用差分變為利用 RDD 估計 (第一個 Dif) ，然後用處理組的 RDD 估計得到的處理效應 (對應圖 1 中的 RDD 處理效應 1 ) 減去對照組 RDD 估計得到的處理效應 (對應圖 2 中的 RDD 處理效應 2 ) ，得到 Dif-in-Dif，即真實的處理效應。

具體而言，模型設定如下

其中，

d 為企業出口額申報時間，是 RDD 的驅動變量。c 表示改革的月份 9 月。

我們關注的係數是

需要注意的是，此處 RDD-DID 設計要求是所有接受無紙化退稅的企業 (才會在斷點處跳躍) ，儘管梁老師論文中存在不享受無紙化退稅的樣本，但是這部分樣本是不納入 RDD-DID 分析的。

3. stata實例

由於梁老師的數據難以獲取，我們生成一份模擬數據，數據存在一定的簡化。具體數據結構為 60 個體 * 3 年 * 6 個月, 共 1080 個觀測值的平衡面板數據，其中我們遵循原文設定，以 2017 年的 9 月為政策衝擊年份

首先生成樣本

// 設定 60 個觀測值，設定隨機數種子
clear all
brow
set obs 60
set seed 10101
gen id = _n

//每一個數值的數量擴大 3 倍，生成 60*3 = 180，為 60 個個體 3 年的面板數據
expand 3
sort id
count
bys id: gen year = _n+2014

//由於 RDD 的帶寬為 3 個月，因此每個樣本每年需要擴大 6 倍，即 180*6 = 1080 ，為 60 個個體 3 年 6 個月份的數據
expand 6
sort id year
count
bys id year: gen month= _n+5

// 生成協變量 x1，x2
gen x1 = rnormal(1,7)
gen x2 = rnormal(2,5)

// 生成固定效應
* 個體固定效應
sort year month id
bys year month: gen ID = _n
sort ID
* 年份固定效應
sort id month year
bys id month: gen Y = _n
sort Y
* 月份固定效應
sort id year month
bys id year: gen M = _n
sort M

// 生成 YPost MPost變量，以 2017 年 9 月為政策衝擊年份，
* 月份跳躍前後的識別，即跳躍前 (6-8月) MPost為 0，跳躍後 (9-11月) MPost為 1
gen MPost = 0
replace MPost = 1 if month >= 9
tab month MPost //從下表可以看出，我們的月份和MPost的關係設定正確

| MPost
month | 0 1 | Total
-+--+
6 | 180 0 | 180
7 | 180 0 | 180
8 | 180 0 | 180
9 | 0 180 | 180
10 | 0 180 | 180
11 | 0 180 | 180
-+--+
Total | 540 540 | 1,080

* 年份識別變量，政策於 2017 年出臺，出臺前 YPost 為 0，出臺當年 YPost 為 1
gen YPost = 0
replace YPost = 1 if year == 2017
tab year YPost //從下表可以看出，我們的年份和YPost的關係設定正確

| YPost
year | 0 1 | Total
-+--+
2015 | 360 0 | 360
2016 | 360 0 | 360
2017 | 0 360 | 360
-+--+
Total | 720 360 | 1,080

save RD_DID_sample.dta //我們將這些基礎信息保存為一個數據文件

我們首先觀察處理組 ( 2017 年) 和對照組 ( 2015 年、 2016 年) ，在 9 月前後的跳躍變化(即上文中提到第一個 Dif )，由於 RDD-DID 允許出現協變量引發的變化 (系統性差異的存在)，因此我們在此允許 x1 和 x2 在 9 月前後發生變化。

首先，我們觀察對照組 ( 2015年、 2016 年)在斷點 ( 9 月) 前後的變換。

use RD_DID_sample.dta, clear

// 生成被解釋變量
// 由於 RDD-DID 允許出現協變量引發的變化，因此我們在此允許 x1 在 9 月後增加 1 個單位，x2 在 9 月後增加 2 個單位。

bys id year: gen y0 = 10 + 5*x1 +3*x2 + rnormal() if MPost==0 & YPost==0
bys id year: replace y0 = 10 + 5*(x1+1) +3*(x2+2) + rnormal() if MPost==1 & YPost==0

save RD_DID_sample.dta,replace

從上述 y0 的設定可以看出，我們應該觀測到 9 月前後跳躍了 11 個單位(5 * 1 + 3 * 2 = 11)，其中包括 x1 增加一個單位引發的變化 5 和 x2 增加一個單位引發的變化 6 。

use RD_DID_sample.dta, clear
areg y0 MPost x1 x2 i.M i.year if YPost==0, ab(ID ) vce(robust)
//從回歸結果可以看出，MPost的係數為10.848，接近11

note: 6.M omitted because of collinearity

Linear regression, absorbing indicators Number of obs = 720
Absorbed variable: ID No. of categories = 60
F(8, 652) = 138753.76
Prob > F = 0.0000
R-squared = 0.9994
Adj R-squared = 0.9994
Root MSE = 0.9851
----
| Robust
y0 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--+-
MPost | 10.84842 .1233064 87.98 0.000 10.6063 11.09055
x1 | 5.007873 .0051366 974.94 0.000 4.997787 5.017959
x2 | 2.993566 .0075459 396.72 0.000 2.978748 3.008383
|
M |
2 | -.1385908 .1215393 -1.14 0.255 -.3772466 .100065
3 | -.1391771 .1374009 -1.01 0.311 -.4089787 .1306246
4 | .0192871 .125654 0.15 0.878 -.2274483 .2660225
5 | .0274213 .1198433 0.23 0.819 -.2079042 .2627467
6 | 0 (omitted)
|
year |
2016 | -.098825 .0734967 -1.34 0.179 -.2431439 .0454938
|
_cons | 10.17572 .0990673 102.72 0.000 9.981186 10.37025
----

其次,我們觀察處理組 (2017 年) 在斷點 (9 月) 前後的變換。

use RD_DID_sample.dta, clear
// 生成被解釋變量
// 由於 RDD-DID 允許出現協變量引發的變化，因此我們在此允許 x1 在 9 月後增加 1 個單位，x2 在 9 月後增加 2 個單位。此外，政策衝擊導致 Y 增加 5 個單位，
bys id year: gen y1 = 10 + 5*x1 +3*x2 +rnormal() if MPost==0 & YPost==1
bys id year: replace y1 = 10 + 5 + 5*(x1+1) +3*(x2+2) +rnormal() if MPost==1 & YPost==1

save RD_DID_sample.dta,replace

從上述 y0 的設定可以看出，我們應該觀測到 9 月前後跳躍了 11 個單位(5 * 1 + 3 * 2 + 5 = 16)，其中包括 x1 增加一個單位引發的變化 5 和 x2 增加一個單位引發的變化 6 ，以及政策衝擊導致的 5 。

areg y1 MPost x1 x2 i.M if YPost==1, ab(ID ) vce(r)
//下表可以看出，MPost的係數為15.914，接近16

note: 6.M omitted because of collinearity

Linear regression, absorbing indicators Number of obs = 360
Absorbed variable: ID No. of categories = 60
F( 7, 293) = 57048.35
Prob > F = 0.0000
R-squared = 0.9994
Adj R-squared = 0.9993
Root MSE = 1.0256

----
| Robust
y1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--+-
MPost | 15.91433 .1878629 84.71 0.000 15.5446 16.28406
x1 | 5.010561 .0086649 578.26 0.000 4.993508 5.027614
x2 | 2.996086 .0114469 261.74 0.000 2.973557 3.018614
|
M |
2 | -.0627951 .2038922 -0.31 0.758 -.464074 .3384838
3 | .0912909 .2006643 0.45 0.649 -.3036352 .4862169
4 | -.1209243 .1728636 -0.70 0.485 -.4611359 .2192873
5 | .2545042 .1729513 1.47 0.142 -.0858801 .5948885
6 | 0 (omitted)
|
_cons | 9.947508 .147951 67.24 0.000 9.656327 10.23869
----

我們知道，政策真實的處理效應為 5 ，但是如果僅僅針對政策當年使用斷點識別，我們估計的處理效應為 16，這是由於衝擊時點前後 y 存在系統性差異 (11 =5 * 1 + 3 * 2 ) 導致的。

所以，我們可以通過用估計的處理效應 16 減去利用之前年份估計出的衝擊前後的系統性差異 11 ( 即 x1 增加一個單位引發的變化 5 和 x2 增加一個單位引發的變化 6 ，合計 11)得到真實的處理效應 5 ( 即 Dif-Dif )，這個可以通過構造交互項 YPost*MPost 實現 (類似於 DID 研究設定中的 Treat*Post ，其中 YPost 類比為 Treat， MPost 類比為 Post，但是時間前後的差異是利用斷點方法識別而非差分方法) 。

use RD_DID_sample.dta, clear
gen y = y0 if YPost==0
replace y = y1 if YPost==1

gen YPost_MPost = YPost*MPost
areg y MPost YPost_MPost x1 x2 c.x1#i.MPost c.x2#i.MPost i.M i.Y , ab(ID ) vce(r)
// YPost_MPost係數是我們關注的核心，類似於 DID 研究中的 Treat*Post，約等於 5 ，說明捕捉到了真實的改革處理效果

note: 6.M omitted because of collinearity

Linear regression, absorbing indicators Number of obs = 1,080
Absorbed variable: ID No. of categories = 60
F( 12, 1008) = 131182.72
Prob > F = 0.0000
R-squared = 0.9994
Adj R-squared = 0.9993
Root MSE = 0.9956

| Robust
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---+-
MPost | 10.90144 .1133312 96.19 0.000 10.67905 11.12383
YPost_MPost | 5.01466 .1302858 38.49 0.000 4.758997 5.270322
x1 | 5.016943 .006198 809.45 0.000 5.00478 5.029105
x2 | 2.998538 .0092015 325.88 0.000 2.980482 3.016594
|
MPost#c.x1 |
1 | -.0229563 .0088027 -2.61 0.009 -.04023 -.0056827
|
MPost#c.x2 |
1 | -.004164 .0119499 -0.35 0.728 -.0276135 .0192855
|
M |
2 | -.1182666 .1045555 -1.13 0.258 -.323438 .0869048
3 | -.0688265 .1112079 -0.62 0.536 -.287052 .149399
4 | -.0321119 .1033496 -0.31 0.756 -.2349169 .1706931
5 | .0923329 .0985065 0.94 0.349 -.1009684 .2856342
6 | 0 (omitted)
|
Y |
2 | -.0941455 .0734446 -1.28 0.200 -.2382673 .0499764
3 | -.1257474 .1056452 -1.19 0.234 -.333057 .0815623
|
_cons | 10.12667 .090287 112.16 0.000 9.949501 10.30384

4. 參考資料

參考文獻：

陳曉光.財政壓力、稅收徵管與地區不平等[J].中國社會科學,2016(04):53-70+206. -PDF-

範子英,趙仁傑.法治強化能夠促進汙染治理嗎?——來自環保法庭設立的證據[J].經濟研究,2019,54(03):21-37. -PDF-

李廣眾,賈凡勝.財政層級改革與稅收徵管激勵重構——以財政「省直管縣」改革為自然實驗的研究[J].管理世界,2020,36(08):32-50. -PDF-

梁平漢,鄒偉,胡超.時間就是金錢:退稅無紙化改革、行政負擔與企業出口[J].世界經濟,2020,43(10):52-73. -PDF-

Chen Y , Shi S , Tang Y . Valuing the urban hukou in China: Evidence from a regression discontinuity design for housing prices[J]. Journal of Development Economics, 2019, 141. -PDF-

Dell, M. 「The Persistent Effects of Peru's Mining Mita.」 Econometrica 78, no. 6 (2010): 1863-1903. -PDF-

Ebenstein A , Fan M , Greenstone M , et al. New evidence on the impact of sustained exposure to air pollution on life expectancy from China's Huai River Policy[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(39). -PDF-

Fu， S． and Gu， Y，． 2017， Highway Toll and Air Pollution: Evidence from Chinese Cities， Journal of EnvironmentalEconomics and Management 83， 32－49-PDF-

He G , Wang S , Zhang B . Watering Down Environmental Regulation in China*[J]. Quarterly Journal of Economics, 2020, 135(4):2135-2185. -PDF-

Persson P , Rossin-Slater M . When Dad Can Stay Home: Fathers' Workplace Flexibility and Maternal Health[J]. Social Science Electronic Publishing. -PDF-

Thistlethwaite, D. L., & Campbell, D. T. (1960).Regression-discontinuity analysis: An alternative to the ex post facto experiment. Journal of Educational Psychology, 51(6), 309–317. -PDF-

5. 相關推文

Note：產生如下推文列表的 Stata 命令為：
lianxh DID 差分
安裝最新版 lianxh 命令：
ssc install lianxh, replace

Stata：平行趨勢不滿足？主成分DID來幫你！- pcdidStata倍分法新趨勢：did2s-兩階段雙重差分模型Stata-DID：不同處理時點不同持久期的倍分法（flexpaneldid）多期DID文獻解讀：含鉛汽油與死亡率和社會成本-L113DIDM：多期多個體倍分法-did_multiplegt考慮溢出效應的倍分法：spillover-robust DID長差分：Long Difference及Acemoglu AER論文推介Big Bad Banks：多期 DID 經典論文介紹倍分法DID詳解 (二)：多時點 DID (漸進DID)倍分法DID詳解 (三)：多時點 DID (漸進DID) 的進一步分析Abadie新作：簡明IV,DID,RDD教程和綜述

New！ Stata 搜索神器：lianxh 和 songbl GIF 動圖介紹
搜：推文、數據分享、期刊論文、重現代碼 ……
👉 安裝：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 關於我們直通車： 👉【百度一下：連享會】即可直達連享會主頁。亦可進一步添加「知乎」,「b 站」,「面板數據」,「公開課」等關鍵詞細化搜索。

Stata:RDD-DID-斷點回歸與倍分法完美結合

相關焦點

Stata:斷點回歸分析教程

Stata: 斷點回歸 (RDD) 教程

Stata: 不可不知的4種斷點回歸 (RDD) 中的平滑性檢驗方法

Stata:斷點回歸 (RDD)實用指南

再談斷點回歸 (RDD):命令rdrobust、 rdbwselect、rdplot及Stata實現

RDD: 斷點回歸命令rdrobust(附rdbwselect、rdplot)及Stata實現

斷點回歸 (RDD):命令rdrobust、 rdbwselect、rdplot及Stata實現

RDD斷點回歸:多個斷點多個分配變量如何處理

Stata:斷點回歸分析設計

斷點回歸前沿-多斷點RDD

斷點回歸(RD)學習手冊(包含設計前提條件內生分組等顯著性檢驗、精確斷點&模糊斷點等全套標準操作)

RDD:斷點回歸可以加入控制變量嗎?

帶異質性處理效應的雙向固定效應估計不穩健時,Fuzzy-DID來幫忙|補充更新

零基礎|Stata輕鬆搞定:GMM估計、面板數據模型...你想學的都有

人生苦短,我學stata

Fuzzy DID:模糊倍分法

斷點回歸設計RDD全面講解, 教育領域用者眾多

數據運營36計(八):斷點回歸(RDD)評估產品設計效果

即將開幕的STATA前沿培訓精講:帶異質性處理效應的雙向固定效應估計|從精確斷點、模糊斷點估計的實際操作|弱工具變量穩健推斷

【Stata公開課】手把手教你Stata張華節老師在線直播!