locmtest:非線性模型的內生性檢驗

2021-03-02 Stata連享會

🍎 連享會主頁:lianxh.cn

New! lianxh 命令發布了:   GIF 動圖介紹
隨時搜索 Stata 推文、教程、手冊、論壇,安裝命令如下:
  . ssc install lianxh

連享會 · 最受歡迎的課


🍓 2021 Stata 寒假班
⌚ 2021 年 1.25-2.4

🌲 主講:連玉君 (中山大學);江艇 (中國人民大學)

👉 課程主頁:https://gitee.com/arlionn/PX

作者: 黃釗琳 (中山大學)
郵箱: 907641684@qq.com

目錄


本文編譯自如下論文,特此致謝:
Michael P. Babington, Javier Cano-Urbina. A Test for Exogeneity in the Presence of Nonlinearities. Stata Journal, 2016, 16(3):761-777.  -PDF-

溫馨提示: 文中連結在微信中無法生效。請點擊底部「閱讀原文」。

1. 引言

在許多的經濟應用中,經常會產生非線性關係。即使潛在的內生變量其實是非線性地進入關係,我們通常假設其線性進入關係,然後運用 Hausman 檢驗。然而在存在這些非線性的情況下,Hausman 檢驗對潛在的內生變量是否外生是不知情的。

因此,當結果變量和離散的潛在內生變量之間是非線性關係時,為了評估非線性模型的內生性,locmtest 命令應運而生。本文主要介紹 locmtest 命令的應用背景、基本思想和實例應用。

2. 非線性模型的內生性檢驗

本命令是在 Lochner and Moretti (2015, Review of Economics and Statistics 97: 387–397) 提出的非線性模型的內生性檢驗基礎上開發的。

2.1 適用場景

值得注意的是,在 Lochner and Moretti (2015) 基礎上開發的測試並不適用於所有非線性模型,而只適用於以下情況:

假設我們估計變量

如果

但不同的是它隱含的假設是

因此,本命令只在 (1) 式和 (2) 式描述的特定模型中適用。同時不難看出,還需要滿足三個至關重要的條件:

2.2 理論前提

在之前的研究中, (2) 式中內生性問題通常是使用 Hausman 檢驗即基於 OLS 和 IV 或 2SLS 估計的比較,但是 Lochner and Moretti 發現,當真實關係用 (1) 描述時,用 (2) 估計可以導致不同的普通最小二乘 OLS 、 IV 和兩階段最小二乘 2SLS ,如果用 Hausman 檢驗有可能會導致錯誤的內生性結論。因此, Lochner and Moretti 針對這種情況提出了一個新的穩健性檢驗。

下面給出當非線性模型 (1) 是正確時,會導致線性模型 (2) 中的

首先從 IV 估計看起,標準的 IV 估計會使得 (2) 式中的

其中,

滿足假設1:已知
的前提下,那麼可以得到

對所有的

因此不難得出

同理對於 2SLS ,如果有多個工具變量

滿足假設1和假設2:

同理,2SLS的

最後,為了考慮為什麼 Hausman 檢驗可能得出錯誤結論,OLS 估計如下:

同理

因此,標準的 Hausman 測試是基於 OLS 和 IV 或 2SLS 估計之間的差異。然而,上述分析表明,即使在沒有內生性的情況下,OLS 和 IV 或 2SLS 估計量也會收斂到不同的加權平均值;見 (3)、 (5) 和 (6)。如果 OLS 和 IV 或 2SLS 的權重有很大的不同,這會產生不同的OLS和IV或2SLS估計,反過來又會導致使用標準 Hausman 檢驗出現錯誤。

2.3 Wald 檢驗

Lochner and Moretti 發現,如果

反之,如果

因此,Lochner and Moretti 提出的 Wald Test 主要分為兩步,一是將所有參數的幀估計 (frame estimation) 作為一種疊加廣義矩 (GMM) 問題來導出他們的漸進分布;二是利用δ方法導出 (7) 所呈現的變換的漸近分布。

省略 GMM 的編寫過程,以下定理總結了 Lochner and Moretti (2015) 的主要結果。

定理:在假設 1 和 2 的前提下,如果

Lochner and Moretti 採取了蒙特卡羅模擬 1000 個觀察值,發現當

3. Stata 實操

我們可以用 locmtest 命令來實現 Lochner–Moretti (LM) 檢驗。在輸入命令後,會顯示 (1) 式 OLS、2SLS 和 IV 估計的

locmtest 是外部命令,安裝方法如下:

. ssc install locmtest, replace

基本語法格式如下:

locmtest depvar (varlist1 = varlist_iv) [indepvars]  ///
[if] [, graph coefficients] `

其中:

需要注意的是,雖然此命令允許 indepvars 中出現因子變量,但它不允許 varlist_iv 中出現因子變量。有關因子變量的使用,請參見 help fvvarlist,以及連享會推文 Stata:因子變量全攻略。

3.1 實例 A:Card (1995a) 估計教育的回報率

這裡,我們以 Card (1995a) 的數據來估計教育對收入的影響。

其中

現在假設群體中,由於羊皮效應,

此時,即使

use http://www.stata.com/data/jwooldridge/eacsap/card, clear
locmtest lwage (educ = nearc4) exper expersq,graph coefficient

===================================================
Output for the Lochner & Moretti (2015) Wald Test
===================================================

Output Variable y: lwage
Endogenous Variable s: educ
Instruments z: nearc4

Number of observations = 3010
Number of Categories of Endogenous variable is: 18
Number of Dummies is: 17

The number of Excluded Instruments is: 1

Estimated Coefficients

| Coef. Std. Err.
---+----
OLS | .09317071 .00357785
IV | .25871555 .03373941
RWOLS | .09072257 .00573885
---+----

Estimated Test Statistics
| Test p-value
---+----
LM-Wald | 24.19655 8.699e-07
Naive Wald | 30.12477 4.051e-08
DWH Test | 41.823868 1.162e-10
---+----

NOTES:

RWOLS = Reweighted OLS using TSLS Weights

LM-Wald = Lochner-Moretti Wald Test

Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2

DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).

注意到結果,IV 估計係數值大於 OLS 估計係數值,這與學校教育的內生性可能會高估 OLS 的教育效果的假設相反。雖然對這一結果有幾種解釋,如測量誤差和學校教育影響的個體異質性,但收入與學校教育中的非線性關係也是原因。考慮到可能的羊皮效應,這種可能性無疑大大提高了。Naive Wald 和 DWH 檢驗都拒絕外部性。LM 檢驗也拒絕外部性,這降低了人們對前幾次檢驗的結論是由於錯誤判斷關係導致的擔憂。

3.2 實例 B:Lochner and Moretti (2015) - 教育與犯罪率

我們的第二個例子使用 Lochner and Moretti (2015),研究教育對犯罪的影響。他們估計的線性模型設定如下:

其中,

再次假設真實模型如下:

我們只關注在黑人男性中這一效應的影響,應用命令得到結果:

. use "http://eml.berkeley.edu//~moretti/inmates", clear  

*省略數據處理後*
. locmtest prison (educ = ca9 ca10 ca11) ///
i.rage i.year i.state i.birthpl i.birthpl#i.BBeduc

===================================================
Output for the Lochner & Moretti (2015) Wald Test
===================================================

Output Variable y: prison
Endogenous Variable s: educ
Instruments z: ca9 ca10 ca11

Number of observations = 401529
Number of Categories of Endogenous variable is: 19
Number of Dummies is: 18

The number of Excluded Instruments is: 3

Estimated Coefficients

| Coef. Std. Err.
---+-
OLS | -.00369034 .00008333
IV | -.0047513 .00115743
RWOLS | -.00073792 .00017873
---+-

Estimated Test Statistics
| Test p-value
---+----
LM-Wald | 11.944147 .00054819
Naive Wald | .97566386 .32327168
DWH Test | .51540357 .47280942
---+----

NOTES:

RWOLS = Reweighted OLS using TSLS Weights

LM-Wald = Lochner-Moretti Wald Test

Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2

DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).

值得注意的是,無論是 Naive Wald 還是 DWH 檢驗都不能拒絕外部性,但是 LM 檢驗拒絕它。因此在這個例子中,水平特定效應的差異可能導致標準 Hausman 檢驗在應該拒絕時不能拒絕外部性。

3.2 實例 C:Lochner and Moretti (2015) - 白人男性的教育與犯罪率

依然是研究實例 B 中的教育對犯罪的影響,但是對象換成了白人男性。模型假定與實例 B 相同。

此次命令同時包括了 graph 和 coefficient 選項。

. use "http://eml.berkeley.edu//~moretti/inmates", clear  

*省略數據處理後*
. locmtest prison (educ = ca9 ca10 ca11) ///
i.rage i.year i.state i.birthpl, ///
graph coefficients


===================================================
Output for the Lochner & Moretti (2015) Wald Test
===================================================

Output Variable y: prison
Endogenous Variable s: educ
Instruments z: ca9 ca10 ca11

Number of observations = 3209138
Number of Categories of Endogenous variable is: 19
Number of Dummies is: 18

The number of Excluded Instruments is: 3

Estimated Coefficients

| Coef. Std. Err.
---+-
OLS | -.00099111 .00001191
IV | -.00114869 .00036243
RWOLS | -.00120313 .000034
---+-

Estimated Test Statistics
| Test p-value
---+----
LM-Wald | .02247255 .88083682
Naive Wald | .20211212 .65302138
DWH Test | .16365057 .68581755
---+----

NOTES:

RWOLS = Reweighted OLS using TSLS Weights

LM-Wald = Lochner-Moretti Wald Test

Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2

DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).

Estimated Coefficients:

| B seB W2SLS seW2sls Wols seWols
----+-
1 | -.0004088 .0011741 .0037614 .0004353 .0072537 .0000132
2 | .0045219 .0012997 .0061937 .00047 .0085221 .0000143
3 | -.001657 .0009236 .01063 .0005368 .0109205 .0000164
4 | -.0010993 .0007393 .0224401 .0006503 .0145451 .0000194
5 | .0012797 .0006386 .0393125 .0008261 .0187105 .0000225
6 | -.0001663 .0005139 .0590797 .0010652 .0236794 .0000259
7 | .0000373 .0003851 .0833742 .0013781 .0316599 .0000307
8 | -.0020164 .000276 .1191036 .0018339 .0426187 .0000363
9 | .0013537 .000223 .1539329 .0021541 .0668838 .0000444
10 | -.0023834 .0002292 .1452373 .0019494 .0809498 .0000476
11 | -.001019 .0002225 .1335972 .0018293 .0928632 .0000511
12 | -.0046185 .0001729 .151474 .0020407 .0986295 .000055
13 | -.0014042 .0001508 .0016496 .0028537 .1147939 .0000602
14 | -.0004354 .0001853 .0166923 .002551 .1120058 .000057
15 | -.0014717 .0002178 .0173397 .0023118 .0993689 .0000538
16 | .0007271 .0002121 .0225779 .0020952 .0889882 .0000522
17 | -.0003403 .00023 .0088103 .001667 .0512865 .0000451
18 | .0009268 .0002471 .0047934 .0014149 .0363205 .0000395

繪製出的圖如下:

結果表明,Naive Wald 和 DWH 測試都不能拒絕

在繪製出的圖 和 Stata 輸出的估計係數矩陣中對估計係數進行了描述。矩陣和圖也給出了 OLS 和 2SLS 權重的估計。從圖可以看出,12-16 歲受教育年限的 OLS 權重較高,而 9-12 歲受教育年限的 2SLS 權重較高。這意味著9年到12年的教育過渡對 2SLS 估計有實質性的影響。

4.  局限

正如 Lochner and Moretti (2015) 所言:

"This Wald test represents only a partial solution to the problem of estimating multiple per-unit treatment effects with limited instruments."

如果檢驗拒絕外部性,此檢驗無法為擬合正確模型提供任何幫助。

5. 參考文獻

溫馨提示: 文中連結在微信中無法生效。請點擊底部「閱讀原文」。

Michael P. Babington, Javier Cano-Urbina. A Test for Exogeneity in the Presence of Nonlinearities. Stata Journal, 2016, 16(3):761-777.  -PDF-Lochner, L., and E. Moretti. 2004. The effect of education on crime: Evidence from prison inmates, arrests, and self-reports. American Economic Review 94: 155–189.Lochner, L., and E. Moretti. 2015. Estimating and testing models with many treatment levels and limited instruments. Review of Economics and Statistics 97: 387–397. -Link-, -PDF-

6. 相關推文

Note:產生如下推文列表的命令為:
  lianxh iv 工具變量 hausman, m
安裝最新版 lianxh 命令:
  ssc install lianxh, replace

溫馨提示: 文中連結在微信中無法生效。請點擊底部「閱讀原文」。

Stata新命令-pdslasso:眾多控制變量和工具變量如何挑選?IV-工具變量法:第一階段係數符號確定時的小樣本無偏估計IV 經典:尋找 IV 的足跡——Card(1993)Abadie新作:簡明IV,DID,RDD教程和綜述

連享會 · 最受歡迎的課


🍓 2021 Stata 寒假班
⌚ 2021 年 1.25-2.4

🌲 主講:連玉君 (中山大學);江艇 (中國人民大學)

👉 課程主頁:https://gitee.com/arlionn/PX

🍏 🍏 🍏 🍏
連享會主頁:🍎 www.lianxh.cn
直播視頻:lianxh.duanshu.com

免費公開課:

直擊面板數據模型:https://gitee.com/arlionn/PanelData - 連玉君,時長:1小時40分鐘Stata 33 講:https://gitee.com/arlionn/stata101 - 連玉君, 每講 15 分鐘.Stata 小白的取經之路:https://gitee.com/arlionn/StataBin - 龍志能, 2 小時部分直播課課程資料下載 👉 https://gitee.com/arlionn/Live (PPT,dofiles等)

溫馨提示: 文中連結在微信中無法生效,請點擊底部「閱讀原文」。

關於我們🍎 連享會 ( 主頁:lianxh.cn ) 由中山大學連玉君老師團隊創辦,定期分享實證分析經驗。👉 直達連享會:百度一下:連享會】即可直達連享會主頁。亦可進一步添加 主頁,知乎,面板數據,研究設計 等關鍵詞細化搜索。New! lianxh 命令發布了: 在 Stata 命令窗口中輸入 ssc install lianxh 即可安裝,隨時搜索連享會推文、Stata 資源,詳情:help lianxh。連享會主頁  lianxh.cn

🎦  連享會小程序:掃一掃,看推文,看視頻……

🍉 掃碼加入連享會微信群,提問交流更方便

🍅 連享會學習群-常見問題解答匯總:
👉  https://gitee.com/arlionn/WD

New! lianxh 命令發布了:    GIF 動圖介紹
隨時搜索連享會推文、Stata 資源,安裝命令如下:
  . ssc install lianxh
使用詳情參見幫助文件 (有驚喜):
  . help lianxh

相關焦點

  • 實證分析三步走:數據、模型還有結果檢驗
    如果檢驗拒絕了這些假設條件,必須要校正模型。例如,如果變量關係不是線性的,就要採用非線性的模型。如果自變量和誤差項之間不相關(自變量外生性) 的假設被拒絕,即模型存在所謂的內生性問題,工具變量方法就成為了一個可行的解決方案。
  • 實證分析的三個步驟 數據、模型還有結果檢驗
    如果檢驗拒絕了這些假設條件,必須要校正模型。例如,如果變量關係不是線性的,就要採用非線性的模型。如果自變量和誤差項之間不相關(自變量外生性) 的假設被拒絕,即模型存在所謂的內生性問題,工具變量方法就成為了一個可行的解決方案。
  • Stata數據統計分析及模型應用核心技術與應用培訓
    Stata對模型的處理 1.模型估計(線性回歸模型和非線性回歸模型);2.參數檢驗(線性約束、非線性約束、似然比檢驗、Hausman檢驗);3. 模型的線性預測、非線性預測;4. 邊際效應分析;5. 穩健推斷與自舉標準差;6. 結果輸出到Word、Excel、LaTeX。
  • 工具變量IV與內生性處理的精細解讀
    計量經濟圈推薦1.我的"工具變量"走丟了,尋找工具變量思路2.內生性處理的秘密武器-工具變量估計3.工具變量在社會科學因果推斷中的應用4.內生性處理方法與進展5.忽略幹擾因素, 內生性, 遺漏變量偏差6.Heckman模型out了,內生轉換模型7.非線性面板模型中內生性解決方案8.解決遺漏變量偏差
  • 內生性問題研究:4篇推薦與8點認識
    王宇、李海奇(2017)將內生性問題的來源概括為5類:遺漏變量偏差、選擇偏差、雙向因果、動態面板和測量誤差。3.內生性問題是怎麼回事,要具體,至少要能從計量模型方面講清楚。在這面,陳雲松、範曉光(2010)揭示了內生性問題的四種表現形式是,具體如下:其一、對模型(1)、(2)和(3)的比較,可以揭示一般性遺漏變量偏誤的存在。
  • 內生性問題:起因,類型和解決辦法
    (聯繫電話:15503649793)內生性問題是個既重要,又複雜的問題。說它重要,是因為現在的管理學實證文章(用二手數據),如果在穩健性檢驗部分不提內生性問題,那審稿人一定會說你方法部分不嚴謹。經濟學金融學文章更是這樣,他們對計量的要求比管理學高。說它複雜,是因為它的來源複雜,解決方法複雜。
  • 一文讀懂內生性與工具變量法知識大全
    本文主要為大家匯總出內生性介紹以及計量經濟學軟體Stata的二階段最小二乘法操作步驟,以及內生性處理中的相關檢驗:Hausman檢驗、過段識別檢驗、弱工具變量的檢驗等內容。然而,如果一個重要變量x2被模型(1) 遺漏了,且x1和x2也相關,那麼對β1的OLS 估計值就必然是有偏的。此時,x1被稱作「內生」的解釋變量,這就是 「內生性」問題。遇到「內生性」問題腫木辦?有一個方法就是找工具變量Z。
  • 非線性回歸模型--多項式回歸
    因此,就需要我們採用非線性回歸模型來處理此類問題。非線性回歸有多種形式,包括雙曲線、二次曲線、三次曲線、冪函數曲線、指數函數曲線、S形曲線、對數曲線、指數曲線等。非線性回歸分析的關鍵是確定函數的具體形式。通常需要根據科學研究或生產實際中的具體問題或試驗數據的特徵做出合適的選擇。
  • 互助問答第68期:分組檢驗和邊際效應問題、ivprobit交乘項設計
    那為什麼又需要進行假設檢驗?這裡可以這樣想,這個結果僅僅是根據一組樣本做出來的,是否會因為隨機誤差而引起的這個差異呢?所以不能僅根據這一組樣本數據就得出結果,需要進行更為嚴謹的檢驗,即這裡的假設檢驗。對於你提的問題,如果你檢驗出來兩組是存在顯著差異的,我覺得是可以得到那樣的結論。很多時候,也會把原假設寫成大於或小於的形式。
  • 一文讀懂內生性專題(上)
    然而,如果一個重要變量x2被模型(1) 遺漏了,且x1和x2也相關,那麼對β1的OLS 估計值就必然是有偏的。 此時,x1被稱作「內生」的解釋變量,這就是 「內生性」問題。遇到「內生性」問題腫木辦?有一個方法就是找工具變量Z。
  • OLS回歸模型面面觀:應用與檢驗(二)
    其實還有一些需要補充的內容,比如我們在進行一個回歸模型操作的時候,通常都需要對變量的分布進行檢驗。這裡的變量指的是我們在某個具體研究中應用到的所有相關變量。        搞清楚了變量的分布,才能得出變量是個什麼樣的狀態,適合進行怎樣的排列、recode和分組。
  • 「內生性」 到底是什麼鬼? New Yorker告訴你
    因此,當人們說你的模型有內生性問題的時候,他們的意思其實是:有沒有可能真實的系統中實際上有另外一個方程,在其中當前的 X 位於等號左邊?在這個方程中,如果右端是 Y,我們就說 X 和 Y 互為因果;如果右端是另一個變量 Z,我們就說存在遺漏變量。這也就是導致內生性的兩個基本原因。
  • suest:跨模型比較與廣義豪斯曼檢驗
    理論回顧1.1 suest 的基準模型1.2 `suest` 的假設檢驗2. suest 實例2.1 係數差異檢驗 (不同模型)2.2 係數差異檢驗 (不同樣本)2.3 廣義豪斯曼檢驗擴展命令參考文獻和資料
  • Stata:內生性與工具變量一文讀懂(附完整do文檔)
    本文主要為大家匯總出內生性介紹以及計量經濟學軟體Stata的二階段最小二乘法操作步驟,以及內生性處理中的相關檢驗:Hausman檢驗、過段識別檢驗
  • 內生性問題研究|4篇文章推薦+8點認識
    「要確保工具變量分析結果穩健可信,我們必須首先檢驗工具變量的合法性,同時還要觀察工具變量模型和一般的單方程模型(如OLS或Probit模型)」。從技術難度來講,為了「追求」良好性質的統計量進而實現有效的統計推斷,還應向更複雜、更嚴格的標準挺進。
  • (案例)線性/非線性回歸分析Matlab算例
    [b,bint,r,rint,stats]=regress(y',X,0.05); fprintf('一元線性回歸模型參數為:\n')bfprintf('回歸模型擬合度係數R2為:\n')R2=stats(1)fprintf('回歸模型顯著性檢驗F統計量為:\n')F=stats(2)fprintf('回歸模型顯著性檢驗P值為:\n')PVAL=stats(3)fprintf('回歸模型在置信度區間下殘差分布圖為
  • 門檻回歸模型
    門檻回歸模型1 什麼是門檻回歸2 時間序列—門檻模型3 面板數據—門檻模型4 門檻回歸檢驗4.1 是否存在門限效應4.2 門檻值的顯著性檢驗4.3 多門檻回歸模型5 門限回歸的實現1 什麼是門檻回歸 在估計回歸模型中,常常根據分類變量將數據分為多個子樣本從而檢驗參數估計值的穩健性
  • spss 非線性回歸 - CSDN
    各位SPSS學堂粉絲大家好,上次我們簡要給大家梳理了一篇有關非線性關係的文章,現在我們就關於此模型的數據如何用SPSS操作和結果分析進行詳細介紹,前面的描述性統計與相關分析等我們之前的文章中都有提到,這裡我們就不再示範,我們直接給大家示範假設檢驗部分的數據分析。
  • 怎樣區分線性和非線性_線性與非線性的區別
    4.線性與非線性,常用於區別函數y = f (x)對自變量x的依賴關係。線性函數即一次函數,其圖像為一條直線。其它函數則為非線性函數,其圖像不是直線。5.在數學上,線性關係是指自變量x與因變量yo之間可以表示成y=ax+b ,(a,b為常數),即說x與y之間成線性關係。