一文讀懂內生性專題(上)

2021-03-02 計量經濟學服務中心

本文主要為大家匯總出內生性介紹以及計量經濟學軟體Eviews和 Stata的二階段最小二乘法操作步驟，增進內生性問題處理。

1、內生性介紹

在面板數據分析，尤其是Arellano-Bond 估計方面作出了貢獻。該方法利用面板數據中的時間模式來估計對政策或其他變量變化的經濟響應，同時對永久性的未觀察到的混淆變量進行控制。

一個典型的線性回歸模型:y = β0 + β1x1 + βX + ε (1)，這裡y為被解釋變量，x1為自變量，或者解釋變量，也即「因」。大寫的 X 為外生控制項向量( 也即一組假定為外生的其他控制變量，例如年齡、性別等等) ，ε則為誤差項。如果ε與x1不相關，那麼我們可以利用OLS 模型對方程進行無偏估計。

然而，如果一個重要變量x2被模型(1) 遺漏了，且x1和x2也相關，那麼對β1的OLS 估計值就必然是有偏的。此時，x1被稱作「內生」的解釋變量，這就是「內生性」問題。遇到「內生性」問題腫木辦？有一個方法就是找工具變量Z。

如果存在內生性，則稱解釋變量為「內生變量」（endogenous variable）；反之，則稱為「外生變量」（exogenous variable）。內生性的嚴重後果是使得 OLS估計量不一致（inconsistent），即無論樣本容量多大，OLS 估計量也不會收斂至真實的參數值。

在計量經濟學中，把所有與擾動項相關的解釋變量都稱為「內生變量」。這與一般經濟學理論中的定義有所不同。 1。與誤差項相關的變量稱為內生變量(endogenous variable)。 2。與誤差項不相關的變量稱為外生變量(exogenous variable)。

2、內生性的來源：

（1）遺漏變量偏差（2）經典的測量誤差問題（3）聯立性（逆向因果）

首先我們來看下反向因果關係的解釋，例如根據凱恩斯的消費函數，首先模型的設定為C=a+bY+Ui，其中C為消費，Y為國民收入，Ui為隨機誤差擾動項。然而國民帳戶的恆等式又有Y=C+I+G+NX,即Y等於消費投資政府購買和淨出口的和，很顯然，消費是國民收入的重要組成部門，消費又是誤差的函數，這樣消費與國民收入的函數之間存在反向因果關係，主要因為消費函數裡面的Y與Ui相關，本來應該是X與Ui不相關，擾動項的信息應該全部包括或者表現概括在已經有的X裡面了。

遺漏變量主要值得是某些不可觀測的解釋變量沒有納入到回歸模型中，如果北一樓的變量能夠同時對因變量和自變量產生影響，那麼會出現內生性的問題。一個比較經典的案例例如研究一個人受教育程度與他的收入之間的關係，其中收入作為被解釋變量Y，然後樣本中的隔熱的教育程度作為解釋變量，這個模型中例如能力、性別以及其他變量都有可能同時影響該模型變量受教育程度以及收入，例如個人能力比較高的人可能這個收入比較高，而個人能力有可能作為遺漏變量包含在隨機誤差擾動項中，因此會出現這個內生性的問題。

另外還有一種就是存在的度量誤差現象，到時候也是主要表現在內生性的這個與X和Ui不相關，但是卻相關了。

解決內生性問題的常見方法，主要包括工具變量( instrumental variable，簡稱IV) 、固定效應模型( fixed effects model，簡稱FE) 、傾向值匹配( propensity score matching，簡稱PSM) 、實驗以及準實驗( experimentsand quasi-experiments) 等等。本文主要介紹工具變量法。

內生性的選擇標準

要解決這一內生性問題，我們需要引入更多信息來進行無偏估計。工具變量的方法就是引入一個外生變量Z，且Z 必須滿足以下兩個條件: 與隨機誤差擾動項不相關，但與x1（與內生變量）相關。或者說，Z 僅僅通過影響x1來影響y。（總結為：與擾動項無關，與內生變量相關，能夠替代或者表達原內生變量的信息）工具變量IV應該儘量是外生的（如歷史/自然/氣候/地理之類），它應該在理論上對被解釋變量（以下稱Y）沒有直接影響，但應該通過影響被工具的變量（以下稱X）而間接影響被解釋變量Y。

一個合理的工具變量應該同時主要滿足兩個條件：

（1）、強度條件，即工具變量應該與內生自變量具有較強的相關性，即該工具變量的應該能夠代替或者表達原內生變量的信息，數學表達式為：

COV（Z，X）=/0

（2）、排除限制條件，即工具變量應該與誤差項不相關，也就是與因變量Y中不能被已有的自變量x所表達的部分無關（也是與誤差項無關）

COV（Z，u）=/0

如果第一個條件不滿足，我們認為這個工具變量是若工具變量，如果第二個條件得到不滿足，我們認為該工具變量不具備足夠的外生性，所謂外生性就是Z與誤差項不相關。這樣將導致工具變量的估計值出現類似於OLS估計的回歸偏誤。

二階段最小二乘法的第一階段就是利用原模型的內生解釋變量對工具變量進行OLS，得到解釋變量的擬合值；第二步，利用得到解釋變量的擬合值對原模型進行最小二乘法，從而得到方程模型的估計值，這樣就可以消除內生性的影響。

二階段最小二乘法Eviews操作介紹

例如本文使用如下1991-2014年Y與I的數據，在Eviews10.0軟體中對其分別取對數，記為lny，lni。（案例所用的Eviews文件名稱記為二階段最小二乘法01.wfl

在Eviews軟體中對其進行二階段最小二乘法的操作，相關步驟截圖如下：首先在回歸的主菜單的Equation Estimation對話框中的Instrument List選擇lny，lni的滯後一期作為工具變量，然後選擇的method為TSLS—Two-Stage Least Squares方法，由於常數項本身也是一個合適的工具變量，因此也需要輸入，系統默認的，最後確定結果為：

最後的結果為：

可以看出在5%的顯著性水平下方程都是顯著的。本文主要選取了y以及i的滯後一期作為工具變量，一般解釋變量以及被解釋變量的滯後期均可以作為工具變量,一般情況下，根據模型的階條件，為了使結構方程能夠識別，工具變量的變量數一定要多餘結構方程的自變量個數。

二階段最小二乘法Stata操作介紹

本文根據Stata提供的ivregress中的數據進行講解，用到的數據為hsng.dta

首先了解一下二階段最小二乘法Stata中的命令為ivregress，語法格式為

利用該數據進行二階段最小二乘法的兩種操作，然後進行對比，其中dofile的命令如下：

ivregress2sls rent pcturban (hsngval = faminc i.region)

或者二階段最小二乘法的原理推導

reg hsngval pcturban faminc i.region

predictyhat

regrent yhat pcturban

首先ivregress 2sls rentpcturban (hsngval = faminc i.region)的結果為：

然後依次進行reg hsngval pcturban faminc i.region

predictyhat

regrent yhat pcturban

得到結果為：

然後將上述模型的結果進行對比，分別用到如下完整的命令：

可以看到模型的2SLS與工具變量的回歸係數完全相同，但是標準誤並不相同。

本文綜合整理自2018大數據與計量經濟學發展論壇會議手冊，下期本文將為大家介紹內生性相關檢驗等知識，敬請期待。

轉載請註明來源

一文讀懂內生性專題(上)

相關焦點

一文讀懂內生性與工具變量法知識大全

Stata:內生性與工具變量一文讀懂(附完整do文檔)

reshape命令一文讀懂!

一文讀懂電容傳感器

獨家 | 一文讀懂Adaboost

一文讀懂磁傳感器(必須收藏)

一文讀懂「2020限塑令」!

一文收藏stata14&15小抄:常用命令匯總

「內生性」到底是什麼鬼? New Yorker告訴你

locmtest:非線性模型的內生性檢驗

獨家 | 一文讀懂Hadoop(三):Mapreduce

內生性問題研究:4篇推薦與8點認識

內生性問題:起因,類型和解決辦法

專題梳理09 || 一文讀懂「培養」理論

解讀「中國模式」的制度內生性

實現內生性增長的關鍵何在

一文讀懂Python裝飾器

一文讀懂CAN總線(三)

專題梳理07 || 一文讀懂「創新擴散」理論

內生性問題研究|4篇文章推薦+8點認識

一文讀懂內生性專題(上)

相關焦點

一文讀懂內生性與工具變量法知識大全

Stata:內生性與工具變量一文讀懂(附完整do文檔)

reshape命令一文讀懂!

一文讀懂電容傳感器

獨家 | 一文讀懂Adaboost

一文讀懂磁傳感器(必須收藏)

一文讀懂「2020限塑令」!

一文收藏stata14&15小抄:常用命令匯總

「內生性」 到底是什麼鬼? New Yorker告訴你

locmtest:非線性模型的內生性檢驗

獨家 | 一文讀懂Hadoop(三):Mapreduce

內生性問題研究:4篇推薦與8點認識

內生性問題:起因,類型和解決辦法

專題梳理09 || 一文讀懂「培養」理論

解讀「中國模式」的制度內生性

實現內生性增長的關鍵何在

一文讀懂Python裝飾器

一文讀懂CAN總線(三)

專題梳理07 || 一文讀懂「創新擴散」理論

內生性問題研究|4篇文章推薦+8點認識

「內生性」到底是什麼鬼? New Yorker告訴你