一般來說,經濟數據有三種類型:橫截面數據(包括混合橫截面數據)、面板數據和時間序列數據。對於應用微觀研究而言,主要還是採用前兩種數據類型,時間序列數據多應用於金融等方面的研究,由於我基本不做時間序列分析,以下就不再提及該數據類型。在有選擇權的情況下(對於同一個研究主題,同時有橫截面和面板數據可供選擇),建議毫不猶豫地採用面板數據。
理由在於,相對於橫截面數據,面板數據具有眾多優勢。簡單講三個優勢:一是面板數據具有更多的樣本量和信息量,可以降低變量之間共線性的可能性、增加檢驗統計量的自由度和增強估計結果的有效性;二是面板數據除了截面維度外,還具有時間維度,從而可以考察效應的時間變化趨勢,進行動態分析;三是面板數據一定程度上可以減輕萬惡的內生性問題(由遺漏變量引起的內生性),至於原因,將是下面要講的重點。
在建立好計量模型和選用了面板數據後,接下來就是用適當的計量方法對模型進行估計了。對於面板數據下的模型,有三種常用的估計方法:固定效應估計、隨機效應估計和混合效應估計。什麼叫混合效應估計呢?就是把時間維度和截面維度的數據混合起來,極端地將面板數據看成一般的截面數據,然後用OLS來估計。可以發現,混合效應估計根本就沒有發揮出面板數據應有的優勢,因而在實踐中並不推薦使用。從而面對面板數據時,或者用固定效應估計,或者用隨機效應估計。
什麼叫固定效應模型或者隨機效應模型呢?對於如下的靜態面板模型(解釋變量中不包含被解釋變量的滯後項,否則叫動態面板模型):
其中,下表i表示個體,t表示時間。對於所有的解釋變量,可以將其劃分為隨時間變化的個體特徵(比如年齡和收入)以及不隨時間變化的個體特徵(比如性別)。可以進一步將擾動項進行劃分:
其中,為擾動項中不可觀測的不隨時間變化的個體上的差異,具體叫做個體效應;為擾動項中不可觀測的不隨個體變化的時間上的差異,具體叫做時間效應。為擾動項中的餘下部分,並假定其滿足球形擾動方差等假設。
此時,可以根據個體效應或者時間效應與解釋變量的關係來定義固定效應模型與隨機效應模型:
(1)如果個體效應與某個解釋變量相關,則模型可稱之為「個體固定效應模型」;
(2)如果時間效應與某個解釋變量相關,則模型可稱之為「時間固定效應模型」;
(3)如果個體效應和時間效應均與某個解釋變量相關,則模型可稱之為「雙向固定效應模型」;
(4)如果個體效應和時間效應與所有的解釋變量均不相關,則模型可稱之為「隨機效應模型」。
從以上的定義可以發現,在隨機效應假設滿足的情況下,複合擾動項與解釋變量無關,因而可以得到一致估計。但是,由於此時不是球形擾動項(為球形擾動項,但不是),從而OLS估計不是最優效率的,此時採用廣義最小二乘法(GLS)可以得到最佳線性無偏估計,這也是用Stata進行隨機效應回歸時軟體採用GLS的原因,如下圖:
而在固定效應假設滿足的情況下,複合擾動項與解釋變量相關,從而無法得到一致估計(回憶一下,假設不成立是造成內生性的原因)。因此,固定效應模型估計方法的核心思想就在於消除擾動項中與解釋變量相關的個體效應或者隨機效應。一般來說,固定效應模型的估計方法有如下幾種:
(1)組內估計(Withinestimate):即組內去均值處理;
(2)一階差分估計(FD);
(3)最小二乘虛擬變量法(LSDV):在模型中加入固定效應的虛擬變量。
這裡以個體固定效應模型為例講一下組內去均值估計的基本思想,組內估計也是Stata默認採用的估計方式。對於如下的個體固定效應模型(3):
用模型中的每一項減去其均值,得到新的模型,如下所示:
由於u、Z和α均為不隨時間改變的值,因而其均值就是其本身,也就是說
,從而模型(4)可以轉化為:
其中。此時可以發現,新的擾動項h與新的解釋變量k明顯不相關,因而通過OLS可以得到一致估計。現在應該能理解固定效應估計為什麼能夠一定程度上緩解因遺漏變量造成的內生性了吧?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.