面板數據裡處理多重高維固定效應的神器, 還可用工具變量處理內生性

2021-01-10 騰訊網

可有償投稿計量經濟圈,計量相關則可

所有計量經濟圈方法論叢的do文件都放在社群裡,可以直接取出使用運行,也歡迎到研究小組交流訪問.感謝鄒恆甫教授對計量經濟圈的關注和支持.

今天,我們「面板數據研究小組」將為計量經濟圈的圈友引薦一個處理多重高維固定效應的方法(multiple high dimensional fixed effects)。我們經常聽說面板數據相對於截面數據有更大的空間去控制異質性,尤其是那些看不見的卻不隨著時間變動的異質性。

比如,我們想要研究學習時長與學生學習成績之間的關係,數據包括整個學校5000名學生在100次考試期間的學習時長和這100次考試的最終成績,還有其他一些可能看不見的影響因素:學生個人能力和學校的校風等。

現在,我們需要做一個面板數據的回歸,除了學生學習時長外,解釋變量還包括每個學生的個人能力(D1)和學校的校風(D2)。如果我們直接把他們按照i.D1和i.D2這種虛擬變量形式放進去進行回歸,那帶給我們最大的難處是運行時間長且會導致我們的電腦系統崩潰。通俗地講,LSDV模型(Least dummy dependent variable)的回歸會帶來更長的運算時間和系統內存佔用。

那如果不止這兩個學生的個體特徵,那我們就需要用更長的時間和佔據更多的電腦內存去運算。在經濟學研究中,我們經常需要控制公司層面、行業類別、省市縣層面的固定效應,那如果直接按照添加虛擬變量的形式進行回歸,我們會等到花兒都謝了也等不到結果。更重要的是,隨著樣本亮的增大N—∞,然後我們那些固定效應因素,比如i.D1和i.D2的維度也會增大((每個人一個dummy),這會導致「incidental parameters」問題(伴隨參數問題)。而作為伴隨參數的固定效應因素的出現,其他由極大似然函數估計的參數的一致性問題就受到挑戰。

感受一下曾經做過的嘗試,我們就知道對於大樣本的微觀數據,高維固定效應確實讓我們的估計出現問題。樣本量過大而導致的運行問題,如果還是用之前的那一套方式,那不管多好的電腦內存都出現了卡殼現象。

我們現在就引薦一個Frisch-Waugh-Lovell定理,他實際上是通過組內估計的方式解決了這個問題(固定效應模型)。第一步:通過減去組內的均值,我們可以把這些固定效應因素(即D1和D2)去除掉;第二部:通過用去掉了組內均值的的Y 對去掉了組內均值的X做線性回歸,然後我們可以得到β;第三部:用第二部回歸中的殘差項μ對D1和D2做回歸,我們可以得到α和γ。這就是我們經常說的固定效應模型——組內估計模型。

這個方法屬於應用型的,裡面的估計程序會涉及到矩陣運算,因此我們就不在這裡具體講解更複雜的過程。這一次,我們把相關操作命令放出來,這樣你就會知道操作格式是怎樣的,今後你只需要修改一下裡面的參數就可以出結果。這個方法之所以能夠節約運算時間和電腦內存,在於他採用的是通過iteration方式獲得最終的結果。這個方法能夠同時處理很多問題:多維固定效應、聚類穩健標準誤、工具變量方法

GP方法得到的這個運算程序,下面的文字解釋了為什麼GP很具有吸引力。

GP algorithm that is commonly used to deal with multiple high-dimensional fixed effects.It uses the iteration and convergence implementationof Least Squared estimation instead of the explicit calculation of theinverse of matrices.Another valuable innovation is that it stores and retrieves each fixed effect as a columnvector, which compresses the dimensions of fixed effects to ones. Hence in each iteration,the estimation of each fixed effect merely involves taking simple average of residuals bygroups, after which the OLS regression is then run for other regressors along with theupdated fixed effect vector as a variable. After convergence of the estimates, the fixedeffects remain identifiable.

reghdfe y x1 x2 x3 x4 x5 x6, cluster(industry) absorb(year city industry)通常的程序表達式,控制了年份、城市和行業固定效應,而且得到行業聚類標準誤。

示例如下

set matsize 1000 //把Mata空間設置大一點,因為牽涉到矩陣運算

clear

sysuse auto //運用系統自帶資料庫

**最簡單的一維固定效應

reghdfe price weight length, absorb(rep78) //把rep78這個固定效應控制起來

est store reg4 //可以把結果保存起來

areg price weight length, absorb(rep78) //這個也可以控制一維固定效應

我們得到的結果與上面通過reghdfe得到的結果是一樣的,這證明reghdfe是一個一般化的控制多重高維固定效應方法的方法。

**一維固定效應但得出聚類標準誤,以下兩種表達式結果一樣

reghdfe price weight length, absorb(rep78)vce(cluster rep78)

reghdfe price weight length, absorb(rep78)cluster(rep78)

**二維和三維固定效應

clear

webuse nlswork

reghdfe ln_w grade age ttl_exp tenure not_smsa south , absorb(idcode year)

reghdfe ln_w grade age ttl_exp tenure not_smsa south , absorb(idcode year occ)

**分類因變量存在交互行為

reghdfe ln_w i.grade#i.age ttl_exp tenure not_smsa , absorb(idcode occ)

**固定效應存在交互行為

reghdfe ln_w grade age ttl_exp tenure not_smsa , absorb(idcode#occ)

**工具變量估計

clear

sysuse auto

reghdfe price weight (length=head), absorb(rep78)

reghdfe price weight (length=head), absorb(rep78) ffirst //報告第一階段回歸

reghdfe price weight (length=head), absorb(rep78) ivsuite(ivregress) //用ivregress估計

reghdfe price weight (length=head), absorb(rep78 turn##c.price) //出現固定效應的交叉項

面板數據研究小組各種方法論叢的do file都放在咱們的社群,可以直接到社群提取使用。

相關焦點

  • 面板數據固定效應 vs. 隨機效應
    簡單講三個優勢:一是面板數據具有更多的樣本量和信息量,可以降低變量之間共線性的可能性、增加檢驗統計量的自由度和增強估計結果的有效性;二是面板數據除了截面維度外,還具有時間維度,從而可以考察效應的時間變化趨勢,進行動態分析;三是面板數據一定程度上可以減輕萬惡的內生性問題(由遺漏變量引起的內生性),至於原因,將是下面要講的重點。
  • 搞懂因果推斷中內生性問題解決方法必讀的書籍和文獻已搜集好!
    工具變量IV與內生性處理的解讀;15.一份改變實證研究的內生性處理思維導圖;16.Top期刊裡不同來源內生性處理方法;17.面板數據中heckman方法和程序(xtheckman);18.控制函數法CF, 處理內生性的廣義方法;19.
  • 2019-2020(1)學期計量經濟學倒數第2課:5分鐘構建面板數據模型:原理要點、操作視頻與流行問題命令精選匯總
    另⼀個重要區別:固定效應不能估計不隨時間變化的變量的係數隨機效應、POLS可以。實踐中:固定效應最穩健,應優先考慮。實踐中:xtreg命令、reghdfe命令第三節 面板數據模型的估計方法流行操作命令:reg中的cluster()只能聚類⼀組reghdfe可以聚類多組•3 擴展工具變量多重高維固定效應Titleivreghdfe-- Extended instrumental variable regressions with multiple levels of fixedeffects
  • 邊際處理效應讓你與眾不同
    然而,當存在異質性和選擇偏差時,傳統工具變量方法通常也無法準確估計教育回報參數。當存在異質性和選擇偏差時,Heckman等研究表明,可以通過局部工具變量方法 (LIV)對參數進行估計,通過邊際處理效應 (MTE)估計異質教育回報。
  • 面板數據_面板數據分析 - CSDN
    概括地來說,這個模型是頻率派和貝葉斯模型的結合,是經典的參數統計到高維數據分析的先驅,是擬合具有一定相關結構的觀測的典型工具。   隨機效應最直觀的用處就是把固定效應推廣到隨機效應。注意,這時隨機效應是一個群體概念,代表了一個分布的信息 or 特徵,而對固定效應而言,我們所做的推斷僅限於那幾個固定的(未知的)參數。
  • 統計學中「固定效應 vs. 隨機效應」
    此時,被試個體將作為Level 2的clustering variable,並且是隨機截距(1 | subject),而重複測量的條件將作為Level 1自變量,視情況設為固定或隨機斜率。使用HLM處理重複測量實驗數據具有一定的優勢,尤其體現在重複測量條件很多、很複雜、可以為連續變量的情況,例如眼動數據、腦電數據等等。
  • 非平衡面板固定效應門限回歸模型
    固定效應門限回歸模型(Hansen, 1999)是時間門限自回歸模型在面板數據中的擴展。Stata的xthreg程序(Wang, 2015)適用於平衡面板。而微觀數據中非平衡面板是更常見的情況,在將非平衡面板整理為平衡面板時很容易導致樣本選擇偏差等問題。因此,利用非平衡面板進行估計和檢驗則可以有效避免這些問題。
  • Python實現固定效應回歸模型實現因果關係推斷
    混雜因素是一個既影響因變量y又影響自變量x的變量,從而導致了虛假關聯。 一項研究可能會忽略混雜因素。 因為我們沒有收集足夠的數據,所以它是不可觀察的。 而補救措施是將混雜因素識別為可觀察的因素。內生性:如果存在一個混雜因素可以解釋x和y之間的關係,則x是內生的。x和y之間的相關性也無法解釋或毫無意義。 您能說冰淇淋銷售與鯊魚襲擊之間存在正相關關係嗎?
  • 多重插補法處理缺失數據(缺失值)
    同時,我們還將以最新發表、或各學科Top期刊文章中的統計方法為例,給大家逐一講解如何做統計(分析數據)!介 紹做科學研究的時候,我們經常會碰到缺失值的問題,除了直接刪除、簡單插補,多重插補也是常用到的處理缺失數據的方法。使用軟體使用軟體:SPSS 25.0,建議使用高版本。
  • 北大數據分析老鳥送給學弟們的經驗之談
    首先,它是專業的統計軟體,對「萬」甚至「十萬」樣本量級別的數據集都能應付自如;其次,它是統計軟體而非專業的計量軟體,因此它的強項在於數據清洗、描述統計、假設檢驗(T、F、卡方、方差齊性、正態性、信效度等檢驗)、多元統計分析(因子、聚類、判別、偏相關等)和一些常用的計量分析(初、中級計量教科書裡提到的計量分析基本都能實現),對於複雜的、前沿的計量分析無能為力;第三,SPSS主要用於 分析截面數據,在時序和面板數據處理方面功能了了
  • 內生性問題和傾向得分匹配, 獻給準自然試驗的厚禮
    說起內生性問題,通常大家都會有一個直觀的印象:誤差項(e)和解釋變量抑或被解釋變量有著糾纏不清的關係,Cov(Xi,e)≠0,Covermark(Y,e)≠0。在以往的文章中,對內生性問題也做過簡單的介紹。那麼,內生性問題到底是怎麼出現的呢?有幾類?
  • |內生性|因果關係|...
    1、不同的幹預效應  估計因果效應與估計你的利益結果變量的幹預效應是一樣的。根據具體的研究或業務問題,可以選擇不同的治療效果進行估計。假設Y是結果變量,其中Y?是沒有幹預的結果,Y¹是有幹預的結果。T為虛擬變量,表示單位i是在幹預組(T=1)還是對照組(T=0):    平均而言,幹預組和對照組之間的結果變量有何不同?