面板數據的視頻及其簡單回歸範例:
第一節 面板數據的基本問題
一、面板數據的定義
面板數據(panel data)是指由變量y關於N個不同對象的T個觀測期所得到的二維結構數據,記為yit,其中i表示N個不同對象(如國家、地區、行業、企業或消費者等,一般稱為第i個個體),t表示T個觀測期。中國臺灣省人民稱之為縱橫數據。
數據結構的二維性(其實大數據時代可以構造三維、四維甚至五維的面板數據):
第二節 面板數據的模型形式
一、個體效應模型
ChapterⅡ 單因素誤差回歸模型
ChapterⅢ 雙因素誤差回歸模型
面板數據有的優點
1.可以控制個體異質性。
Eg1:1963 ~1988 年美國46 個州的香菸需求問題。模型將香菸消費量設定為滯後消費量、價格以及收入的函數。這些變量都隨著州和時間的不同而變化,但也有很多其他影響香菸消費量的變量可能並不隨著州的不同或時間的不同而變化。我們將這兩類變量分別記為和。屬於的變量如宗教和教育,對於宗教變量,我們不可能得到每年每個州某一宗教(如摩門教)人數佔總人口的百分比,而且我們一般認為不同年份的百分比也不會有太大變化。同樣,完成高中或大學學業的人數佔總人口的百分比也是如此。屬於變量 的例子如電視和廣播中的廣告,這些廣告是全國性的,不會隨著州的不同而變化。另外,這類變量中還有一些很難測量或者很難得到,因此其中的很多變量不能包括在消費方程中。使用面板數據我們就可以先對數據進行差分以消除所有類型的變量,這樣就可以有效地控制所有州的個體特徵。這種方法不受 是否可觀測的影響。
Eg2: 利用 1970 -1982 年79 個發展中國家面板數據研究外債償付問題。這些發展中國家在殖民歷史、金融機構、宗教信仰和政治體制等方面有所不同,所有這些反映國家特徵特定變量都會影響它們在借債或拖欠方面的態度,同時也會影響債權國對待它們的方式。如不考慮這些國家之間的異質性就會出現嚴重的設定錯誤。
Eg3:小農場是否比大農場的生產力高。經濟理論對這一結果的解釋是,較高的單位產出是小農場主對不確定性的最優反映,或者說僱傭勞動力與家庭勞動力相比需要更多的監管。
傳統OLS回歸存在遺漏不可觀測的異質性問題,在這裡即指「土地質量」,此遺漏的變量與解釋變量(如農場面積)存在系統相關性。在邊緣區域(如半沙漠地區)土地質量較低而農場面積通常很大,而土地質量高的地區農產品面積也較小。因為農場面積在短期內變化很小甚至沒有變化,差分也不一定能解決「小農場生產力高」的問題。
2.面板數據具有更多的信息,更大的變異,變量間更弱的共線性,更大的自由度以及更高的效率。時間序列存在多重共線性問題(香菸的例子中,價格和收入具有共線性,使用面板數據後,這種可能性變小,因為增加截面個體維度的同時也增加了數據的變異,也增加了更多有關價格和收入的信息)。數據中的變異可以分為兩個部分,一是州與州之間由於規模和特徵不同所表現出的變異性;二是各州內部不同時間上表現出的變異性,前者變異程度往往更大。
3.面板數據更適合於研究動態調整過程。面板數據適用於研究失業、貧困等經濟狀態的持續期,足夠長的面板數據還能清楚地表明對經濟政策變化調整速度。而且如果這些面板數據的時期數足夠長,它們能表明對經濟政策變化的調整速度。
如在衡量失業問題時,橫截面數據可以估計出人口中多大一部分比例在給定的時間處於失業狀態,多個截面可以表明這一比例如何隨時間而變化,但只有面板數據能估計出在某個時期失業人中有多大一部分在另一個時期仍處於失業狀態。很多重要政策問題也要求必須使用面板數據進行研究,如確定家庭貧困、失業或依靠福利救濟的狀態只是暫時的還是具有長期性的問題。
如何導入面板數據視頻:
二、固定效應模型
1.固定效應v.s.隨機效應、混合最⼩⼆乘
固定效應估計量與隨機估計量的優缺點:
從假設強弱來看:固定效應所需假設更弱,更穩健
隨機效應、POLS假設更強:需假設個體誤差項與解釋變量不相關!
另⼀個重要區別:固定效應不能估計不隨時間變化的變量的係數
隨機效應、POLS可以。
實踐中:固定效應最穩健,應優先考慮。
實踐中:xtreg命令、reghdfe命令
第三節 面板數據模型的估計方法
虛擬變量回歸的特點:
使用LSDV方法所給出的估計值,與我們用組內估計方法得到的估計值恰好一樣,而且標準誤和其他主要統計量也是一樣。因此,固定效應估計量可以從虛擬變量回歸得到。
從LSDV方法算出的可決係數的值通常都比較高,這是因為我們對每一橫截面單位都包含了一個虛擬變量,以致能解釋數據中的變異的大部分。
Islam (2000)對此提供的一種理論解釋是,GMM和IV估計在小樣本上估計效果不好的原因是因為,這兩種方法的優點都依賴於回歸估計中所能選擇到的最優權重矩陣,而這一權重在回歸中可能會收到數據噪聲。
組內估計量與一階差分估計量:
實驗13-2:固定效應與隨機效應模型
•這樣,利用「wage.dta」的數據,我們會講解組間效應模型的回歸、固定效應和隨機效應模型的擬合、Hausman檢驗以及模型預測等內容。
•1 組間效應模型
clearcd G:\stata統計分析\data\習題數據\chap13use wage.dta,clear//對於「wage.dta」的數據,我們要分析受教育年數、年齡、工作年數、現有崗位的任職時間、是否是黑人、是否居住在SMSA區、是否生活在南方等因素對工資收入的影響。考慮到年齡、工作年數、現有崗位任職時間等因素對工資收入的影響可能不是線性的,我們先生成這三個變量的平方項,並在模型中包括這三個變量的水平項和平方項。輸入命令:gen age2=age*agegen exp2=ttl_exp*ttl_expgen tenure2=tenure*tenure//我們生成變量age、ttl_exp和tenure的平方項,並分別將其命名為age2、exp2和tenure2。//此外,我們需要由變量race生成一個虛擬變量,來表示是否是黑人。輸入命令:gen byte black = race==2//這裡,我們生成新變量black,並令其類型為type。注意,race後為兩個等號。該命令的含義為,對race是2的(黑人)觀測值,我們令black的值為1;對race取其他值的觀測值,我們令black的值為0。也就是說新生成的變量black為虛擬變量,1表示黑人,0表示其他人種。//進行完這些變換之後,下面,我們進行組間回歸。輸入命令:xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, be//這裡,被解釋變量為ln_w,解釋變量包括grade、age、age2、ttl_exp、exp2、tenure、tenure2、black、not_smsa和south,選項be表示進行組間估計。•2 固定效應模型
獲取固定效應估計量的命令與組間效應模型類似,為:
xtreg depvar [indepvars] [if] [in] [weight], fe [FE_options]
其中,xtreg代表「擬合面板數據模型」的基本命令語句,選項fe表明要獲取固定效應估計量。FE_options代表獲取固定效應估計量的其他選項,主要有level(#)和vce(type),標準差的類型可以是conventional、robust、cluster clustvar、bootstrap和 jackknife。這裡,設定穩健標準差vce(robust)與聚類穩健的標準差vce(cluster panelvar)效果是一樣的。其中,panelvar代表截面變量。
//對於「wage.dta」的數據,我們下面進行固定效應回歸。輸入命令:xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, fe//這裡,選項fe表明是進行固定效應回歸分析。
•3 隨機效應模型
//利用「wage.dta」的數據,我們進行隨機效應的回歸分析。輸入命令:xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, re//其中,選項re表明進行隨機效應回歸分析。因為這是默認選項,所以可以省略
對於隨機效應模型,我們通常使用可行的廣義最小二乘(FGLS)來進行回歸。但如果假定隨機擾動項服從正態分布,我們還可以用極大似然估計法(MLE)進行估計。用MLE擬合隨機效應模型的命令為:
xtreg depvar [indepvars] [if] [in] [weight], mle [MLE_options]
其中,xtreg代表「擬合面板數據模型」的基本命令語句,選項mle表明用極大似然估計法來估計隨機效應模型。MLE_options代表其他選項,主要有noconstant(設定沒有常數項)、level(#)和vce(type)。其中,標準差的類型包括oim、bootstrap和jackknife。
//對於前面的隨機效應模型,我們使用MLE重新進行回歸。輸入命令:xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, mle//其中,選項mle表明用極大似然估計法進行隨機效應回歸分析。
•4 Hausman檢驗
•5 面板模型的預測
重新變型面板數據格式操作視頻:
第四節 流行問題命令經典匯總
1.異⽅差穩健標準誤
問題:異方差-穩健標準誤(Heteroskedasticity-Robust+Standard+Error)是指其標準差對於模型中可能存在的異方差或自相關問題不敏感,基於穩健標準差計算的穩健t統計量仍然漸進分布t分布。因此,在Stata中利用robust選項可以得到異方差—穩健標準誤(Heteroskedasticity-Robust+Standard+Error)估計量。那麼如何運用異方差—穩健標準誤(Heteroskedasticity-Robust+Standard+Error)呢?
答:1.估計方法採用的是最小二乘的方法。2.robust選項表明標準誤經過懷特異方差修正,從而使結果更穩健。3.F值越大,p值越低,也就是說所有係數的聯合顯著性越高,換句話說就是所有變量的係數都為零的可能性越低。越來越多的經典文獻使用如下命令:
xtreg y x1 x2 x3,robust
reg y x1 x2 x3 i.cic i.year,robust
2.聚類標準誤
很多時候我們使⽤的是分組數據,在組內,很多時候擾動項之間是相關的,此時僅僅做異⽅差的s.e.是不夠的。可能的原因:組內某些不能觀察到的變量對被解釋變量有影響。例如,如果被解釋變量是班級內學⽣的成績,那麼分組是班級,教師質量等都可能影響成績。很多時候不能單純使⽤分組啞變量來解決。例如,學⽣努⼒程度的同儕效應。
如果分組是嵌套的:應該聚類到更⾼的⼀級,⾄少要控制在與解釋變量相同的層級。
如果不是嵌套的:控制⼀組的固定效應,再聚類到另外⼀組。
參考文獻:two-way cluster,Cameron,Gelbach and Miller, 2006.
流行操作命令:
reg中的cluster()只能聚類⼀組
reghdfe可以聚類多組
•3 擴展工具變量多重高維固定效應
Title
ivreghdfe-- Extended instrumental variable regressions with multiple levels of fixedeffects
Syntax
ivreghdfeis essentially ivreg2 with an additional absorb() option from reghdfe.See the links above for the detailed help files of each program.
To use ivreghdfe, you must have installed threepackages: ftools, reghdfe, and ivreg2 (see the online guide).
You can also pass additional optimizationoptions to reghdfe,as suboptionswithin absorb():
(1)網絡安裝:Installation
(2)本地安裝: 安裝包看以下推文,並點擊此推文的閱讀原文
If you are in a server, you canalso download the zipfile and install it locally:
capado uninstall ivreghdfe
net install ivreghdfe, from(c:\git\ivreghdfe)參見歷史推文:
擴展工具變量多重高維固定效應面板回歸程序包在線或離線安裝|開學第15講Stata包離線install代碼
sysuse autoivreghdfe price weight (length=gear), absorb(rep78, tol(1e-6))ivreghdfe price weight (length=gear), absorb(rep78, accel(none))動態空間面板|空間協整數據模型理論、方法與推論|附Stata與Matlab操作要點、主程序和子程序m文件
區制空間面板模型的原理與應用
面板數據模型與工具變量前沿方法的結合|開學第19講面板數據模型Stata新操作選講
短面板、長面板、動態面板、面板工具變量、非線性面板|開學第18講面板數據模型各類形式、估計與Stata操作
Stata月度面板數據處理與所需包的本地安裝|開學第17講面板數據處理操作實例
擴展工具變量多重高維固定效應面板回歸程序包在線或離線安裝|開學第15講Stata包離線install代碼
分組回歸、分位數回歸、面板分位數回歸例子及其esttab\outreg2輸出word |開學第十講答疑部分
Stata面板數據學習手冊
內生性與工具變量,你不可不知的9個問題匯總
倍差法:計量實證分析中的大利器
中文頂刊上用準自然實驗識別的實證文章有哪些?有的附程序和code, 不看至少需要收藏一下!
Mita, 2020小諾獎RDD女王最具影響力的成名作, 附數據和計量程序
互助問答歷史文章整理
微信公眾號文章如何保存為PDF?
AER上用斷點回歸設計RDD的實證文章有哪些?含程序和code, 不看至少需要收藏一下!
中介效應、工具變量回歸中的因果中介分析| stata資料\新R語言資料
Mita, 2020小諾獎RDD女王最具影響力的成名作, 附數據和計量程序
新晉克拉克獎得主Dell的地理斷點論文技術分析I:ArcGIS-Python地理數據處理,biprobit模型逆米爾茲比提取等
新晉克拉克獎得主Dell地理斷點論文技術分析II:ArcGIS-3D與R語言參數畫黑白和彩圖|附技術分析III部分stata資料
新晉克拉克獎得主Dell地理斷點論文技術分析III:ArcGIS地理數據導入stata形成計算數據等
自變量和中介變量是內生的情況咋辦?放在因果中介的框架
出口學習效應研究,編譯自Detecting Learning by Exporting|附「新冠疫情對商業經濟模式的改變」視頻
在印度的450年葡萄牙殖民主義:傳教士,教育,和性別不平等的根源|附地理斷點回歸設計GRD(空間斷點回歸設計SRD)經典匯總
氣泡圖、等高線、標籤、主題顏色、貝葉斯估計等的stata菜單操作、代碼設置一網打了
高級宏觀經濟理論|Acemoglu合集1993至2012年|內生轉化模型的stata操作要點
動態空間面板|空間協整數據模型理論、方法與推論|附Stata與Matlab操作要點、主程序和子程序m文件
機器學習與因果推斷課程閱讀大綱
衛星夜光數據校準與年度外推(附1992-2015年中國地級城市衛星夜光數據、夜光數據與中國工業企業資料庫、海關數據匹配代碼片段)
弱工具變量穩健推斷、PSM-DID合理使用等的Stata操作要點(附字幕版Impact of COVID-19crisis)
芝加哥大學經濟學教學特色及其啟示:從本科到博士的課程與學位要求之規劃
中介效應、工具變量回歸中的因果中介分析| stata資料\新R語言資料
[學科前沿] HCW政策分析面板數據模型,亦或謂「回歸控制法」(RCM):附R代碼的經典文獻複製
好文推薦 | 最近80篇關於中國國際貿易領域papers合輯!國際貿易經典文獻模型推導(十)
二值變量的模型選擇、內生轉換模型和HECKMAN兩階段選擇模型區別
處理效應及其擴展|開學第五講概覽