知網最近做了一個關於《金融學術研究能力提升》的系列講座,從3月9日起持續至4月3日。今天是第二天的內容,劉曉蕾老師為我們講述了「實證研究中如何確定因果關係」。
劉老師是北京大學博雅特聘教授,光華管理學院金融系系主任,北京大學金融及會計系教授,博士生導師。曾獲得安子介國際貿易研究獎、美國西部金融協會最佳論文獎、中國國際金融會議最優論文獎等獎項。
圍繞「實證研究中如何確定因果關係」這個問題,劉老師循循善誘,依次講了「實證研究的目的」、「確定因果關係的重要性及難題」,最後針對這些問題給出了常用的幾個方法。
以下為筆記正文:
為什麼因果關係重要
為了回答這個問題,我們首先要弄明白實證研究的目的是什麼?
做文章,首先是為了理解經濟世界的運行規則;在此基礎上給政府宏觀政策提供建議,比如「減稅是不是能拉動投資,刺激消費」;也可以給企業提供建議,像「公司治理,broad如何組建」這樣的問題,最後也能給個人決策提供建議。
而這些問題,都需要我們確定變量間的因果關係之後才能回答。
我們來舉一個常見的「偽」因果關係的例子,新浪健康網站放出一個報告:長期單身少活十年!
報告撰寫者根據各種翔實的數據得出結論,單身女性比結婚女性壽命短7-15年,單身男性比結婚男性壽命短8-17年。研究者將「是否單身」作為自變量,「壽命短」作為因變量,做出的回歸結果顯示二者的影響關係非常顯著。那麼,我們根據這個結果是否真的能得出「長期單身少活十年」的結論呢?顯然不能。因為在「是否單身」和「壽命短」兩個變量的影響路徑中,還有非常多的、我們看不見的變量在起作用。
比如:窮、忙、基因……
這些看不見的變量叫omittedvar,同時影響該研究中的自變量x var、因變量y var,所以單身與壽命短並不是因果關係。
除了「偽」因果關係,還有一個確定因果關係的阻礙——反向因果。
針對這種情況,我們再來舉一個例子:研究發現,董事會每年召開會議次數x越多,公司表現y越差?
對該模型Y=α+β*x進行回歸,得到了β小於零且非常顯著的結果。這就證明了上述結論嗎?no,為什麼不想想,是不是公司業績表現差才導致召開會議次數多呢?
這些例子都說明:相關性≠因果關係,而我們想看到的是x var cause y var.
那麼,為了確定因果關係,經濟學家們都設計出哪些方法來解決呢?
目前較為常用的有下列六種,分別是:
同卵雙胞胎(這是一種可遇不可求的研究方法);
隨機試驗randomized field experiment(去年諾獎獲得者所作研究就利用這種方法);
自然實驗 natural experiment,quasi-experiment;
工具變量IV;
斷點回歸設計RDD;
結構參數估計 structuralestimation(控制內生性);
六個確定因果關係的方法
在開始介紹這六種方法之前,我們需要先明確treatment & counterfactual兩個概念。
treatment(X)即我們感興趣的解釋變量;
counterfactual代表如果沒有treatment(其它不變)的話,我們觀察到的數據(Y)是什麼樣,通常在社會科學研究中是觀察不到的,所以應該設計方法找到它。
一、同卵雙胞胎
家庭背景、教育環境、基因決定的能力等這些在一般研究中無法控制的因素都能在同卵雙胞胎的樣本中得到很好的控制。這時,我們就可以在雙胞胎中隨機選取一個給予「treatment」來觀察Y| treatment和Y|no treatment(即counterfactual),對比結果之後便可以得出treatment對Y產生的效果(treatmentcauses Y)。
針對這種方法比較著名的一個研究是Hongbin Li(2012)發表在JDE的一篇文章:
Estimating returns to education using twins in urban China
文章研究了教育是否有用這個非常有意義的問題。可是我們知道,那些能夠受到良好教育的人,通常是較為聰明的人,從而拿到了較高的收入;此外家庭背景好的人,能支付更多教育費用,進而獲取更多收入……這都是omitted var問題。
那麼文章選取統計局城鎮調查大隊2002年6、7月份對488對同卵雙胞胎調查得到的數據進行研究。當對全樣本進行OLS回歸後,在收入 = a*教育程度+ b*控制變量的模型中,係數a = 0.084***(14.14)。而當控制了雙胞胎固定效應後,在Δ收入_雙胞胎 = a*Δ教育程度_雙胞胎的模型中,a = 0.027*(1.87),額外一年的教育增加帶來的收入增加變少,說明counterfactual被固定效應模型找出來一部分。
接著,Li又對雙胞胎樣本按照受教育程度進行分組,控制了雙胞胎固定效應後,Δ收入_雙胞胎 = a*Δ教育程度_雙胞胎的回歸結果為:
高中教育:a = -0.003(0.04);
技校教育:a = 0.168**(2.09);
大學教育:a = 0.278***(2.45);
可以看到大學教育對收入水平的正向影響是非常顯著的,其次是技校教育,但高中教育組卻得到了負的回歸結果。作者給出的解釋是:由於大學教育資源不足,使得高中學習的一個重要任務是高考,而高中本身學到的知識是有限的,並不能為進入就業市場帶來優勢。
二、隨機試驗(雙差法)
一般採用雙盲實驗,比如新藥測試。此時實驗組和控制組不再一一對應,而是存在差異性(heterogeneity),但由於分組是隨機的,根據大數定律,觀察不到的差異性就與treatment無關。那麼,Y|實驗組和Y|控制組中,後者即為counterfactual.
關於這個方法,劉老師舉了攜程總裁梁建章(最會做學術的老闆,最會做生意的科研人)對攜程上海呼叫中心所做的實驗:2010年,在公司996個僱員中自願回家工作的503人裡選擇了249個,對他們在家工作表現和其它員工在公司工作的表現作對比,研究結果發表在QJE:
Does working from home work? Evidence from a Chineseexperiment
那麼,在這個例子中,這249名挑選出的符合要求的員工是否可以全部拿來做實驗呢?答案是不可以。根據隨機試驗原則,梁建章對這249名員工使用抽籤,決定偶數日子出生的僱員回家工作,而奇數日子出生的僱員仍留在公司上班。
利用雙差法所構造的模型為:
Y=α+β*experiment time+γ*treatment+η*experiment time*treatment+control+ε
A——α
B——α+β
C——α+γ
D——α+β+γ+η
DID——η
回歸結果顯示,僱員每周接電話次數的對數係數為0.120,代表與回家工作相比(控制組),員工工作效率提升了13%(exp(0.12)=13%).
……
三、自然實驗;
四、工具變量IV;
五、斷點回歸設計RDD;
六、結構參數估計 structuralestimation(控制內生性);
三、四、五、六我們下次再講吧,敬請期待。沒看夠的可以複習一下之前的講座內容。
往期回顧:
1、姜富偉:大數據與人工智慧時代的資產定價研究
2、邢天才:我心目中的金融學研究生教育——基於東北財經大學的實踐
3、吳文峰:中國制度背景下的金融研究
4、朱小能:基本面、信息環境與金融市場
5、方穎:計量經濟學訓練與金融學研究——從實證經濟學的可信性革命談起
6、王擎:連接宏觀、微觀的金融研究
7、吳衛星:家庭金融研究——從微觀到宏觀
8、範小云:開展基於金融現實的學術研究
9、田軒:如何在學術界活下去