劉曉蕾:實證研究中如何確定因果關係

2020-12-23 騰訊網

知網最近做了一個關於《金融學術研究能力提升》的系列講座,從3月9日起持續至4月3日。今天是第二天的內容,劉曉蕾老師為我們講述了「實證研究中如何確定因果關係」。

劉老師是北京大學博雅特聘教授,光華管理學院金融系系主任,北京大學金融及會計系教授,博士生導師。曾獲得安子介國際貿易研究獎、美國西部金融協會最佳論文獎、中國國際金融會議最優論文獎等獎項。

圍繞「實證研究中如何確定因果關係」這個問題,劉老師循循善誘,依次講了「實證研究的目的」、「確定因果關係的重要性及難題」,最後針對這些問題給出了常用的幾個方法。

以下為筆記正文:

為什麼因果關係重要

為了回答這個問題,我們首先要弄明白實證研究的目的是什麼?

做文章,首先是為了理解經濟世界的運行規則;在此基礎上給政府宏觀政策提供建議,比如「減稅是不是能拉動投資,刺激消費」;也可以給企業提供建議,像「公司治理,broad如何組建」這樣的問題,最後也能給個人決策提供建議。

而這些問題,都需要我們確定變量間的因果關係之後才能回答。

我們來舉一個常見的「偽」因果關係的例子,新浪健康網站放出一個報告:長期單身少活十年!

報告撰寫者根據各種翔實的數據得出結論,單身女性比結婚女性壽命短7-15年,單身男性比結婚男性壽命短8-17年。研究者將「是否單身」作為自變量,「壽命短」作為因變量,做出的回歸結果顯示二者的影響關係非常顯著。那麼,我們根據這個結果是否真的能得出「長期單身少活十年」的結論呢?顯然不能。因為在「是否單身」和「壽命短」兩個變量的影響路徑中,還有非常多的、我們看不見的變量在起作用。

比如:窮、忙、基因……

這些看不見的變量叫omittedvar,同時影響該研究中的自變量x var、因變量y var,所以單身與壽命短並不是因果關係。

除了「偽」因果關係,還有一個確定因果關係的阻礙——反向因果。

針對這種情況,我們再來舉一個例子:研究發現,董事會每年召開會議次數x越多,公司表現y越差?

對該模型Y=α+β*x進行回歸,得到了β小於零且非常顯著的結果。這就證明了上述結論嗎?no,為什麼不想想,是不是公司業績表現差才導致召開會議次數多呢?

這些例子都說明:相關性≠因果關係,而我們想看到的是x var cause y var.

那麼,為了確定因果關係,經濟學家們都設計出哪些方法來解決呢?

目前較為常用的有下列六種,分別是:

同卵雙胞胎(這是一種可遇不可求的研究方法);

隨機試驗randomized field experiment(去年諾獎獲得者所作研究就利用這種方法);

自然實驗 natural experiment,quasi-experiment;

工具變量IV;

斷點回歸設計RDD;

結構參數估計 structuralestimation(控制內生性);

六個確定因果關係的方法

在開始介紹這六種方法之前,我們需要先明確treatment & counterfactual兩個概念。

treatment(X)即我們感興趣的解釋變量;

counterfactual代表如果沒有treatment(其它不變)的話,我們觀察到的數據(Y)是什麼樣,通常在社會科學研究中是觀察不到的,所以應該設計方法找到它。

一、同卵雙胞胎

家庭背景、教育環境、基因決定的能力等這些在一般研究中無法控制的因素都能在同卵雙胞胎的樣本中得到很好的控制。這時,我們就可以在雙胞胎中隨機選取一個給予「treatment」來觀察Y| treatment和Y|no treatment(即counterfactual),對比結果之後便可以得出treatment對Y產生的效果(treatmentcauses Y)。

針對這種方法比較著名的一個研究是Hongbin Li(2012)發表在JDE的一篇文章:

Estimating returns to education using twins in urban China

文章研究了教育是否有用這個非常有意義的問題。可是我們知道,那些能夠受到良好教育的人,通常是較為聰明的人,從而拿到了較高的收入;此外家庭背景好的人,能支付更多教育費用,進而獲取更多收入……這都是omitted var問題。

那麼文章選取統計局城鎮調查大隊2002年6、7月份對488對同卵雙胞胎調查得到的數據進行研究。當對全樣本進行OLS回歸後,在收入 = a*教育程度+ b*控制變量的模型中,係數a = 0.084***(14.14)。而當控制了雙胞胎固定效應後,在Δ收入_雙胞胎 = a*Δ教育程度_雙胞胎的模型中,a = 0.027*(1.87),額外一年的教育增加帶來的收入增加變少,說明counterfactual被固定效應模型找出來一部分。

接著,Li又對雙胞胎樣本按照受教育程度進行分組,控制了雙胞胎固定效應後,Δ收入_雙胞胎 = a*Δ教育程度_雙胞胎的回歸結果為:

高中教育:a = -0.003(0.04);

技校教育:a = 0.168**(2.09);

大學教育:a = 0.278***(2.45);

可以看到大學教育對收入水平的正向影響是非常顯著的,其次是技校教育,但高中教育組卻得到了負的回歸結果。作者給出的解釋是:由於大學教育資源不足,使得高中學習的一個重要任務是高考,而高中本身學到的知識是有限的,並不能為進入就業市場帶來優勢。

二、隨機試驗(雙差法)

一般採用雙盲實驗,比如新藥測試。此時實驗組和控制組不再一一對應,而是存在差異性(heterogeneity),但由於分組是隨機的,根據大數定律,觀察不到的差異性就與treatment無關。那麼,Y|實驗組和Y|控制組中,後者即為counterfactual.

關於這個方法,劉老師舉了攜程總裁梁建章(最會做學術的老闆,最會做生意的科研人)對攜程上海呼叫中心所做的實驗:2010年,在公司996個僱員中自願回家工作的503人裡選擇了249個,對他們在家工作表現和其它員工在公司工作的表現作對比,研究結果發表在QJE:

Does working from home work? Evidence from a Chineseexperiment

那麼,在這個例子中,這249名挑選出的符合要求的員工是否可以全部拿來做實驗呢?答案是不可以。根據隨機試驗原則,梁建章對這249名員工使用抽籤,決定偶數日子出生的僱員回家工作,而奇數日子出生的僱員仍留在公司上班。

利用雙差法所構造的模型為:

Y=α+β*experiment time+γ*treatment+η*experiment time*treatment+control+ε

A——α

B——α+β

C——α+γ

D——α+β+γ+η

DID——η

回歸結果顯示,僱員每周接電話次數的對數係數為0.120,代表與回家工作相比(控制組),員工工作效率提升了13%(exp(0.12)=13%).

……

三、自然實驗;

四、工具變量IV;

五、斷點回歸設計RDD;

六、結構參數估計 structuralestimation(控制內生性);

三、四、五、六我們下次再講吧,敬請期待。沒看夠的可以複習一下之前的講座內容。

往期回顧:

1、姜富偉:大數據與人工智慧時代的資產定價研究

2、邢天才:我心目中的金融學研究生教育——基於東北財經大學的實踐

3、吳文峰:中國制度背景下的金融研究

4、朱小能:基本面、信息環境與金融市場

5、方穎:計量經濟學訓練與金融學研究——從實證經濟學的可信性革命談起

6、王擎:連接宏觀、微觀的金融研究

7、吳衛星:家庭金融研究——從微觀到宏觀

8、範小云:開展基於金融現實的學術研究

9、田軒:如何在學術界活下去

相關焦點

  • 第五屆中國法律實證研究年會在成都舉行
    第五屆中國法律實證研究年會在成都舉行發布時間:2020-12-16 10:22 星期三來源:法治日報——法制網法治日報全媒體記者 馬利民近日,由四川大學法律實證研究所、糾紛解決與司法改革研究中心以及《山東大學學報(哲學社會科學版)》編輯部聯合主辦的「第五屆中國法律實證研究年會
  • 實證政治心理研究的起源與發展
    在早期的公民政治態度實證研究中,概念話語繁雜,呈現出各說各話的圖景。在代表性的文獻和問卷中,用來表述公民對政治態度的措辭有:不滿(cynicism/disaffection/discontent)、疏離(alienation)、信任(trust)、支持(support)、信賴(belief)、信念(conviction)、信心(confidence)等。
  • 相關性 ≠ 因果性,用圖的方式打開因果關係
    選自GitHub作者:David Salazar編輯:陳萍、魔王機器學習方法是預測的有力工具,但是很多領域的工作或研究重視對因果關係的討論。相關性並不意味著因果關係,那麼如何識別因果關係呢?David Salazar 發布了一系列博客介紹因果關係。
  • 農信社備考:主旨觀點題中的「因果關係」
    文|天津金融人(tjyhzp)在行測言語理解與表達部分的備考中,我們會發現片段閱讀往往題乾材料篇幅較長,很多同學傾向於逐字逐句地閱讀,雖然有時可以通過「語感」讀出作者的主旨觀點,但是做題的效率比較低。今天中公教育專家就和大家一起來學習如何利用因果關係確定文段的主旨觀點。一、 因果關係的標誌詞表示因果關係的標誌詞:因為……所以、因而、因此、故而、總而言之、由此可見、綜上所述、也就是說等等。
  • 楊建軍:刑法因果關係的司法證明|比較法研究202006
    2.刑法因果關係的證立需立足自然因果聯繫和法律規範 刑法上因果關係的判斷必須以某種確定的自然科學因果理論為基礎,以確認實行行為與損害結果之間的自然因果聯繫。如果二者之間不具有自然因果聯繫,則刑法因果關係也就失去了其成立的前提。
  • 心理學家闡明了人類最基本的概念之一——因果關係
    這項發表在《認知》雜誌上的研究概述了一個因素在事件中的作用如何影響我們是否認為它是事件的起因。在他的論文中,奎利恩構建了一個因果判斷的數學模型,這個模型比之前的任何模型都能更好地再現人們的直覺。除了提供理論見解之外,理解我們如何推理因果關係對我們如何處理問題有重大影響。
  • 不會寫實證論文?看完你就懂了!
    對實證分析而言,研究問題通常是有關 「 X 對 Y 有何作用」 之類的因果關係。如果想研究 「家庭聯產承包責任制對農業經濟增長的作用」,就更具體了,此處 X 指 「家庭聯產承包責任制」,而 Y指 「農業經濟增長」 。當然,實證研究也可以只有 Y 而沒有 X,比如對於某個統計指標 Y 的測算;但純粹描述性的研究已比較少見。
  • 連因果關係都能顛覆,這個量子實驗逆天了
    但在量子理論的數學體系中,因果關係上的模糊性是完全符合邏輯且自洽的。研究人員還認為,利用人為製造的因果關係模糊的物理系統,我們便可以探索更加廣闊的物理領域。有人提出,非因果系統可以用於推動頗具潛力的量子計算的發展。香港大學的量子理論學家 Giulio Chiribella 說:「如果量子計算機能夠不受因果規律的限制,那麼它就有可能在解決某些問題時比經典計算機速度更快。」
  • 實證研究選題經驗分享
    當然,除了抽象地理解一個好選題的特性,我們還應該懂得如何在龐雜的文獻中找尋自己未來的研究方向。其實,這些經驗也是在不斷的文獻積累中逐步獲得的。每當你讀新文章時都應該問自己:「它到底做了什麼貢獻?我可以繼續做些什麼?」下面我們先來回顧下前輩們是如何講述他們的選題經驗,再結合一些例子講講我個人的實踐經驗。
  • "實證研究13篇"功夫秘笈, 中青年學者研究必備錦囊!
    在技術層面,研究的質量得到了極大的改善。但與此同時,實證研究卻出現了三大弊病:第一,因為缺乏對於所研究問題的具體背景的了解,研究方法的適用性在不少研究中被忽視了,一些研究得到的政策結論,甚至南轅北轍;第二,研究普遍關注於係數的統計顯著性及內生性的處理,其他一些在實證研究中非常重要的基本問題被忽略了;第三,因為追求方法的所謂現代性和科學性,一些無法用到最酷炫的技術的最基本事實和重要問題缺乏關注。
  • 因果牽纏實證篇 報應不差絲分亳
    茲爾臺疆臺中【玉皇天心宮】成立道場,協助代天宣化,力挽世風頹迷,以匡正世道人心為己責,樹黑夜之明燈,鹹引世人藉假修真,回歸本性,了脫因果輪迴之苦。朕心大悅,特賜旨一道,命濟公活佛領命著作天書,命文筆為主著乩生,周周開砂,揮筆傳真,至書成繳旨之日止,題其顏曰【因果牽纏實證篇】。願爾神人傾盡全力而為。欽哉勿忽,叩首謝恩!
  • Python實現固定效應回歸模型實現因果關係推斷
    眾所周知,「相關並不意味著因果關係」。 我要告訴你,相關可以表示因果關係,但需要一定條件。 這些條件已在計量經濟學文獻中被廣泛討論。 在本文中,我將以一種易於理解的方式對其進行總結。 我將解釋如果不滿足這些條件為什麼標準的普通最小二乘(OLS)無法確定因果關係。 然後,我將介紹可以提供有效解決方案的固定效應(FE)模型。
  • 中學生體育運動對學業成績影響的實證研究
    因此本研究使用中國教育追蹤調查(China Education Panel Survey,CEPS)數據,嘗試採用「普通最小二乘法(ordinary least squares,OLS)+穩健標準誤」模型,探究每周運動時間對學業成績的影響,為正確認識兩者的關係提供實證依據,從而明確在我國教育體制下中學生進行體育運動是否會對學業成績產生不利影響。
  • 因果?強AI?」(論因果的希爾標準,AI之父朱迪亞·珀爾)
    它將繁雜簡化,使變動轉為穩定,把不確定變成確定,我們因此獲得知識,也獲得安全感,感到雖然還不是一切盡在掌握,至少有可能掌握。只要人還是用自己的大腦思考,因果就在為我們指路。通常我們建立因果關係的過程是:如果兩件事總是在時間和距離上先後發生,那麼通過無數次事件的總結歸納後,人們認為兩者存在因果關係,先發為因,後發為果。
  • 什麼是刑法中的因果關係?
    更多精彩內容,請關注云飛趙李每天學點法律知識因果關係是指危害行為與危害結果之間的因果關係。首先,因果關係是客觀的,但僅僅存在因果關係並不意味著承擔刑事責任。因果關係只是客觀要求,承擔刑事責任則需要主客觀相統一。李剛在雨夜躺臥在貨車下避雨睡覺,第二天早晨司機倒車裝貨時壓死該人。
  • 《因果科學周刊》第4期:因果賦能推薦系統
    翻譯摘要: 用有偏的點擊數據學習如何排名是眾所周知的挑戰。為了學習如何排名,人們探索出多種方法去除點擊數據中的偏差,如點擊模型、結果交錯,還有最近的基於反傾向加權(IPW)的學習如何排名的無偏框架。忽略它們之間的不同點,最近大多數研究致力於從排名算法的學習中單獨估計點擊偏差(稱為傾向模型)。
  • 李德先故意傷害罪——重大介入因素存疑時刑法因果關係的認定
    由於現實生活的複雜性,在實行行為引起某一危害結果發生的過程中,可能存在某種因素的介入,而介入因素的出現使得因果關係的判斷更具複雜性。本案爭議焦點在於,李德貴因顱腦損傷致死的結果與李德先的毆打行為是否具有刑法上的因果關係,以及因果關係存疑時案件應如何處理。
  • 實證寬容:民主理論框架與多元社會背景
    寬容是民主社會的重要心理基礎和關鍵美德,更被政治理論家視為民主社會的核心特徵,因而相關主題常常是在民主理論的背景中加以理解的。政治心理學領域的寬容研究使寬容相關研究由規範研究進入了實證研究範疇,並成為民意研究的重要組成部分。有關寬容的實證研究雖然對寬容與民主間關係的假設提出了質疑,但相關研究很長時間以來仍是在民主理論包括精英民主理論所設定的分析框架中展開的。
  • 佛法:如何認知佛法所說的因緣法來認知因果關係
    (一)因果不能同時生一切法都是因緣所生,這是每個學佛之人都知道的道理,可是真正了知緣起法的內涵,卻很難的。萬法生 有這兩種情況,一種是因緣生,一種是非因緣生,合起來就是緣起生。比如蘋果的種子滅了,蘋果才生,種子沒滅,果不生,如果沒滅 就會變成因果同時,就不符合現實,就無法知道哪個為因 ,哪個為果,這樣的方式說因果是沒有意義的。(二)因果是沒有自性顯現的因沒有自性,所以果也沒有自性。一個就是因不能離開果的名言,把因稱作為因,也就是沒有果的稱呼,就不能有一個因的稱呼出現。
  • 《實證論文寫作八講》新書首發
    全書共分為八講,其中第一講和第八講是本書的緒論和尾章,其餘六講分別對應了實證論文的六個核心組成部分,即摘要、引言、文獻綜述、研究設計、實證分析和結語。本書有三個特點:其一,重視創新,始終把實現研究創新作為實證論文寫作的目標,從創新的角度來統籌全局,將論證文章的創新性貫穿在八講之中;其二,強調功能,從「證偽假說」這一功能入手把握實證研究和論文寫作的實質,抓住了它,就抓住了核心;其三,講究拆解,通過拆解論文寫作的動作和對象,藉助示例和課後習題,幫助研究者在論文寫作中更好地實現證偽假說的功能。