《正文》
計量經濟學作為實證分析的主要手法,已經被中國廣大經濟研究者接受。但是,正確運用計量經濟模型,得出一個穩定、合理以及可靠的參數估計值,還沒有一個很好的系統梳理。
由於計量經濟學的統計學基礎,不正確使用計量經濟模型,可能會使估計結果不穩健,從而產生「變色龍」一樣的實證結果,導致實證結果的政策分析被廣受質疑。
本文從數據、模型和參數等3個角度出發,分析應用計量經濟學模型在實證分析中要注意的問題。首先,數據是進行實證分析的基礎。數據按照來源,可以劃分為微觀調研數據、機構統計數據以及實驗數據。在廣為使用的調研數據和統計數據中,系統性誤差包括測量誤差和樣本選擇常常存在。如果無視這些誤差,可能使估計結果不能滿足一致性。如果數據存在系統性測量誤差,工具變量方法通常是主要的解決方案;如果數據存在系統性的樣本選擇問題,Heckman方法是廣為使用的校正方法。其次,從模型的角度來說,任何模型都包括環境假設、機制以及求解3個組成部分。其中,環境假設對計量經濟模型的正確使用尤為重要。在運用計量模型時,必須要清楚了解他們的假設條件,並對這些條件作必要的檢查和檢驗。計量經濟模型區別於統計模型最重要的假設:變量的外生性、許多因素可以造成變量內生性問題。工具變量是對內生性常見的檢驗和校正方法。可是有些研究中,工具變量無從尋找,就必須要依靠實驗經濟學的方法。偽回歸在計量分析中也不鮮見。偽回歸可能是由模型本身原因造成的,也可能是數據結構造成的。計量經濟學是結合了經濟學理論和統計學的定量分析方法,沒有經濟學理論基礎的計量經濟分析,很可能會導致偽回歸結果。某些特殊的數據結構,如非平穩的時間序列或非平穩的空間數據,都可能導致偽回歸結果。再次,計量經濟學的基礎雖然是統計學,但是兩者之間還存在一些差異。由於技術上的限制,現有的計量經濟模型的檢驗還是基於統計檢驗,所謂「顯著性」都是統計上的顯著性,這不同於「經濟上的顯著性」。在實證分析中,在討論估計參數在統計上顯著性的時候,也必須要討論經濟上的顯著性,後者有時可能更重要。最後,計量經濟學的估計結果通常會被運用到政策分析中去,但是Lucas批判(1976)認為參數的估計值可能會隨著政策的變化而變化,使計量經濟學無法為政策分析服務。為了應對Lucas批判,計量經濟學家提出了變量超級外生性的概念。條件於超級外生的變量,數據產生機制對估計參數結果沒有影響,這時的政策分析才有意義。學習計量經濟學的最後目的是為進行實證研究,但對初學計量經濟學的人而言,要寫一篇有實證研究的報告或論文時常有不知如何著手的感覺,這裡我便對實證研究的規劃以及論文的寫作做一些粗淺的建議。* 除研讀相關經濟理論之外,應比較三至五篇有實證分析之文獻中的實證計量模型:* 確認計量模型中解釋變量和應變量之間的因果關係(causality);* 理清各模型的異同及優缺點,思考改進文獻中現存模型的可能;* 初步調查是否有相關的資料,若無則實證模型設計的再好也無用。* 對數據的精確性一定要嚴格查核,對錯假漏數據要仔細修正;* 使用電子表格軟體對數據列表繪圖,以驗證數據的邏輯合理性,對不合理的數值要有所處理;*不論要用的是橫斷面數據或是時間數列,數據數目越多越好,面板數據(Panel Data)尤佳;*對資料數值作一些整理,表列各種基本統計量(樣本平均值、變異數、變量間的樣本相關係數等)、變量之間的兩兩交互列表、做一些初步圖解分析。* 解釋變量和應變量之間的因果關係一定要正確,也就是說,解釋變量是原因在先,應變量是結果在後,有一定的先後順序。尤其要注意,有些變量數值的產生很可能是和應變量同時決定的,或是因果關係不很明確(也就是說,相對於應變量而言,這些變量是內生的),則在選取這些變量作為解釋變量時,便要非常小心。解釋變量的內生問題常常是研究被批評的主要原因;
* 要注意解釋變量的同構型,不能不分青紅皂白的將一大堆彼此相關性很高的變量(包括相同變量的不同轉換、或是幾個變數間的各種交乘項)放進回歸式內,造成嚴重的線性重合問題;
* 經濟理論所牽涉到的變量常常是無法觀察到的,因此在做實證研究時必須採用替代變量(Proxy),研究者要對所選用之替代變數的合理性詳加說明。由於數據總有些缺失,常有人在束手無策之下,採用了很多匪夷所思的替代變數;
* 虛擬變量的定義要清楚而合理,使用要小心;
* 要探討解釋變量不足、觀察值有誤差等數據缺失所可能造成的計量問題。
5.橫斷面數據要注意異方差(Heteroscedasticity)的問題,時間數列的數據則要注意幹擾項自我相關(Autocorrelation)的問題。要確定時間數列的穩定性(Stationarity),若有季節變動也要加以處理。6.模型的穩定性要注意,可能需要諸如 Chow Test 或 CumSum Test 的檢驗。7.若用到 MLE 或 GMM等非線性計算,則在撰寫報告時要對數值方法的細節,諸如統計軟體及數值方法的名稱、起始值之選取、收斂速度、是否產生區域解(localsolution)、收斂條件的設定等,均需有所說明。8.若實證模型中有多個應變量(和對應之方程式)值得同時分析,則可考慮採用 Seeming unrelated regression甚至聯立回歸模型等系統模型,以更有效的利用各回歸式之間的相關性。2.摘要:對全文宗旨作一簡單描述,並簡述文章的目的是對經濟結構的分析,還是對未來趨勢的預測,還是對政策的評估;然後簡單介紹所使用的模型及變量,數據的種類及來源,所估計的模型,所採用的計量方法;最後以最主要的實證結果為終結。3.緒論:說明研究的性質、範圍和目的,並從不同角度或一個比較寬廣的視野(歷史、社會、文獻、問題嚴重性等)來解釋研究的重要性4.文獻回顧:對和主題有直接和間接關係的文獻做一個簡單清楚有系統的回顧,和主題有直接關係但有不同結果的文獻,更是要有比較完整的解釋。5.模型設定:模型有理論模型和實證模型兩類。理論模型是從經濟理論中直接導出,而實證模型則是從理論模型衍申出來,是要實際以資料來估計的。理論模型通常需以數學推導,因此文章中可列出一些關鍵的數式以幫助理論的闡述,但不應長篇累牘的堆積只有間接關係的數式。實證模型通常是以回歸模型的形式表示,對模型中所涉及的變量均須給與明確的定義,對解釋變量和應變量之間的關係要詳盡的說明,也要解釋對模型中主要係數(或由這些係數所導出之彈性、乘數等)可能數值的大小及符號有怎樣的理論預期。6.資料說明:對數據的種類,性質,來源出處,數據修訂的方式,數據中可能有的錯誤和缺失,都要有詳細的說明,最好也能將資料的基本統計量表列出來。7.計量方法的描述:對所用到的每一個符號都要有清楚的定義。* 係數估計的主要結果均須以表列出,在表中每一係數對應之變量名稱要寫清楚,每一係數估計值旁均須伴隨一標準差(s.e.)或 t統計量,也可加列 p 值,對於顯著的估計值也可附加諸如星號之特殊標記以提醒讀者。顯示模型整體表現的統計量,諸如 R2(線性回歸模型),F 檢定統計量, Durbin-Watson檢定統計量(對時間數列資料),也可選擇性的列於表內。在表的腳註中,必須說明表中所有的特殊符號和簡稱,表中變量名稱的選取,應儘量採用有意義的中文簡稱,少用無意義的英文字母組合。制表的基本原則就是要讓讀者便捷、完整而清楚的了解估計的結果;
*對主要回歸係數(或由回歸係數所導出之彈性、乘數等)估計值的大小、符號及顯著與否要詳加討論,對於顯著的估計值更要和理論預期值比較,若有明顯的矛盾,則要探討原因;
* 若能在文獻中找到類似模型的估計結果,則應擇要報告,並做比較;
*對重要回歸係數若是得不到顯著的估計值,則要探討其中原因。也絕不能對不顯著的估計值做出過度的解釋,尤其不能宣稱不顯著的估計值支持或不支持某些特定結論。我們要知道估計值不顯著,就是表示所使用的數據不能夠提供足夠的信息,若是沒有足夠的信息,當然不能夠也不應該做出任何確切的結論;
*為增加文章的清晰度,能夠條列的結果應儘量條列(但要注意條列式的闡述易流於機械化而讓讀者失去興趣),同樣的,能夠列表的結果應儘量列表,表格應儘可能的明確、獨立自主而自成一體(多利用表格下端的附註詳加解釋表格的內容),儘可能讓讀者不用在文章中到處找相關說明。此外,圖表也是一個非常精準有效之傳達信息的方式,應多加利用;
* 所有具有政策意義的重要論點都要經過假設檢定的嚴謹統計程序探討其顯著性;
* 若要根據估計模型對數據外的時期或狀況進行預測,則態度必須保守謹慎,儘可能設想預測可能不準的原因;
* 所有列舉的統計數字應儘量保持統一的小數點位數(小數點後三位數或四位數均可),如果有很小或很大的數字,則可以用科學表示法表示(例如1.2345 x 10-4),儘可能顯示出三至五位有效數字。
9.結論:對所有重要結果做一個完整的總結,並經由理論或數據中不盡完美處的討論,指明未來研究的方向。寫在後面:各位圈友,一個等待數日的好消息,是計量經濟圈應圈友提議,09月04日創建了「計量經濟圈的圈子」知識分享社群,如果你對計量感興趣,並且考慮加入咱們這個計量圈子來受益彼此,那看看這篇介紹文章和操作步驟哦(戳這裡)。進去之後一定要看「群公告」,不然接收不了群信息。