利用混頻大數據預測中國季度GDP增速研究
何 強
內容摘要:大數據為宏觀經濟走勢預測創新研究帶來重要突破口。本文基於混頻數據動態因子模型,利用14個傳統宏觀經濟統計月度指標和8個大數據月度指標,對2011年第1季度至2018年第2季度中國季度GDP增速進行了預測分析。研究發現,大數據月度指標能夠顯著提升季度GDP增速預測精度,但必須建立在相對較長的時間序列樣本和合理的模型設計基礎上;同等參數結構設置下,模型預測誤差並非隨著大數據指標信息增多而一致性減少。
關鍵詞:季度GDP增速;混頻大數據;預測;動態因子模型;大數據月度指標
中圖分類號:F222.3 文獻標識碼:A 文章編號:1004-7794(2018)07-0007-06
DOI: 10.13778/j.cnki.11-3705/c.2018.07.002
一、引言和文獻綜述
當前,中國經濟正處在增速放緩、轉型升級的關鍵時期,國內外經濟發展環境不確定因素持續增大,亟須及時、準確的宏觀經濟預測數據信息輔助決策。其中,GDP(Gross Domestic Product,國內生產總值)作為衡量一個國家或地區宏觀經濟整體狀況的核心指標,其長短期走勢和增速拐點判斷通常是宏觀經濟預測的重心。
目前包括中國在內的許多國家對GDP核算的頻率,已經從年度精確到季度。對季度GDP預測的傳統方法通常包括兩種。(1)定性預測方法。它主要是指預測者根據實踐經驗和業務理論水平,對季度GDP未來發展的性質和方向做出判斷的方法。由於其主觀性較強,目前很少被使用。(2)定量預測方法。它主要是指預測者依據政府統計數據、調研數據、模擬數據等傳統結構化數據,通過使用統計方法或數學模型對季度GDP走勢進行預測的方法。該方法又可以進一步分為兩類。一是基於實際統計數據的數理統計方法,包括截面數據回歸模型、時間序列分析模型、面板數據計量模型和投入產出模型等(Jiang et al, 2017;Jansen et al, 2016;高華川等,2016;鄭挺國等,2013;劉漢等,2011)[1-5]。二是仿真模擬方法,它常用於無法或不適合直接使用前述數理統計方法的定量預測,包括系統動力學方法、灰色系統方法、動態隨機一般均衡模型等(Fernández- Villaverde et al, 2016;劉斌,2014)[6-7]。長期以來,儘管學界為完善季度GDP傳統定量預測方法做出較大努力,但囿於所用數據在發布頻率、規範性、量體等諸多方面的制約因素,預測結果的有效性常常遭受質疑。
大數據時代的到來,極大拓展了宏觀經濟預測時的數據來源和數據獲取速度,也對以抽樣、假設檢驗和因果關係為基礎的傳統預測方法帶來衝擊,促使大數據預測方法理論與應用研究,在廣度和深度兩個方向不斷發展與融合(馬建堂,2015;維克託等,2013)[8-9]。文獻中,利用大數據預測季度GDP走勢的研究較少,且主要綜合使用網絡搜索數據、網絡爬蟲數據等大數據以及傳統政府統計數據,結合經典時間序列模型、計量經濟模型以及新型的高維數據模型、機器學習等方法進行預測,並把「預測(Forecasting)」的內涵拓展到「現測(Nowcasting)」,其代表性文獻主要有Clark et al(2017)、Kopoin et al(2013)、Carriero et al(2012)以及劉濤雄等(2015)[10-13]等。這些研究無論是在大數據指標使用,還是在大數據分析模型設計方面都處在初級探索階段。
本文的主要工作是在充分整合傳統宏觀經濟統計月度指標和大數據月度指標的基礎上,使用較為前沿的混頻數據動態因子模型,對中國季度GDP增速進行預測研究。與已有文獻相比,本文的特色之處主要有三點:一是在國家統計局和國家發展改革委於2017年聯合發布的大數據統計應用指導規範框架下,科學選取大數據分析指標;二是利用大數據月度指標完善季度GDP增速預測方法,並進一步探討大數據指標在預測中的特殊作用;三是根據本文所用混頻數據動態因子模型預測的均方根誤差,優化該模型中關於因子個數、因子自回歸滯後階數、隨機項方差分布矩陣維數等重要參數的設置,增強結論的穩健性。
三、指標選取及數據說明
本文用於預測季度GDP環比增速的指標集,包括傳統宏觀經濟統計指標集和大數據指標集兩個部分。
遵循現代宏觀經濟學基本理論分析框架,根據中國宏觀經濟統計數據的特點以及發布頻率,本文選取居民消費價格指數等14個由政府部門公布的月度宏觀經濟指標的環比增速指標,組成傳統宏觀經濟統計指標集(詳見表1)。各指標數據均來源於wind資料庫以及國家統計局官方網站,個別缺失數據通過插值而得,存在季節性波動的指標數據均經過季節調整處理。
對於大數據指標集,首先需要確定滿足什麼條件的指標屬於大數據指標。根據2017年10月國家統計局和國家發展改革委聯合印發的《非傳統數據統計應用指導意見》,大數據是非傳統數據的主體,在很多情形下可以代指非傳統數據。具體而言,非傳統數據是指通過非傳統政府統計調查獲取的數據(國外一些機構也稱之為「二手數據」),包括政府部門的行政記錄數據、商業記錄數據、網際網路數據、電子設備感應數據以及其他非傳統數據。根據這一定義,本文選取上海鋼聯大宗商品價格指數等8個大數據指標的月度環比增速指標,組成大數據指標集(詳見表1)。在數據來源方面,上海鋼聯大宗商品價格指數來源於上海鋼聯官方網站,中國煤炭價格指數(全國綜合指數)來源於中國煤炭市場網,物流景氣指數和電商物流運行指數來源於中國物流與採購聯合會,其餘指標均來自於財新網。
四、實證分析結果及討論
考慮到本文模型使用的8個大數據月度指標中,只有4個指標的數據具有相對較長的樣本區間(2011Q1—2018Q1),其餘指標數據的樣本區間相對較小(2016Q1—2018Q1),因此這部分擬以2011Q1—2018Q1期間的樣本數據為主進行實證研究,並將2016Q1—2018Q1期間的樣本分析結果作為前者的重要補充。
表1 預測季度GDP增速的月度指標集
| |||||
指標集 | 指標名稱 | 樣本區間 | 指標集 | 指標名稱 | 樣本區間 |
傳統宏觀經濟統計指標集 | 居民消費價格指數 | 2011Q1—2018Q1 | 大數據指標集 | 上海鋼聯大宗商品價格指數 | 2011Q1—2018Q1 |
工業生產者出廠價格指數 | 2011Q1—2018Q1 | ||||
固定資產投資完成額 | 2011Q1—2018Q1 | 中國煤炭價格指數(全國綜合指數) | 2011Q1—2018Q1 | ||
規模以上工業增加值 | 2011Q1—2018Q1 | ||||
社會消費品零售總額 | 2011Q1—2018Q1 | ||||
進出口總額 | 2011Q1—2018Q1 | 財新中國製造業PMI | 2011Q1—2018Q1 | ||
廣義貨幣(M2) | 2011Q1—2018Q1 | ||||
社會融資規模 | 2011Q1—2018Q1 | 財新中國服務業PMI | 2011Q1—2018Q1 | ||
國家財政支出額 | 2011Q1—2018Q1 | ||||
中國製造業PMI | 2011Q1—2018Q1 | 物流景氣指數 | 2016Q1—2018Q1 | ||
非製造業商務活動指數 | 2011Q1—2018Q1 | 新經濟指數 | 2016Q1—2018Q1 | ||
大宗商品價格指數 | 2011Q1—2018Q1 | 電商物流運行指數 | 2016Q1—2018Q1 | ||
發電量 | 2011Q1—2018Q1 | ||||
股市日均成交額 | 2011Q1—2018Q1 | 數字經濟指數 | 2016Q1—2018Q1 | ||
註:表中2011Q1、2016Q1和2018Q1分別表示2011年、2016年和2018年的第1季度。 |
表2 不包含大數據指標模型預測的均方根誤差(2011Q1—2018Q1) | ||||||||
| ||||||||
| q=13 | q=12 | q=11 | q=10 | q=9 | q=8 | q=7 | |
p=1 | r=13 | 0.1442 | 0.1437 | 0.1506 | 0.1402 | 0.1374 | 0.1415 | 0.1453 |
r=12 | — | 0.1443 | 0.1452 | 0.1369* | 0.1432 | 0.1452 | 0.1645 | |
r=11 | — | — | 0.1522 | 0.1544 | 0.1658 | 0.1677 | 0.1692 | |
p=2 | r=13 | 0.1441 | 0.1443 | 0.1464 | 0.1455 | 0.1429 | 0.1397 | 0.1416 |
r=12 | — | 0.1437 | 0.1432 | 0.1380 | 0.1386 | 0.1452 | 0.1495 | |
r=11 | — | — | 0.1521 | 0.1504 | 0.1544 | 0.1581 | 0.1612 | |
註:*表示均方根誤差最小。 |
表3 包含大數據指標模型預測的均方根誤差(2011Q1—2018Q1) | ||||||||
| ||||||||
| q=17 | q=16 | q=15 | q=14 | q=13 | q=12 | q=11 | |
p=1 | r=17 | 0.1269 | 0.1279 | 0.1262 | 0.1235 | 0.0993* | 0.1202 | 0.1047 |
r=16 | — | 0.1312 | 0.1314 | 0.1333 | 0.1165 | 0.1433 | 0.1405 | |
r=15 | — | — | 0.1312 | 0.1319 | 0.1290 | 0.1408 | 0.1420 | |
p=2 | r=17 | 0.1270 | 0.1280 | 0.1215 | 0.1253 | 0.1047 | 0.1046 | 0.1165 |
r=16 | — | 0.1315 | 0.1319 | 0.1260 | 0.1222 | 0.1225 | 0.1283 | |
r=15 | — | — | 0.1307 | 0.1297 | 0.1184 | 0.1250 | 0.1374 | |
註:*表示均方根誤差最小。 |
表4 不包含大數據指標模型預測的均方根誤差(2016Q1—2018Q1) | |||||||
| |||||||
| q=6 | q=5 | q=4 | q=3 | q=2 | q=1 | |
p=1 | r=6 | 0.0015 | 0.0029 | 0.0029 | 0.0061 | 0.0362 | 0.0421 |
r=5 | — | 0.0166 | 0.0124 | 0.0037 | 0.0495 | 0.0944 | |
r=4 | — | — | 0.0561 | 0.0604 | 0.0477 | 0.1149 | |
p=2 | r=6 | 0.0106 | 0.0110 | 0.0018 | 0.0134 | 0.0575 | 0.0010* |
r=5 | — | 0.0128 | 0.0119 | 0.0128 | 0.0517 | 0.0793 | |
r=4 | — | — | 0.0451 | 0.0411 | 0.0567 | 0.0761 | |
註:*表示均方根誤差最小。 |
表5 包含大數據指標模型預測的均方根誤差(2016Q1—2018Q1) | |||||||
| |||||||
| q=6 | q=5 | q=4 | q=3 | q=2 | q=1 | |
p=1 | r=6 | 0.0147 | 0.0206 | 0.0130 | 0.0056 | 0.0097 | 0.0691 |
r=5 | — | 0.0206 | 0.0198 | 0.0122 | 0.0277 | 0.0398 | |
r=4 | — | — | 0.0353 | 0.0152 | 0.0354 | 0.0900 | |
p=2 | r=6 | 0.0202 | 0.0182 | 0.0006* | 0.0114 | 0.0224 | 0.0107 |
r=5 | — | 0.0197 | 0.0204 | 0.0249 | 0.0337 | 0.0599 | |
r=4 | — | — | 0.0472 | 0.0587 | 0.0655 | 0.0509 | |
註:*表示均方根誤差最小。 |
五、結語
本文基於混頻數據動態因子模型,利用14個傳統宏觀經濟統計月度指標和8個大數據月度指標,對2011年以來中國季度GDP增速進行了預測分析。研究發現,大數據月度指標蘊含的信息,有助於提升季度GDP增速預測精度,但這一結論成立的重要前提是需要獲取相對較長的時間序列樣本,併科學合理地設置模型估計參數。而且,在同等參數結構設置情形下,僅通過增加大數據月度指標的信息體量,並非總是能夠降低預測的均方根誤差。維克託等(2013)等代表性大數據文獻提出一種獲得學界較高認可度的觀點,即認為如果獲取了大數據信息,就可以使用相對簡單的分析工具進行挖掘,但本文研究的結果傾向於不支持這種觀點,認為在開發利用大數據時甚至需要更加複雜的模型機制設計和全新的分析思路,這些相關領域是本文未來研究的重要方向。
參考文獻
[1] Jiang Y, Y Guo, Y Zhang. Forecasting China's GDP Growth Using Dynamic Factors and Mixed-Frequency Data[J]. Economic Modelling, 2017, 66(11): 132-138.
[2] Jasen W J, X Jin, J M de Winter. Forecasting and Nowcasting Real GDP: Comparing Statistical Models and Subjective Forecasts[J]. International Journal of Forecasting, 2016, 32(2): 411-436.
[3] 高華川, 白仲林. 中國月度GDP同比增長率估算與經濟周期分析[J]. 統計研究, 2016(11): 23-31.
[4] 鄭挺國, 王霞. 中國經濟周期的混頻數據測度及實時分析[J]. 經濟研究, 2013(6): 58-70.
[5] 劉漢, 劉金全. 中國宏觀經濟總量的實時預報與短期預測[J]. 經濟研究, 2011(3): 4-17.
[6] Fernández-Villaverde J, J Ramírez, F Schorfheide. Solution and Estimation Methods for DSGE Models[EB/OL]. NBER Working Paper (No. w21862), 2016.
[7] 劉斌. 動態隨機一般均衡模型及其應用[M]. 第2版. 北京: 中國金融出版社, 2014.
[8] 馬建堂. 大數據: 政府統計的新機遇[M]. 北京: 中國統計出版社, 2015.
[10] 維克託·邁爾-舍恩伯格, 肯尼斯·庫克耶. 大數據時代: 生活、工作與思維的大變革[M]. 盛楊燕, 周濤, 譯. 杭州: 浙江人民出版社, 2013.
[11] Clark H L, M Pinkovskiy, X Sala-i-Martin. China's GDP Growth May Be Understated [EB/OL]. NBER Working Paper(No. w23323), 2017.
[12] Kopoin A, K Moran, J P Paré. Forecasting Regional GDP with Factor Models: How Useful are National and International Data.[J]. Economics Letters, 2013, 121(2): 267-270.
[13] Carriero A, T E Clark, M Marcellino. Real-time Nowcasting with a Bayesian Mixed Frequency Model with Stochastic Volatility [EB/OL]. Federal Reserve Bank of Cleveland Working Paper(No. 1227), 2012.
[14] 劉濤雄, 徐曉飛. 網際網路搜索行為能幫助我們預測宏觀經濟嗎?[J]. 經濟研究, 2015(12): 68-83.
[15] Bańbura M, G Rünstler. A Look into the Factor Model Black Box: Publication Lags and the Role of Hard and Soft Data in Forecasting GDP[J]. International Journal of Forecasting, 2011, 27(2): 333-346.
作者簡介:
何強,男,河南鄲城人,2016年北京大學應用經濟學博士後流動站出站,現為國家統計局統計科學研究所副研究員,研究方向為大數據統計、宏觀經濟分析和幸福經濟學等。