網際網路大數據在政府統計中的應用路徑研究[1]
「大數據在政府統計中的應用研究」課題組[2]
內容摘要:近幾年,網際網路變得越來越「無所不在」,由此而產生的數據越來越多,網際網路大數據逐漸發展成為一門新學科、一套新學說以及一種分析與解決問題的新方法和新手段。本文以網際網路大數據為背景,結合政府統計工作的特點,提出了網際網路大數據在政府統計中的應用路徑,並以網際網路搜索數據在房價統計方面的應用進行了案例研究,提出了網際網路大數據在政府統計應用中的展望。
關鍵詞:網際網路大數據;政府統計;應用路徑
中圖分類號:C829.2 文獻標識碼:A 文章編號:1004-7794(2015)09-0003-04
DOI:10.13778/j.cnki.11-3705/c.2015.09.001
大數據與網際網路的發展相輔相成。一方面,網際網路數據是大數據中重要的信息與資源。如新浪、搜狐網等每天有大量用戶瀏覽信息,百度、谷歌等搜尋引擎為用戶檢索出大量需要瀏覽的內容,並實時記錄關鍵詞的搜索密度。隨著電子通訊和媒體技術的發展,傳統媒體報紙、廣播、電視也紛紛進入網際網路時代,由於網際網路時代信息傳播的瞬時性、廣域性和互動性,使得媒體數據以更快的速度出現。另一方面,大數據為網際網路的發展提供了更多支撐、服務與應用。大數據是網際網路發展到現今階段的一種表象或特徵,在以雲計算為代表的技術創新大幕襯託下,這些原本很難收集和使用的數據開始變得容易利用,通過各行各業的不斷創新,大數據價值開發呈井噴式發展。
一、網際網路大數據在政府統計中的應用路徑
對於政府統計而言,網際網路數據主要有社交網數據、媒體數據和搜尋引擎數據三種類型。網際網路大數據在政府統計諸多專業中都具有廣闊的應用前景。如在宏觀層面,網際網路搜索數據能夠為官方統計提供分析、預測與決策支持。
目前,國內最大的搜尋引擎百度已與統計部門、交通運輸部門、教育部門、旅遊部門、工業與信息化部門等官方機構進行了很好合作。這象徵著政府部門在利用網際網路搜索數據把握宏觀趨勢、了解民生動態、推動管理創新等方面,開始邁出了實質性的步伐,正在走進大數據共贏時代。
1.經濟發展。
傳統官方統計按月度、季度或年度統計各項經濟指標,以GDP、社會消費品零售總額、固定資產投資完成額、採購經理指數等各項數據來分析經濟發展趨勢;而網際網路企業可以利用大數據來探索和完善各項經濟指標,及時有效地反映國民經濟運行狀況,提高宏觀經濟監測的全面性和及時性,為宏觀經濟部門把握經濟發展趨勢、監控企業景氣狀態提供分析、預測與決策支持。
2.價格統計。
在CPI統計方面,電子商務交易數據、網際網路企業數據都是價格統計的新數據源,這些數據量大、更新快,充分利用這些數據有助於減少調查成本,提高指標發布的頻次。應用大數據進行價格統計的實現途徑有三種:一是採用搜索方式收集網上交易價格數據;二是與電子商務企業進行合作,獲取交易價格數據;三是建立商場、超市、醫院等實行電子計價的採價點向統計部門報送交易記錄的制度。
3.批發零售業統計。
由於網上電商交易數據的量體非常大、更新速度快,而且在全社會商品零售貿易中所佔比重越來越大。因此,充分利用這些信息可以為改善傳統的批發零售貿易業統計帶來新的思路。
4.人口統計。
傳統官方統計投入大量人力物力財力,進行人口普查,可獲得數據包括全國和地區人口數量、城市和農村人口數量、人口性別比例、人口地域分布、年齡結構、出生率/死亡率等;而利用網際網路,可以快速及時地統計PC端和移動端網民,統計維度包括地域、年齡、性別、學歷等,將來還可以根據網民行為挖掘出群體的消費力水平、興趣點,更立體地洞察人群特徵。
5.社會就業。
傳統官方統計通過畢業生人數增長情況和勞動力需求增長情況的對比研究就業形勢,而網際網路大數據通過網民對特定關鍵詞的搜索趨勢就可以直觀地分析求職需求和就業壓力。如可以從「找工作」的搜索指數變動情況來了解求職需求動向,補充人力資源與社會保障部門數據的不足,輔助了解就業趨勢,把握就業需求,支持政策調整。
6.醫療衛生。
傳統官方統計通過醫療機構數量、診療人次等線下數據分析醫療服務情況,而網際網路大數據可以利用用戶在線行為數據研究疾病趨勢。利用網民的疾病相關搜索數據,建立科學的預測模型,動態預測特定地域未來疾病的活躍指數,並呈現每個城市多種疾病的熱門醫院排名。網際網路搜索大數據能輔助衛生部門監測流行病發展態勢,提前做好預防措施,監督管理熱點醫院。
7.旅遊管理。
傳統官方統計對旅遊人數的統計屬於事後統計,而基於網民出遊前的網絡搜索數據,得到網民選擇的出行路線,可以預測旅遊趨勢。通過分析旅遊相關關鍵詞搜索數據與實際出遊人數之間的密切關係,可以預測各旅遊景點未來的人流趨勢,進而輔助旅遊管理部門預警景點客流,提前準備遊客疏導措施。
二、利用網際網路搜索數據進行房價統計案例研究
近幾年來,政府統計以房地產價格為突破口研究網際網路搜索數據的應用取得了初步成果。
房地產業是我國國民經濟發展的重要支柱產業,房地產價格走勢一直是人們關注的熱點,但政府統計部門發布的數據往往具有一定的時滯,不能完全滿足大眾的需求。利用網絡搜索數據對房地產價格走勢進行預測,是一種可行而且有效的方法。
國家統計局嘗試以北京、上海、廣州、南京、瀋陽和西安6個大中城市的二手房價格和新房價格為研究對象,以百度搜索指數為數據基礎,首先選出了對二手房價格變動影響最大的12個關鍵詞和對新房價格變動影響最大的8個關鍵詞;然後採用交叉驗證技術,運用線性回歸、回歸樹、隨機森林、Bagging、M-boosting、神經網絡、支持向量機和混合線性回歸8種模型分別對6個城市的二手房價格和新房價格進行了擬合和預測。
(一)數據描述、變量描述及數據預處理
1.數據描述。
百度搜索指數是以網民在百度的搜索量為數據基礎,以關鍵詞為統計對象,分析並計算出各個關鍵詞在百度網頁搜索中搜索頻次的加權和。百度指數平臺是當前網際網路乃至整個數據時代最重要的統計分析平臺之一。
對於網絡搜索數據的獲取與處理,主要是基於百度指數這項服務,在百度指數當中輸入關鍵詞,就能夠獲得該關鍵詞自2011年以來每日的搜索量。該搜索量為相對數據,即相對於當日百度總搜索量中該關鍵詞的搜索率。這項功能反映了某一個關鍵詞在某段時間裡的關注程度。
2.變量描述。
被解釋變量分別是北京、上海、廣州、南京、瀋陽、西安的二手住宅銷售價格指數(以下簡稱二手房價格)和新建商品住宅銷售價格指數(以下簡稱新房價格),採用2012年1月到2014年7月共31個月的月度同比數據,來源於國家統計局網站。
解釋變量是與二手房和新房價格相關的某些關鍵詞的網絡搜索指數。按下面三個步驟來選取關鍵詞。
第一,根據人們在房屋購買決策中考慮的主要方面選定初始關鍵詞。具體而言,首先考慮的是當前的宏觀經濟形勢和房地產市場整體走勢,此類關鍵詞包括房價、房價走勢等;其次由於中國房地產市場受政策的影響比較大,限購、限貸、稅費或利率調整等政策變動會對人們的購買決策和行為造成直接影響,因此選取與房地產市場密切相關的政策類關鍵詞,如公積金、房貸利率、購房政策、房產稅等;最後考慮的是利用搜尋引擎獲取大量與房屋本身和交易細節直接相關的各類信息,如涉及房屋本身的房源、二手房、新樓盤、保障房、裝修等,涉及交易細節的房產中介、房產網、二手房交易流程、二手房交易稅費等。最終共選取15個初始關鍵詞。
第二,利用百度搜尋引擎的關鍵詞自動推薦技術,得到與二手房價格相關的101個關鍵詞,與新房價格相關的59個關鍵詞。剔除重複和數據量較少的關鍵詞,組成關鍵詞庫。
第三,對數據進行移動平均處理,轉化成月度數據,分別計算每個關鍵詞與二手房價格和新房價格的相關係數,檢驗每個關鍵詞與二手房價格和新房價格的相關性,並據此對關鍵詞進行篩選。
經過多次比較和篩選,對於6個城市的二手房價格預測,最終選取12個關鍵詞,分別是:房價走勢、房源、裝修、房產網、公積金、房貸利率、房產稅、房屋出租、房產中介、二手房、二手房交易流程、二手房交易稅費。對於新房價格預測,最終選取8個關鍵詞,分別是:房價走勢、房源、裝修、房產網、公積金、房貸利率、新樓盤、保障房。
可見,不論是二手房還是新房交易,人們都普遍比較關注房價走勢、房源、裝修、房產網、公積金、房貸利率,這6個關鍵詞是二者都有的。同時,二手房和新房各自不同的交易特點也決定了其搜索關鍵詞的差異,如房產稅、房屋出租、房產中介、二手房、二手房交易流程、二手房交易稅費等6個關鍵詞是二手房特有的,而新樓盤和保障房這兩個關鍵詞是新房特有的。
3.數據預處理。
為了與被解釋變量保持一致,對所有關鍵詞的搜索指數做如下處理:首先根據日搜索指數計算月度平均搜索指數,然後將月度平均搜索指數轉換為同比數據,最終得到6個城市所有關鍵詞從2012年1月到2014年7月的月度同比數據。採用同比數據而不是環比數據的原因在於,同比數據更能反映隨著時間推移房地產價格以及搜索指數的變動情況,而環比數據的波動相對較小,不適宜構建模型進行分析和預測。
(二)研究結論
在採用的8種模型中,支持向量機和隨機森林模型的預測效果最佳,回歸樹模型的預測效果最差;在二手房和新房價格的網絡搜索關鍵詞中,宏觀經濟形勢和房產政策是關注的重點。可見,網絡搜索數據不但能夠較好地預測房價指數,同時能夠得出經濟主體行為的趨勢與規律,而且具有一定的時效性,預測的月度房地產價格指數能夠比官方發布數據提前約兩周。具體研究結論如下:
第一,通過運用交叉驗證技術在8種模型中選擇的最優模型成功預測了6個城市的二手房和新房價格。總體來看,最優模型和線性回歸模型預測結果與實際值的走勢都基本一致,但是最優模型的預測值與實際值更接近。線性回歸模型對大部分城市的預測效果較好,但是對南京的二手房價格擬合度不夠理想。
第二,根據6個城市二手房和新房價格的各預測模型驗證集的標準化均方誤差(NMSE)和均方誤差(MSE)結果,在使用的8種方法中,支持向量機和隨機森林表現最佳,其次是混合性線性回歸、線性回歸、Bagging、M-boosting、神經網絡、回歸樹模型。支持向量機表現最好,因為它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合中。隨機森林也能夠得出較為準確的預測值,因為它可以產生高準確度的分類器和處理大量的輸入變量,在決定類別時,評估出變量的重要性,而且在建造森林時,它可以在內部對於一般化後的誤差產生不偏差的估計。
第三,在影響6個城市二手房價格的關鍵詞搜索指數中,出現頻次較高的包括裝修、公積金、房屋出租、房價走勢和二手房交易流程。這說明人們在購買二手房時,都非常關注當時的房地產政策和房價形勢,同時也比較關注購房後房屋的裝修和出租事宜。
第四,人們在進行新房交易時,通過搜尋引擎搜索較多的關鍵詞分別是裝修、公積金、房價走勢和房貸利率。這說明人們在購買新房時也同樣比較關注宏觀經濟形勢和房地產相關政策。
三、網際網路大數據應用展望
大幅增長的網民規模和飛速發展的信息技術,使得藉助網絡搜尋引擎對社會經濟活動進行監測成為可能。一方面,網絡搜索數據真實體現大眾關注熱點;另一方面,大眾的關注熱點也易受到外部環境的影響,兩者間呈現出一定的對應關係。如何利用網絡搜索數據使其為國家治理、企業決策乃至個人生活服務,正成為大數據的核心議題。
(一)基於網際網路搜索數據構建環保投資景氣指數
隨著網際網路的普及和大數據時代的到來,投資主體和消費主體的購買意圖已經體現到網際網路上。例如,在投資決策前,一般會通過網際網路搜尋引擎進行信息收集。而市場主體的這些網上行為與他們真實意圖密切相關。如果能夠提取網絡中的這些有效信息,就可以通過數據間的相關性,找出網絡信息行為與某個具體行業相關投資數據走勢之間的關係。
因此,可以考慮選取環保產業作為主要預測研究對象,利用網際網路搜索數據,聯繫經濟社會發展熱點,同時結合現有政府統計指標,構建基於網際網路搜索數據的「環保投資景氣指數」,並將此指數運用到我國環境管理投資的預測之中。
(二)基於網際網路搜索數據構建霧霾與環保出行關聯性指數
宣傳低碳生活和環保出行理念,改變公眾行為,對霧霾天氣的改善具有一定的積極作用。如果能構建霧霾和環保出行關聯性指數就可以直觀看出城市居民在霧霾關注程度及環保出行行為上的表現。
因此,可以利用搜索關鍵詞構建霧霾和環保出行指數之間的關係,揭示城市空氣品質指數與公眾霧霾關注度及環保出行理念之間的傳導機制。首先,選取與霧霾相關的搜索詞,如構成因素、形成原因、產生的危害、治理措施及預防等。然後,根據選詞搜索數據與我國空氣品質指數的相關性,得到選取與空氣品質高度相關的關鍵詞。以選用城市PM2.5數據的加權平均值代表全國PM2.5數據的變化趨勢。權數為各城市關鍵詞搜索量佔總搜索量的比重,加權平均計算合成指數。
(三)基於網際網路購物搜索數據測算居民收入水平
住戶收支數據是重要的統計資源。作為需求的市場微觀主體,居民的網際網路購物搜索行為在網際網路上有所反映,體現為網絡搜索、瀏覽量等指標的變化。網絡搜索內容反映了市場主體的關注點,搜索量則反映了關注程度,因此利用購物搜索關鍵詞的搜索量變化可以對居民收入水平做出判斷或預測。從居民家庭消費特徵出發,構建出對居民收入記帳記錄依賴小的收入測度模型,科學輔助數據質量控制,可靠評估收入數據及預測趨勢,從而科學指導政府宏微觀政策。
當然,網際網路搜索數據中不同關鍵詞代表的含義不同,採用科學的方法對關鍵詞進行篩選,選擇和統計指標最相關的關鍵詞,並建立適當的模型,還可以輔助測算其他官方統計的月度數據,如住宅成交量、消費價格指數、居民收入、居民消費支出、失業率等。
網際網路大數據的應用前景是廣闊的,引領政府統計變革是當代政府統計工作者肩負的重任,雖然在改革創新的道路上,會遇到多方面的問題,但是只要不斷堅定地、持續地向明確的方向和目標前進,網際網路大數據將在政府統計中大放異彩。
參考文獻
[1]馬建堂.大數據在政府統計中的應用[M].北京:中國統計出版社,2013.
[2]塗子沛.大數據:正在到來的數據革命[M].南寧:廣西師範大學出版社,2012.
[3]徐繼華,馮啟娜,陳貞汝.智慧政府:大數據治國時代的來臨[M].北京:中信出版社,2014.
[4]郭三強,郭燕錦.大數據環境下的數據安全研究[J].科技廣場,2013(2):28-31.
[5]宗威.大數據時代下數據質量的挑戰[J].西安交通大學學報,2013,33(5):38-43.
[6]李慶莉.大數據戰略[J].中國金融電腦,2013(7).
[7]孟小峰,李勇,祝建華.社會計算:大數據時代的機遇與挑戰[J].計算機研究與發展,2013(12).
[8]王元卓,靳小龍.網絡大數據:現狀與展望[J].計算機學報,2013(6):1126-1138.
[1]基金項目:國家社科基金項目《大數據在政府統計中的應用研究》(批准號13ATJ004階段性成果)。
[2]課題組主持人:鮮祖德;課題組成員:萬東華、潘璠、許亦頻、姜澍、何強、叢雅靜、董倩;執筆人:董倩、姜澍。