大數據在價格調查中的應用研究
國家統計局重慶調查總隊課題組
內容摘要:文章利用數據爬蟲軟體從淘寶網和卓創資訊網抓取上百萬條數據,對數據進行清洗、選擇和處理後,利用所得網絡大數據,計算了PPI、CPI;運用K均值聚類、層次聚類對數據進行了分析;運用隨機森林和深度學習算法對大數據價格指數進行數據挖掘,並將大數據計算的價格指數和數據挖掘價格指數結果與國家統計局公布數據進行比較分析。最後得出結論,基於大數據的PPI和CPI指數計算和數據挖掘模型的結果是有效的、切實可行的,並提出推動大數據應用於價格指數調查的相關政策建議。
關鍵詞:數據挖掘;數據爬蟲;價格調查;層次聚類;隨機森林
中圖分類號:C31文獻標識碼:A 文章編號:1004-7794(2017)04-0003-08
DOI: 10.13778/j.cnki.11-3705/c.2017.04.001
大數據時代的來臨,給政府統計帶來了前所未有的挑戰。統計部門按月發布的居民消費價格指數(簡稱CPI)和工業生產者價格指數(簡稱PPI)也正接受著各種資訊網、交易平臺等提供的「數據財富」的挑戰,面臨著公布略顯滯後、跟不上需求步伐等問題。因此,如何搶抓大數據時代機遇和利用現代信息技術手段,以及先進有效的分析方法,豐富價格統計的渠道,預測價格指數的走勢,使統計工作與時俱進,更具時效性和前瞻性,具有十分重要的現實意義。
一、大數據對政府統計的意義及挑戰
大數據時代背景下,研究如何提高思想認識,轉變思維模式,強化頂層設計,改革統計生產環節,研究如何建立機制創新和模式創新以適應大數據時代對政府統計工作提出的新要求意義重大。價格統計由於其直觀性、數據易獲得性、數據量龐大和關聯數據品種豐富等特性,對於引入大數據的應用分析有著天然的優勢。政府統計面臨巨大的挑戰,在大數據這場巨大的變革之中,政府統計部門的數據權威性受到挑戰、政府統計傳統制度遭遇衝擊、政府統計處理數據能力尚待提高。
二、目前幾種成熟的大數據價格指數簡介
阿里巴巴網購價格指數(aSPI)基於生活消費理論出發,在指數編制方法中,淘寶葉子類目(類目層級不可細分的最細類目),被視為相近可替代性商品的集合,計算葉子類目價格的加權均值作為該類商品價格。aSPI採用鏈式加權指數法,計算得出相鄰月份均發生交易的葉子類目價格變化。
阿里巴巴網購核心商品價格指數(aSPI-core)基於固定籃子理論(該指數已於2014年6月9日開始按月發布),其測度思路是選擇一個具有代表性的產品籃子,以不同時點購買該產品籃子費用的變化程度代表價格水平的變化。
麻省理工學院開發的十億價格項目(Billion Price Project,以下簡稱BPP)是通過網絡爬蟲每天從網際網路上抓取不少於50萬筆商品價格信息,參照美國勞工局相關權數資料,計算出20多個國家的每日網上價格指數。
三、大數據的採集
(一)大數據採集範圍
本文價格調查主要涉及CPI和PPI。其中,CPI計算所需數據來源於淘寶網,選取大家電(包含液晶電視、冰箱、洗衣機、空調4類)成交記錄,主要包含分類、品牌、規格、成交價格、成交數量、下單時間等欄位。PPI計算所需數據來源於卓創資訊網,選取黑色金屬冶煉及壓延加工業大類和有色金屬冶煉及壓延加工業大類中的「常用有色金屬冶煉」和「稀有稀土金屬冶煉」兩個中類包含的工業品價格記錄,主要包括品名、規格、廠家、價格、單位、漲跌、價格條件和日期等欄位。
(二)大數據採集過程
本課題選用的數據爬蟲軟體是集搜客GooSeeker網頁抓取軟體。集搜客網頁抓取軟體是基於火狐瀏覽器開發的爬蟲軟體,包含MS謀數臺和DS打數機兩部分,MS謀數臺主要功能為設計爬蟲規則並保存到集搜客伺服器,DS打數機主要功能為利用伺服器上保存的爬蟲規則抓取數據並保存在本地。集搜客網頁抓取軟體具有免編程、適用性強、不限深度和廣度、支持並行抓取等優點,抓取結果保存為XML格式,方便各種數據處理軟體導入數據。
1.計算CPI所需數據採集過程。
淘寶網大家電相關數據的採集比較複雜,採用五級網頁抓取的方法。第一層網頁為淘寶家電首頁,從中抓取4類大家電(液晶電視、冰箱、洗衣機、空調)的產品列表網址(第二層網頁);第二層網頁中可以抓取具體大家電產品的商家列表(第三層網頁);第三層網頁中可以進一步抓取具體商家產品的售賣網址(第四層網頁);第五層網頁具體為成交記錄界面,與第四層網頁在同一個頁面,但是成交記錄界面需在第四層網頁中點擊「成交紀錄」按鈕才會延遲加載顯示,故單獨分出一層網頁。
由於淘寶網大家電網頁數據量龐大,筆者使用4臺電腦使用網絡爬蟲工具抓取半個月,共整理出初步結果包含187個品牌(共中冰箱95個品牌,空調51個品牌,液晶電視47個品牌,洗衣機71個品牌)、5830個規格共450763條記錄,成交時間為2015年5月16日到6月15日。
2.計算PPI所需數據採集過程。
卓創資訊網數據的採集相對簡單,採用兩層網頁抓取即可實現,首先對數據採集頁網址進行分析,通過替換產品代碼的方式,獲得產品歷史價格的網址,然後發布所有相關產品採集頁面網址連結的列表界面,作為數據採集的第一層網頁,利用集搜客抓取下一層線索,連結到產品歷史價格界面進行數據抓取。其中,第二層網頁的數據抓取涉及爬蟲的自動翻頁抓取功能。
卓創資訊網數據主要抓取的是2014年6月10日到2015年6月9日一年的數據,涉及76個品名、398個規格,567個廠家共16452條記錄。
圖1 淘寶大家電歷史成交紀錄數據網上採集流程圖
圖2 卓創資訊網價格歷史數據網上採集流程圖
四、大數據在CPI調查中的實證研究
傳統的CPI調查是在每一個基本分類中選取一定數量的代表規格品,通過同一基本分類下規格品的月度平均價格相對數,採用幾何平均法,計算出基本分類月環比指數,再根據基本分類所佔的權數加權平均,依次得到中類、大類乃至整體的月環比指數。其中,權數由基期年份的居民家庭住戶調查資料及相關統計資料計算得出,同時輔以典型調查數據或專家評估予以補充和完善。本文計算的CPI與傳統CPI在數據獲取與計算方面有所差距。
(一)數據預處理
1.形成結構化資料庫。
通過R軟體,提取每件商品的基本分類、品牌、型號、成交價格、成交數量、成交時間、賣家所在城市等7個指標,形成結構化數據,並存入資料庫中。這裡,將同一品牌、同一型號的商品視為同一個規格品。
2.去除空值。
為確保結構化資料庫的完整性和標準性,利用R的相關軟體包,將存在空值的數據進行清洗,最終得到290196條記錄。
3.去除商品價格奇異值。
通過人工查詢淘寶、京東、亞馬遜等多個大型電商平臺中平板電視、空調、冰箱、洗衣機4個基本分類的價格分布區間,對4類商品價格下限進行了設置,從而清理了一部分名為商品實為附加性服務的數據,最終得到269817條有效記錄。
4.去除商品數奇異值。
通過比較可以看出,4個基本分類規格品種類數接近,但空調的交易記錄數遠大於其他基本分類。通過對每一個規格品的交易記錄數進行分析,一種品牌為GMCC、型號為KFRD-26G/GM250(Z)的空調規格品發生了158867條交易,明顯存在惡意刷交易量的行為,因此將其剔除。修正後的數據分類情況如表1所示。
(二)網絡交易指數的計算
本文參照傳統CPI的計算方法,設計了基本分類的月環比價格指數算法,先找出基本分類下相鄰時期共有的所有規格品,再通過加權平均算出基期和報告期每個規格品的平均成交價格,從而計算每個規格品價格指數,同時計算出共有規格品在基期的成交額所佔比重。在此基礎上,利用拉式物量指數加權平均,計算出基本分類的價格指數。同理,利用每個基本分類下所有共有規格品的成交額所佔比重作為權數,可以計算出中類的價格指數,進而計算大類乃至網絡交易總指數。
1.規格品的選取。
將基本分類下基期和報告期的規格品進行分別匯總,找出二者重合的規格品種類,作為指數計算的所有規格品。相鄰兩期共有規格品:
表1 整理後的數據分類情況(修正後) | ||
| ||
商品基本分類 | 規格品種類數(個) | 交易記錄數(條) |
平板電視 | 1600 | 35642 |
空調 | 1296 | 19521 |
冰箱 | 1427 | 42772 |
洗衣機 | 1093 | 13015 |
總計 | 5416 | 110950 |
2.規格品的價格指數。
分別計算基期和報告期每個規格品的成交均價,從而計算單個規格品的價格指數。
3.規格品的權重。
計算每個規格品的成交額及其佔基本內部總成交額的比重,將比重作為每個規格品的權重。
4.基本分類價格指數及網絡交易指數。
根據單個規格品的價格指數及其權重進行加權平均,得到該基本分類的價格指數。
通過同樣的方式,利用每個基本分類下所有共有規格品的成交額所佔比重作為權數,將基本分類的價格指數加權平均,也可以計算出中類的價格指數,進而計算大類乃至全部的網絡交易指數。
5.實證分析。
根據上述分析,筆者選取了平板電視、空調、冰箱、洗衣機4個基本分類,利用2015年5月16日至6月29日這45天數據近似計算2015年6月4個基本分類的價格指數。為了同質可比,這裡的基期選取2015年5月16日至5月29日,報告期選取6月16日至6月29日,拉式物量指數計算期選取5月16日至6月15日。最終計算出2015年6月份平板電視的價格指數為98.7,空調的價格指數為101.1,冰箱的價格指數為98.9,洗衣機的價格指數為99.0。
(三)與國家公布數據的比較
將上述結果與2015年6月份國家居民消費價格官方統計數據以及國家統計局重慶調查總隊通過人工採集京東商城部分電器商品價格利用現行CPI計算方法計算出的網絡商品價格指數相比較,結果見表2。
由計算結果可見,本文利用網絡爬蟲技術抓取淘寶網數據計算出的2015年6月份幾類電器商品價格環比指數與相應類別採用人工採集京東商城部分商品價格計算出的價格指數在趨勢上具有一致性。從數值上看,本文計算出的平板電視、洗衣機價格環比指數分別較人工採集方法計算所得指數高4.1個和0.2個百分點,空調價格環比指數較人工採集方法計算所得指數低1.9個百分點。
與同期全國官方CPI中相應類別相比,使用本文方法計算的平板電視、洗衣機和冰箱三個類別指數較全國官方CPI中相應類別環比指數略低1.1個、1.0個和1.2個百分點,空調指數略高於官方指數1.2個百分點。雖個別類別漲跌趨勢與官方指數略有差異,但相較於人工採集計算所得指數,使用本文方法計算的價格指數與官方指數更為接近。
表2 2015年6月份採用不同方法計算的部分電器價格環比指數 | |||
| |||
| 官方CPI | 利用網絡爬蟲抓取淘寶網數據計算指數 | 人工採集京東商城部分商品價格計算指數 |
平板電視 | 99.8 | 98.7 | 94.6 |
洗衣機 | 100.0 | 99.0 | 98.8 |
空調 | 99.9 | 101.1 | 103.0 |
冰箱 | 100.1 | 98.9 | - |
註:手工採集京東商城價格數據不包括冰箱類商品。 |
五、大數據在PPI調查中的實證研究
(一)數據預處理
在數據收集過程中,將重點放在了黑色金屬冶煉和壓延加工業和有色金屬冶煉和壓延加工業(下文簡稱黑色金屬和有色金屬)兩個大類行業,總共收集了近百個產品,近千個規格品,16多萬條原始記錄。採集的時間跨度從2014年6月10日至2015年6月9日,採集的主要屬性指標包括產品的品名、規格、廠家、價格、計量單位、漲跌、價格條件、日期等信息。由於本次數據抓取量大,品種繁雜,因此對原始數據進行了預處理和數據清洗,以便後期數據計算。
1.初始規格品的確定原則。
在採集的主要屬性指標中,選取規格和廠家兩個屬性指標作為規格品確定的唯一原則,完全相同名稱的規格和廠家視為同一規格品。經過刪選後,確定了982個初始規格品。
2.有效規格品的確定原則。
在初始規格品確定後,對每個規格品的數據按月份進行梳理,通過簡單平均計算出每個規格品的月平均單價,然後再對數據進行二次處理:①如果初始規格品的數據在6個月及以上的月份內均能計算出月平均單價,則視該規格品為有效規格品;②如果初始規格品的數據能計算出月平均單價的月份低於6個月,則視該規格品為無效規格品,直接剔除無效規格品的全部數據。經過二次處理後,確定了666個有效規格品。
3.缺失價格的處理原則。
如果某一有效規格品有數月價格數據缺失,未能計算出月平均單價,採取使用離缺失價格月份最近一個月的平均價格的值代替。
4.奇異值的處理原則。
對某有效規格品某一採價日價格與上一採價日價格環比變動超過20%時,則通過「漲跌」這一屬性指標來輔助判斷。若漲跌為0,則認為價格未上漲,屬該規格品因質量(或結構)變化等「非同質可比」現象導致的價格異常變動(如煤炭的發熱量),就將本採價日的價格修改為上一採價日的價格。若漲跌不為0,但漲跌差值不同於按價格數據計算的結果,則根據漲跌差值的實際數據來重新確認本採價日的價格。
(二)數據計算方法
1.權數的確定方法。
本文在參考全國PPI基本分類權數的基礎上,採用間接權數法賦予各代表產品的權數。間接權數法是把所有產品按所屬行業的大類、中類、小類、基本分類劃分,分層計算權數後,再計算代表產品權數,把行業權數合理分配到全部代表產品上。這樣,既解決了在不同行業間代表產品分布不均衡的問題,使權數的代表性更強,也解決了本文計算的PPI與全國PPI比較分析的科學性問題。
2.環比指數的計算方法。
參照現行國家工業生產者價格指數的計算方法,以月環比為例,本文PPI大、中、小、基本分類的月環比指數計算步驟及公式如下:
(三)網絡PPI指數計算結果及與全國指數的比較
按照前文所述的環比指數計算方法,得到相應大類和中類的月環比指數,價格漲跌趨勢與全國環比保持高度一致,11個月數據走勢均與全國走勢相同。計算結果與全國相對應大類和中類的月環比指數的對比情況見表3。
(四)基於價格環比指數的產品聚類分析
本部分以「黑色金屬冶煉和壓延加工業」大類
中包含的45個具體產品的月環比價格指數建立數據挖掘模型,對各類產品根據價格月環比指數進行了K-均值和層次聚類分析,直觀地得出同類產品價格波動相似度較高的結論。
1.聚類分析模型及基本原理。
K均值聚類(K-means)主要以各樣本與所在簇中心點歐式距離的和達到最小為目的,不斷迭代,逐次更新各聚類中心的值,直至連續兩次迭代的結果顯示各聚類中心的值保持不變,說明已經得到最好的聚類結果。本文計算K均值聚類時採用25次隨機初值計算各自的局部最優解,然後選擇其中最優的解。
層次聚類方法對給定的數據集進行層次的分解,直到某種條件滿足為止。具體又可分為凝聚的、分裂的兩種方案,本文層次聚類法採用的是凝聚的層次聚類法,距離計算方法採用離差平方和法。
表3 計算結果與全國月環比指數的對比情況 | ||||||||||||
| ||||||||||||
行業類別名稱 | 環比 | 2014/8 | 2014/9 | 2014/10 | 2014/11 | 2014/12 | 2015/1 | 2015/2 | 2015/3 | 2015/4 | 2015/5 | 2015/6 |
黑色金屬冶煉和壓延加工業 | 計算指數 | 99.24 | 98.13 | 99.95 | 98.75 | 96.12 | 99.11 | 95.64 | 97.67 | 97.94 | 97.80 | 98.06 |
全國指數 | 99.26 | 98.07 | 98.61 | 99.13 | 98.99 | 97.49 | 97.28 | 98.69 | 98.95 | 98.58 | 97.93 | |
煉鐵 | 計算指數 | 99.98 | 99.95 | 100.18 | 99.60 | 97.10 | 99.86 | 97.35 | 98.77 | 97.52 | 97.40 | 98.52 |
全國指數 | 98.95 | 98.56 | 98.48 | 98.98 | 99.37 | 98.36 | 98.00 | 98.01 | 98.17 | 98.79 | 98.53 | |
煉鋼 | 計算指數 | 98.99 | 97.53 | 100.12 | 99.32 | 96.26 | 97.95 | 95.91 | 97.85 | 98.09 | 98.40 | 98.17 |
全國指數 | 99.24 | 97.66 | 98.88 | 98.57 | 98.80 | 97.36 | 98.24 | 99.39 | 99.05 | 99.10 | 98.22 | |
黑色金屬鑄造 | 計算指數 | 100.00 | 100.00 | 99.40 | 99.52 | 98.29 | 100.18 | 98.43 | 98.50 | 95.95 | 95.35 | 98.42 |
全國指數 | 99.93 | 99.81 | 99.81 | 99.64 | 99.81 | 99.62 | 99.59 | 99.86 | 99.54 | 99.74 | 99.37 | |
鋼壓延加工 | 計算指數 | 99.20 | 98.05 | 99.93 | 98.53 | 95.91 | 99.33 | 95.26 | 97.44 | 98.00 | 97.70 | 97.93 |
全國指數 | 99.17 | 97.75 | 98.32 | 99.17 | 98.84 | 97.06 | 96.57 | 98.38 | 98.89 | 98.26 | 97.50 | |
鐵合金冶煉 | 計算指數 | 99.66 | 99.09 | 99.09 | 97.56 | 96.78 | 99.93 | 97.37 | 98.71 | 97.54 | 97.90 | 98.94 |
全國指數 | 99.82 | 99.88 | 99.74 | 99.42 | 99.62 | 99.05 | 99.41 | 99.35 | 99.19 | 99.02 | 99.39 | |
有色金屬冶煉和壓延加工業 | – | – | – | – | – | – | – | – | – | – | – | – |
常用有色金屬冶煉 | 計算指數 | 101.63 | 99.71 | 99.68 | 98.17 | 95.92 | 97.48 | 98.67 | 100.39 | 101.03 | 101.98 | 97.63 |
全國指數 | 100.73 | 100.27 | 98.65 | 99.29 | 98.89 | 97.16 | 98.15 | 99.75 | 100.69 | 101.84 | 97.51 |
圖3 K-means聚類流程圖
圖4 凝聚的層次聚類流程圖
2.聚類結果及分析。
本文分別採用K-均值和層次聚類兩種模型,把45個具體產品分為3類,具體的各種產品的分類情況見表4。
通過對比「ward」法層次聚類結果比K-均值聚類結果更優,主要包含鋼板生鐵類、廢鋼鐵類和型鋼類(如H型鋼、角鋼、槽鋼、工字鋼等)。 K-均值聚類結果則把邊角料、鋼筋頭、生鐵屑、鐵刨花等歸入了第3類,把H型鋼、角鋼歸入了第1類。
(五)數據挖掘——未知權數前提下PPI數據挖掘模型
PPI計算中,成交數量很難得到,現行PPI調查制度下,會專門制定一套規格品和權數,並且在一定時期內權數不會改變。在利用網絡大數據計算PPI權數時,一方面規格品的一一對應很難實現,另一方面權數的獲得存在較大困難。本文的目的是採用隨機森林和深度學習模型,建立利用網絡採集數據計算的具體產品的價格指數來推算PPI的模型。如果建立的模型足夠優秀,則在每個月初下載網絡實時更新的價格數據後,即可及時推算出接近國家調查PPI的結果來。而這個數據,比國家PPI的發布基本要提前一周以上,時效性大大提前。
1.模型原理介紹。
(1)隨機森林。隨機森林是由多個決策樹構成的集合,它是一個能夠對樣本進行訓練從而進行預測的分類器。該分類器最早由Leo Breiman和Adele Cutler提出,它具有準確度高、支持大量變量、學習快速等優點,在機器學習和數據挖掘中越來越被廣泛的使用。但當大量的決策樹構成森林時,隨機森林模型就能夠集合「眾人的智慧」,得到非常有價值的預測。
(2)深度學習模型。深度學習是一種新興的機器學習算法,對於研究大數據有獨特優勢。深度學習的概念最初由Hinton等人於2006年提出,目前得到眾多研究者的關注。本文採用無監督學習Deep Belief Networks(DBNs)和自動編碼器Stacked Auto-Encoders(SAE)進行模型構建。
DBNs是由一系列受限波爾茲曼機(RBM)單元組成,該網絡可視層和隱層單元彼此互連(層內無連接),隱單元可獲取輸入可視單元的高階相關性。在訓練過程中,首先將可視向量值映射給隱單元,然後可視單元由隱層單元重建,這些新可視單元再次映射給隱單元,這樣就獲取了新的隱單元。
SAE是由無數個自動編碼器層層堆疊而成,通過一種分層、貪婪的方式進行訓練。一個自動編碼器是一種具有判別能力的圖形化模型,該模型在訓練過程中不斷試圖重構輸入信號。
2.模型實現。
首先,對「黑色金屬冶煉和壓延加工業」大類中包含的666個具體廠商產品的規格品進行分別計算月環比指數,再參照國家統計局PPI調查方法,通過幾何平均的方法計算出45個產品的月環比指數,這樣共得到11個月的環比指數。利用其中的10個月產品環比指數和國家統計局調查結果中的「黑色金屬冶煉和壓延加工業」大類的PPI指數作為訓練集,第11個月數據作為預測集。分別採用隨機森林模型和深度學習中的DBN模型和SAE模型進行建模。
3.模型結果的比較。
從表5中可以看到,隨機森林模型和深度學習模型通過訓練,能夠在權數未知的情況下較好地實現對PPI價格指數的測算,三個模型的結果價格變動趨勢均與國家統計局調查結果一致,誤差分別只有0.5個、0.8個、0.7個百分點。可以預見,隨著時間序列的拉長和訓練集的逐漸增大,三個模型的效果將逐步提高。
表4 聚類結果表 | ||
| ||
分類 | K-均值聚類結果 | 層次聚類結果 |
第1類 | H型鋼,板坯,不鏽鋼板材,不鏽鋼帶材,彩塗板,齒輪鋼,鍍鋅板,高碳軸承鋼,矽鐵,焊線,合結鋼,角鋼,冷軋板卷,煉鋼生鐵,螺紋鋼,鉬鐵,盤螺,球墨鑄鐵,熱軋板卷,碳結鋼,鐵精粉,無縫管,中厚板,鑄造生鐵 | 板坯,不鏽鋼板材,彩塗板,齒輪鋼,鍍鋅板,高碳軸承鋼,合結鋼,冷軋板卷,煉鋼生鐵,螺紋鋼,鉬鐵,盤螺,球墨鑄鐵,熱軋板卷,碳結鋼,無縫管,中厚板,鑄造生鐵 |
第2類 | 合格料,剪切料,爐料,統廢,小廢,硬線,中廢,重廢 | 合格料,剪切料,爐料,統廢,小廢,硬線,中廢,重廢,邊角料,衝花料,鋼板料,鋼筋頭,精爐料,輕薄料,生鐵屑 |
第3類 | 邊角料,槽鋼,衝花料,方坯,鋼板料,鋼筋頭,工字鋼,精爐料,輕薄料,熱軋帶鋼,生鐵屑,鐵刨花,直縫焊管 | H型鋼,不鏽鋼帶材,矽鐵,焊線,角鋼,鐵精粉,槽鋼,方坯,工字鋼,熱軋帶鋼,鐵刨花,直縫焊管 |
表5 黑色金屬冶煉和壓延加工業大類PPI價格環比指數比較表 | |||||
| |||||
月份 | 國家統計局調查結果 | 隨機森林 模型結果 | 深度學習 DBN模型 | 深度學習 SAE模型 | 本文根據 已有權數 |
2015年 | 97.9 | 98.4 | 98.7 | 98.6 | 98.1 |
六、主要結論及建議
(一)主要結論
第一,本文利用網絡大數據編制出的月環比指數與國家統計局公布的月度數據匹配結果較一致,說明使用網絡大數據作為豐富CPI、PPI統計調查渠道是切實可行的。
第二,本文採用K-means聚類和層次聚類方法對產品價格指數趨勢進行聚類分析,可以很直觀地找出價格變動幅度較大或變動異常的產品,亦可很簡便地觀測不同產品指數走勢的趨同性或者不同性。
第三,本文基於數據挖掘方法,對PPI進行模擬構建的模型準確度和穩定性都較高。短期內,基於深度學習模型在準確度和穩定性上更為優秀。可以預見,隨著訓練集在時間上的積累,基於隨機森林和深度學習的數據挖掘模型的訓練精度將得到進一步的提升,學習模型行之有效。
第四,不足之處有以下幾點。一是CPI採集數據量過大,且爬蟲受到網站限制,採集效率較低,採集數據在具體產品和時間上呈斜帶狀分布,對數據精度和有效性造成一定影響。二是網絡大數據中計算PPI的價格多為流通領域價格而非出廠價格,兩者存在時滯,因此變動趨勢在某一時間段內有可能會出現不完全一致的情況;採集數據中產品目錄分類的確定具有一定主觀性。
(二)幾點建議
一是充分利用網絡「數據財富」,實現CPI、PPI調查的「減負、共享」。在大數據時代形勢下,國家統計局可以對各資訊網、期貨網等提供的「數據財富」加以利用,改變單一的「報價制」為「採價」與「報價」並舉制,即在繼續採用企業每月上報時點價格的做法的同時,輔以網絡大數據中部分規格品價格的直接採集工作,科學確定採價周期,提高數據獲取的多樣性和簡易性,切實減輕報表負擔。
二是利用網絡大數據加強重要產品或行業價格走勢監測。一是對日用消費品和生產資料市場價格進行實時監測,定時發布,發揮CPI、PPI監測經濟運行和反映市場需求變化的重要作用。二是建立和完善分省(市)的特有的重要產品價格監測機制,以便對重點產品的價格進行重點跟蹤監測。
三是進一步向縱深開展與企業的大數據戰略合作。大數據時代,信息高度個性化已經成為現實,「萬物皆聯網、無處不計算」已得到公認。大數據不僅在於容量,更在於通過數據的整合和分析,發現新的知識,創造更大的價值。在此背景下,國家統計局與各類擁有大數據的企業建立戰略合作關係,進一步拓展統計數據獲取渠道,變革統計生產方式,打造現代化服務型統計,必將有助於推動中國現代經濟的再次跨越發展。
參考文獻
[1] 馬建堂. 大數據在政府統計中的探索與應用[M]. 北京: 中國統計出版社, 2013.
[2] Podesta J, Pritzker P, Moniz E J, et al. Big Date: Seizing Opportunities, Preserving Values[R]. American: Executive Office of the President, 2014.
[3] Hilbert M, Lopez P. The world』s technological capacity to store, communicate, and compute information[J]. Science, 2011, 332(6025): 60-65.
[4] 鄭京平. 國家統計局:大數據給政府統計帶來機遇[J]. 世界電信, 2014(1/2): 98-100.
[5] 彭小年, 倪進. 「大數據和政府統計」研討會觀點綜述[J]. 統計科學與實踐, 2014(2): 4-6.
[6] 李遠芳, 杜瑋浩, 李麗娜, 等. 網絡零售價格指數(iSPI)報告[R]. 杭州: 阿里研究中心, 2011.
[7] 韓春蕾, 高婉君. 我國月度CPI的組合預測及分析[J]. 統計與決策, 2014(1): 11-13.
[8] 鍾銳,夏政然,楊相磊.基於網絡大數據的PPI及動態預警模型[J]. 統計研究, 2014(z).