2017.04:大數據在價格調查中的應用研究(國家統計局重慶調查總隊...

2020-11-21 國家統計局

大數據在價格調查中的應用研究

 

國家統計局重慶調查總隊課題組

 

  內容摘要:文章利用數據爬蟲軟體從淘寶網和卓創資訊網抓取上百萬條數據,對數據進行清洗、選擇和處理後,利用所得網絡大數據,計算了PPICPI;運用K均值聚類、層次聚類對數據進行了分析;運用隨機森林和深度學習算法對大數據價格指數進行數據挖掘,並將大數據計算的價格指數和數據挖掘價格指數結果與國家統計局公布數據進行比較分析。最後得出結論,基於大數據的PPICPI指數計算和數據挖掘模型的結果是有效的、切實可行的,並提出推動大數據應用於價格指數調查的相關政策建議。

 

  關鍵詞:數據挖掘;數據爬蟲;價格調查;層次聚類;隨機森林

 

  中圖分類號:C31文獻標識碼:A 文章編號:1004-7794(2017)04-0003-08

 

  DOI: 10.13778/j.cnki.11-3705/c.2017.04.001

 

  大數據時代的來臨,給政府統計帶來了前所未有的挑戰。統計部門按月發布的居民消費價格指數(簡稱CPI)和工業生產者價格指數(簡稱PPI)也正接受著各種資訊網、交易平臺等提供的「數據財富」的挑戰,面臨著公布略顯滯後、跟不上需求步伐等問題。因此,如何搶抓大數據時代機遇和利用現代信息技術手段,以及先進有效的分析方法,豐富價格統計的渠道,預測價格指數的走勢,使統計工作與時俱進,更具時效性和前瞻性,具有十分重要的現實意義。

 

  一、大數據對政府統計的意義及挑戰

 

  大數據時代背景下,研究如何提高思想認識,轉變思維模式,強化頂層設計,改革統計生產環節,研究如何建立機制創新和模式創新以適應大數據時代對政府統計工作提出的新要求意義重大。價格統計由於其直觀性、數據易獲得性、數據量龐大和關聯數據品種豐富等特性,對於引入大數據的應用分析有著天然的優勢。政府統計面臨巨大的挑戰,在大數據這場巨大的變革之中,政府統計部門的數據權威性受到挑戰、政府統計傳統制度遭遇衝擊、政府統計處理數據能力尚待提高。

 

  二、目前幾種成熟的大數據價格指數簡介

 

  阿里巴巴網購價格指數(aSPI)基於生活消費理論出發,在指數編制方法中,淘寶葉子類目(類目層級不可細分的最細類目),被視為相近可替代性商品的集合,計算葉子類目價格的加權均值作為該類商品價格。aSPI採用鏈式加權指數法,計算得出相鄰月份均發生交易的葉子類目價格變化。

 

  阿里巴巴網購核心商品價格指數(aSPI-core)基於固定籃子理論(該指數已於201469日開始按月發布),其測度思路是選擇一個具有代表性的產品籃子,以不同時點購買該產品籃子費用的變化程度代表價格水平的變化。

 

  麻省理工學院開發的十億價格項目(Billion Price Project,以下簡稱BPP)是通過網絡爬蟲每天從網際網路上抓取不少於50萬筆商品價格信息,參照美國勞工局相關權數資料,計算出20多個國家的每日網上價格指數。

 

  三、大數據的採集

 

  (一)大數據採集範圍

 

  本文價格調查主要涉及CPIPPI。其中,CPI計算所需數據來源於淘寶網,選取大家電(包含液晶電視、冰箱、洗衣機、空調4類)成交記錄,主要包含分類、品牌、規格、成交價格、成交數量、下單時間等欄位。PPI計算所需數據來源於卓創資訊網,選取黑色金屬冶煉及壓延加工業大類和有色金屬冶煉及壓延加工業大類中的「常用有色金屬冶煉」和「稀有稀土金屬冶煉」兩個中類包含的工業品價格記錄,主要包括品名、規格、廠家、價格、單位、漲跌、價格條件和日期等欄位。

 

  (二)大數據採集過程

 

  本課題選用的數據爬蟲軟體是集搜客GooSeeker網頁抓取軟體。集搜客網頁抓取軟體是基於火狐瀏覽器開發的爬蟲軟體,包含MS謀數臺和DS打數機兩部分,MS謀數臺主要功能為設計爬蟲規則並保存到集搜客伺服器,DS打數機主要功能為利用伺服器上保存的爬蟲規則抓取數據並保存在本地。集搜客網頁抓取軟體具有免編程、適用性強、不限深度和廣度、支持並行抓取等優點,抓取結果保存為XML格式,方便各種數據處理軟體導入數據。

 

  1.計算CPI所需數據採集過程。

 

  淘寶網大家電相關數據的採集比較複雜,採用五級網頁抓取的方法。第一層網頁為淘寶家電首頁,從中抓取4類大家電(液晶電視、冰箱、洗衣機、空調)的產品列表網址(第二層網頁);第二層網頁中可以抓取具體大家電產品的商家列表(第三層網頁);第三層網頁中可以進一步抓取具體商家產品的售賣網址(第四層網頁);第五層網頁具體為成交記錄界面,與第四層網頁在同一個頁面,但是成交記錄界面需在第四層網頁中點擊「成交紀錄」按鈕才會延遲加載顯示,故單獨分出一層網頁。

 

  由於淘寶網大家電網頁數據量龐大,筆者使用4臺電腦使用網絡爬蟲工具抓取半個月,共整理出初步結果包含187個品牌(共中冰箱95個品牌,空調51個品牌,液晶電視47個品牌,洗衣機71個品牌)、5830個規格共450763條記錄,成交時間為2015516日到615日。

 

  2.計算PPI所需數據採集過程。

 

  卓創資訊網數據的採集相對簡單,採用兩層網頁抓取即可實現,首先對數據採集頁網址進行分析,通過替換產品代碼的方式,獲得產品歷史價格的網址,然後發布所有相關產品採集頁面網址連結的列表界面,作為數據採集的第一層網頁,利用集搜客抓取下一層線索,連結到產品歷史價格界面進行數據抓取。其中,第二層網頁的數據抓取涉及爬蟲的自動翻頁抓取功能。

 

  卓創資訊網數據主要抓取的是2014610日到201569日一年的數據,涉及76個品名、398個規格,567個廠家共16452條記錄。

 

 

 

1 淘寶大家電歷史成交紀錄數據網上採集流程圖

 

 

 

2 卓創資訊網價格歷史數據網上採集流程圖

 

  四、大數據在CPI調查中的實證研究

 

  傳統的CPI調查是在每一個基本分類中選取一定數量的代表規格品,通過同一基本分類下規格品的月度平均價格相對數,採用幾何平均法,計算出基本分類月環比指數,再根據基本分類所佔的權數加權平均,依次得到中類、大類乃至整體的月環比指數。其中,權數由基期年份的居民家庭住戶調查資料及相關統計資料計算得出,同時輔以典型調查數據或專家評估予以補充和完善。本文計算的CPI與傳統CPI在數據獲取與計算方面有所差距。

 

  (一)數據預處理

 

  1.形成結構化資料庫。

 

  通過R軟體,提取每件商品的基本分類、品牌、型號、成交價格、成交數量、成交時間、賣家所在城市等7個指標,形成結構化數據,並存入資料庫中。這裡,將同一品牌、同一型號的商品視為同一個規格品。

 

  2.去除空值。

 

  為確保結構化資料庫的完整性和標準性,利用R的相關軟體包,將存在空值的數據進行清洗,最終得到290196條記錄。

 

  3.去除商品價格奇異值。

 

  通過人工查詢淘寶、京東、亞馬遜等多個大型電商平臺中平板電視、空調、冰箱、洗衣機4個基本分類的價格分布區間,對4類商品價格下限進行了設置,從而清理了一部分名為商品實為附加性服務的數據,最終得到269817條有效記錄。

 

  4.去除商品數奇異值。

 

  通過比較可以看出,4個基本分類規格品種類數接近,但空調的交易記錄數遠大於其他基本分類。通過對每一個規格品的交易記錄數進行分析,一種品牌為GMCC、型號為KFRD-26G/GM250(Z)的空調規格品發生了158867條交易,明顯存在惡意刷交易量的行為,因此將其剔除。修正後的數據分類情況如表1所示。

 

  (二)網絡交易指數的計算

 

  本文參照傳統CPI的計算方法,設計了基本分類的月環比價格指數算法,先找出基本分類下相鄰時期共有的所有規格品,再通過加權平均算出基期和報告期每個規格品的平均成交價格,從而計算每個規格品價格指數,同時計算出共有規格品在基期的成交額所佔比重。在此基礎上,利用拉式物量指數加權平均,計算出基本分類的價格指數。同理,利用每個基本分類下所有共有規格品的成交額所佔比重作為權數,可以計算出中類的價格指數,進而計算大類乃至網絡交易總指數。

 

  1.規格品的選取。

 

  將基本分類下基期和報告期的規格品進行分別匯總,找出二者重合的規格品種類,作為指數計算的所有規格品。相鄰兩期共有規格品:

 

   

  表1 整理後的數據分類情況(修正後)

 

商品基本分類

規格品種類數(個)

交易記錄數(條)

平板電視

1600

35642

空調

1296

19521

冰箱

1427

42772

洗衣機

1093

13015

總計

5416

110950

 

  2.規格品的價格指數。

 

  分別計算基期和報告期每個規格品的成交均價,從而計算單個規格品的價格指數。

 

   

 

  3.規格品的權重。

 

  計算每個規格品的成交額及其佔基本內部總成交額的比重,將比重作為每個規格品的權重。

 

   

 

  4.基本分類價格指數及網絡交易指數。

 

  根據單個規格品的價格指數及其權重進行加權平均,得到該基本分類的價格指數。

 

   

  通過同樣的方式,利用每個基本分類下所有共有規格品的成交額所佔比重作為權數,將基本分類的價格指數加權平均,也可以計算出中類的價格指數,進而計算大類乃至全部的網絡交易指數。

 

  5.實證分析。

 

  根據上述分析,筆者選取了平板電視、空調、冰箱、洗衣機4個基本分類,利用2015516日至629日這45天數據近似計算201564個基本分類的價格指數。為了同質可比,這裡的基期選取2015516日至529日,報告期選取616日至629日,拉式物量指數計算期選取516日至615日。最終計算出20156月份平板電視的價格指數為98.7,空調的價格指數為101.1,冰箱的價格指數為98.9,洗衣機的價格指數為99.0

 

  (三)與國家公布數據的比較

 

  將上述結果與20156月份國家居民消費價格官方統計數據以及國家統計局重慶調查總隊通過人工採集京東商城部分電器商品價格利用現行CPI計算方法計算出的網絡商品價格指數相比較,結果見表2

 

  由計算結果可見,本文利用網絡爬蟲技術抓取淘寶網數據計算出的20156月份幾類電器商品價格環比指數與相應類別採用人工採集京東商城部分商品價格計算出的價格指數在趨勢上具有一致性。從數值上看,本文計算出的平板電視、洗衣機價格環比指數分別較人工採集方法計算所得指數高4.1個和0.2個百分點,空調價格環比指數較人工採集方法計算所得指數低1.9個百分點。

 

  與同期全國官方CPI中相應類別相比,使用本文方法計算的平板電視、洗衣機和冰箱三個類別指數較全國官方CPI中相應類別環比指數略低1.1個、1.0個和1.2個百分點,空調指數略高於官方指數1.2個百分點。雖個別類別漲跌趨勢與官方指數略有差異,但相較於人工採集計算所得指數,使用本文方法計算的價格指數與官方指數更為接近。

 

  表2 20156月份採用不同方法計算的部分電器價格環比指數

 

 

官方CPI

利用網絡爬蟲抓取淘寶網數據計算指數

人工採集京東商城部分商品價格計算指數

平板電視

99.8

98.7

94.6

洗衣機

100.0

99.0

98.8

空調

99.9

101.1

103.0

冰箱

100.1

98.9

-

 

  註:手工採集京東商城價格數據不包括冰箱類商品。

 

  五、大數據在PPI調查中的實證研究

 

  (一)數據預處理

 

  在數據收集過程中,將重點放在了黑色金屬冶煉和壓延加工業和有色金屬冶煉和壓延加工業(下文簡稱黑色金屬和有色金屬)兩個大類行業,總共收集了近百個產品,近千個規格品,16多萬條原始記錄。採集的時間跨度從2014610日至201569日,採集的主要屬性指標包括產品的品名、規格、廠家、價格、計量單位、漲跌、價格條件、日期等信息。由於本次數據抓取量大,品種繁雜,因此對原始數據進行了預處理和數據清洗,以便後期數據計算。

 

  1.初始規格品的確定原則。

 

  在採集的主要屬性指標中,選取規格和廠家兩個屬性指標作為規格品確定的唯一原則,完全相同名稱的規格和廠家視為同一規格品。經過刪選後,確定了982個初始規格品。

 

  2.有效規格品的確定原則。

 

  在初始規格品確定後,對每個規格品的數據按月份進行梳理,通過簡單平均計算出每個規格品的月平均單價,然後再對數據進行二次處理:①如果初始規格品的數據在6個月及以上的月份內均能計算出月平均單價,則視該規格品為有效規格品;②如果初始規格品的數據能計算出月平均單價的月份低於6個月,則視該規格品為無效規格品,直接剔除無效規格品的全部數據。經過二次處理後,確定了666個有效規格品。

 

  3.缺失價格的處理原則。

 

  如果某一有效規格品有數月價格數據缺失,未能計算出月平均單價,採取使用離缺失價格月份最近一個月的平均價格的值代替。

 

  4.奇異值的處理原則。

 

  對某有效規格品某一採價日價格與上一採價日價格環比變動超過20%時,則通過「漲跌」這一屬性指標來輔助判斷。若漲跌為0,則認為價格未上漲,屬該規格品因質量(或結構)變化等「非同質可比」現象導致的價格異常變動(如煤炭的發熱量),就將本採價日的價格修改為上一採價日的價格。若漲跌不為0,但漲跌差值不同於按價格數據計算的結果,則根據漲跌差值的實際數據來重新確認本採價日的價格。

 

  (二)數據計算方法

 

  1.權數的確定方法。

 

  本文在參考全國PPI基本分類權數的基礎上,採用間接權數法賦予各代表產品的權數。間接權數法是把所有產品按所屬行業的大類、中類、小類、基本分類劃分,分層計算權數後,再計算代表產品權數,把行業權數合理分配到全部代表產品上。這樣,既解決了在不同行業間代表產品分布不均衡的問題,使權數的代表性更強,也解決了本文計算的PPI與全國PPI比較分析的科學性問題。

 

  2.環比指數的計算方法。

 

  參照現行國家工業生產者價格指數的計算方法,以月環比為例,本文PPI大、中、小、基本分類的月環比指數計算步驟及公式如下:

 

   

 

  (三)網絡PPI指數計算結果及與全國指數的比較

 

  按照前文所述的環比指數計算方法,得到相應大類和中類的月環比指數,價格漲跌趨勢與全國環比保持高度一致,11個月數據走勢均與全國走勢相同。計算結果與全國相對應大類和中類的月環比指數的對比情況見表3

 

  (四)基於價格環比指數的產品聚類分析

 

  本部分以「黑色金屬冶煉和壓延加工業」大類

 

  中包含的45個具體產品的月環比價格指數建立數據挖掘模型,對各類產品根據價格月環比指數進行了K-均值和層次聚類分析,直觀地得出同類產品價格波動相似度較高的結論。

 

  1.聚類分析模型及基本原理。

 

  K均值聚類(K-means)主要以各樣本與所在簇中心點歐式距離的和達到最小為目的,不斷迭代,逐次更新各聚類中心的值,直至連續兩次迭代的結果顯示各聚類中心的值保持不變,說明已經得到最好的聚類結果。本文計算K均值聚類時採用25次隨機初值計算各自的局部最優解,然後選擇其中最優的解。

 

  層次聚類方法對給定的數據集進行層次的分解,直到某種條件滿足為止。具體又可分為凝聚的、分裂的兩種方案,本文層次聚類法採用的是凝聚的層次聚類法,距離計算方法採用離差平方和法。

 

  表3 計算結果與全國月環比指數的對比情況

 

行業類別名稱

環比

2014/8

2014/9

2014/10

2014/11

2014/12

2015/1

2015/2

2015/3

2015/4

2015/5

2015/6

黑色金屬冶煉和壓延加工業

計算指數

99.24

98.13

99.95

98.75

96.12

99.11

95.64

97.67

97.94

97.80

98.06

全國指數

99.26

98.07

98.61

99.13

98.99

97.49

97.28

98.69

98.95

98.58

97.93

煉鐵

計算指數

99.98

99.95

100.18

99.60

97.10

99.86

97.35

98.77

97.52

97.40

98.52

全國指數

98.95

98.56

98.48

98.98

99.37

98.36

98.00

98.01

98.17

98.79

98.53

煉鋼

計算指數

98.99

97.53

100.12

99.32

96.26

97.95

95.91

97.85

98.09

98.40

98.17

全國指數

99.24

97.66

98.88

98.57

98.80

97.36

98.24

99.39

99.05

99.10

98.22

黑色金屬鑄造

計算指數

100.00

100.00

99.40

99.52

98.29

100.18

98.43

98.50

95.95

95.35

98.42

全國指數

99.93

99.81

99.81

99.64

99.81

99.62

99.59

99.86

99.54

99.74

99.37

鋼壓延加工

計算指數

99.20

98.05

99.93

98.53

95.91

99.33

95.26

97.44

98.00

97.70

97.93

全國指數

99.17

97.75

98.32

99.17

98.84

97.06

96.57

98.38

98.89

98.26

97.50

鐵合金冶煉

計算指數

99.66

99.09

99.09

97.56

96.78

99.93

97.37

98.71

97.54

97.90

98.94

全國指數

99.82

99.88

99.74

99.42

99.62

99.05

99.41

99.35

99.19

99.02

99.39

有色金屬冶煉和壓延加工業

常用有色金屬冶煉

計算指數

101.63

99.71

99.68

98.17

95.92

97.48

98.67

100.39

101.03

101.98

97.63

全國指數

100.73

100.27

98.65

99.29

98.89

97.16

98.15

99.75

100.69

101.84

97.51

 

 

3 K-means聚類流程圖

  

4 凝聚的層次聚類流程圖

 

  2.聚類結果及分析。

 

  本文分別採用K-均值和層次聚類兩種模型,把45個具體產品分為3類,具體的各種產品的分類情況見表4

 

  通過對比「ward」法層次聚類結果比K-均值聚類結果更優,主要包含鋼板生鐵類、廢鋼鐵類和型鋼類(如H型鋼、角鋼、槽鋼、工字鋼等)。 K-均值聚類結果則把邊角料、鋼筋頭、生鐵屑、鐵刨花等歸入了第3類,把H型鋼、角鋼歸入了第1類。

 

  (五)數據挖掘——未知權數前提下PPI數據挖掘模型

 

  PPI計算中,成交數量很難得到,現行PPI調查制度下,會專門制定一套規格品和權數,並且在一定時期內權數不會改變。在利用網絡大數據計算PPI權數時,一方面規格品的一一對應很難實現,另一方面權數的獲得存在較大困難。本文的目的是採用隨機森林和深度學習模型,建立利用網絡採集數據計算的具體產品的價格指數來推算PPI的模型。如果建立的模型足夠優秀,則在每個月初下載網絡實時更新的價格數據後,即可及時推算出接近國家調查PPI的結果來。而這個數據,比國家PPI的發布基本要提前一周以上,時效性大大提前。

 

  1.模型原理介紹。

 

  (1)隨機森林。隨機森林是由多個決策樹構成的集合,它是一個能夠對樣本進行訓練從而進行預測的分類器。該分類器最早由Leo BreimanAdele Cutler提出,它具有準確度高、支持大量變量、學習快速等優點,在機器學習和數據挖掘中越來越被廣泛的使用。但當大量的決策樹構成森林時,隨機森林模型就能夠集合「眾人的智慧」,得到非常有價值的預測。

 

  (2)深度學習模型。深度學習是一種新興的機器學習算法,對於研究大數據有獨特優勢。深度學習的概念最初由Hinton等人於2006年提出,目前得到眾多研究者的關注。本文採用無監督學習Deep Belief NetworksDBNs)和自動編碼器Stacked Auto-EncodersSAE)進行模型構建。

 

  DBNs是由一系列受限波爾茲曼機(RBM)單元組成,該網絡可視層和隱層單元彼此互連(層內無連接),隱單元可獲取輸入可視單元的高階相關性。在訓練過程中,首先將可視向量值映射給隱單元,然後可視單元由隱層單元重建,這些新可視單元再次映射給隱單元,這樣就獲取了新的隱單元。

 

  SAE是由無數個自動編碼器層層堆疊而成,通過一種分層、貪婪的方式進行訓練。一個自動編碼器是一種具有判別能力的圖形化模型,該模型在訓練過程中不斷試圖重構輸入信號。

 

  2.模型實現。

 

  首先,對「黑色金屬冶煉和壓延加工業」大類中包含的666個具體廠商產品的規格品進行分別計算月環比指數,再參照國家統計局PPI調查方法,通過幾何平均的方法計算出45個產品的月環比指數,這樣共得到11個月的環比指數。利用其中的10個月產品環比指數和國家統計局調查結果中的「黑色金屬冶煉和壓延加工業」大類的PPI指數作為訓練集,第11個月數據作為預測集。分別採用隨機森林模型和深度學習中的DBN模型和SAE模型進行建模。

 

  3.模型結果的比較。

 

  從表5中可以看到,隨機森林模型和深度學習模型通過訓練,能夠在權數未知的情況下較好地實現對PPI價格指數的測算,三個模型的結果價格變動趨勢均與國家統計局調查結果一致,誤差分別只有0.5個、0.8個、0.7個百分點。可以預見,隨著時間序列的拉長和訓練集的逐漸增大,三個模型的效果將逐步提高。

 

  表4 聚類結果表

 

分類

K-均值聚類結果

層次聚類結果

1

H型鋼,板坯,不鏽鋼板材,不鏽鋼帶材,彩塗板,齒輪鋼,鍍鋅板,高碳軸承鋼,矽鐵,焊線,合結鋼,角鋼,冷軋板卷,煉鋼生鐵,螺紋鋼,鉬鐵,盤螺,球墨鑄鐵,熱軋板卷,碳結鋼,鐵精粉,無縫管,中厚板,鑄造生鐵

板坯,不鏽鋼板材,彩塗板,齒輪鋼,鍍鋅板,高碳軸承鋼,合結鋼,冷軋板卷,煉鋼生鐵,螺紋鋼,鉬鐵,盤螺,球墨鑄鐵,熱軋板卷,碳結鋼,無縫管,中厚板,鑄造生鐵

2

合格料,剪切料,爐料,統廢,小廢,硬線,中廢,重廢

合格料,剪切料,爐料,統廢,小廢,硬線,中廢,重廢,邊角料,衝花料,鋼板料,鋼筋頭,精爐料,輕薄料,生鐵屑

3

邊角料,槽鋼,衝花料,方坯,鋼板料,鋼筋頭,工字鋼,精爐料,輕薄料,熱軋帶鋼,生鐵屑,鐵刨花,直縫焊管

H型鋼,不鏽鋼帶材,矽鐵,焊線,角鋼,鐵精粉,槽鋼,方坯,工字鋼,熱軋帶鋼,鐵刨花,直縫焊管

 

  表5 黑色金屬冶煉和壓延加工業大類PPI價格環比指數比較表

 

月份

國家統計局調查結果

隨機森林

模型結果

深度學習

DBN模型
結果

深度學習

SAE模型
結果

本文根據

已有權數
計算結果

2015
6

97.9

98.4

98.7

98.6

98.1

 

  六、主要結論及建議

 

  (一)主要結論

 

  第一,本文利用網絡大數據編制出的月環比指數與國家統計局公布的月度數據匹配結果較一致,說明使用網絡大數據作為豐富CPIPPI統計調查渠道是切實可行的。

 

  第二,本文採用K-means聚類和層次聚類方法對產品價格指數趨勢進行聚類分析,可以很直觀地找出價格變動幅度較大或變動異常的產品,亦可很簡便地觀測不同產品指數走勢的趨同性或者不同性。

 

  第三,本文基於數據挖掘方法,對PPI進行模擬構建的模型準確度和穩定性都較高。短期內,基於深度學習模型在準確度和穩定性上更為優秀。可以預見,隨著訓練集在時間上的積累,基於隨機森林和深度學習的數據挖掘模型的訓練精度將得到進一步的提升,學習模型行之有效。

 

  第四,不足之處有以下幾點。一是CPI採集數據量過大,且爬蟲受到網站限制,採集效率較低,採集數據在具體產品和時間上呈斜帶狀分布,對數據精度和有效性造成一定影響。二是網絡大數據中計算PPI的價格多為流通領域價格而非出廠價格,兩者存在時滯,因此變動趨勢在某一時間段內有可能會出現不完全一致的情況;採集數據中產品目錄分類的確定具有一定主觀性。

 

  (二)幾點建議

 

  一是充分利用網絡「數據財富」,實現CPIPPI調查的「減負、共享」。在大數據時代形勢下,國家統計局可以對各資訊網、期貨網等提供的「數據財富」加以利用,改變單一的「報價制」為「採價」與「報價」並舉制,即在繼續採用企業每月上報時點價格的做法的同時,輔以網絡大數據中部分規格品價格的直接採集工作,科學確定採價周期,提高數據獲取的多樣性和簡易性,切實減輕報表負擔。

 

  二是利用網絡大數據加強重要產品或行業價格走勢監測。一是對日用消費品和生產資料市場價格進行實時監測,定時發布,發揮CPIPPI監測經濟運行和反映市場需求變化的重要作用。二是建立和完善分省(市)的特有的重要產品價格監測機制,以便對重點產品的價格進行重點跟蹤監測。

 

  三是進一步向縱深開展與企業的大數據戰略合作。大數據時代,信息高度個性化已經成為現實,「萬物皆聯網、無處不計算」已得到公認。大數據不僅在於容量,更在於通過數據的整合和分析,發現新的知識,創造更大的價值。在此背景下,國家統計局與各類擁有大數據的企業建立戰略合作關係,進一步拓展統計數據獲取渠道,變革統計生產方式,打造現代化服務型統計,必將有助於推動中國現代經濟的再次跨越發展。

 

  參考文獻

 

  [1]  馬建堂. 大數據在政府統計中的探索與應用[M]. 北京: 中國統計出版社, 2013.

 

  [2]  Podesta J Pritzker P Moniz E J et al. Big Date: Seizing Opportunities Preserving Values[R]. American: Executive Office of the President 2014.

 

  [3]  Hilbert M Lopez P. The worlds technological capacity to store communicate and compute information[J]. Science 2011 332(6025): 60-65.

 

  [4]  鄭京平. 國家統計局:大數據給政府統計帶來機遇[J]. 世界電信, 2014(1/2): 98-100.

 

  [5]  彭小年, 倪進. 「大數據和政府統計」研討會觀點綜述[J]. 統計科學與實踐, 2014(2): 4-6.

 

  [6]  李遠芳, 杜瑋浩, 李麗娜, . 網絡零售價格指數(iSPI)報告[R]. 杭州: 阿里研究中心, 2011.

 

  [7]  韓春蕾, 高婉君. 我國月度CPI的組合預測及分析[J]. 統計與決策, 2014(1): 11-13.

 

  [8]  鍾銳,夏政然,楊相磊.基於網絡大數據的PPI及動態預警模型[J]. 統計研究, 2014(z).

相關焦點

  • 湖北調查總隊舉辦專題讀書班
    湖北調查總隊舉辦專題讀書班 2020-12-04 11:27 來源:澎湃新聞·澎湃號·政務
  • 統計局中層幹部調整 全國大規模查處GDP數據造假
    在新一輪的「統計新政」中,開始注意將人才培養和統計制度改革「雙管齊下」。  4年後的國家統計局官員大調整  8日,國家統計局原政策法規司司長程子林告訴南都記者,他已經抵達湖南長沙,就任國家統計局湖南調查總隊黨組書記、總隊長,「手機卡都沒有來得及換,就開始開會部署今後的工作」。
  • 國家統計局關於2020年夏糧產量數據的公告
    、市)的夏糧產量數據,由國家統計局各調查總隊組織在抽中的400多個國家調查縣(市)開展抽樣調查和實割實測調查,得出夏糧產量。   上海、浙江、福建、江西、湖南、廣東、廣西、海南8個省(區、市)的夏糧產量數據由各有關調查總隊根據重點調查測算得出。
  • 統計調查應注重人工智慧應用
    應用二:機器學習提高數據審核處理精度        機器學習是研究計算機模擬或實現人類的學習行為,以獲取新的知識或技能。通過機器學習,計算機系統可獲取數據審核標準以及審核規則,對大量的調查數據開展審核,建立錯誤提示向採集環節的反饋渠道,實現定向修正,確保調查數據真實可靠。
  • 國家統計局:研究數字經濟增加值核算方法 完善能源消費核算方法
    國家發展改革委副主任兼國家統計局局長、黨組書記寧吉喆代表國家統計局黨組做了工作報告。國家統計局黨組成員、副局長鮮祖德主持會議。局黨組成員、副局長李曉超、毛有豐、盛來運,總統計師曾玉平、總工程師文兼武,中央紀委國家監委駐國家發展改革委紀檢監察組副組長張東升出席會議。會議指出,2020年是新中國歷史上極不平凡的一年,也是統計事業在抗疫中持續發展的一年,統計工作取得豐碩成果。
  • 國家統計局:紮實做好農業農村統計調查
    原標題:國家統計局:紮實做好農業農村統計調查1月8日,國家統計局召開局黨組擴大會議,傳達學習中央農村工作會議精神,研究部署貫徹落實工作。國家發展改革委副主任兼國家統計局局長、黨組書記寧吉喆主持會議,強調統計部門要紮實做好農業農村和貧困監測相關統計調查,充分發揮統計數據綜合性基礎性服務性作用,為實施鄉村振興戰略、做好新時代「三農」工作、打贏打好「三大攻堅戰」提供堅實統計保障。會議要求,統計部門要緊緊圍繞會議提出的重要任務,著力填空白、補短板、強弱項。
  • 國家統計局:加強糧食統計調查 研究編制糧食供需平衡表
    央廣網北京1月8日消息(記者張棉棉)據中央廣播電視總臺中國之聲《全國新聞聯播》報導,國家統計局1月8日表示,國家脫貧攻堅普查目前正在進行集中審核驗收和數據匯總分析,2021年將精心開展糧食播種面積和單產調查,研究編制糧食供需平衡表。
  • 國家統計局專家:CPI是如何產生的
    日常生活中,我國城鄉居民消費的商品和服務項目種類繁多,小到針頭線腦,大到彩電汽車,有數百萬種之多,由於人力和財力的限制,不可能也沒有必要採用普查方式調查全部商品和服務項目的價格,世界各國都採用抽樣調查方法進行調查。
  • 2018.03:我國服務業價格統計的探索與實踐(「服務業價格統計研究...
    國家統計局自20世紀90年代中後期開始進行服務業價格統計的研究與探索工作,經歷了傳統調查試點和大數據方式的探索,調查方法制度逐漸完善。本文介紹了我國服務業價格統計的相關理論、服務業價格統計的艱難探索歷程和統計體系的構架,並對我國服務業價格統計工作提出了幾點認識與思考。
  • 2018.11:大數據在政府統計中的應用、瓶頸及融合路徑(餘芳東)
    借鑑聯合國歐洲經濟委員會的大數據分類,國家統計局在「非傳統數據統計應用指導意見」中把大數據界定為通過非傳統調查渠道、從第三方獲取的數據,包括政府部門的行政記錄數據、商業記錄數據、網際網路數據、基於電子設備生成的數據和其他數據等5大類[2]。行政記錄數據和商業記錄數據已在政府統計廣為應用,而對其他類型大數據的應用還很謹慎。
  • 統計局:「三新」統計調查制度不是為了把GDP做大
    關於新經濟統計的問題,盛來運說,監測新經濟,反映新經濟發展的狀況是統計局義不容辭的責任。「三新」統計調查制度不是另搞一套核算制度,更不是為了把GDP做大。  第一,監測新經濟,反映新經濟發展的狀況是統計局義不容辭的責任。
  • 英國國家統計局感染調查:在最新的調查中,每500人中就有1人患有新...
    英國國家統計局感染調查:在最新的調查中,每500人中就有1人患有新冠肺炎;最近幾周,有明顯證據表明,在所有年齡組中,新冠檢測呈陽性的人數在增加。 文/冷靜2020-09-25 19:03:23來源:FX168 英國國家統計局感染調查
  • 統計局住戶調查辦主任詳解居民收入基尼係數測算(組圖)
    需要進一步做深入的制度研究,找出差距原因並消除不公平分配現象。  二、測算基尼係數的基礎數據  根據各國通行做法,國家統計局使用全國城鄉住戶收支抽樣調查數據作為計算基尼係數的基礎。  2012年12月前,全國城鄉住戶收支調查共有14萬戶調查樣本。
  • 數據前沿動態 |國家統計局開放六大類微觀數據
    一、六大類微觀數據簡介國家統計局微觀數據實驗室於2018年底成立後,面向中央和國務院各部門科研機構開放六大類微觀數據:抽樣對象為第三次全國經濟普查中的全部企業法人單位,不包含金融和鐵路系統單位,按照10%的比例進行抽樣。
  • 江蘇局隊聯合開展農作物遙感及農業調查業務培訓
    更新時間:2021年01月12日 08:26:57 江蘇局隊聯合開展農作物遙感及農業調查業務培訓     本報訊 近日,江蘇省統計局與國家統計局江蘇調查總隊在連雲港聯合召開全省農作物遙感及農業調查業務培訓會議
  • 十五、住戶調查(21)
    1 問:住戶調查包括哪些內容?國家統計局是如何開展住戶調查的?   答:住戶調查是以住戶及其家庭成員為調查對象的數據搜集方法,因調查對象群體龐大,一般採用抽樣調查方式組織實施。國家統計局開展的住戶調查主要包括:城鄉居民的收支和生活狀況、農民工監測調查、農民工市民化監測調查、農村貧困監測調查、退耕還林(草)監測調查和農戶固定資產投資調查等。
  • 中共國家統計局宿遷調查隊黨組關於印發「不忘初心、牢記使命...
    、牢記使命」主題教育實施方案》《中共國家統計局黨組關於開展第二批「不忘初心、牢記使命」主題教育的指導意見》《中共國家統計局江蘇調查總隊黨組開展「不忘初心、牢記使命」主題教育工作方案》《國家統計局江蘇調查隊系統第二批「不忘初心、牢記使命」主題教育實施方案》和國家統計局、江蘇調查總隊主題教育相關會議精神
  • 國家統計局公布基尼係數數據來源和測算方法
    國家統計局公布基尼係數數據來源和測算方法 原標題 [國家統計局公布基尼係數數據來源和測算方法]
  • 劉文峰:以「四注重、四結合」培育「四種文化」 助推統計調查事業...
    ——國家統計局江西調查總隊統計文化建設紀實   江西調查總隊成立以來,堅持以科學發展觀為指導,把統計文化建設作為思想建設和隊伍建設的重要組成部分,領導親自抓,幹部帶頭建弘揚偉大的紅軍精神,就是要保持和發揚紅軍的革命熱情和拼命精神,始終牢記提供準確及時全面的統計數據是我們對黨、對國家、對人民的歷史責任,化壓力為動力,化挑戰為機遇,迎難而上、奮發進取。弘揚偉大的紅軍精神,就是要勇於改革不適應科學發展觀要求的統計體制機制和統計調查制度,堅決執行《統計法》、國家統計政策和國家統計調查制度,著力提高統計能力,始終做到不出假數、真實可信、準確完整。