大數據在政府統計中的應用、瓶頸及融合路徑
餘芳東
內容摘要:應用大數據是未來政府統計發展的必然趨勢。本文系統梳理當前政府統計應用大數據的基本類型,研究探索大數據統計應用實踐和基本方法思路,剖析大數據統計應用面臨的困難和瓶頸,提出推進大數據與政府統計工作融合的路徑。大數據的統計應用既有數據獲取和質量上的困難,也有技術和方法上的瓶頸。研究認為,大數據與政府統計工作融合預期將經歷三個漸進的變化階段:從短期看,傳統統計調查仍是政府統計數據的主要來源,而大數據逐漸成為政府統計的重要補充來源;從中期看,在政府統計信息系統中,大數據的影響逐漸上升,而傳統調查的影響有所減弱;從長期看,大數據源將部分(而不是全部)替代傳統調查數據,最終實現大數據和傳統調查數據優勢互補、相互融合的目標。
關鍵詞:大數據;政府統計;數據類型;統計應用;融合路徑
中圖分類號:F222 文獻標識碼:A 文章編號:1004-7794(2018)11-0003-09
DOI: 10.13778/j.cnki.11-3705/c.2018.11.001
一、引言
在當今大數據時代,收集、存儲、分析海量數據,挖掘數據之間相關關係,洞察數據變化規律和趨勢特徵,是經濟社會統計研究的重要內容。通常,大數據具有數據體量大(Volume)、數據類型多樣(Variety)、生成速度快(Velocity)、數據波動大(Volatility)、數據真實性差(Veracity)、數據價值密度低(Value)等多V特徵。一方面,大數據以其高頻率、細粒度、多樣化的優勢,為政府統計開闢了新的數據源,成為政府統計數據的重要補充來源,提升了統計服務能力;另一方面,大數據獲取難度大、數據質量問題多、統計應用難度大,作為政府統計數據源表現出較大的脆弱性,面臨著技術、方法和實際操作層面上的諸多困難和瓶頸。因此,需要對大數據的可用性、連續性、穩定性等質量問題認真評估,對大數據開發利用的成本效益進行深入分析,對不同類型大數據應用的理論方法進行系統可行性論證,以維護政府統計數據的權威性和公信力。可以預見,推進大數據與政府統計工作融合將是長期漸進的過程,需要反覆試驗研究,不可一蹴而就。
從發展趨勢看,大數據在政府統計中應用潛力大,前景廣闊。近年來,各國政府統計機構積極研究探索大數據的統計應用,大力推進大數據與政府統計工作融合,積累了許多有益經驗,取得了很多成功的應用案例。聯合國全球大數據工作組(UNGWG)、世界銀行、國際貨幣基金組織、歐洲經濟委員會、歐盟統計局等有關國際組織也分別組織開展大數據統計應用試驗合作項目,研製大數據質量評估標準,建立大數據統計應用案例共享平臺,舉辦應用技能培訓,共同解決大數據統計應用的世界性難題。本文梳理歸納當前政府統計應用大數據的基本類型,探索研究大數據統計應用實踐和基本方法思路,剖析大數據統計應用面臨的困難和瓶頸,提出推進大數據與政府統計工作融合的初步路徑。
二、政府統計應用大數據的基本類型
在目前政府統計實踐中,還沒有形成通行統一的關於大數據採集、存儲、處理分析的技術方法,實際應用技術方法程序千差萬別,具體選擇取決於大數據的類型、應用領域和研究目的。為有效評估大數據統計應用價值,分析大數據特徵,研究大數據應用方法,更好地指導政府統計應用,有必要對大數據進行分類,按其生成方式、用途和維度可劃分為不同的大數據類型。
(一)按大數據生成方式劃分
聯合國歐洲經濟委員會(UNECE)[1]根據大數據生成方式和來源,劃分為3大類:一是社交網絡數據,指基於人類行為的信息;二是傳統業務系統數據,指在行政管理和企業經營過程中產生的記錄;三是物網聯數據,指基於機器設備生成的數據。前一類是主要表現為非結構化和半結構化數據,數據結構鬆散且不受控;後兩類主要是存儲在關係資料庫系統中的結構化數據。每一大類包括若干個具體的數據類別。
借鑑聯合國歐洲經濟委員會的大數據分類,國家統計局在「非傳統數據統計應用指導意見」中把大數據界定為通過非傳統調查渠道、從第三方獲取的數據,包括政府部門的行政記錄數據、商業記錄數據、網際網路數據、基於電子設備生成的數據和其他數據等5大類[2]。行政記錄數據和商業記錄數據已在政府統計廣為應用,而對其他類型大數據的應用還很謹慎。
(二)按大數據在宏觀經濟社會統計中的用途劃分
歐盟統計局[3]在總結大數據在宏觀經濟社會統計應用研究文獻資料的基礎上,將常用的大數據歸納如下10大類。
一是金融市場數據,主要來源於中央銀行、證券公司、金融市場監管部門等,包括股市、匯市、衍生品及期權交易和報價等高頻數據,可用於宏觀經濟預警預測。
二是電子支付數據,主要來源於銀行、金融服務公司、信用卡公司等,包括信用卡、借記卡、信用轉帳、直接借記、支票交易等高頻數據,可用來分析和監測消費行為、消費支出、商品銷售、資金流動等經濟活動情況。
三是移動手機數據,主要來源於網絡運營商、第三方軟體開發商等,包括從移動手機接收/撥打電話、簡訊、微信等信息,可用於人口密度、人口流動、人口分布以及交通統計、旅遊統計等。
表1 聯合國歐洲經濟委員會(UNECE)關於大數據分類
編號
數據類型
編號
數據類型
1
社交網絡數據
2250
企業網頁數據
1100
臉書網、維特、英領等社交網據
2260
掃描數據
1200
博客、評論等信息
3
物聯網數據
1300
個人資料
31
來自傳感器的數據
1400
圖片
311
固定傳感器數據
1500
視頻
3111
家庭自動化
1600
搜尋引擎上的網際網路搜索數據
3112
天氣/汙染傳感器
1700
簡訊、通話記錄、數據記錄、位置更新、廣播覆蓋更新、在線新聞等文本信息
3113
交通傳感器/攝像頭
1800
用戶生成的地圖
3114
科學傳感器
1900
電子郵件
3115
安全/監視錄像圖像
2
傳統業務系統記錄數據
312
移動傳感器(跟蹤)數據
21
來自公共機構的數據
3121
行動電話定位(GPS)
2110
行政管理數據
3122
汽車、飛機、船隻等信號
22
來自企業的數據
3123
衛星圖像
2210
商業交易數據
32
計算機系統數據
2220
銀行/證券記錄
3210
日誌
2230
電子商務
3220
網頁日誌
2240
信用卡數據
四是物聯網數據,主要來源於政府公共部門和私營部門,包括汽車、船舶、飛機、智能表、檢測監測設備等附帶的傳感器/追蹤器數據和自動傳輸數據,可用於交通流量統計、人口流動分布統計以及能源資源統計等。
五是衛星遙感圖像數據,主要來源於政府部門和私營部門,包括衛星遙感拍攝的各種高清晰圖像,可用於測量國土面積、農業和林業種植面積、農作物產量及其結構分布等統計信息。
六是掃描價格數據,由零售商提供的各類商品價格、銷售等高頻數據,可用來編制分地區、分商品的價格指數。
七是網絡抓取價格數據,利用網絡抓取技術自動靈活地收集電商網上價格數據,以補充和擴展消費者價格指數範圍。
八是網絡搜索數據,從網際網路收集特定關鍵詞的搜索量和搜索頻率,或者是來自搜尋引擎的網絡搜索數據,可用來分析公共輿情、情緒和政策反應等。
九是文本數據,收集新聞媒體、維基百科等文本摘要形式的各種信息,從中挖掘經濟社會活動的變化趨勢和規律特徵。
十是社交媒體數據,包括在維特、臉譜等網際網路上用戶相互溝通交流的信息,觀察人們的行為反應和活動,可用來監測投資消費市場情緒、公共輿情變化。
據聯合國全球大數據工作組(UNGWG)2015年[4]對32個經合組織(OECD)國家、61個非OECD國家和歐盟統計局的調查,在政府統計中最常用的大數據類型有掃描價格數據、網絡抓取價格數據、移動手機數據、衛星遙感圖像數據,其次是金融市場數據和電子支付數據,社交媒體數據和網絡搜索數據因涉及隱私保密問題在政府統計中還很少應用。
(三)按大數據的縱橫維度劃分
根據大數據在時間和橫截面上的不同維度,可劃分為3類。
一是以時間序列為主的大數據集,即時間維度(T)長,而橫截面變量維度(N)有限,如金融市場數據、電子支付數據、掃描價格數據、網絡抓取價格數據等高頻數據,通常採用經典的時間序列計量濟模型進行統計推斷和宏觀經濟預警預判。
二是以橫截面為主的大數據集,即時間維度有限,而截面變量維度很多,主要表現為面板數據,通常採用面板估計方法分析數據變量之間的相關比例關係,並對相關指標進行統計推斷。
三是面板大數據集,即時間維度很長,橫截面維度很多,須採用大數據技術和模型估計方法,分析數據變量之間的相關關係以及變化特徵,並進行相關統計推算和推斷。許多大數據是最近才剛開始收集的,時間維度相對有限,但隨著時間的推移,面板大數據集將是大數據最主要的表現形式。
三、大數據在政府統計中的主要應用領域和獲取方式
目前各國政府統計機構對大數據的應用還處在研究試驗階段,通過組建大數據工作組,設立針對不同數據類型和專業應用的大數據研究試驗項目,探索解決大數據採集、分類、清洗、存儲、處理、估算、分析等問題。
(一)主要應用領域
縱觀各國統計機構對大數據的應用研究實踐,主要應用領域有:一是價格統計,基於掃描價格數據和網絡抓取價格數據編制價格指數,許多經合組織國家已經將此類數據源納入價格指數的編制過程中;二是人口、遷移流動、勞動力和旅遊統計,利用移動手機數據進行人口和勞動力的流動和分布統計以及旅遊統計;三是交通統計,利用道路感應器和船隻識別數據進行交通流量和交通強度統計;四是農業和地理信息統計,利用衛星遙感圖像數據開展農業統計和空間地理分布統計。此外,利用水電氣智能表進行能源環境統計、住房統計,利用信用卡數據開展零售和居民消費支出統計,等等。大數據幾乎可以用於政府統計的所有專業領域,而且每一專業領域可能需要應用若干個不同的大數據類型,同一類型大數據也可用於不同的專業領域。各國視本國大數據資源情況,確定應用的重點領域。
總體上,發達國家政府統計應用大數據的力度要比發展中國家更大,應用面更廣泛,研究更深入。據調查,在報告的全球115個大數據項目中,有89個來自OECD國家,22個來自非OECD國家,4個項目來自歐盟統計局;有94%的經合組織國家政府統計已經使用或正考慮使用大數據補充和拓展價格統計數據來源,許多國家成為大數據統計應用開發研究的前沿陣地。而多數發展中國家認為大數據源是政府統計數據的重要補充來源,並強調可用於所有統計專業領域,但應用研究的進展相對緩慢,研究項目相對較少。在國際層面,世界銀行、聯合國全球大數據主要開展將大數據特別是行政數據用於可持續發展目標(SDG)監測的可行性研究。
表2 各國政府統計應用大數據的試驗研究項目
類型
主要應用領域
所用的國家統計機構
掃描價格數據
用於消費者價格指數
奧地利、比利時、丹麥、歐盟、芬蘭、荷蘭、以色列、義大利、日本、盧森堡、羅馬尼亞、南非、斯洛伐克、瑞士
用於改進住戶收支調查的可能
瑞典
用於住戶食品購買和零售食品消費統計研究
美國
用於估算國民核算、住戶收支和企業統計
捷克
網絡抓取
價格數據
用於估計職位空缺統計研究
匈牙利
用於編制消費價者價格指數
比利時、中國、奧地利、芬蘭、荷蘭、德國、匈牙利、以色列、日本、挪威、韓國、西班牙、美國、斯洛伐克、厄瓜多
利用網絡收集統計信息的方法研究
歐盟統計局
收集勞動力市場統計數據、用來編制調查框架
波蘭
網絡抓取的數據源和應用研究
瑞典
用於可持續發展監測
突尼西亞
移動手機數據
用於旅遊統計、人口流動統計的可行性研究
歐盟統計局
用於旅遊統計的試驗項目
愛爾蘭、捷克
用於人口流動和分布統計的研究
義大利、荷蘭、韓國、斯洛伐克
用於勞動力統計的研究
英國
用於移民統計
波蘭
用於交通統計
以色列
衛星圖像或
遙感數據
用於農業統計
中國
用於統計單位地理位置研究
比利時
獲取地形、地質、土地利用、地理製圖等統計信息
墨西哥
用於農業和資源統計
美國
用於農業普查和建築物住宅統計
蒙古
社交媒體數據
用於消費信心指數研究
荷蘭
用於獲取統計和地理信息
墨西哥
研究維基統計和官方統計的相關關係
愛爾蘭
用來建立幸福指數的試驗研究
厄瓜多
信用卡數據
信用卡交易數據和零售數據之間比較
中國
利用信用卡數據改進住房收支調查的可能性
瑞典
利用信用卡數據估計消費支出的評估
美國
道路感應器和
船隻識別數據
用於社區統計
芬蘭
用於高速公路和水運交通統計
中國
用於旅遊統計
匈牙利
用於交通統計
以色列
用於交通強度統計
荷蘭
水電氣智能表
用於能源和環境統計研究
比利時
用於居民電消費量統計以部分取代住戶調查
加拿大
用於人口和住房、住房入住率、空置率統計研究
英國、愛爾蘭
註:根據UNGWG網站https://unstats.un.org/bigdata/inventory/整理。
(二)大數據獲取的主要方式
數據獲取是大數據統計應用的主要挑戰之一。除社交媒體數據、網絡抓取數據、部分網絡搜索數據可公開免費獲取以外,其他各種類型大數據有的是政府部門的非公開數據,有的是私營部門的專屬數據資源。政府統計部門必須依法依規並以成本效益為原則獲取和應用大數據。對於行政記錄數據,各國主要獲取方式和應用條件是:明確政府統計機構有權獲取和應用行政記錄數據的法律規定;政府部門數據信息實行統一標識和編碼,便於不同數據源的合併融合;必須遵守保密機密法規制度,僅用於統計目的;政府統計機構有權參與並影響行政記錄的生產設計和收集過程等。對於其他類型大數據,各國最常見的獲取方式是與大數據提供方(如行動電話運營商、零售商店和連鎖超市、新聞媒體、信用卡公司和支付公司等)建立數據合作夥伴關係,籤訂數據共享機制協議,或者從大數據公司、信息技術公司等第三方直接購買數據。一些國家正在研究制定國家層面的數據共享機制,審查修訂隱私保護立法框架,以確保政府統計機構合法獲取和應用各類大數據源。
考慮到大數據採集、清理、處理和分析涉及信息技術、數據挖掘、統計推斷等多學科知識和技能,政府統計機構無法獨立完成大數據開發應用過程,必須與相關部門開展合作,聯合開發應用。在大數據存儲管理方面,可以向第三方購買雲服務,以解決數據存儲問題,減輕建設信息基礎設施的壓力;可以將分析處理直接外包給數據提供方,政府統計機構不需要與數據提供者共享微觀基礎數據,避開了隱私機密等敏感問題。在大數據開發應用方面,組建由統計部門、其他政府部門、私營部門、研究團體組成的大數據研究團隊和大數據應用實驗室,吸納跨學科跨部門的專家學者共同研究開發應用大數據。因此,政府統計機構在確定大數據開發應用項目時,須通盤考慮主要合作夥伴、信息技術基礎設施、人力資源、資金來源等因素,列出大數據應用項目需要優先解決的問題清單。
為推進大數據統計應用,有關國際組織也十分注重建立大數據合作夥伴關係。歐盟統計局成立大數據開發小組,歐洲經濟委員會提出大數據倡議,廣泛開展大數據應用合作項目,在掃描數據、網絡抓取數據、移動手機數據、地理觀測數據的統計應用方面取得了實質性成果,有的已進入統計生產實施階段。許多發展中國家則通過聯合國全球大數據工作組、世界銀行、全球脈搏、促進統計發展戰略夥伴關係等,開展國際層面大數據應用合作,分享最佳實踐經驗。
四、大數據在政府統計中的主要用途和方法思路
這是大數據統計應用的內核,也是研究探索的重點。從全球應用實踐看,目前大數據在政府統計中起著重要的補充作用,在一些專業領域的應用方法思路上已取得初步研究成果。
(一)主要用途
1.擴展現有統計調查範圍,使政府統計數據更全面和更詳盡。
利用網絡抓取價格數據編制消費者價格指數,將價格調查範圍從線下擴展到線上,補充傳統調查未覆蓋的代表群體,更全面反映居民消費價格變動情況。
2.取代部分統計調查項目,進行統計估算和推斷,減輕統計調查負擔。
利用行政登記數據開展人口普查和生命統計、海關統計和國際收支統計,利用水電氣智能表統計居民水電消費量,利用高速公路聯網監控系統數據統計公路運輸量,利用衛星遙感圖像數據測量農作物面積和農產品產量。這些大數據可以部分取代現有統計調查項目。
3.評估核查校驗現有統計數據,提高數據真實準確性。
利用信用卡數據和掃描數據評估社會消費品零售總額、居民消費支出及其分地區數據,改進貿易統計和住戶調查數據質量;利用工程機械企業主要設備工作時間和綜合開工率走勢,來判斷全國投資增速的合理性。
4.對現有關鍵指標進行實時監測預報,提高統計數據及時性。
利用移動手機數據開展人口、勞動力流動和分布統計,將統計頻率從年度、季度提高到月度,甚至每天進行實時觀測;利用金融市場數據、谷歌趨勢數據進行經濟增長的短期預報,開展實時統計監測,彌補現有宏觀經濟統計數據的延滯性問題。
5.獲取地理信息,完善抽樣框,提高統計設計能力。
利用衛星遙感圖像數據和社交媒體數據作為識別調查單位的輔助信息,製作地理分布位置圖,改進人口和勞動力調查、企業調查抽樣框,實現統計調查全覆蓋。
6.開展輿情調查分析,提高統計服務水平。
利用反映網際網路行為趨勢、情緒變化的社交媒體數據編制投資消費信心指數,構建輿情趨勢監測指標,觀察經濟社會活動新模式、生活消費新趨勢,加強對經濟社會運行的測量和描述。
總之,大數據是政府統計的重要補充來源,可補充現有政府統計在覆蓋範圍、細粒度上的不足,填補重要數據缺口,改善政府統計相關性;提高統計頻率,增強政府統計及時性;部分替代傳統統計調查項目,減輕統計調查負擔,提高政府統計生產的成本效率;生產新的統計產品,提供新的統計洞察力,提升政府統計服務能力。
(二)主要方法思路
大數據體量大、頻率高、可變性強,具有很大的不確定性,事先無法設置確定的變量關係模式,因此大數據應用不能再現傳統統計生產過程,也不能運用傳統的統計方法來處理,而主要依賴各種算法來挖掘發現大數據的規律特徵,通過建模方法進行統計估算和推斷。大數據統計推斷的技術可行性、方法合理性以及結果的有效性,是評估判斷大數據統計應用是否成功的重要依據。在認定大數據的統計價值和成本效益之後,大數據的統計應用通常須經過3個階段:一是大數據處理,包括數據存儲和管理、數據源質量評估、數據結構轉換、數據清洗和異常值檢測等;二是大數據分析,通過機器學習、網絡分析、模式識別和可視化展示等數據挖掘技術,尋找發現數據特徵、相關關係和變化規律,在此基礎上進行統計匯總和統計推斷,衡量經濟社會現象的規模、水平、速度、比例關係,預測預判變化趨勢;三是結果評估,從統計專業角度對數據結果進行科學性審查,從經濟社會角度對數據結果進行合理性和可解釋性評估,並與其他結果進行相互驗證,確保統計結果真實準確可靠。
大數據統計應用的方法很多也很複雜,具體方法取決於不同的專業領域和不同的大數據類型。實際應用時要突破傳統統計理論的框框,創新統計方法和統計思維。在價格統計方面,掃描價格數據和網絡抓取價格數據已成為許多發達國家編制價格指數的新數據源。面對採價產品數量規模大、更新換代快的全量數據,需要突破「比較不同時期固定數量籃子同質可比的產品和服務價格」[5]這一傳統價格指數理論框架。為此,英國、荷蘭、比利時等統計局專門針對網絡抓取數據和掃描數據提出比較固定類群相對同質可比的產品價格,觀測反映消費者購買同質同類產品群的價格變化。在比較的時期內產品類群是固定的,而具體產品是可變的。相應地,提出了一系列適用於新數據源的指數方法。例如,英國提出採用大型數集聚類價格指數方法(Clustering large datasets into price Indices,簡稱CLIP)[6]計算基本分類以下不同時期相同產品類群的價格之比,而不是具體產品價格之比。其前提條件是要對巨量的採價產品進行聚類,最大限度地增加群內產品的高度同質性和相似性,以保證群內產品沒有顯著差異,以降低價格指數的偏差。歐盟統計局提出採用動態方法和多邊比較方法(GEKS法、TPD法、GK法等)[7]計算分類價格指數,以解決採價產品更新快的問題。顯然,這些理論框架方法是對傳統價格指數理論方法的拓展和延伸。國際貨幣基金組織計劃修訂《消費者價格指數手冊:理論與實踐》,增加新數據源收集和應用的基本理論方法。大數據統計應用的理論突破和方法創新必須進行公理檢驗,具有經濟含義的可解釋性和統計推斷的有效性,充分體現方法的無偏性和科學嚴謹性。
在地理觀測數據方面,聯合國統計委員會在總結各國實踐研究的基礎上,組織制定了「地理觀測數據用於官方統計手冊」[8],把大數據統計應用分析方法歸納為5種:經驗方法,即傳統統計模型方法;半經驗方法,即在傳統統計模型中加入不確定變量參數;數學方法,即基於複雜的信息系統建立精準的參數模型;對象分析方法,即對現場數據進行精準分類匯總;人工智慧方法,即機器學習方法,利用各種算法對數據進行分類(如邏輯和多項式回歸法、高斯最大似然法、貝葉斯網絡法、分類樹法、支持向量機法)、聚類(如K-均值法、凝聚聚類法、混合聚類法)、回歸(如線性回歸法、回歸樹法、神經網絡)、降維(如主成分分析法、獨立分量分析法)等。具體方法的選擇取決於大數據特性、統計估計推斷目標以及統計開發團隊專業知識。國際上各種關於大數據統計應用手冊和指南為各國政府統計機構應用大數據提供了理論依據、方法指導和最佳實踐參考。
五、困難和瓶頸
在實際中,大數據的統計應用既有數據獲取和質量上的困難,也有技術和方法上的瓶頸,它無法全部替代傳統調查和統計分析。在推進大數據和政府統計工作融合過程中,既要防止「大數據傲慢」[8],因冒進和強推而損害政府統計工作的科學嚴謹權威,影響政府統計數據質量和社會公信力;又要防止放大大數據的應用風險,對大數據的統計應用持觀望猶豫態度,從而導致應用進程緩慢。政府統計機構在大數據應用的試驗研究和實踐探索過程中,還面臨許多困難和瓶頸。
1.大數據獲取問題。
與傳統調查數據不同,大數據是經濟社會管理運行的副產品,往往為政府部門和私營部門所專有,因涉及隱私機密、數據轉讓、商業價值等敏感性問題,單靠政府統計機構和大數據提供者建立的雙邊自願性合作夥伴關係難以維繫,無法滿足長期可持續的政府統計生產需要。實現大數據統計應用的合法化和合規性,暢通規範大數據獲取渠道,增強大數據應用過程和目標的透明性,實行必要的隱私機密保護措施,是各國政府促進大數據應用戰略必須解決的首要問題。
2.大數據質量問題。
大數據是隨著網絡系統、環境規則、社會行為等因素變化的動態產物,具有波動性大、真實性差和價值密度低等特徵,因目標群體不明確、選擇偏倚、累積誤差、虛假相關、信息中斷、高頻數據不規則性和周期性模式等固有現象,數據存在較大的不準確、不完整、不可比、不一致、不連續、不穩定等諸多質量問題[9]。不是所有大數據都能用於政府統計,統計學並不接受大數據集更接近「真值」的命題,因為客觀真值在很大程度上取決於大數據潛在總體的代表性以及大數據統計推斷的過程和方法[10]。因此,政府統計應用大數據在某種情況下離不開、也替代不了傳統調查數據。同時,應用大數據也意味著政府統計機構從數據的獨立調查者變為依賴外部市場的數據用戶,如果網絡運營商、社交媒體集團等大數據提供者對數據質量有主觀幹預或者行為控制,則可能危及政府統計的客觀獨立性和社會公信力。質量是官方統計數據的核心,遵循官方統計質量基本標準,對大數據源進行質量評估,保持數據的客觀獨立性,是各國政府統計機構面臨的難題。
3.大數據應用的技術問題。
大數據具有體量大、來源多樣、生成快等特徵,而且很多表現為非結構化數據,難以用傳統數據體系結構進行有效處理,其採集、轉換、清理、存儲、處理等技術異常複雜,超出傳統統計數據管理和處理能力,也超越現有統計基礎設施的所及範圍。大數據的統計應用不僅涉及自然語言處理、音頻信號處理和圖像處理等方面專業技能,還需要模式差異識別、機器學習算法、模型推算等方面專業知識。缺乏這些必要的技能和知識是目前阻礙政府統計應用大數據的主要約束因素。建立健全統計信息基礎設施,開發大數據採集、轉換、清理、存儲、處理等現代技術系統,引進和培養兼具統計、信息技術和機器學習專門知識人才,提高大數據統計應用能力,是構建現代化政府統計體系的主要任務。
4.大數據應用的方法論問題。
大數據統計應用集信息技術、數據科學和統計方法於一身,涉及統計學、計算機科學、應用數據、經濟學等多種學科,是政府統計的範式轉變。大數據統計應用的理論方法框架在很大程度已突破傳統統計理論方法範疇,甚至需要修改現有傳統的統計概念和定義,才能解決基於大數據源的統計推斷方法問題。大數據總體不等於統計目標總體,也不是目標總體的隨機樣本,很難應用傳統統計理論方法來推斷。目前許多國家大數據應用項目仍然利用傳統的統計方法,應用結構化關係資料庫和電子表格等傳統統計工具。這一方面說明大數據統計應用的門檻沒有想像的那麼高,大數據應用方法不是深不可測和高不可攀的;另一方面也暴露了當前政府統計機構在大數據統計應用理論方法方面的欠缺,影響大數據源的有效挖掘和充分應用。破解大數據與政府統計融合的方法論問題,是政府統計機構在大數據時代所面臨的新課題。
此外,大數據獲取、處理分析需要投入相對高昂的人財物,開展成本效益評估也是政府統計機構在應用大數據時必須考慮的問題。為了幫助解決各國政府統計機構面臨的上述諸多問題,聯合國全球大數據工作組、國際貨幣基金組織、歐洲經濟委員會等有關國際組織已經開始研製大數據質量框架、建立大數據統計應用案例共享平臺、開展大數據統計應用技能方法培訓,幫助各國特別是發展中國家降低大數據統計應用門檻,推動大數據在政府統計中的應用。
六、推進融合的路徑
政府統計機構對統計信息的壟斷時代已不復存在,只有通過 「設計的」傳統數據源與「發現的」大數據源的相互融合組合,才能產生強大的統計信息系統,從而增強政府統計提供高效而有效的統計服務能力。推進大數據統計應用是未來政府統計的發展方向和必然趨勢。自政府統計建立形成以來,曾經歷了從普查到抽樣調查的統計範式轉變。可以預見,大數據統計應用是政府統計的又一次範式大變革,政府統計機構將從單純的數據收集者轉變為兼具不同數據源的融合者、數據源質量的評估者。大數據與政府統計工作融合預期將經歷3個漸進的變化階段:從短期看,普查、抽樣調查等傳統統計調查仍是政府統計數據的主要來源,而大數據則是政府統計的重要輔助來源;從中期看,在政府統計信息系統中,大數據的影響逐漸上升,而傳統調查數據的影響有所減弱;從長期看,大數據源將部分(而不是全部)替代傳統調查項目,最終實現大數據和傳統調查數據優勢互補、相互融合的目標。
近年來,我國政府統計機構確定了「總體設計、牽頭攻關、先易後難、專業突破」的總體思路和「打造政府統計數據來源第二軌」的工作目標[11],加快促進大數據與政府統計工作融合,紮實推進大數據在政府統計中的應用,已取得重大成果。在大數據獲取方面,積極與各政府部門合作建立數據共享機制,與大數據相關企業籤署大數據戰略合作框架協議,利用行政記錄和企業大數據補充完善政府統計;在大數據統計應用方面,幾乎所有專業統計領域利用不同類型的大數據源進行數據補缺、校驗、評估、推算等。我國在利用遙感圖像和地面定位技術系統完善農作物播種面積和產量估計方面已處於世界領先水平。大數據作為政府統計數據的重要補充來源,對提高政府統計的科學性、準確性和時效性發揮積極作用。但是與全球大數據應用程度相比,我國部分專業統計領域應用大數據的力度有待進一步加強,大數據統計應用的技術方法研究有待進一步深入,大數據統計應用能力和水平有待進一步提高,推進大數據與政府統計融合的任務依然艱巨。為此,應制定大數據統計應用的路線圖,明確融合路徑,加快構建現代化政府統計體系步伐。
1.建立健全大數據應用的法律規範和數據共享開放的機制制度,為政府統計應用大數據營造良好的環境保障。
一是完善各類大數據應用的隱私機密保護和安全保障立法機制,既要保證數據信息安全可控,又要明確相關主體提供大數據源的法律義務,為大數據在政府統計中的應用奠定基礎。二是充分利用「五證合一」改革成果,健全部門信息標準化機制和信息共享機制,不斷提高電子化的行政記錄數據在政府統計中的利用程度。三是打造政府統計部門與企業、社會團體之間大數據開放共享平臺,暢通大數據獲取渠道,實現大數據與傳統調查數據的相互連接、相互補充。
2.制定大數據統計應用工作規劃,提高適應大數據時代的綜合統計能力,充分挖掘利用大數據的統計價值。
一是建立適應大數據特徵的信息技術基礎設施,提高大數據採集、存儲、處理、分析能力;二是研製不同類型的大數據統計推斷方法理論方法框架,開發大數據統計應用技術工具、大數據質量評估框架,增強大數據統計應用的嚴謹性和有效性;三是建立大數據應用庫,收集各種類型的大數據資料,鼓勵相關單位開展開發應用研究;四是建立與政府、企業、學術界與統計界的多學科合作夥伴機制,提高研究和解決大數據統計理論方法和實際應用技術問題的能力;五是引進和培養大數據統計應用人才,組建涵蓋統計方法、數據科學、信息技術等專家的大數據統計應用研究團隊,分工協作,聯合攻關。
3.以專業項目為抓手,先易後難,專業突破,穩步推進大數據與政府統計工作的深度融合。
可先從掃描價格數據、網絡抓取價格數據、移動手機數據、衛星遙感數據等數據源相對穩定、質量相對較好、有一定經驗基礎的大數據類型入手,設置不同專業領域研究試驗小組,跟蹤觀察不同類型大數據的變化特徵,深入探索大數據採集、清理、過濾、存儲、評估、分析等環節的技術工具和手段,系統研究大數據應用統計理論方法,認真評估大數據的統計推斷結果,不斷總結,反覆試驗,最終形成大數據在各個專業統計領域的應用手冊和最佳實踐指南。本著「成熟一個推廣應用一個」原則,把大數據的統計應用落實到每一專業統計工作中,真正實現大數據與政府統計工作交互融合。
4.加強國際合作,借鑑國際先進經驗做法,提升我國政府統計應用大數據的能力和水平。
大數據統計應用是世界統計發展趨勢,也是當前各國政府統計機構面臨的共同難題。近年來,有關國際組織和國家加大大數據統計應用研究力度,在大數據質量評估、部分專業領域的應用技術方法等方面取得突破性進展,積累了許多有益的經驗。一要密切關注國際上關於大數據統計應用的最新動態和成果,認真研究,及時消化吸收借鑑;二要通過研討、培訓、項目合作等方式,積極主動地開展國際合作交流,共享知識經驗,不斷提高我國大數據統計應用在國際上的影響力。
參考文獻
[1] UNECE Task Team. Classification on Big Data [EB/OL]. UNECE Wiki, June 2013.
[2] 國家統計局, 國家發展改革委. 非傳統數據統計應用指導意見[EB/OL]. 國統字[2017]160號.
[3] Buono D, Mazzi G L, Marcellino M, et al. Big data types for macroeconomic nowcasting [J]. Eurostat Review on national accounts and Macroeconomic indicators, 2017(1): P93-145.
[4] UN Statistical Commission. Report of the 2015 Big Data Survey [EB/OL]. Forty-seventh session 8–11 March 2016 Item 3(c) of the provisional agenda Big Data for official statistics.
[5] 國際貨幣基金組織. 消費者價格指數手冊: 理論與實踐[M]. 中國財政經濟出版社, 2008: 12-21.
[6] Office for National Statistics of UK. Research indices using web scraped price data: clustering large datasets into price indices (CLIP) [EB/OL]. 30 November 2016.
[7] Eurostat. Practical Guide for Processing Supermarket Scanner Data [A]. 2017.
[8] UN Satellite Imagery and Geospatial Data Task Team report, Earth Observations for Official Statistics [A]. December 2017.
[9] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis [J]. Science, 2014, 343(6176): 1203.
[10] 餘芳東. 非傳統數據質量評估的國際經驗及借鑑[J]. 統計研究, 2017(12): 15-23.
[11] Tam S, Clarke F. Big Data, Statistical Inference and Official Statistics [J]. International Statistical Review, 2016, 83(3): 436-448.
[12] 馬建堂. 大數據: 政府統計的新機遇[M]. 北京: 中國統計出版社, 2015: 125-131.
作者簡介:
餘芳東,女,浙江台州人,現為國家統計局統計科學研究所三級職員,研究方向為經濟統計和國際比較統計。