2018.11:大數據在政府統計中的應用、瓶頸及融合路徑(餘芳東)

2021-01-17 國家統計局

大數據在政府統計中的應用、瓶頸及融合路徑

 

餘芳東

 

  內容摘要:應用大數據是未來政府統計發展的必然趨勢。本文系統梳理當前政府統計應用大數據的基本類型,研究探索大數據統計應用實踐和基本方法思路,剖析大數據統計應用面臨的困難和瓶頸,提出推進大數據與政府統計工作融合的路徑。大數據的統計應用既有數據獲取和質量上的困難,也有技術和方法上的瓶頸。研究認為,大數據與政府統計工作融合預期將經歷三個漸進的變化階段:從短期看,傳統統計調查仍是政府統計數據的主要來源,而大數據逐漸成為政府統計的重要補充來源;從中期看,在政府統計信息系統中,大數據的影響逐漸上升,而傳統調查的影響有所減弱;從長期看,大數據源將部分(而不是全部)替代傳統調查數據,最終實現大數據和傳統調查數據優勢互補、相互融合的目標。

 

  關鍵詞:大數據;政府統計;數據類型;統計應用;融合路徑

 

  中圖分類號:F222  文獻標識碼:A  文章編號:1004-7794(2018)11-0003-09

 

  DOI: 10.13778/j.cnki.11-3705/c.2018.11.001

 

  一、引言

 

  在當今大數據時代,收集、存儲、分析海量數據,挖掘數據之間相關關係,洞察數據變化規律和趨勢特徵,是經濟社會統計研究的重要內容。通常,大數據具有數據體量大(Volume)、數據類型多樣(Variety)、生成速度快(Velocity)、數據波動大(Volatility)、數據真實性差(Veracity)、數據價值密度低(Value)等多V特徵。一方面,大數據以其高頻率、細粒度、多樣化的優勢,為政府統計開闢了新的數據源,成為政府統計數據的重要補充來源,提升了統計服務能力;另一方面,大數據獲取難度大、數據質量問題多、統計應用難度大,作為政府統計數據源表現出較大的脆弱性,面臨著技術、方法和實際操作層面上的諸多困難和瓶頸。因此,需要對大數據的可用性、連續性、穩定性等質量問題認真評估,對大數據開發利用的成本效益進行深入分析,對不同類型大數據應用的理論方法進行系統可行性論證,以維護政府統計數據的權威性和公信力。可以預見,推進大數據與政府統計工作融合將是長期漸進的過程,需要反覆試驗研究,不可一蹴而就。

 

  從發展趨勢看,大數據在政府統計中應用潛力大,前景廣闊。近年來,各國政府統計機構積極研究探索大數據的統計應用,大力推進大數據與政府統計工作融合,積累了許多有益經驗,取得了很多成功的應用案例。聯合國全球大數據工作組(UNGWG)、世界銀行、國際貨幣基金組織、歐洲經濟委員會、歐盟統計局等有關國際組織也分別組織開展大數據統計應用試驗合作項目,研製大數據質量評估標準,建立大數據統計應用案例共享平臺,舉辦應用技能培訓,共同解決大數據統計應用的世界性難題。本文梳理歸納當前政府統計應用大數據的基本類型,探索研究大數據統計應用實踐和基本方法思路,剖析大數據統計應用面臨的困難和瓶頸,提出推進大數據與政府統計工作融合的初步路徑。

 

  二、政府統計應用大數據的基本類型

 

  在目前政府統計實踐中,還沒有形成通行統一的關於大數據採集、存儲、處理分析的技術方法,實際應用技術方法程序千差萬別,具體選擇取決於大數據的類型、應用領域和研究目的。為有效評估大數據統計應用價值,分析大數據特徵,研究大數據應用方法,更好地指導政府統計應用,有必要對大數據進行分類,按其生成方式、用途和維度可劃分為不同的大數據類型。

 

  (一)按大數據生成方式劃分

 

  聯合國歐洲經濟委員會(UNECE)[1]根據大數據生成方式和來源,劃分為3大類:一是社交網絡數據,指基於人類行為的信息;二是傳統業務系統數據,指在行政管理和企業經營過程中產生的記錄;三是物網聯數據,指基於機器設備生成的數據。前一類是主要表現為非結構化和半結構化數據,數據結構鬆散且不受控;後兩類主要是存儲在關係資料庫系統中的結構化數據。每一大類包括若干個具體的數據類別。

 

  借鑑聯合國歐洲經濟委員會的大數據分類,國家統計局在「非傳統數據統計應用指導意見」中把大數據界定為通過非傳統調查渠道、從第三方獲取的數據,包括政府部門的行政記錄數據、商業記錄數據、網際網路數據、基於電子設備生成的數據和其他數據等5大類[2]。行政記錄數據和商業記錄數據已在政府統計廣為應用,而對其他類型大數據的應用還很謹慎。

 

  (二)按大數據在宏觀經濟社會統計中的用途劃分

 

  歐盟統計局[3]在總結大數據在宏觀經濟社會統計應用研究文獻資料的基礎上,將常用的大數據歸納如下10大類。

 

  一是金融市場數據,主要來源於中央銀行、證券公司、金融市場監管部門等,包括股市、匯市、衍生品及期權交易和報價等高頻數據,可用於宏觀經濟預警預測。

 

  二是電子支付數據,主要來源於銀行、金融服務公司、信用卡公司等,包括信用卡、借記卡、信用轉帳、直接借記、支票交易等高頻數據,可用來分析和監測消費行為、消費支出、商品銷售、資金流動等經濟活動情況。

 

  三是移動手機數據,主要來源於網絡運營商、第三方軟體開發商等,包括從移動手機接收/撥打電話、簡訊、微信等信息,可用於人口密度、人口流動、人口分布以及交通統計、旅遊統計等。

 

 

                   表1   聯合國歐洲經濟委員會(UNECE)關於大數據分類

 

編號

數據類型

編號

數據類型

1

社交網絡數據

2250

企業網頁數據

1100

臉書網、維特、英領等社交網據

2260

掃描數據

1200

博客、評論等信息

3

物聯網數據

1300

個人資料

31

來自傳感器的數據

1400

圖片

311

固定傳感器數據

1500

視頻

3111

家庭自動化

1600

搜尋引擎上的網際網路搜索數據

3112

天氣/汙染傳感器

1700

簡訊、通話記錄、數據記錄、位置更新、廣播覆蓋更新、在線新聞等文本信息

3113

交通傳感器/攝像頭

1800

用戶生成的地圖

3114

科學傳感器

1900

電子郵件

3115

安全/監視錄像圖像

2

傳統業務系統記錄數據

312

移動傳感器(跟蹤)數據

21

來自公共機構的數據

3121

行動電話定位(GPS)

2110

行政管理數據

3122

汽車、飛機、船隻等信號

22

來自企業的數據

3123

衛星圖像

2210

商業交易數據

32

計算機系統數據

2220

銀行/證券記錄

3210

日誌

2230

電子商務

3220

網頁日誌

2240

信用卡數據

 

 

 

  四是物聯網數據,主要來源於政府公共部門和私營部門,包括汽車、船舶、飛機、智能表、檢測監測設備等附帶的傳感器/追蹤器數據和自動傳輸數據,可用於交通流量統計、人口流動分布統計以及能源資源統計等。

 

  五是衛星遙感圖像數據,主要來源於政府部門和私營部門,包括衛星遙感拍攝的各種高清晰圖像,可用於測量國土面積、農業和林業種植面積、農作物產量及其結構分布等統計信息。

 

  六是掃描價格數據,由零售商提供的各類商品價格、銷售等高頻數據,可用來編制分地區、分商品的價格指數。

 

  七是網絡抓取價格數據,利用網絡抓取技術自動靈活地收集電商網上價格數據,以補充和擴展消費者價格指數範圍。

 

  八是網絡搜索數據,從網際網路收集特定關鍵詞的搜索量和搜索頻率,或者是來自搜尋引擎的網絡搜索數據,可用來分析公共輿情、情緒和政策反應等。

 

  九是文本數據,收集新聞媒體、維基百科等文本摘要形式的各種信息,從中挖掘經濟社會活動的變化趨勢和規律特徵。

 

  十是社交媒體數據,包括在維特、臉譜等網際網路上用戶相互溝通交流的信息,觀察人們的行為反應和活動,可用來監測投資消費市場情緒、公共輿情變化。

 

  據聯合國全球大數據工作組(UNGWG)2015年[4]對32個經合組織(OECD)國家、61個非OECD國家和歐盟統計局的調查,在政府統計中最常用的大數據類型有掃描價格數據、網絡抓取價格數據、移動手機數據、衛星遙感圖像數據,其次是金融市場數據和電子支付數據,社交媒體數據和網絡搜索數據因涉及隱私保密問題在政府統計中還很少應用。

 

  (三)按大數據的縱橫維度劃分

 

  根據大數據在時間和橫截面上的不同維度,可劃分為3類。

 

  一是以時間序列為主的大數據集,即時間維度(T)長,而橫截面變量維度(N)有限,如金融市場數據、電子支付數據、掃描價格數據、網絡抓取價格數據等高頻數據,通常採用經典的時間序列計量濟模型進行統計推斷和宏觀經濟預警預判。

 

  二是以橫截面為主的大數據集,即時間維度有限,而截面變量維度很多,主要表現為面板數據,通常採用面板估計方法分析數據變量之間的相關比例關係,並對相關指標進行統計推斷。

 

  三是面板大數據集,即時間維度很長,橫截面維度很多,須採用大數據技術和模型估計方法,分析數據變量之間的相關關係以及變化特徵,並進行相關統計推算和推斷。許多大數據是最近才剛開始收集的,時間維度相對有限,但隨著時間的推移,面板大數據集將是大數據最主要的表現形式。

 

  三、大數據在政府統計中的主要應用領域和獲取方式

 

  目前各國政府統計機構對大數據的應用還處在研究試驗階段,通過組建大數據工作組,設立針對不同數據類型和專業應用的大數據研究試驗項目,探索解決大數據採集、分類、清洗、存儲、處理、估算、分析等問題。

 

  (一)主要應用領域

 

  縱觀各國統計機構對大數據的應用研究實踐,主要應用領域有:一是價格統計,基於掃描價格數據和網絡抓取價格數據編制價格指數,許多經合組織國家已經將此類數據源納入價格指數的編制過程中;二是人口、遷移流動、勞動力和旅遊統計,利用移動手機數據進行人口和勞動力的流動和分布統計以及旅遊統計;三是交通統計,利用道路感應器和船隻識別數據進行交通流量和交通強度統計;四是農業和地理信息統計,利用衛星遙感圖像數據開展農業統計和空間地理分布統計。此外,利用水電氣智能表進行能源環境統計、住房統計,利用信用卡數據開展零售和居民消費支出統計,等等。大數據幾乎可以用於政府統計的所有專業領域,而且每一專業領域可能需要應用若干個不同的大數據類型,同一類型大數據也可用於不同的專業領域。各國視本國大數據資源情況,確定應用的重點領域。

 

  總體上,發達國家政府統計應用大數據的力度要比發展中國家更大,應用面更廣泛,研究更深入。據調查,在報告的全球115個大數據項目中,有89個來自OECD國家,22個來自非OECD國家,4個項目來自歐盟統計局;有94%的經合組織國家政府統計已經使用或正考慮使用大數據補充和拓展價格統計數據來源,許多國家成為大數據統計應用開發研究的前沿陣地。而多數發展中國家認為大數據源是政府統計數據的重要補充來源,並強調可用於所有統計專業領域,但應用研究的進展相對緩慢,研究項目相對較少。在國際層面,世界銀行、聯合國全球大數據主要開展將大數據特別是行政數據用於可持續發展目標(SDG)監測的可行性研究。

 

                   表2   各國政府統計應用大數據的試驗研究項目

 

類型

主要應用領域

所用的國家統計機構

掃描價格數據

用於消費者價格指數

奧地利、比利時、丹麥、歐盟、芬蘭、荷蘭、以色列、義大利、日本、盧森堡、羅馬尼亞、南非、斯洛伐克、瑞士

用於改進住戶收支調查的可能

瑞典

用於住戶食品購買和零售食品消費統計研究

美國

用於估算國民核算、住戶收支和企業統計

捷克

網絡抓取
價格數據

用於估計職位空缺統計研究

匈牙利

用於編制消費價者價格指數

比利時、中國、奧地利、芬蘭、荷蘭、德國、匈牙利、以色列、日本、挪威、韓國、西班牙、美國、斯洛伐克、厄瓜多

利用網絡收集統計信息的方法研究

歐盟統計局

收集勞動力市場統計數據、用來編制調查框架

波蘭

網絡抓取的數據源和應用研究

瑞典

用於可持續發展監測

突尼西亞

移動手機數據

用於旅遊統計、人口流動統計的可行性研究

歐盟統計局

用於旅遊統計的試驗項目

愛爾蘭、捷克

用於人口流動和分布統計的研究

義大利、荷蘭、韓國、斯洛伐克

用於勞動力統計的研究

英國

用於移民統計

波蘭

用於交通統計

以色列

衛星圖像或
遙感數據

用於農業統計

中國

用於統計單位地理位置研究

比利時

獲取地形、地質、土地利用、地理製圖等統計信息

墨西哥

用於農業和資源統計

美國

用於農業普查和建築物住宅統計

蒙古

社交媒體數據

用於消費信心指數研究

荷蘭

用於獲取統計和地理信息

墨西哥

研究維基統計和官方統計的相關關係

愛爾蘭

用來建立幸福指數的試驗研究

厄瓜多

信用卡數據

信用卡交易數據和零售數據之間比較

中國

利用信用卡數據改進住房收支調查的可能性

瑞典

利用信用卡數據估計消費支出的評估

美國

道路感應器和
船隻識別數據

用於社區統計

芬蘭

用於高速公路和水運交通統計

中國

用於旅遊統計

匈牙利

用於交通統計

以色列

用於交通強度統計

荷蘭

水電氣智能表

用於能源和環境統計研究

比利時

用於居民電消費量統計以部分取代住戶調查

加拿大

用於人口和住房、住房入住率、空置率統計研究

英國、愛爾蘭

     註:根據UNGWG網站https://unstats.un.org/bigdata/inventory/整理。

  (二)大數據獲取的主要方式

 

  數據獲取是大數據統計應用的主要挑戰之一。除社交媒體數據、網絡抓取數據、部分網絡搜索數據可公開免費獲取以外,其他各種類型大數據有的是政府部門的非公開數據,有的是私營部門的專屬數據資源。政府統計部門必須依法依規並以成本效益為原則獲取和應用大數據。對於行政記錄數據,各國主要獲取方式和應用條件是:明確政府統計機構有權獲取和應用行政記錄數據的法律規定;政府部門數據信息實行統一標識和編碼,便於不同數據源的合併融合;必須遵守保密機密法規制度,僅用於統計目的;政府統計機構有權參與並影響行政記錄的生產設計和收集過程等。對於其他類型大數據,各國最常見的獲取方式是與大數據提供方(如行動電話運營商、零售商店和連鎖超市、新聞媒體、信用卡公司和支付公司等)建立數據合作夥伴關係,籤訂數據共享機制協議,或者從大數據公司、信息技術公司等第三方直接購買數據。一些國家正在研究制定國家層面的數據共享機制,審查修訂隱私保護立法框架,以確保政府統計機構合法獲取和應用各類大數據源。

 

  考慮到大數據採集、清理、處理和分析涉及信息技術、數據挖掘、統計推斷等多學科知識和技能,政府統計機構無法獨立完成大數據開發應用過程,必須與相關部門開展合作,聯合開發應用。在大數據存儲管理方面,可以向第三方購買雲服務,以解決數據存儲問題,減輕建設信息基礎設施的壓力;可以將分析處理直接外包給數據提供方,政府統計機構不需要與數據提供者共享微觀基礎數據,避開了隱私機密等敏感問題。在大數據開發應用方面,組建由統計部門、其他政府部門、私營部門、研究團體組成的大數據研究團隊和大數據應用實驗室,吸納跨學科跨部門的專家學者共同研究開發應用大數據。因此,政府統計機構在確定大數據開發應用項目時,須通盤考慮主要合作夥伴、信息技術基礎設施、人力資源、資金來源等因素,列出大數據應用項目需要優先解決的問題清單。

 

  為推進大數據統計應用,有關國際組織也十分注重建立大數據合作夥伴關係。歐盟統計局成立大數據開發小組,歐洲經濟委員會提出大數據倡議,廣泛開展大數據應用合作項目,在掃描數據、網絡抓取數據、移動手機數據、地理觀測數據的統計應用方面取得了實質性成果,有的已進入統計生產實施階段。許多發展中國家則通過聯合國全球大數據工作組、世界銀行、全球脈搏、促進統計發展戰略夥伴關係等,開展國際層面大數據應用合作,分享最佳實踐經驗。

 

  四、大數據在政府統計中的主要用途和方法思路

 

  這是大數據統計應用的內核,也是研究探索的重點。從全球應用實踐看,目前大數據在政府統計中起著重要的補充作用,在一些專業領域的應用方法思路上已取得初步研究成果。

 

  (一)主要用途

 

  1.擴展現有統計調查範圍,使政府統計數據更全面和更詳盡。

 

  利用網絡抓取價格數據編制消費者價格指數,將價格調查範圍從線下擴展到線上,補充傳統調查未覆蓋的代表群體,更全面反映居民消費價格變動情況。

 

  2.取代部分統計調查項目,進行統計估算和推斷,減輕統計調查負擔。

 

  利用行政登記數據開展人口普查和生命統計、海關統計和國際收支統計,利用水電氣智能表統計居民水電消費量,利用高速公路聯網監控系統數據統計公路運輸量,利用衛星遙感圖像數據測量農作物面積和農產品產量。這些大數據可以部分取代現有統計調查項目。

 

  3.評估核查校驗現有統計數據,提高數據真實準確性。

 

  利用信用卡數據和掃描數據評估社會消費品零售總額、居民消費支出及其分地區數據,改進貿易統計和住戶調查數據質量;利用工程機械企業主要設備工作時間和綜合開工率走勢,來判斷全國投資增速的合理性。

 

  4.對現有關鍵指標進行實時監測預報,提高統計數據及時性。

 

  利用移動手機數據開展人口、勞動力流動和分布統計,將統計頻率從年度、季度提高到月度,甚至每天進行實時觀測;利用金融市場數據、谷歌趨勢數據進行經濟增長的短期預報,開展實時統計監測,彌補現有宏觀經濟統計數據的延滯性問題。

 

  5.獲取地理信息,完善抽樣框,提高統計設計能力。

 

  利用衛星遙感圖像數據和社交媒體數據作為識別調查單位的輔助信息,製作地理分布位置圖,改進人口和勞動力調查、企業調查抽樣框,實現統計調查全覆蓋。

 

  6.開展輿情調查分析,提高統計服務水平。

 

  利用反映網際網路行為趨勢、情緒變化的社交媒體數據編制投資消費信心指數,構建輿情趨勢監測指標,觀察經濟社會活動新模式、生活消費新趨勢,加強對經濟社會運行的測量和描述。

 

  總之,大數據是政府統計的重要補充來源,可補充現有政府統計在覆蓋範圍、細粒度上的不足,填補重要數據缺口,改善政府統計相關性;提高統計頻率,增強政府統計及時性;部分替代傳統統計調查項目,減輕統計調查負擔,提高政府統計生產的成本效率;生產新的統計產品,提供新的統計洞察力,提升政府統計服務能力。

 

  (二)主要方法思路

 

  大數據體量大、頻率高、可變性強,具有很大的不確定性,事先無法設置確定的變量關係模式,因此大數據應用不能再現傳統統計生產過程,也不能運用傳統的統計方法來處理,而主要依賴各種算法來挖掘發現大數據的規律特徵,通過建模方法進行統計估算和推斷。大數據統計推斷的技術可行性、方法合理性以及結果的有效性,是評估判斷大數據統計應用是否成功的重要依據。在認定大數據的統計價值和成本效益之後,大數據的統計應用通常須經過3個階段:一是大數據處理,包括數據存儲和管理、數據源質量評估、數據結構轉換、數據清洗和異常值檢測等;二是大數據分析,通過機器學習、網絡分析、模式識別和可視化展示等數據挖掘技術,尋找發現數據特徵、相關關係和變化規律,在此基礎上進行統計匯總和統計推斷,衡量經濟社會現象的規模、水平、速度、比例關係,預測預判變化趨勢;三是結果評估,從統計專業角度對數據結果進行科學性審查,從經濟社會角度對數據結果進行合理性和可解釋性評估,並與其他結果進行相互驗證,確保統計結果真實準確可靠。

 

  大數據統計應用的方法很多也很複雜,具體方法取決於不同的專業領域和不同的大數據類型。實際應用時要突破傳統統計理論的框框,創新統計方法和統計思維。在價格統計方面,掃描價格數據和網絡抓取價格數據已成為許多發達國家編制價格指數的新數據源。面對採價產品數量規模大、更新換代快的全量數據,需要突破「比較不同時期固定數量籃子同質可比的產品和服務價格」[5]這一傳統價格指數理論框架。為此,英國、荷蘭、比利時等統計局專門針對網絡抓取數據和掃描數據提出比較固定類群相對同質可比的產品價格,觀測反映消費者購買同質同類產品群的價格變化。在比較的時期內產品類群是固定的,而具體產品是可變的。相應地,提出了一系列適用於新數據源的指數方法。例如,英國提出採用大型數集聚類價格指數方法(Clustering large datasets into price Indices,簡稱CLIP)[6]計算基本分類以下不同時期相同產品類群的價格之比,而不是具體產品價格之比。其前提條件是要對巨量的採價產品進行聚類,最大限度地增加群內產品的高度同質性和相似性,以保證群內產品沒有顯著差異,以降低價格指數的偏差。歐盟統計局提出採用動態方法和多邊比較方法(GEKS法、TPD法、GK法等)[7]計算分類價格指數,以解決採價產品更新快的問題。顯然,這些理論框架方法是對傳統價格指數理論方法的拓展和延伸。國際貨幣基金組織計劃修訂《消費者價格指數手冊:理論與實踐》,增加新數據源收集和應用的基本理論方法。大數據統計應用的理論突破和方法創新必須進行公理檢驗,具有經濟含義的可解釋性和統計推斷的有效性,充分體現方法的無偏性和科學嚴謹性。

 

  在地理觀測數據方面,聯合國統計委員會在總結各國實踐研究的基礎上,組織制定了「地理觀測數據用於官方統計手冊」[8],把大數據統計應用分析方法歸納為5種:經驗方法,即傳統統計模型方法;半經驗方法,即在傳統統計模型中加入不確定變量參數;數學方法,即基於複雜的信息系統建立精準的參數模型;對象分析方法,即對現場數據進行精準分類匯總;人工智慧方法,即機器學習方法,利用各種算法對數據進行分類(如邏輯和多項式回歸法、高斯最大似然法、貝葉斯網絡法、分類樹法、支持向量機法)、聚類(如K-均值法、凝聚聚類法、混合聚類法)、回歸(如線性回歸法、回歸樹法、神經網絡)、降維(如主成分分析法、獨立分量分析法)等。具體方法的選擇取決於大數據特性、統計估計推斷目標以及統計開發團隊專業知識。國際上各種關於大數據統計應用手冊和指南為各國政府統計機構應用大數據提供了理論依據、方法指導和最佳實踐參考。

 

  五、困難和瓶頸

 

  在實際中,大數據的統計應用既有數據獲取和質量上的困難,也有技術和方法上的瓶頸,它無法全部替代傳統調查和統計分析。在推進大數據和政府統計工作融合過程中,既要防止「大數據傲慢」[8],因冒進和強推而損害政府統計工作的科學嚴謹權威,影響政府統計數據質量和社會公信力;又要防止放大大數據的應用風險,對大數據的統計應用持觀望猶豫態度,從而導致應用進程緩慢。政府統計機構在大數據應用的試驗研究和實踐探索過程中,還面臨許多困難和瓶頸。

 

  1.大數據獲取問題。

 

  與傳統調查數據不同,大數據是經濟社會管理運行的副產品,往往為政府部門和私營部門所專有,因涉及隱私機密、數據轉讓、商業價值等敏感性問題,單靠政府統計機構和大數據提供者建立的雙邊自願性合作夥伴關係難以維繫,無法滿足長期可持續的政府統計生產需要。實現大數據統計應用的合法化和合規性,暢通規範大數據獲取渠道,增強大數據應用過程和目標的透明性,實行必要的隱私機密保護措施,是各國政府促進大數據應用戰略必須解決的首要問題。

 

  2.大數據質量問題。

 

  大數據是隨著網絡系統、環境規則、社會行為等因素變化的動態產物,具有波動性大、真實性差和價值密度低等特徵,因目標群體不明確、選擇偏倚、累積誤差、虛假相關、信息中斷、高頻數據不規則性和周期性模式等固有現象,數據存在較大的不準確、不完整、不可比、不一致、不連續、不穩定等諸多質量問題[9]。不是所有大數據都能用於政府統計,統計學並不接受大數據集更接近「真值」的命題,因為客觀真值在很大程度上取決於大數據潛在總體的代表性以及大數據統計推斷的過程和方法[10]。因此,政府統計應用大數據在某種情況下離不開、也替代不了傳統調查數據。同時,應用大數據也意味著政府統計機構從數據的獨立調查者變為依賴外部市場的數據用戶,如果網絡運營商、社交媒體集團等大數據提供者對數據質量有主觀幹預或者行為控制,則可能危及政府統計的客觀獨立性和社會公信力。質量是官方統計數據的核心,遵循官方統計質量基本標準,對大數據源進行質量評估,保持數據的客觀獨立性,是各國政府統計機構面臨的難題。

 

  3.大數據應用的技術問題。

 

  大數據具有體量大、來源多樣、生成快等特徵,而且很多表現為非結構化數據,難以用傳統數據體系結構進行有效處理,其採集、轉換、清理、存儲、處理等技術異常複雜,超出傳統統計數據管理和處理能力,也超越現有統計基礎設施的所及範圍。大數據的統計應用不僅涉及自然語言處理、音頻信號處理和圖像處理等方面專業技能,還需要模式差異識別、機器學習算法、模型推算等方面專業知識。缺乏這些必要的技能和知識是目前阻礙政府統計應用大數據的主要約束因素。建立健全統計信息基礎設施,開發大數據採集、轉換、清理、存儲、處理等現代技術系統,引進和培養兼具統計、信息技術和機器學習專門知識人才,提高大數據統計應用能力,是構建現代化政府統計體系的主要任務。

 

  4.大數據應用的方法論問題。

 

  大數據統計應用集信息技術、數據科學和統計方法於一身,涉及統計學、計算機科學、應用數據、經濟學等多種學科,是政府統計的範式轉變。大數據統計應用的理論方法框架在很大程度已突破傳統統計理論方法範疇,甚至需要修改現有傳統的統計概念和定義,才能解決基於大數據源的統計推斷方法問題。大數據總體不等於統計目標總體,也不是目標總體的隨機樣本,很難應用傳統統計理論方法來推斷。目前許多國家大數據應用項目仍然利用傳統的統計方法,應用結構化關係資料庫和電子表格等傳統統計工具。這一方面說明大數據統計應用的門檻沒有想像的那麼高,大數據應用方法不是深不可測和高不可攀的;另一方面也暴露了當前政府統計機構在大數據統計應用理論方法方面的欠缺,影響大數據源的有效挖掘和充分應用。破解大數據與政府統計融合的方法論問題,是政府統計機構在大數據時代所面臨的新課題。

 

  此外,大數據獲取、處理分析需要投入相對高昂的人財物,開展成本效益評估也是政府統計機構在應用大數據時必須考慮的問題。為了幫助解決各國政府統計機構面臨的上述諸多問題,聯合國全球大數據工作組、國際貨幣基金組織、歐洲經濟委員會等有關國際組織已經開始研製大數據質量框架、建立大數據統計應用案例共享平臺、開展大數據統計應用技能方法培訓,幫助各國特別是發展中國家降低大數據統計應用門檻,推動大數據在政府統計中的應用。

 

  六、推進融合的路徑

 

  政府統計機構對統計信息的壟斷時代已不復存在,只有通過 「設計的」傳統數據源與「發現的」大數據源的相互融合組合,才能產生強大的統計信息系統,從而增強政府統計提供高效而有效的統計服務能力。推進大數據統計應用是未來政府統計的發展方向和必然趨勢。自政府統計建立形成以來,曾經歷了從普查到抽樣調查的統計範式轉變。可以預見,大數據統計應用是政府統計的又一次範式大變革,政府統計機構將從單純的數據收集者轉變為兼具不同數據源的融合者、數據源質量的評估者。大數據與政府統計工作融合預期將經歷3個漸進的變化階段:從短期看,普查、抽樣調查等傳統統計調查仍是政府統計數據的主要來源,而大數據則是政府統計的重要輔助來源;從中期看,在政府統計信息系統中,大數據的影響逐漸上升,而傳統調查數據的影響有所減弱;從長期看,大數據源將部分(而不是全部)替代傳統調查項目,最終實現大數據和傳統調查數據優勢互補、相互融合的目標。

 

  近年來,我國政府統計機構確定了「總體設計、牽頭攻關、先易後難、專業突破」的總體思路和「打造政府統計數據來源第二軌」的工作目標[11],加快促進大數據與政府統計工作融合,紮實推進大數據在政府統計中的應用,已取得重大成果。在大數據獲取方面,積極與各政府部門合作建立數據共享機制,與大數據相關企業籤署大數據戰略合作框架協議,利用行政記錄和企業大數據補充完善政府統計;在大數據統計應用方面,幾乎所有專業統計領域利用不同類型的大數據源進行數據補缺、校驗、評估、推算等。我國在利用遙感圖像和地面定位技術系統完善農作物播種面積和產量估計方面已處於世界領先水平。大數據作為政府統計數據的重要補充來源,對提高政府統計的科學性、準確性和時效性發揮積極作用。但是與全球大數據應用程度相比,我國部分專業統計領域應用大數據的力度有待進一步加強,大數據統計應用的技術方法研究有待進一步深入,大數據統計應用能力和水平有待進一步提高,推進大數據與政府統計融合的任務依然艱巨。為此,應制定大數據統計應用的路線圖,明確融合路徑,加快構建現代化政府統計體系步伐。

 

  1.建立健全大數據應用的法律規範和數據共享開放的機制制度,為政府統計應用大數據營造良好的環境保障。

 

  一是完善各類大數據應用的隱私機密保護和安全保障立法機制,既要保證數據信息安全可控,又要明確相關主體提供大數據源的法律義務,為大數據在政府統計中的應用奠定基礎。二是充分利用「五證合一」改革成果,健全部門信息標準化機制和信息共享機制,不斷提高電子化的行政記錄數據在政府統計中的利用程度。三是打造政府統計部門與企業、社會團體之間大數據開放共享平臺,暢通大數據獲取渠道,實現大數據與傳統調查數據的相互連接、相互補充。

 

  2.制定大數據統計應用工作規劃,提高適應大數據時代的綜合統計能力,充分挖掘利用大數據的統計價值。

 

  一是建立適應大數據特徵的信息技術基礎設施,提高大數據採集、存儲、處理、分析能力;二是研製不同類型的大數據統計推斷方法理論方法框架,開發大數據統計應用技術工具、大數據質量評估框架,增強大數據統計應用的嚴謹性和有效性;三是建立大數據應用庫,收集各種類型的大數據資料,鼓勵相關單位開展開發應用研究;四是建立與政府、企業、學術界與統計界的多學科合作夥伴機制,提高研究和解決大數據統計理論方法和實際應用技術問題的能力;五是引進和培養大數據統計應用人才,組建涵蓋統計方法、數據科學、信息技術等專家的大數據統計應用研究團隊,分工協作,聯合攻關。

 

  3.以專業項目為抓手,先易後難,專業突破,穩步推進大數據與政府統計工作的深度融合。

 

  可先從掃描價格數據、網絡抓取價格數據、移動手機數據、衛星遙感數據等數據源相對穩定、質量相對較好、有一定經驗基礎的大數據類型入手,設置不同專業領域研究試驗小組,跟蹤觀察不同類型大數據的變化特徵,深入探索大數據採集、清理、過濾、存儲、評估、分析等環節的技術工具和手段,系統研究大數據應用統計理論方法,認真評估大數據的統計推斷結果,不斷總結,反覆試驗,最終形成大數據在各個專業統計領域的應用手冊和最佳實踐指南。本著「成熟一個推廣應用一個」原則,把大數據的統計應用落實到每一專業統計工作中,真正實現大數據與政府統計工作交互融合。

 

  4.加強國際合作,借鑑國際先進經驗做法,提升我國政府統計應用大數據的能力和水平。

 

  大數據統計應用是世界統計發展趨勢,也是當前各國政府統計機構面臨的共同難題。近年來,有關國際組織和國家加大大數據統計應用研究力度,在大數據質量評估、部分專業領域的應用技術方法等方面取得突破性進展,積累了許多有益的經驗。一要密切關注國際上關於大數據統計應用的最新動態和成果,認真研究,及時消化吸收借鑑;二要通過研討、培訓、項目合作等方式,積極主動地開展國際合作交流,共享知識經驗,不斷提高我國大數據統計應用在國際上的影響力。

 

  參考文獻

 

  [1]  UNECE Task Team. Classification on Big Data [EB/OL]. UNECE Wiki, June 2013.

 

  [2]  國家統計局, 國家發展改革委. 非傳統數據統計應用指導意見[EB/OL]. 國統字[2017]160號.

 

  [3]  Buono D, Mazzi G L, Marcellino M, et al. Big data types for macroeconomic nowcasting [J]. Eurostat Review on national accounts and Macroeconomic indicators, 2017(1): P93-145.

 

  [4]  UN Statistical Commission. Report of the 2015 Big Data Survey [EB/OL]. Forty-seventh session 8–11 March 2016 Item 3(c) of the provisional agenda Big Data for official statistics.

 

  [5]  國際貨幣基金組織. 消費者價格指數手冊: 理論與實踐[M]. 中國財政經濟出版社, 2008: 12-21.

 

  [6]  Office for National Statistics of UK. Research indices using web scraped price data: clustering large datasets into price indices (CLIP) [EB/OL]. 30 November 2016.

 

  [7]  Eurostat. Practical Guide for Processing Supermarket Scanner Data [A]. 2017.

 

  [8]  UN Satellite Imagery and Geospatial Data Task Team report, Earth Observations for Official Statistics [A]. December 2017.

 

  [9]  Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis [J]. Science, 2014, 343(6176): 1203.

 

  [10]       餘芳東. 非傳統數據質量評估的國際經驗及借鑑[J]. 統計研究, 2017(12): 15-23.

 

  [11]       Tam S, Clarke F. Big Data, Statistical Inference and Official Statistics [J]. International Statistical Review, 2016, 83(3): 436-448.

 

  [12]       馬建堂. 大數據: 政府統計的新機遇[M]. 北京: 中國統計出版社, 2015: 125-131.

 

  作者簡介:

 

  餘芳東,女,浙江台州人,現為國家統計局統計科學研究所三級職員,研究方向為經濟統計和國際比較統計。

 

相關焦點

  • 2015.09:網際網路大數據在政府統計中的應用路徑研究(「大數據在政府...
    網際網路大數據在政府統計中的應用路徑研究[1] 「大數據在政府統計中的應用研究」課題組本文以網際網路大數據為背景,結合政府統計工作的特點,提出了網際網路大數據在政府統計中的應用路徑,並以網際網路搜索數據在房價統計方面的應用進行了案例研究,提出了網際網路大數據在政府統計應用中的展望。
  • 我市舉行2018青島市大數據專家大會暨青島市大數據秋季論壇
    為更好支撐全市各行業大數據融合應用和產業發展,以更加有利於專業聚焦開展工作,在11月2日召開的2018青島市大數據專家大會上,促進會結合個人意願對專家委員會組別進行細化調整,調整後的專家委員會分設專家工作委員會、專家諮詢委員會。其中:  ——專家工作委員會分設大數據技術組、大數據應用組和大數據產業組共3個工作組。
  • 2018青島大數據專家大會召開 大數據《案例集》《名錄集》重磅發布
    人民網青島11月2日電 (劉穎婕)11月2日下午,2018青島市大數據專家大會暨青島市大數據秋季論壇(以下簡稱「專家大會」)在青島貴都國際大飯店召開。以「聚力·創新」為主題,本次大會聚集社會各界大數據專家200餘人,數促會常務理事會成員單位代表、監事會成員單位代表40餘人。
  • 2018中國氣象 「神氣」大數據算法與應用大賽圓滿結束
    由中國氣象局公共氣象服務中心、中國計算機學會大數據專家委員會、中國氣象局華風氣象傳媒集團共同主辦,華風創新研究院、北京天譯科技有限公司、北京曉數科技有限公司聯合承辦的2018中國氣象「神氣」大數據算法與應用大賽,自今年8月23日正式開賽以來,吸引了來自71所頂尖院校、52家企事業單位的866人參賽,提交作品兩千餘個,創下氣象領域賽事參與規模及質量的新高度
  • 紅棉論壇|以「政府-社會-技術」良性互動 促進大數據賦能社區治理
    以「政府-社會-技術」良性互動 促進大數據賦能社區治理 □ 吳丹 隨著大數據技術發展與國家治理的深度融合,大數據技術正逐步進入基層治理場域,推動社區治理創新。一方面,大數據技術不但作為客體被嵌入社區治理體系中,以適應不同治理場域的具體治理需求;另一方面,大數據技術又反過來作用於治理主體,從而對社區治理體系及其治理效能產生前所未有的深刻影響。 由於我國社區普遍存在資源投入不足、治理能力較弱、社會資本缺失等難題,因此行政主導、自上而下的推進路逕往往成為社區大數據技術治理創新的主要模式之一。
  • GNSS增強定位技術發展與星地融合應用|論文精編
    不同於傳統的測量測繪等行業市場應用,大眾市場的應用往往伴隨著更複雜的觀測環境,如多路徑幹擾,頻繁周跳等,其GNSS數據處理策略一定程度上也決定了位置、速度、時間以及大氣延遲等信息的獲取頻率和精度。隨著大眾市場對高精度定位需求的增長,迫切要求低成本精密定位技術進行技術革新。現階段,單獨依賴GNSS設備本身的定位性能並不能滿足釐米級高精度定位和完好性的需求,需要各類增強系統(服務)提升其性能。
  • 2018.07:利用混頻大數據預測中國季度GDP增速研究(何強)
    它主要是指預測者依據政府統計數據、調研數據、模擬數據等傳統結構化數據,通過使用統計方法或數學模型對季度GDP走勢進行預測的方法。該方法又可以進一步分為兩類。   大數據時代的到來,極大拓展了宏觀經濟預測時的數據來源和數據獲取速度,也對以抽樣、假設檢驗和因果關係為基礎的傳統預測方法帶來衝擊,促使大數據預測方法理論與應用研究,在廣度和深度兩個方向不斷發展與融合(馬建堂,2015
  • ...署名文章:做深做實「四個強化」「四個融合」 堅定不移把大數據...
    與大數據融合的高科技企業搶灘登陸貴州,勢必推動大數據應用落地生根,建設完整的大數據產業生態體系,打造大數據產業發展新高地。數化萬物,智在融合,推動大數據融合發展,是建設網絡強國、數字中國、智慧社會的必然要求。  融合是新時代大數據發展的最大特徵和價值所在。大數據是「智慧樹」「鑽石礦」,誰能有效拓展數據應用的廣度和深度,誰就能佔據競爭的制高點。在這一場充滿變革與未知的創新探索中,貴州以推動大數據與實體經濟、鄉村振興、服務民生、社會治理的深度融合給出了清晰的回答。
  • 2018年全國醫療衛生事業發展大數據統計
    數據來源:統計局、中商產業研究院整理數據統計,我國醫院數量增長也較快。2012年全國醫院數量為2.32萬個,2017年醫院數量打破3萬個,到2018年底全國醫院數量達3.2萬個,比2012年增加了近1萬個。數據來源:統計局、中商產業研究院整理多年來,政府都非常重視鄉村醫療事業的發展。
  • 靈機文化:將傳統文化融合大數據的商業化應用
    當傳統文化遇上大數據,會產生怎樣的化學反應?作為目前國內最早將中華傳統文化融合大數據作商業化應用的網際網路公司,將這兩者完美結合的靈機文化就是這樣神奇的存在。這樣的網際網路創業公司,會出現怎樣的商機和故事?
  • 500 餘個案例,6 大應用方向,AIIA 報告全面解析 AI 抗疫情況
    熱門抗疫 AI 產品分析基於搜集到的 500 餘個人工智慧抗疫案例數據可知,智能服務機器人、大數據分析系統、智能識別(溫測)產品為在抗擊疫情中使用最熱的產品,以下為三款產品的分析。另外,目前醫療服務場景的實體智能服務機器人的主要應用場景為清潔、消毒和配送,以替代人力完成重複性、機械性、簡單的工作為主。大數據分析系統大數據分析系統的應用場景主要有疫情地圖、人群追蹤、同乘查詢、趨勢預測以及輿情分析,面向的對象包括醫院、疾控中心、政府機關、企業、社區以及群眾。
  • 技術盛宴 | 數據中心網絡等價多路徑(ECMP)技術應用研究
    目前數據中心網絡廣泛應用的Fabric架構中會應用大量的ECMP(Equal-Cost Multipath Routing,簡寫ECMP),其優點主要體現在可以提高網絡冗餘性和可靠性,同時也提高了網絡資源利用率;大量的ECMP鏈路在特定場景下運行過程中會引發其他問題。
  • 「大數據+監測」提升統計精確度
    日前,記者從區統計局隊獲悉,其將全面開啟「大數據+」統計工作新局面,不斷嘗試將大數據新技術引入統計工作各個領域,用大數據助力統計調查和普查,提升海澱統計工作水平和服務地區發展的能力。2015年開始,區統計局隊率先嘗試採用移動通信大數據技術進行人口動態監測和分析研究,開啟了統計監測工作的新天地。經過幾年的發展,大數據技術應用從人口監測到經普清查、民生調查,促進了區統計局隊工作效率和統計現代化水平的提升。統計監測領域也由原來的企業發展、群眾安全感擴展到商業、社區民生等多個領域,統計服務區域發展的水平進一步提高。
  • 製造業與服務業融合發展的歷史邏輯、現實意義與路徑探索
    2018年中央經濟工作會議提出「推動先進位造業與現代服務業深度融合」,這是在新工業革命背景下,新時期發展階段,我國製造業和服務業高質量發展的重要路徑。隨著技術進步,特別是信息科技的高速發展和應用,以信息服務為代表的服務要素從20世紀末開始深度融入製造業價值鏈的各個環節,科技革命催生的新產品、新業態使得製造業和服務業的邊界愈加模糊,Lundvall(1998)等學者提出了「融合發展」的觀點,認為生產性服務業從製造業剝離出來之後,因為發展需求將再次融入製造業中,從而出現製造業、服務業在組織上不斷剝離,但在業務上深度融合的發展新趨勢[5]。
  • 論文推薦| 左延紅等:分數階微分算子在煤礦監測數據融合處理中的應用
    但在實際應用中,多數煤礦發現物聯網技術在解決生產信息採集的實時性上具有獨特的優勢,但面對採煤現場惡劣的工作環境和監測信息遠距離傳送帶來的信號失真,物聯網技術在保證生產信息的準確性上顯得力不從心。數據融合技術應用各種算法對信息採集系統收集到的信息數據進行融合處理,是當前提高監測信息準確性的有效手段,但當前與煤礦監測數據融合技術相關的文獻鮮有報導。
  • 「智慧樹」,在綠水青山間茁壯成長——解碼全國首個大數據綜合試驗...
    新華社記者歐東衢 攝  對天文大數據的分析處理,是貴州大數據應用的一個縮影。作為全國首個大數據綜合試驗區和全國生態文明試驗區,貴州先行先試,建成全國首個省級一體化政府數據匯聚共享平臺、在全國較早運用大數據精準指導脫貧工作、吸引國際網際網路巨頭建設數據存儲基地……大數據「智慧樹」正在綠水青山間茁壯成長。
  • ...數字政府周刊第105期》—大數據背景下政府決策模式優化路徑研究
    【詳情】2.工信部印發《工業網際網路創新發展行動計劃(2021-2023年)》《國務院關於深化「網際網路+先進位造業」發展工業網際網路的指導意見》印發以來,在各方共同努力下,我國工業網際網路發展成效顯著,2018-2020年起步期的行動計劃全部完成
  • 大數據分析與應用技術國家工程實驗室發布數字生態指數2020
    2020/10/11 信息來源: 大數據分析與應用技術國家工程實驗室 編輯:麥洛 |
  • AI+大數據在生物醫藥領域中的應用及發展
    [億歐導讀] 目前,AI與大數據在醫藥領域的科研和產業發展方興未艾,毫無疑問,AI和大數據和生物醫藥領域的融合必將不斷的深化和廣化,更多的成功案例將不斷湧現。醫學影像行業是國內AI與大數據在醫療領域應用發展最快的方向,遠高於其他場景的應用。有研究報告顯示,進入中國100強的人工智慧相關非上市企業的10家人工智慧醫療方向的企業中,有6家涉及到了AI醫學影像領域。
  • 怎樣從髒亂差的醫療大數據中提取價值(二)
    編輯導語:上期講到了隨著大數據時代的到來,醫療信息化建設迫切的需求與醫療大數據的溯源過程,還深入的提出了在髒亂差的醫療大數據中怎麼發現價值;接下來我們再進一步探討一下數據的價值與特徵。