公元前207年,鹹陽城前後腳來了兩波人。
第一波劉邦集團首先進入鹹陽。在手下重要幕僚蕭何的督促下,沒有大規模燒殺搶掠。而是把鹹陽城內重要的典籍、文書和資料拿到了自己手。但是實力不足的劉邦不敢久留。
後來,第二波項羽集團也進入了鹹陽。放任屠城,一把火燒了秦王宮。實力雄厚,霸氣十足。自此自立為王,分封天下。
之後的結局早就家喻戶曉了。兵強馬壯的項羽最終四面楚歌,油膩中年男子劉邦最終奪得天下成就一個跨度四百年的王朝。
「為什麼項羽輸劉邦贏」這一話題早已成為了人們從嚴肅政治學到世俗成功學中討論了無數次的話題。而從數據角度,我們也會從蕭何對於秦王朝所記錄的社會資料的興趣做多一層的解讀。因為這些基本的人口、地理、經濟資料其實就是最早意義上的大數據。
為什麼掌握這些數據對於蕭何來說至關重要?因為大數據即可量化的信息,而掌握重要且全面的信息即掌握權力。
正是因此,歷史上統治者往往壓制被統治者獲取這些信息。然而進入到現代社會後,主權在民的思想逐漸深入人心。一方面,公民有義務被收集部分個人數據。另一方面,公民也有權利去得到許多公共數據。公共數據的獲得權越來越被認知為知情權的一部分。
於是,近年來各國圍繞著公共數據的公開、個人數據的採集、綜合數據安全等問題做了許多的立法。從民間展開的Open Data Movement (數據公開運動)也是得到了各地政府不同程度的回應。
那麼問題來了:
作為一個普通人,我們在當下的2020年,獲取公共數據有多方便呢?獲得的數據又有多全面呢?
本文從人口數據作為切入,做一個簡單跨區域比較的小實驗。
我們的故事有三個女主角:Lucy、Lily和韓梅梅。她們是分別生活在紐約、倫敦和上海的三位大學生,因為一個期末作業報告,她們需要查找一些跟自己生活所在地區相關的人口數據,做一個常住人口的比較分析。
Lucy (坐標紐約)
Lucy是一個土生土長的紐約女孩,她對紐約市的官方數據查詢渠道非常熟悉。她首先登陸的網站是NYC Open Data。
NYC Open Data是在2009年美國聯邦政府Open Government Initative (公開政府倡議)的基本精神框架下,由紐約市政府立法由科技通訊部於2012年上線的網站。頁面大概長這樣:
(網址:https://opendata.cityofnewyork.us/)
Lucy在搜索框裡敲出「population」(人口)。--->
搜索欄一搜,各式各樣的人口相關的數據就呈現了。Lucy掃一眼,發現各式各樣的人口數據都有。
她首先去看最宏觀的人口數據:Projected Population 2010-2040。-->
這是2010年至2040年間紐約人口的估算數據。為了方便市民使用,網站提供了不同格式數據的下載連結。-->
同時也公開了API的信息,方便會寫代碼的市民們處理數據。-->
點進去仔細看下,這是這組數據的欄位。-->
下載下來,在Excel裡打開長這樣。-->
看起來橫縱雙軸的欄位冗長,但從做數據類工作(作業)的角度,這恰恰是Lucy喜歡的。至少說明這組數據是豐富的。
的確,這組數據包括了整個紐約市在2010、2020、2030和2040的總人口,各區域人口,以及各年齡段人口。-->
但Lucy還不是特別滿意。
第一,這組數據各年齡段顆粒度並不細緻。老人和孩子沒有更細的區分。
第二,這組數據是每十年(美國人口普查年份)的人口預估,不能滿足一年一年地看人口變化。
那怎麼辦呢?
Lucy決定換條路,於是在谷歌上搜索「New York City Population 2019」。-->
啪,找到了美國聯邦普查局的連結,點進去。-->
(連結:https://www.census.gov/quickfacts/fact/table/newyorkcitynewyork,bronxcountybronxboroughnewyork,kingscountybrooklynboroughnewyork,newyorkcountymanhattanboroughnewyork,queenscountyqueensboroughnewyork,richmondcountystatenislandboroughnewyork/PST045219)
在這裡,紐約市2019年的估測數據就非常齊全了,同時也提供csv文檔的下載。以下是數據顆粒度的完整欄位:
簡單概括 —— 非常細緻。
除了性別、年齡(學齡、中間、老年)、區的分層,還包括了族群背景、教育背景、收入狀況、居住狀況、健康狀況、甚至網際網路使用率等。這組數據把紐約市人口從多個維度切開來做了詳細呈現。
Lucy對目前查找的結果總體是比較滿意。但有一個缺點:
次級行政區的人口顆粒度還是不夠細膩。是否可以細緻到紐約選區級別呢?
於是,Lucy再次谷歌一下。找到了紐約市政府規劃廳的網站。發現有非常細緻的社區畫像全景。-->
(網址:https://communityprofiles.planning.nyc.gov/)
可以看到,所有59個社區都在地圖上呈現,Lucy在搜索欄輸入自家郵編,定位了自己的社區 —— 皇后區第二社區。-->
數據非常翔實,不但有過去兩次的人口普查的數據,還呈現了2014-2018年這個時間區間的預估人口。社區人口的年齡分布、族群分布、國外出生比例等都有呈現。-->
甚至像犯罪情況、教育程度、英語能力、失業率和貧困人口的數據也有呈現。實際上,這個頁面還有許多跟這個社區相關的地理及經濟數據,不局限於人口數據。
在頁面的底部,同樣可以找到csv文檔的下載區。-->
換言之,把59個社區的csv文檔集合在一起。整個城市的人口數據的顆粒度不光是在地理層面更細緻,包括年齡結構等層面也比之前的數據更為細緻。
Lucy順利地完成了任務。
她得出的結論是:紐約市政府加上聯邦普查局的公開渠道基本能把人口數據的各個層面摸得透徹。
Lily (坐標倫敦)
Lily是個住在北倫敦Holloway社區的黑人姑娘。也是阿森納球迷。接到作業的任務後,她的第一個反應跟紐約的Lucy差不多,就是去谷歌搜索「Open Data London"。-->
於是就找到了大倫敦地區的官方數據統計頁面。-->
(網址:https://data.london.gov.uk/)
搜索」population"。跳出來的結果似乎可以解決作業的需求。-->
這裡有1939-2015年的人口變化,有基於人口趨勢的人口預估,有關於人口和移民的數據,有根據區域劃分的人口數據,也有白天人口數據。
Lily先看了一下《Polulation Change 1939-2015》的人口變化這組數據。-->
下載下來,打開一看,大倫敦地區所有的行政分區都覆蓋了。-->
欄位上看有1939年和1988年的估算人口數,有2011年的普查數據,然後就是2015、2021、2031和2039年的預測數據。最後人口的增長率也有體現。
Lily第二個打開的數據是《Land Area and Population Density, Ward and Borough》。
這是一個被整理好的excel文件,可以方便地進行篩選。裡面的數據跨度是1999年至2050年。
它的區域分類分為Borough和Ward。Ward的分區概念比Borough(行政分區)還要小一個維度。
欄位來看,人口、土地面積、人口密度都有概括。從人口的地理分段來看,這組數據的顆粒度更為細緻。
這是一個很不錯的開始,但問題是年齡分布、族群分布、性別分布等情況都未能體現。
於是Lily又在這裡找到了另一組數據:2011年普查關於多元化的數據 —— 《2011 Census Diversity》。-->
這組數據把倫敦的人口(2011年普查口徑)以語言、族裔、宗教、國籍、護照、出生地等類別做了劃分。都有可以下載的excel文檔。-->
除了從多元性的角度做許多「橫向」切分外,「縱向」也做了另一層切分。分類包括了:地區、住房情況、年齡分布、家庭成員組合和社會經濟背景。
但這組數據有一個問題:時間點滯後。
2011年的普查畢竟已經是9年之前的事情了。怎麼辦呢?
於是Lily又打開了第三組數據 :《Ethnic group population projections》——針對族群分類的倫敦人口估測數據,2020年上傳。-->
它用了兩種方法Central Trend Projection和Housing Led Projection兩種估算方式,用官方口徑把數據預測到了2050年。兩個估算的結果各自有一個excel文檔。
選一個點進去看看。-->
除了族群背景,性別、住的區域、年齡到每一歲的欄位都有。時間軸上從2011年開始一直估算到了2050年。
搜索到了這裡,Lily已經非常滿意了。
最後她決定再多給期末作業補充一個章節,於是進行了「人口+經濟」的搜索,結果又跳出了就業率、貧富差距、多重貧困等數據。來自的年份不等,對於倫敦人口的經濟狀況也算是一種補充。-->
Lily也順利地完成了任務。
她得出的結論是:倫敦人口的相關數據基本在一個埠都能找到,搜索次數也不多。基本能夠滿足多個維度多個層面的人口分布,顆粒度也是非常細緻的。唯一的缺點是數據太多了分析起來壓力很大。
韓梅梅(坐標上海)
韓同學來上海上學已經兩年了。
她發現要找上海的人口數據總體來說很方便。只需要去「上海統計局」的官方網站就能搞定。-->
(網址:http://tjj.sh.gov.cn/)
在「數據發布」的頁面底部能找到歷年的《上海統計年鑑》。-->
每年的年鑑裡面都有關於人口的篇章。-->
2019年的《上海統計年鑑》裡面人口篇有11個表。-->
但她發現,這11個表裡,大部分都是戶籍人口統計,而涉及到常住人口的只有表2.2和2.11。
2.2 是各區的土地面積、常住人口及人口密度。-->
2.11是在滬外國常住人口。-->
由於其他的表都是以戶籍人口的數據。因此上海全市人口的年齡構成、生育和死亡率及婚姻情況等數據無法從《上海統計年鑑》中得知。
於是,韓梅梅希望能從別的表中找到線索。
她又打開第三篇《從業人員和工資》和第十篇《人民生活》,裡面有一些與經濟相關的人口數據。-->
在這裡能夠查到居民的就業和生活總體信息了。欄位不算太多,但還是可以了解一些關鍵指標。
接下來,按照作業要求,韓梅梅需要縮小範圍,查找自己家所在社區的人口數據了。
這裡似乎沒有。
於是,韓梅梅又分別去到了上海16個區的政府官方網站。
花了兩個小時左右翻了個遍,韓梅梅得出了大致結果:
在上海的16個區中,有10個區可在其網站上查到的該區統計年鑑和相關人口數據,而6個沒有數據的區基本是浦西的中心城區。在10個有人口數據的區網站裡面,並不是所有的數據都體現居住人口。顆粒度方面,各地的側重點和細緻度是不一的。
以下是一些例子。找不到數據的如黃浦區。-->
很多區也公開了人口數據,但只能看戶籍人口。-->
浦東新區的數據更完整一些,包括流動人口的進出,並且顆粒度能達到街道級別。-->
由於不住在浦東,所以韓梅梅的任務暫時卡殼了。
她得出的結論是:暫時無法完整找到地理顆粒度更細的人口數據。雖然浦東的數據是可以到街道的,但很多區還沒有。由於地理的顆粒度無法下沉,各區各自不同的其他類別顆粒度如經濟類、年齡類的數據體現也沒有太多參考意義。畢竟這個作業要的是居住人口的分析不是戶籍人口的分析。
想到這裡,韓梅梅不禁有些煩惱。
總結:類別、空間、時間
最後,Lucy、Lily和韓梅梅把各自所在城市的人口數據開放程度做了一個匯總。
1,紐約的人口數據開放和獲取是完整齊全的,但搜尋過程中還是跳轉了兩三個埠。
2,倫敦的人口數據開放和獲取是在一個埠能完全解決的,但部分細顆粒度的類別欄位沒有更新到最新年份。
3,上海的人口數據開放和獲取是要通過多個埠解決的,但問題在於數據公開的顆粒度和維度不夠,地區數據顆粒度下沉不到街道層級。部分細顆粒度數據散落在區政府的網站。但可惜不是所有區政府的網站都能找到人口數據,而即使找到,也大部分都是戶籍人口數據。
所有主要數據的情況如下:
(點擊圖片,可放大細看)
三座城市的比較是這樣的:
(點擊圖片,可放大細看)
兩千多年前,蕭何要拿到人口數據需要跟著劉邦一路打進鹹陽城。今天滑鼠點擊一下就可以去查找。
兩千多年前,也就蕭何這種等級的人物可以去對人口這樣的公共數據有些窺探。今天,大學生如韓梅梅都有資格和渠道獲得。不得不感嘆人類的技術和觀念的進步。
只是本次作業當三位同學把數據集合的時候,上海數據的問題還是讓韓梅梅多少有些尷尬。
團支書:根據我入職數據團之前網上衝浪的經驗......
團支書:在中國找數據,淘寶最好用。
哎,韓梅梅同學,還是要善用會剁手的搜尋引擎啊!