你能找到人口數據嗎?(數據開放之紐約vs倫敦vs上海)

2020-12-14 城市數據團

公元前207年,鹹陽城前後腳來了兩波人。

第一波劉邦集團首先進入鹹陽。在手下重要幕僚蕭何的督促下,沒有大規模燒殺搶掠。而是把鹹陽城內重要的典籍、文書和資料拿到了自己手。但是實力不足的劉邦不敢久留。

後來,第二波項羽集團也進入了鹹陽。放任屠城,一把火燒了秦王宮。實力雄厚,霸氣十足。自此自立為王,分封天下。

之後的結局早就家喻戶曉了。兵強馬壯的項羽最終四面楚歌,油膩中年男子劉邦最終奪得天下成就一個跨度四百年的王朝。

「為什麼項羽輸劉邦贏」這一話題早已成為了人們從嚴肅政治學到世俗成功學中討論了無數次的話題。而從數據角度,我們也會從蕭何對於秦王朝所記錄的社會資料的興趣做多一層的解讀。因為這些基本的人口、地理、經濟資料其實就是最早意義上的大數據。

為什麼掌握這些數據對於蕭何來說至關重要?因為大數據即可量化的信息,而掌握重要且全面的信息即掌握權力。

正是因此,歷史上統治者往往壓制被統治者獲取這些信息。然而進入到現代社會後,主權在民的思想逐漸深入人心。一方面,公民有義務被收集部分個人數據。另一方面,公民也有權利去得到許多公共數據。公共數據的獲得權越來越被認知為知情權的一部分。

於是,近年來各國圍繞著公共數據的公開、個人數據的採集、綜合數據安全等問題做了許多的立法。從民間展開的Open Data Movement (數據公開運動)也是得到了各地政府不同程度的回應。

那麼問題來了:

作為一個普通人,我們在當下的2020年,獲取公共數據有多方便呢?獲得的數據又有多全面呢?

本文從人口數據作為切入,做一個簡單跨區域比較的小實驗。

我們的故事有三個女主角:Lucy、Lily和韓梅梅。她們是分別生活在紐約、倫敦和上海的三位大學生,因為一個期末作業報告,她們需要查找一些跟自己生活所在地區相關的人口數據,做一個常住人口的比較分析。

Lucy (坐標紐約)

Lucy是一個土生土長的紐約女孩,她對紐約市的官方數據查詢渠道非常熟悉。她首先登陸的網站是NYC Open Data。

NYC Open Data是在2009年美國聯邦政府Open Government Initative (公開政府倡議)的基本精神框架下,由紐約市政府立法由科技通訊部於2012年上線的網站。頁面大概長這樣:

(網址:https://opendata.cityofnewyork.us/)

Lucy在搜索框裡敲出「population」(人口)。--->

搜索欄一搜,各式各樣的人口相關的數據就呈現了。Lucy掃一眼,發現各式各樣的人口數據都有。

她首先去看最宏觀的人口數據:Projected Population 2010-2040。-->

這是2010年至2040年間紐約人口的估算數據。為了方便市民使用,網站提供了不同格式數據的下載連結。-->

同時也公開了API的信息,方便會寫代碼的市民們處理數據。-->

點進去仔細看下,這是這組數據的欄位。-->

下載下來,在Excel裡打開長這樣。-->

看起來橫縱雙軸的欄位冗長,但從做數據類工作(作業)的角度,這恰恰是Lucy喜歡的。至少說明這組數據是豐富的。

的確,這組數據包括了整個紐約市在2010、2020、2030和2040的總人口,各區域人口,以及各年齡段人口。-->

但Lucy還不是特別滿意。

第一,這組數據各年齡段顆粒度並不細緻。老人和孩子沒有更細的區分。

第二,這組數據是每十年(美國人口普查年份)的人口預估,不能滿足一年一年地看人口變化。

那怎麼辦呢?

Lucy決定換條路,於是在谷歌上搜索「New York City Population 2019」。-->

啪,找到了美國聯邦普查局的連結,點進去。-->

(連結:https://www.census.gov/quickfacts/fact/table/newyorkcitynewyork,bronxcountybronxboroughnewyork,kingscountybrooklynboroughnewyork,newyorkcountymanhattanboroughnewyork,queenscountyqueensboroughnewyork,richmondcountystatenislandboroughnewyork/PST045219)

在這裡,紐約市2019年的估測數據就非常齊全了,同時也提供csv文檔的下載。以下是數據顆粒度的完整欄位:

簡單概括 —— 非常細緻。

除了性別、年齡(學齡、中間、老年)、區的分層,還包括了族群背景、教育背景、收入狀況、居住狀況、健康狀況、甚至網際網路使用率等。這組數據把紐約市人口從多個維度切開來做了詳細呈現。

Lucy對目前查找的結果總體是比較滿意。但有一個缺點:

次級行政區的人口顆粒度還是不夠細膩。是否可以細緻到紐約選區級別呢?

於是,Lucy再次谷歌一下。找到了紐約市政府規劃廳的網站。發現有非常細緻的社區畫像全景。-->

(網址:https://communityprofiles.planning.nyc.gov/)

可以看到,所有59個社區都在地圖上呈現,Lucy在搜索欄輸入自家郵編,定位了自己的社區 —— 皇后區第二社區。-->

數據非常翔實,不但有過去兩次的人口普查的數據,還呈現了2014-2018年這個時間區間的預估人口。社區人口的年齡分布、族群分布、國外出生比例等都有呈現。-->

甚至像犯罪情況、教育程度、英語能力、失業率和貧困人口的數據也有呈現。實際上,這個頁面還有許多跟這個社區相關的地理及經濟數據,不局限於人口數據。

在頁面的底部,同樣可以找到csv文檔的下載區。-->

換言之,把59個社區的csv文檔集合在一起。整個城市的人口數據的顆粒度不光是在地理層面更細緻,包括年齡結構等層面也比之前的數據更為細緻。

Lucy順利地完成了任務。

她得出的結論是:紐約市政府加上聯邦普查局的公開渠道基本能把人口數據的各個層面摸得透徹。

Lily (坐標倫敦)

Lily是個住在北倫敦Holloway社區的黑人姑娘。也是阿森納球迷。接到作業的任務後,她的第一個反應跟紐約的Lucy差不多,就是去谷歌搜索「Open Data London"。-->

於是就找到了大倫敦地區的官方數據統計頁面。-->

(網址:https://data.london.gov.uk/)

搜索」population"。跳出來的結果似乎可以解決作業的需求。-->

這裡有1939-2015年的人口變化,有基於人口趨勢的人口預估,有關於人口和移民的數據,有根據區域劃分的人口數據,也有白天人口數據。

Lily先看了一下《Polulation Change 1939-2015》的人口變化這組數據。-->

下載下來,打開一看,大倫敦地區所有的行政分區都覆蓋了。-->

欄位上看有1939年和1988年的估算人口數,有2011年的普查數據,然後就是2015、2021、2031和2039年的預測數據。最後人口的增長率也有體現。

Lily第二個打開的數據是《Land Area and Population Density, Ward and Borough》。

這是一個被整理好的excel文件,可以方便地進行篩選。裡面的數據跨度是1999年至2050年。

它的區域分類分為Borough和Ward。Ward的分區概念比Borough(行政分區)還要小一個維度。

欄位來看,人口、土地面積、人口密度都有概括。從人口的地理分段來看,這組數據的顆粒度更為細緻。

這是一個很不錯的開始,但問題是年齡分布、族群分布、性別分布等情況都未能體現。

於是Lily又在這裡找到了另一組數據:2011年普查關於多元化的數據 —— 《2011 Census Diversity》。-->

這組數據把倫敦的人口(2011年普查口徑)以語言、族裔、宗教、國籍、護照、出生地等類別做了劃分。都有可以下載的excel文檔。-->

除了從多元性的角度做許多「橫向」切分外,「縱向」也做了另一層切分。分類包括了:地區、住房情況、年齡分布、家庭成員組合和社會經濟背景。

但這組數據有一個問題:時間點滯後。

2011年的普查畢竟已經是9年之前的事情了。怎麼辦呢?

於是Lily又打開了第三組數據 :《Ethnic group population projections》——針對族群分類的倫敦人口估測數據,2020年上傳。-->

它用了兩種方法Central Trend Projection和Housing Led Projection兩種估算方式,用官方口徑把數據預測到了2050年。兩個估算的結果各自有一個excel文檔。

選一個點進去看看。-->

除了族群背景,性別、住的區域、年齡到每一歲的欄位都有。時間軸上從2011年開始一直估算到了2050年。

搜索到了這裡,Lily已經非常滿意了。

最後她決定再多給期末作業補充一個章節,於是進行了「人口+經濟」的搜索,結果又跳出了就業率、貧富差距、多重貧困等數據。來自的年份不等,對於倫敦人口的經濟狀況也算是一種補充。-->

Lily也順利地完成了任務。

她得出的結論是:倫敦人口的相關數據基本在一個埠都能找到,搜索次數也不多。基本能夠滿足多個維度多個層面的人口分布,顆粒度也是非常細緻的。唯一的缺點是數據太多了分析起來壓力很大。

韓梅梅(坐標上海)

韓同學來上海上學已經兩年了。

她發現要找上海的人口數據總體來說很方便。只需要去「上海統計局」的官方網站就能搞定。-->

(網址:http://tjj.sh.gov.cn/)

在「數據發布」的頁面底部能找到歷年的《上海統計年鑑》。-->

每年的年鑑裡面都有關於人口的篇章。-->

2019年的《上海統計年鑑》裡面人口篇有11個表。-->

但她發現,這11個表裡,大部分都是戶籍人口統計,而涉及到常住人口的只有表2.2和2.11。

2.2 是各區的土地面積、常住人口及人口密度。-->

2.11是在滬外國常住人口。-->

由於其他的表都是以戶籍人口的數據。因此上海全市人口的年齡構成、生育和死亡率及婚姻情況等數據無法從《上海統計年鑑》中得知。

於是,韓梅梅希望能從別的表中找到線索。

她又打開第三篇《從業人員和工資》和第十篇《人民生活》,裡面有一些與經濟相關的人口數據。-->

在這裡能夠查到居民的就業和生活總體信息了。欄位不算太多,但還是可以了解一些關鍵指標。

接下來,按照作業要求,韓梅梅需要縮小範圍,查找自己家所在社區的人口數據了。

這裡似乎沒有。

於是,韓梅梅又分別去到了上海16個區的政府官方網站。

花了兩個小時左右翻了個遍,韓梅梅得出了大致結果:

在上海的16個區中,有10個區可在其網站上查到的該區統計年鑑和相關人口數據,而6個沒有數據的區基本是浦西的中心城區。在10個有人口數據的區網站裡面,並不是所有的數據都體現居住人口。顆粒度方面,各地的側重點和細緻度是不一的。

以下是一些例子。找不到數據的如黃浦區。-->

很多區也公開了人口數據,但只能看戶籍人口。-->

浦東新區的數據更完整一些,包括流動人口的進出,並且顆粒度能達到街道級別。-->

由於不住在浦東,所以韓梅梅的任務暫時卡殼了。

她得出的結論是:暫時無法完整找到地理顆粒度更細的人口數據。雖然浦東的數據是可以到街道的,但很多區還沒有。由於地理的顆粒度無法下沉,各區各自不同的其他類別顆粒度如經濟類、年齡類的數據體現也沒有太多參考意義。畢竟這個作業要的是居住人口的分析不是戶籍人口的分析。

想到這裡,韓梅梅不禁有些煩惱。

總結:類別、空間、時間

最後,Lucy、Lily和韓梅梅把各自所在城市的人口數據開放程度做了一個匯總。

1,紐約的人口數據開放和獲取是完整齊全的,但搜尋過程中還是跳轉了兩三個埠。

2,倫敦的人口數據開放和獲取是在一個埠能完全解決的,但部分細顆粒度的類別欄位沒有更新到最新年份。

3,上海的人口數據開放和獲取是要通過多個埠解決的,但問題在於數據公開的顆粒度和維度不夠,地區數據顆粒度下沉不到街道層級。部分細顆粒度數據散落在區政府的網站。但可惜不是所有區政府的網站都能找到人口數據,而即使找到,也大部分都是戶籍人口數據。

所有主要數據的情況如下:

(點擊圖片,可放大細看)

三座城市的比較是這樣的:

(點擊圖片,可放大細看)

兩千多年前,蕭何要拿到人口數據需要跟著劉邦一路打進鹹陽城。今天滑鼠點擊一下就可以去查找。

兩千多年前,也就蕭何這種等級的人物可以去對人口這樣的公共數據有些窺探。今天,大學生如韓梅梅都有資格和渠道獲得。不得不感嘆人類的技術和觀念的進步。

只是本次作業當三位同學把數據集合的時候,上海數據的問題還是讓韓梅梅多少有些尷尬。

團支書:根據我入職數據團之前網上衝浪的經驗......

團支書在中國找數據,淘寶最好用。

哎,韓梅梅同學,還是要善用會剁手的搜尋引擎啊!

相關焦點

  • 中美雙城記:上海VS紐約
    紐約(New York City,簡稱NYC),位於美國紐約州東南部大西洋沿岸,是美國第一大城市及第一大港口, 紐約與倫敦並列為全世界最頂級的國際大都市。紐約市總面積達1214.4平方公裡,人口約851萬人,居住在789平方公裡的土地上。紐約時報廣場被稱作「世界的十字路口」,是世界商業娛樂產業的中心之一。
  • 今日足球:肯薩斯vs奧蘭多城 邁阿密vs紐約紅牛 科羅拉多vs聖何塞
    結合歐洲的主勝數據,與亞指走勢一致,對主隊打出有利。綜合來看個人看好主隊。國際邁阿密vs紐約紅牛國際邁阿密近況:是本賽季的新軍,球隊至今12輪常規賽戰罷,錄得3勝2平7負的成績,積11分排名第11。目前距離第7的新英格蘭革命有4分之差,爭奪相當激烈。
  • 今日足球:新英格蘭vs紐約城 休斯敦vs明尼蘇達 聖何塞vs波特蘭
    新英格蘭革命vs紐約城新英格蘭革命近況:近幾個賽季成績頗為穩定,一直排在東部第7、8的位置。紐約城近況:是東部賽區的上遊球隊,不過本賽季發揮不佳,目前美職足11輪聯賽中取得了5勝1平5負的成績,積16分僅排名東部第6。紐約城是東部賽區防守第二好的球隊,目前僅丟9球,場均失球0.82個。而在客場方面,球隊連續2個客場1勝1平保持不敗,本場客戰仍有取分的機會。
  • vS Data爐石標準天梯環境數據報告#5
    幾天前,國外一個爐石環境報告在爐石社區中異軍突起,憑藉其數據優勢,乾貨奉上最值得參考的環境報告,廣受好評。相比TS周報,vS的數據側面證明了國外的環境和國內並沒有太大差別,即使有些時候個別影響力很強的直播帶了節奏,導致短期內環境變化。報告中給出的對陣情況也還是有很不錯的參考意義的(除非你說國外環境下,同樣的卡組對陣,國外是優勢,國內就是劣勢,那我也沒話說了)。
  • 賽後數據 桑普多利亞 vs AC米蘭【紀錄之夜】...
    懂球帝首頁>足球新聞> 賽後數據 桑普多利亞 vs AC米蘭【紀錄之夜】... 賽後數據 桑普多利亞 vs AC米蘭【紀錄之夜】... AC米蘭足球俱樂部 12-07 14:01 賽後數據 桑普多利亞 vs AC米蘭【紀錄之夜】米蘭在本賽季前10輪聯賽中取得了8場勝利——我們曾在1954/55賽季的前10輪聯賽中9次獲勝,而那也是我們的隊史最佳聯賽開局;本輪聯賽過後,我們在連續30輪聯賽都有進球入帳,這是球隊新的歷史紀錄;除此之外,我們已經連續12輪聯賽場均打進
  • 上海和紐約都在想些什麼?
    建設上海(5%)vs 紐約(28.4%)不謀而合:建設層面郊區更受關注建設類兩座城市的絕對數量和佔比都有很大的落差,主要與數據來源和兩地的立法程序有關。但這不影響建設都是城市裡重要的發展環節。[3.請看尾部說明]先看詞頻。詞頻上已經看出了比較明顯的特徵。
  • 澳超:雪梨FC vs 阿德萊德聯數據一覽
    周六001【澳洲甲-雪梨FCvs阿德萊德聯】比賽對陣雙方:雪梨FC vs 阿德萊德聯雙方的主教練:科裡卡 vs 維爾貝克最近對戰數據:4/1/1【不足6場的展示所有對戰】近10場戰績:8/1/1 vs 6/0/4近10場主場戰績:8/1/1 vs 7/0/3近10場主場進失球:2.2/0.8
  • 今日足球:紐約城vs華盛頓聯 西雅圖vs皇家鹽湖城 洛杉磯vs波特蘭
    紐約城vs華盛頓聯紐約城近況:在經歷了9月份的4輪僅一勝之後,紐約城近期收穫兩連勝,總算是穩住了陣腳,不過含金量比較一般,贏下而不過是辛辛那提和國際邁阿密之流,都是積分榜末端的球隊。本場:紐約城在往績方面稍稍佔據上風,近10次交鋒取得4勝3平3負,而且5次坐鎮主場保持不敗,地利方面的優勢不小。紐約城最近收穫兩連勝,而華盛頓聯一勝難求,做出紐約城讓步0.75,還有繼續上調的空間。因此本場看好近況回升的紐約城能夠拿下華盛頓聯。
  • 今日足球:川崎前鋒vs東京FC 紐約紅牛vs國際邁阿密
    川崎前鋒vs東京FC川崎前鋒近況:本場為日聯杯半決賽,由川崎前鋒坐鎮主場迎戰FC東京。後市數據表現也非常穩定,川崎前鋒今仗值得追捧。紐約紅牛vs國際邁阿密紐約紅牛近況:在本賽季的表現較為飄忽,目前積20分排在東部聯盟第7位,攻防方面較為平庸,而主場方面能贏也能輸,最近一個聯賽主場面對蒙特婁衝擊,雖然在開場僅4分鐘就落後,但球隊很快就調整狀態,最終以4-1上演大逆轉,結束了主場3連敗的頹勢。
  • 義大利杯:羅馬vs帕爾馬數據統計
    周四001【意杯-羅馬vs帕爾馬】比賽對陣雙方:羅馬 vs 帕爾馬雙方的主教練:保羅-豐塞卡 vs 達韋爾薩最近對戰數據:4/1/1【不足6場的展示所有對戰】近10場戰績:5/2/3 vs 5/3/2近10場主場戰績:4/3/3 vs 6/1/3近10場主場進失球:1.5/1.3 vs 1.7
  • 每日足球:華盛頓聯vs衝擊 紐約紅牛vs多倫多 白帽vs洛杉磯銀河
    華盛頓聯vs蒙特婁衝擊 比賽時間:11-09 04:30 紐約紅牛vs多倫多FC 比賽時間:11-09 04:30
  • 上海和紐約,倫敦的差距還有多大?
    倫敦 而上海,是我國第一大都會,中國的經濟中心,金融中心,如果是以前提到上海,根本不可能和紐約,倫敦這種世界性的城市相比,然而經過幾十年改革開放的快速發展,如今的上海已經脫胎換骨
  • 澳超:墨爾本勝利VS紐卡斯爾噴氣機數據一覽
    周日001【澳洲甲-墨爾本勝利vs紐卡斯爾噴氣機】比賽對陣雙方:墨爾本勝利 vs 紐卡斯爾噴氣機雙方的主教練:庫爾茨 vs 梅裡克最近對戰數據:3/0/3【不足6場的展示所有對戰】近10場戰績:3/2/5 vs 2/3/5近10場主場戰績:2/3/3 vs 1/2/2近10場主場進失球:0.9
  • 今日足球:亞特蘭大聯vs國際邁阿密 新英格蘭革命vs紐約城
    亞特蘭大聯vs國際邁阿密亞特蘭大聯近況:上一輪以1-3不敵奧蘭多城,近六場比賽輸掉了第五場,整體表現十分糟糕。本場:初始開出了-0.25中低水的位置,後市主隊水位略有下調,數據對於兩隊的實力評估基本呈五五開。亞特蘭大聯與國際邁阿密的近況相仿,兩隊的競技狀態都非常一般,但亞特蘭大聯本賽季延續了過往的班底,無論紙面實力還是磨合度等等方面都擁有較大優勢,而且數據已經有拉升的跡象,亞特蘭大聯搶分應該問題不大。
  • 數據英超:阿森納連殺升班馬44年 紐卡最怕倫敦對手
    2018年2月加盟至今,奧巴梅揚在85場英超中打入54球,追平薩拉赫同期進球數據。水晶宮vs南安普敦 周六22:00數據提點南安普敦在2020年英超拿到30分(9勝3平6負),本年度聯賽表現在所有英超球隊中能排第6。上賽季南安普敦的英超客場成績達到9勝4平6負共31分,僅次於利物浦和曼城,這一出色的客場戰績也打破隊史紀錄。
  • 日皇杯決賽:神戶勝利船vs鹿島鹿角數據一覽
    周三001【日皇杯-神戶勝利船vs鹿島鹿角】比賽對陣雙方:神戶勝利船 vs 鹿島鹿角雙方的主教練:芬克 vs 大巖剛最近對戰數據:2/1/3【不足6場的展示所有對戰】近10場戰績:7/0/3 vs 4/3/3近10場主場戰績:8/0/2 vs 5/3/2近10場主場進失球:2.2/1.1 vs
  • 足球賽事:華盛頓vs紐約城 紐約紅牛vs費城
    020美職業 華盛頓vs紐約城華盛頓:有利:目前積7分排名聯賽第10,距離季後賽區域僅差1分,本場戰意十足。上一場比賽贏下紐約紅牛,2連敗取勝狀態有所回暖。紐約城:有利:目前東部排名第5,距離榜首僅差4分,本場搶分欲望十分強烈。上一場比賽贏下新英格蘭革命,近期迎來3連勝,整體狀態士氣較佳。客場作戰能力尚可,本賽季6個客場取得3勝3負,勝率有5成。歷史交鋒佔據優勢,近10次交手取得5勝2平3負,往績心理佔據優勢。贏得指數能力有所提升,近3場比賽全部贏下指數。
  • 上海申花進爭冠組不輸球就行?這一數據中超最佳
    與江蘇蘇寧一戰,上海申花「寒磣」到僅能派出一名外援首發。面對火力兇猛的蘇寧三叉戟,上海申花立足於防守,最終得以零封對手。在零封這項數據上,上海申花本賽季是16支中超球隊中做得最好的,前12輪聯賽零封5場之多。與之相比,球隊進攻線火力就是中超末位,12個進球僅好於青島黃海和天津泰達。
  • 賽後數據 桑普多利亞 vs AC米蘭【電光石火】...
    懂球帝首頁>足球新聞> 賽後數據 桑普多利亞 vs AC米蘭【電光石火】... 賽後數據 桑普多利亞 vs AC米蘭【電光石火】... AC米蘭足球俱樂部 12-07 14:40 賽後數據 桑普多利亞 vs AC米蘭【電光石火】卡斯蒂列霍本場比賽登場僅僅34秒就為紅黑軍團打入了第二粒進球,這也是本賽季意甲替補登場隊員的最快進球紀錄;【平穩輸出】自2017/18賽季以來,凱西已經為米蘭打入了20粒聯賽進球,是同時期除伊布以外進球最多的米蘭球員;此外,凱西還是自
  • 足球賽事:帕梅拉斯vs科裡蒂巴,奧蘭多vs紐約城
    030 巴西甲 帕梅拉斯vs科裡蒂巴帕爾梅拉斯:目前取得5勝7平2負成績積22分排名第7位,本季的成績有所下滑,其中18個入球也大大不如上季,進攻端的不力導致成績不佳。帕爾梅拉斯034 美職業 奧蘭多vs紐約城奧蘭多城:目前取得8勝6平2負成績積30分排名第4位,最近狀態相當突出,現時把不敗紀錄延續著10場,球員士氣也是相當高漲。