你能找到人口數據嗎?(數據開放之紐約vs倫敦vs上海)

2021-01-08 城市數據團

公元前207年,鹹陽城前後腳來了兩波人。

第一波劉邦集團首先進入鹹陽。在手下重要幕僚蕭何的督促下,沒有大規模燒殺搶掠。而是把鹹陽城內重要的典籍、文書和資料拿到了自己手。但是實力不足的劉邦不敢久留。

後來,第二波項羽集團也進入了鹹陽。放任屠城,一把火燒了秦王宮。實力雄厚,霸氣十足。自此自立為王,分封天下。

之後的結局早就家喻戶曉了。兵強馬壯的項羽最終四面楚歌,油膩中年男子劉邦最終奪得天下成就一個跨度四百年的王朝。

「為什麼項羽輸劉邦贏」這一話題早已成為了人們從嚴肅政治學到世俗成功學中討論了無數次的話題。而從數據角度,我們也會從蕭何對於秦王朝所記錄的社會資料的興趣做多一層的解讀。因為這些基本的人口、地理、經濟資料其實就是最早意義上的大數據。

為什麼掌握這些數據對於蕭何來說至關重要?因為大數據即可量化的信息,而掌握重要且全面的信息即掌握權力。

正是因此,歷史上統治者往往壓制被統治者獲取這些信息。然而進入到現代社會後,主權在民的思想逐漸深入人心。一方面,公民有義務被收集部分個人數據。另一方面,公民也有權利去得到許多公共數據。公共數據的獲得權越來越被認知為知情權的一部分。

於是,近年來各國圍繞著公共數據的公開、個人數據的採集、綜合數據安全等問題做了許多的立法。從民間展開的Open Data Movement (數據公開運動)也是得到了各地政府不同程度的回應。

那麼問題來了:

作為一個普通人,我們在當下的2020年,獲取公共數據有多方便呢?獲得的數據又有多全面呢?

本文從人口數據作為切入,做一個簡單跨區域比較的小實驗。

我們的故事有三個女主角:Lucy、Lily和韓梅梅。她們是分別生活在紐約、倫敦和上海的三位大學生,因為一個期末作業報告,她們需要查找一些跟自己生活所在地區相關的人口數據,做一個常住人口的比較分析。

Lucy (坐標紐約)

Lucy是一個土生土長的紐約女孩,她對紐約市的官方數據查詢渠道非常熟悉。她首先登陸的網站是NYC Open Data。

NYC Open Data是在2009年美國聯邦政府Open Government Initative (公開政府倡議)的基本精神框架下,由紐約市政府立法由科技通訊部於2012年上線的網站。頁面大概長這樣:

(網址:https://opendata.cityofnewyork.us/)

Lucy在搜索框裡敲出「population」(人口)。--->

搜索欄一搜,各式各樣的人口相關的數據就呈現了。Lucy掃一眼,發現各式各樣的人口數據都有。

她首先去看最宏觀的人口數據:Projected Population 2010-2040。-->

這是2010年至2040年間紐約人口的估算數據。為了方便市民使用,網站提供了不同格式數據的下載連結。-->

同時也公開了API的信息,方便會寫代碼的市民們處理數據。-->

點進去仔細看下,這是這組數據的欄位。-->

下載下來,在Excel裡打開長這樣。-->

看起來橫縱雙軸的欄位冗長,但從做數據類工作(作業)的角度,這恰恰是Lucy喜歡的。至少說明這組數據是豐富的。

的確,這組數據包括了整個紐約市在2010、2020、2030和2040的總人口,各區域人口,以及各年齡段人口。-->

但Lucy還不是特別滿意。

第一,這組數據各年齡段顆粒度並不細緻。老人和孩子沒有更細的區分。

第二,這組數據是每十年(美國人口普查年份)的人口預估,不能滿足一年一年地看人口變化。

那怎麼辦呢?

Lucy決定換條路,於是在谷歌上搜索「New York City Population 2019」。-->

啪,找到了美國聯邦普查局的連結,點進去。-->

(連結:https://www.census.gov/quickfacts/fact/table/newyorkcitynewyork,bronxcountybronxboroughnewyork,kingscountybrooklynboroughnewyork,newyorkcountymanhattanboroughnewyork,queenscountyqueensboroughnewyork,richmondcountystatenislandboroughnewyork/PST045219)

在這裡,紐約市2019年的估測數據就非常齊全了,同時也提供csv文檔的下載。以下是數據顆粒度的完整欄位:

簡單概括 —— 非常細緻。

除了性別、年齡(學齡、中間、老年)、區的分層,還包括了族群背景、教育背景、收入狀況、居住狀況、健康狀況、甚至網際網路使用率等。這組數據把紐約市人口從多個維度切開來做了詳細呈現。

Lucy對目前查找的結果總體是比較滿意。但有一個缺點:

次級行政區的人口顆粒度還是不夠細膩。是否可以細緻到紐約選區級別呢?

於是,Lucy再次谷歌一下。找到了紐約市政府規劃廳的網站。發現有非常細緻的社區畫像全景。-->

(網址:https://communityprofiles.planning.nyc.gov/)

可以看到,所有59個社區都在地圖上呈現,Lucy在搜索欄輸入自家郵編,定位了自己的社區 —— 皇后區第二社區。-->

數據非常翔實,不但有過去兩次的人口普查的數據,還呈現了2014-2018年這個時間區間的預估人口。社區人口的年齡分布、族群分布、國外出生比例等都有呈現。-->

甚至像犯罪情況、教育程度、英語能力、失業率和貧困人口的數據也有呈現。實際上,這個頁面還有許多跟這個社區相關的地理及經濟數據,不局限於人口數據。

在頁面的底部,同樣可以找到csv文檔的下載區。-->

換言之,把59個社區的csv文檔集合在一起。整個城市的人口數據的顆粒度不光是在地理層面更細緻,包括年齡結構等層面也比之前的數據更為細緻。

Lucy順利地完成了任務。

她得出的結論是:紐約市政府加上聯邦普查局的公開渠道基本能把人口數據的各個層面摸得透徹。

Lily (坐標倫敦)

Lily是個住在北倫敦Holloway社區的黑人姑娘。也是阿森納球迷。接到作業的任務後,她的第一個反應跟紐約的Lucy差不多,就是去谷歌搜索「Open Data London"。-->

於是就找到了大倫敦地區的官方數據統計頁面。-->

(網址:https://data.london.gov.uk/)

搜索」population"。跳出來的結果似乎可以解決作業的需求。-->

這裡有1939-2015年的人口變化,有基於人口趨勢的人口預估,有關於人口和移民的數據,有根據區域劃分的人口數據,也有白天人口數據。

Lily先看了一下《Polulation Change 1939-2015》的人口變化這組數據。-->

下載下來,打開一看,大倫敦地區所有的行政分區都覆蓋了。-->

欄位上看有1939年和1988年的估算人口數,有2011年的普查數據,然後就是2015、2021、2031和2039年的預測數據。最後人口的增長率也有體現。

Lily第二個打開的數據是《Land Area and Population Density, Ward and Borough》。

這是一個被整理好的excel文件,可以方便地進行篩選。裡面的數據跨度是1999年至2050年。

它的區域分類分為Borough和Ward。Ward的分區概念比Borough(行政分區)還要小一個維度。

欄位來看,人口、土地面積、人口密度都有概括。從人口的地理分段來看,這組數據的顆粒度更為細緻。

這是一個很不錯的開始,但問題是年齡分布、族群分布、性別分布等情況都未能體現。

於是Lily又在這裡找到了另一組數據:2011年普查關於多元化的數據 —— 《2011 Census Diversity》。-->

這組數據把倫敦的人口(2011年普查口徑)以語言、族裔、宗教、國籍、護照、出生地等類別做了劃分。都有可以下載的excel文檔。-->

除了從多元性的角度做許多「橫向」切分外,「縱向」也做了另一層切分。分類包括了:地區、住房情況、年齡分布、家庭成員組合和社會經濟背景。

但這組數據有一個問題:時間點滯後。

2011年的普查畢竟已經是9年之前的事情了。怎麼辦呢?

於是Lily又打開了第三組數據 :《Ethnic group population projections》——針對族群分類的倫敦人口估測數據,2020年上傳。-->

它用了兩種方法Central Trend Projection和Housing Led Projection兩種估算方式,用官方口徑把數據預測到了2050年。兩個估算的結果各自有一個excel文檔。

選一個點進去看看。-->

除了族群背景,性別、住的區域、年齡到每一歲的欄位都有。時間軸上從2011年開始一直估算到了2050年。

搜索到了這裡,Lily已經非常滿意了。

最後她決定再多給期末作業補充一個章節,於是進行了「人口+經濟」的搜索,結果又跳出了就業率、貧富差距、多重貧困等數據。來自的年份不等,對於倫敦人口的經濟狀況也算是一種補充。-->

Lily也順利地完成了任務。

她得出的結論是:倫敦人口的相關數據基本在一個埠都能找到,搜索次數也不多。基本能夠滿足多個維度多個層面的人口分布,顆粒度也是非常細緻的。唯一的缺點是數據太多了分析起來壓力很大。

韓梅梅(坐標上海)

韓同學來上海上學已經兩年了。

她發現要找上海的人口數據總體來說很方便。只需要去「上海統計局」的官方網站就能搞定。-->

(網址:http://tjj.sh.gov.cn/)

在「數據發布」的頁面底部能找到歷年的《上海統計年鑑》。-->

每年的年鑑裡面都有關於人口的篇章。-->

2019年的《上海統計年鑑》裡面人口篇有11個表。-->

但她發現,這11個表裡,大部分都是戶籍人口統計,而涉及到常住人口的只有表2.2和2.11。

2.2 是各區的土地面積、常住人口及人口密度。-->

2.11是在滬外國常住人口。-->

由於其他的表都是以戶籍人口的數據。因此上海全市人口的年齡構成、生育和死亡率及婚姻情況等數據無法從《上海統計年鑑》中得知。

於是,韓梅梅希望能從別的表中找到線索。

她又打開第三篇《從業人員和工資》和第十篇《人民生活》,裡面有一些與經濟相關的人口數據。-->

在這裡能夠查到居民的就業和生活總體信息了。欄位不算太多,但還是可以了解一些關鍵指標。

接下來,按照作業要求,韓梅梅需要縮小範圍,查找自己家所在社區的人口數據了。

這裡似乎沒有。

於是,韓梅梅又分別去到了上海16個區的政府官方網站。

花了兩個小時左右翻了個遍,韓梅梅得出了大致結果:

在上海的16個區中,有10個區可在其網站上查到的該區統計年鑑和相關人口數據,而6個沒有數據的區基本是浦西的中心城區。在10個有人口數據的區網站裡面,並不是所有的數據都體現居住人口。顆粒度方面,各地的側重點和細緻度是不一的。

以下是一些例子。找不到數據的如黃浦區。-->

很多區也公開了人口數據,但只能看戶籍人口。-->

浦東新區的數據更完整一些,包括流動人口的進出,並且顆粒度能達到街道級別。-->

由於不住在浦東,所以韓梅梅的任務暫時卡殼了。

她得出的結論是:暫時無法完整找到地理顆粒度更細的人口數據。雖然浦東的數據是可以到街道的,但很多區還沒有。由於地理的顆粒度無法下沉,各區各自不同的其他類別顆粒度如經濟類、年齡類的數據體現也沒有太多參考意義。畢竟這個作業要的是居住人口的分析不是戶籍人口的分析。

想到這裡,韓梅梅不禁有些煩惱。

總結:類別、空間、時間

最後,Lucy、Lily和韓梅梅把各自所在城市的人口數據開放程度做了一個匯總。

1,紐約的人口數據開放和獲取是完整齊全的,但搜尋過程中還是跳轉了兩三個埠。

2,倫敦的人口數據開放和獲取是在一個埠能完全解決的,但部分細顆粒度的類別欄位沒有更新到最新年份。

3,上海的人口數據開放和獲取是要通過多個埠解決的,但問題在於數據公開的顆粒度和維度不夠,地區數據顆粒度下沉不到街道層級。部分細顆粒度數據散落在區政府的網站。但可惜不是所有區政府的網站都能找到人口數據,而即使找到,也大部分都是戶籍人口數據。

所有主要數據的情況如下:

(點擊圖片,可放大細看)

三座城市的比較是這樣的:

(點擊圖片,可放大細看)

兩千多年前,蕭何要拿到人口數據需要跟著劉邦一路打進鹹陽城。今天滑鼠點擊一下就可以去查找。

兩千多年前,也就蕭何這種等級的人物可以去對人口這樣的公共數據有些窺探。今天,大學生如韓梅梅都有資格和渠道獲得。不得不感嘆人類的技術和觀念的進步。

只是本次作業當三位同學把數據集合的時候,上海數據的問題還是讓韓梅梅多少有些尷尬。

團支書:根據我入職數據團之前網上衝浪的經驗......

團支書:在中國找數據,淘寶最好用。

哎,韓梅梅同學,還是要善用會剁手的搜尋引擎啊!

相關焦點

  • 上海和紐約都在想些什麼?
    [1.數據來源見文章尾部說明] 我們把所有數據分成了十幾個「主題類別」。上海根據人大代表建議所針對提出的做主題劃分(左邊紅色);紐約則根據市議員議案所在的委員會做主題劃分(右邊藍色)。之所以找民意代表的數據是因為他們至少在理論上是體現民意的。我們願意相信民眾之意見為一座城市最核心的意識走向。所以我們提出這樣一個問題:上海和紐約,這兩座城市在想什麼?
  • 國產vs進口、貓奴vs狗奴、一人食vs分享食、健身派vs肥宅族?
    買國產還是買進口,是貓奴還是狗奴,愛一人食還是分享食,選擇健身還是肥宅,你究竟度過了怎樣的2018?近日,京東大數據研究院發布數讀2018系列,以京東大數據為基礎,針對不同群體消費者的購物行為、偏好及特點進行全面解析,從地域分布、網購品類、搜索與評價特點等多方面展示了中國消費者在2018年裡的網購動向。
  • Web 開發員 vs 數據科學家:誰將統治 Python?
    Web 開發員 vs 數據科學家:誰將統治 Python?從 DevOps 到機器學習和數據科學,Python 無處不在。根據去年的一些數據,Python 是增長最快的程式語言。 我們與Stack Overflow的數據科學家David Robinson談論了Python的發展,並了解到它來自數據科學和機器學習的巨大擴展。「2017 年 Python 開發人員調查」將數據分析和機器學習結合到一個單一的「數據科學」類別中時,結果顯示 27% 的受訪者都使用 Python 進行數據科學研究。
  • 日職:仙臺七夕vs鹿島鹿角 深度數據
    本情報內容是首創欄目,不提供主觀推舉,只提供客觀數據科學獨道的統籌呈現,對喜歡研究比賽的朋友更有幫助。所有內容均為本人及團隊多方收集匯總,用心製作的獨家情報,可結合《獨家情報全新欄目解析:你也可以成為「分析師」》閱覽會有不小收穫!
  • 葡聯杯競彩數據提點:維茲拉vs吉馬良斯
    維茲拉vs吉馬良斯  周五002葡聯杯  2016年12月31日 03:15   足彩數據     本場老牌公司偉德歐賠初賠開出4.60 3.40 1.83,歷史同初賠情況下,主隊不敗率達到60%。   吉馬良斯最近5場比賽贏盤率60%,最近5個客場比賽贏盤率也是60%。
  • ...報告發布:十四五上海要建成與紐約和倫敦並駕齊驅的頂級全球...
    來源:經濟觀察報經濟觀察網記者 程亦曦 「到2035年,上海要基本建成引領亞洲輻射全球、以開放的現代化金融市場體系為核心、以全球人民幣資產配置中心為標誌、與紐約和倫敦並駕齊驅的頂級全球金融中心。」上海國際金融中心建設的中長期目標在《上海國際金融中心建設目標與發展建議》中提到。
  • 今日足球:湘南海洋vs川崎前鋒 七夕vs大阪櫻花 太陽神vs橫濱水手
    湘南海洋vs川崎前鋒 本場:在聯賽中廝混度日的湘南海洋在交鋒往績上處於絕對下風之勢,近10次交手錄得1勝3平6負,最近3次交手全部落敗之餘僅打進1球。湘南海洋近期剛反彈的苗頭又被打下,而川崎前鋒則連勝不斷。以川崎前鋒的實力和進攻能力來看,取勝不成問題,不過結合進球數方面的觀察,個人認為本場未必打出。看好湘南海洋拿下。
  • 周六日聯賽 推薦;003 鹿島鹿角vs大阪櫻花+004柏太陽神vs川崎前鋒
    周六 003 鹿島鹿角vs大阪櫻花2020-12-19 13:00主隊: 鹿島鹿角上一輪聯賽在主場2-0擊敗了清水鼓動取得兩連勝,近十場聯賽贏下六場,整體表現尚算穩定。而且球隊的防守能力最近提升不少,過去6次面對大阪櫻花全部勝出且贏下數據,往績優勢巨大擅長利用角球創造機會,過去7場賽事有5場角球數佔據優勢連續六場各項賽事都有進球入帳,火力穩定且充沛。客隊: 大阪櫻花上一輪在主場1-2不敵鳥棲沙巖,聯賽四連不敗的勢頭宣告被終結,狀態有再次下滑的跡象。
  • 今日足球:京都不死鳥vs長崎航海 FC琉球vs金澤 德島漩渦vs北九州
    球隊近期整體表現十分不錯,近十場聯賽拿下了其中的七場,十戰搶下23分之多,目前已經距離第二的福岡黃蜂只有3分的差距,升級欲望比較強烈,此番具備較強的戰意。  本場:京都不死鳥在近九次與長崎成功丸交手打出了2勝1平6負的戰績,交鋒劣勢較大,而且球隊近期狀態比較飄忽,初始僅僅給出了-0並說明了一切,加上後期數據持續走低至+0.25,京都不死鳥明顯已經失去支撐能力,個人認為這場長崎航海拿下毫無懸念。
  • 全球五大一線城市,倫敦、紐約上榜,另外3個你知道是哪裡嗎?
    提起我國最著名的一線城市,相信大家首先便會想到北上廣深,近幾年隨著我國經濟的快速發展,它們也的確在此期間取得了相當不錯的成績,那全球的五大一線城市,夥伴們都知道是哪裡嗎?接下來就讓小編帶大家去了解一下吧。
  • 密爾沃基雄鹿VS芝加哥公牛
    >1月5日  騎士VS雷霆          雷霆-6.5          紅1月6日  太陽VS灰熊          大233.5           紅1月7日  76人VS雷霆         雷霆+7.5         紅1月8日  籃網VS雷霆          雷霆-2.5          紅  1月9日  獨行俠vs
  • 南北方差異真的無解,山芋vs地瓜、青瓜vs黃瓜,你能分清叫法嗎?
    可是以下這些南北方叫法不同的蔬菜,你真的全部都能分清嗎?單是山芋、洋芋、紅芋等等,吃霸君就已經被繞暈了,能區分開的都是「牛人」!1、南方人的捲心菜和北方人的包菜,你以為只有這兩種名字嗎?當然不是,有些地方還會叫它甘藍、蓮花白、洋白菜、大頭菜……每一種都像是不一樣的蔬菜名字,誰能想到它們居然全都是捲心菜呢?
  • 第一財經研究院院長楊燕青:病毒、數據與未來
    從流行病學數據看,1918年1月到1920年12月的大流感導致了當時全球1/3的人口感染,全球2%的人口死亡。新冠肺炎疫情導致的人類生命損失相較低很多。截至11月15日12時,全球新冠肺炎疫情的確診人數超過5388萬,死亡人數超過131萬,這意味著全球每千人中有7.1人確診,每萬人中有1.7人死亡。
  • 達美航空CEO給紐約至倫敦的「空中走廊」潑了一盆冷水
    有傳言說,紐約到倫敦的「空中走廊」已經開放數月,允許大西洋兩岸的乘客在美國和歐洲之間旅行,幾乎沒有限制,也不需要隔離。至少,美國和英國已經就此事進行了談判,儘管經過近6個月的時間,進展甚微,而且仍然沒有跡象表明旅行走廊將會啟動。
  • 對標倫敦紐約東京上海四大國際都市,成都得出了八條啟示
    2020年6月,一套以倫敦、紐約、東京、上海四大國際都市為研究對象,深入研究其先進經驗和前沿探索的系列報告——《國際大都市規劃建設研究年度報告(2019年)》(以下簡稱《報告》)在四川成都出爐。而在此基礎上,又形成了《國際大都市規劃建設主要經驗及其對成都的借鑑與啟示》(以下簡稱《啟示》)。
  • 赫拉克勒斯vs威廉二世 赫拉克數據不穩主勝存疑
    周二競彩 赫拉克勒斯vs威廉二世   聯賽:2018/19荷甲第28輪   比賽時間:2019-04-03 星期三 01:45   北京時間2019年4月3日01:45,荷甲第   【競彩方向】 讓球(-1)負   【指數方向】 威廉二世+0.25   以上各種數據截止時間為:2019年4月1日11:29   捷報網@延敖獨家稿件,未經許可嚴禁轉載!   私單回顧:昨晚荷甲、法甲兩場私推1中1失,其中烏得勒支壓哨絕殺費耶諾德,而南特卻在兩球領先的情況下慘遭對手超級逆轉。
  • 周一請吃素:觸目驚心9組數據 告訴你飲食與環保的關係
    [原標題]周一請吃素:觸目驚心的9組數據,告訴你飲食與環保的關係:1磅牛肉=6個月洗澡水? 大數據時代,許多事情都要用事實和數據來說話。您知道一塊牛肉需要消耗多少水資源嗎?您知道少吃一餐雞肉可以減少多少二氧化碳的排放量嗎?您知道地球上有多少森林因為畜牧業而被砍伐嗎?
  • 營商環境談|對標全球城市,上海營商環境「優」無止境
    與此同時,在上海對標的紐約、倫敦、東京、巴黎、新加坡、香港等國際主要城市,資本帳戶開放方面的國際排名均為並列第一,但上海則由於資本帳戶的不開放,而僅位列全球第99名。 數據來源:中國(深圳)綜合開發研究院和倫敦Z/Yen集團《國際金融中心指數(GFCI)》四、人才流動、吸引人才與人力資源1. 人力資源總體中等,但缺乏高端人才與技術人員企業是否能創新發展,關鍵靠人。人力資源,為發展經濟和社會事業提供必要的勞動力。
  • NBA季前賽直播:湖人VS太陽 籃網VS凱爾特人 雄鹿VS鵜鶘 誰能完美收官?
    杜歐PK雙探花,豪強大戰一觸即發,誰能帶隊完美收官?我們拭目以待!屆時來球將為球迷帶來本場比賽的視頻直播,敬請關注!▼點擊文末「閱讀原文」觀看比賽直播▼同時段9點,另外一場備受關注的比賽,鵜鶘將坐鎮主場冰沙王中心球館對陣雄鹿。
  • 倫敦和上海有什麼區別?差距在哪裡?讓我們一起來看看吧
    中國經歷了幾十年的改革開放,經濟取得了長足的進步,為此,中國也產生了四個一線城市,我們常說的北上廣深,其中,上海作為中國的金融貿易中心和國際大都市,受到了世界的深切關注,作為普通人,值得記住的是,我們有生之年可以去上海旅遊。