叮咚!這裡是唯城君的數學小課堂!
首先感謝「唯粉」們的熱情應援!從11月6日發布上線以來,「唯一的城」與您見面已經快一個月啦!這段時間,「唯一的城」陸續發布了四張子榜單,開始了唯城君與「唯粉」們美妙的緣分。讓我們珍惜這份緣!
借唯城君「滿月」的契機,我們收集了這段時間以來大家的評價,希望能夠在提供更優質內容的同時,拉近唯城君和您的關係,增加您對唯城君的了解。
接下來我們將就大家關心的問題作出回應,希望能解答您的疑惑。由於大家的問題都和研究方法相關,所以唯城君為大家精心準備一場數學「開小灶」。
下面正式進入我們的數學小課堂!
1
為何「我」的城市「榜上無名」?
從第一篇子榜單《34城空間體驗榜》發布以來,唯城君便收到很多關於榜單沒有自己所在城市的提問。
更有內蒙古某單位工作人員親自致電,詢問榜單為何沒有呼和浩特市。
首先,真誠感謝各位網友對榜單的關注!
然後重申一下榜單的定位:唯城君希望用嚴謹、專業的研究方法+溫情活潑的內容輸出,打造具有人文關懷屬性的城市評價榜單。
接下來,請同學們認真聽課!首先我們引進中學數學的概念——「統計」與「樣本」。
統計,就是通過對某一現象有關的數據進行收集、整理、計算、分析等來了解具體問題,例如將全年級同學的成績收集起來,通過排序、計算平均成績等方式了解整個年級的學習情況,這就是一種統計。
通俗來講,要了解所有城市的具體表現,最好的辦法是窮盡所有城市的數據,這種方法在數學上叫做「全樣本統計」。
但是,全國300多個地級以上城市,要窮盡起來好難啊~~~這些數據做到什麼時候才能下班啊摔~~~(開玩笑我愛工作,老闆看到請加雞腿!)
全樣本統計大多數情況下不太現實。關鍵的問題是,在數據收集和處理上需要耗費很多時間,所以我們選取其中一部分城市作為觀察對象,被選取的對象在數學上叫做「樣本」。這種方法叫做「抽樣」。
又又又因為多數人更關注「厲害的」城市,所以我們的抽樣更多偏向人們印象中的「好城市」。
我們劃定了兩條線,城區人口300萬以上的城市、以及GDP超過1萬億元的城市。除此之外,還有城市(區域)研究中心預測2022年GDP超過萬億的城市和城區人口300萬以上的城市。由於港澳臺地區目前數據獲取有較大缺漏,故而未納入觀測範圍。這就是同學們看到的34座城市。
由於工作量受限,我們並沒有完全納入其他有潛力的省會、自治區首府城市,如南寧、呼和浩特等。但是,向大家偷偷透露一下,明年我們的樣本將擴大至全國所有省會城市和自治區首府。
繼續關注「唯一的城」,說不定明年就能在榜單上看見你的城市喲!
2
為什麼會有「0」分出現呢?
同學們,劃重點!這個「0」不是表示差到極點。
大家看黑板!榜單上的「0」是指標評價值,只具有統計學上的意義,榜單得分為「0」不代表實際表現為「0」,「0」是數據經過無量綱化處理後的結果。
所以,我們接著引進一個統計學的概念——「量綱」。
啊,這文縐縐的字眼咋理解?同學們不要著急,這個概念很好理解,就是同學們小學數學開始學的「單位」,比如醫院數量的單位是「家」,綠地面積的單位是「平方米」,還有些只有數值而沒有單位,如果我們要對比城市的數據,就可能出現兩個問題:
第一,單位不同的數值不能夠計算,比如400家醫院和2000平方米綠地,兩個數值並不能直接運算。有同學會問,不是400+2000嗎?這位同學,可能你要留個級。同學們記住,這是扣分項,圈起來,要考的!
第二,即使把單位去掉,有的數值大,有的數值小,運算後體現不了不同數值的重要性,比如比較城市的醫院和綠地,由於醫院的數值很小,得出的結果肯定是綠地數值偏高的城市佔便宜。所以我們需要對數值做處理。
這裡,我們開始進入這節課的最重要知識點——「歸一」。這就是把不同類型的數值,最高值和最低值全部統一。就是這麼簡單粗暴!統計學都是這麼處理的!
在唯城君的處理中,最高值被確定為100,最低值為0。
所以大家不要「玻璃心」,「0」只是顯示你在34座城市中恰好是最低值而已。即使是最低值,我們回顧上一個抽樣的知識點,因為樣本城市都是國內「一等一」的好城市,可能在全國所有城市的比對中,你的城市還是排名靠前的!
下面具體介紹下,「歸一化」的處理方法:先計算出每項指標的最大值和最小值,然後用(指標實際值-最小值)/(最大值-最小值),計算出無量綱化後的指標評價值,取值範圍為[0,1]。公式如下圖:
二級指標是無量綱化後的三級指標數據加權得到,一級指標得分由二級指標加權得到。如果有3個三級指標,只要其中1個指標無量綱化後不為0,加權後的結果就大於零;如果剛好所有指標都是0 或者二級指標只對應1個三級指標的話,那麼最後的還是0。
對四個子榜單進行整理後我們發現,泉州、北京、烏魯木齊等城市都在不同的指標上拿到了0分,這是為什麼呢?
1、《34城公共空間體驗榜》中,泉州市在「綠色空間體驗」項得分為0。
從《2019年中國城市統計年鑑》上我們得到泉州市公園綠地的數據。截止2018年底,泉州市公園綠地是2050公頃(20500000平方米),2019年泉州市常住人口數量為874萬人,我們算出人均公園綠地面積為2.35平方米/人,無量綱化處理後,指標評價值為「0」,表示泉州市在「綠色空間體驗」指標上位列34名(即34城中的最小值)。(《2020年中國城市統計年鑑》未發布,所以我們採用目前能獲得的《2019年中國城市統計年鑑》數據)二級指標「綠色空間體驗」下只有1個三級指標——「人均公園綠地面積」,所以泉州市在「綠色空間體驗」上得分為「0」。
2、《34城市民準入榜》中,北京在「落戶自由」項得分為0。
通過收集各城市落戶政策,依據城市(區域)研究中心設計的「落戶政策評價體系」進行評分,北京在「落戶自由度」上得分為12.5,無量綱化處理後,指標評價值為「0」,表示北京在「落戶自由度」指標上位列34名。二級指標「落戶自由」下只有「落戶自由度」這1個三級指標,所以最後北京在這項得分為0。
3、《34城市民待遇榜》中,烏魯木齊市在「政府服務榜」上得分為0。
根據清華大學數字治理研究中心《2020數字政府發展指數報告》,我們得到了34座城市「數字政府發展指數得分」,烏魯木齊市實際得分為37.8,經過無量綱化處理,指標評價值為「0」,代表烏魯木齊市在「政府服務」這項指標上位列34名。由於二級指標「政府服務」下僅有1個三級指標——「數字政府發展指數得分」,所以烏魯木齊市在該項指標上得分為0。
相信大家掌握了這個考點,就會舉一反三啦:有些城市某些指標得分較低也是和「0」分原理一樣,是相對得分值。例如天津的醫療,由於千人床位、千人護士等千人指標拉低了天津醫療整體得分,所以排名相對也靠後一些。
3
每個城市的「成績」是怎樣算出來的?
這裡首先解釋一個數學概念——「加權」,簡單來講就是將不同維度的分值按照一定的比重折算之後,再進行加法運算得出的結果。
例如:小明同學(小明:沒錯我又出現啦!)的成績是:語文90分,數學80分,直接相加的總分為170分;但如果進行加權運算,你設定語文比重為60%,數學為40%,那麼加權運算的法則是:
90x60%+80+40%
=54+32
=86
最後,我們說小明同學的加權分值是86 。
理想之城榜採取的就是這種運算方式。理想之城的分為三層,三級指標數據有40多項(同學們可以想像為40多道大題),每個子榜單對應1項一級指標,下面包括10項左右的二級指標(可以想像為10道大題組成一個學科),總共四張子榜單。計算原因如下:
先各自加權運算二級指標的數值,得出一級指標即子榜單的數值;一級指標的數據再加權,得到總榜單的最終數值。
依據《理想之城》指標模型,我們從各城市統計局及第三方機構尋找相關數據,在對數據進行清洗、核實後,對三級指標進行無量綱化,得到「指標評價值」。二級指標由各「指標評價值」加權後得到,一級指標由二級指標加權得到。由此得到各城市最後得分。
講到這裡,可能又有同學問:怎麼確定各個不同指標的比重?
這是好問題!獎勵小紅花一朵,課代表記下來!
現在進入這堂課的最後一個知識點:賦權方法,也就是賦予權重的方法。理想之城用了兩種方法:
第一種是主觀賦權法。簡而言之就是綜合大多數人的意見,重要性更高的指標,比重更高,這也是統計學家常用的統計方法。
第二種是熵值法。這種統計學方法認為,一組數據越離散,熵值越小,對結果的影響程度越大,權重越大。
我的天,好多同學是不是看起來都覺得腦袋很混亂?這個概念其實也很好解釋,就是大家的分數「區分度」夠不夠明顯,比如一道題5分,大部分人的成績要麼是5分,要麼是4分,那麼我們就說在這道題上,大家的成績分布比較集中,因此「熵值」比較高;要是結果是,5分、4分、3分、2分、1分的人都有,而且人數看不出規律,成績分布較為分散,那麼這個「熵值」就比較低。
熵值法的原理是,大家都會做的題目,權重低;有的人會,有的人不會的,權重就高。這種方法能夠考察城市對「重點」的掌握。
不同城市,最終呈現的分值就是這麼來的。
最後,經過一個月加班!加點!的籌備,《理想之城》總榜單即將發布!
哪些城市是大眾心中的「理想之城」?答案即將揭曉。我們在「唯一的城」與您不見不散!