統計數據無處不在,我們每天都會遇到。無論喜歡與否我們都要用到統計數據。
要知道你到底在說什麼
已故統計天才漢斯·羅斯林(Hans Rosling,1948—2017) 指出,在瑞典生活的人平均擁有不到 2 條腿。所有人的腿都不超過 2 條,少數人少於 2 條,所以平均之後略低於 2 條。這就意味著幾乎每個瑞典人(實際上全世界所有人幾乎都是如此)的腿數都高於平均水平。這個平均數根本不可能真實反映瑞典的情況。
上面這個例子很好地說明了關於平均數的一個問題:儘管計算是正確的,但得出的平均數毫無意義,因為它忽略了數字代表的含義,而且得出的平均數無法說明數據集中那些真實的人的任何特徵。
本文將討論平均數,以及如何利用平均數深入理解一組數據或者讓它變得難以理解。我們將發現平均數非常有用, 具有某種代表性,但它不一定就是某個範圍的中點,未必能幫助我們全面掌握所有數據的特點。這種方法通過一個數字告訴我們關於整個數據集的某些有用信息,但它可能無法體現其中的極端情況以及數字的分散性。然而,新聞中一直在使用平均數,而且通常情況下沒有人提出質疑。本文涉及很多數字,但不用擔心——所有計算都非常容易。
如何計算算術平均數、中位數和眾數
你可能會遇到三種表示平均數(average)的方法:算術平均數(mean)、中位數(median) 和眾數(mode)。算術平均數就是把所有數加起來,除以數的個數後得到的值。舉個例子。假設你是一名板球運動員。在賽季結束時,如果你想知道你在本賽季的平均得分,就可以把你的攻方得分相加,然後除以你擊球的次數。(是的,板球愛好者,我知道你們需要考慮自己「不出局」的次數,但任何見過我擊球的人都會知道,為什麼我不太關心這個問題。)當人們提到平均數時,通常指的是算術平均數。
中位數是中間的數。假設一個班級有 29 人。為了求出他們考試成績的中位數,你把他們的成績按順序排列,那麼第 15 名的成績就是你要的答案。如果班上有 30 名學生,中位數就是第 15 名和第 16 名的成績的中間值。
眾數很少使用,但偶爾也會發揮作用——眾數就是出現頻率最高的那個數字。如果你想知道法國職業足球運動員年齡的眾數,就要找出哪個年齡的球員最多。如果你調查的是人們上班時使用的交通方式,眾數就是非常有用的數據了, 因為它告訴你的是使用哪種交通方式的人最多。
眾數還有一個很大的用處。比如,我們可以猜測一下 1964 年英格蘭和威爾斯人的平均死亡年齡。死亡年齡的算術平均數是 65,也就是說,如果你把這一年所有死亡者的年齡加起來再除以死亡人數,就會得到這個數字。眾數表示的則是哪個年齡的死亡人數最多。而在 1964 年,這個數字是零。
在一歲之前死亡的人比其他任何年齡的人都多。在 1964 年, 這並不是一個奇怪現象,因為在此之前的大多數年份都是如此,但從那以後就不是這樣了。這個我們現在覺得令人震驚的現象,恰恰是對醫療衛生,尤其是對助產和新生兒重症監護領域取得顯著發展獻上的一支讚歌。2016 年,英國死亡年齡的眾數是 86,算術平均數是 78。如果你感興趣,我也可以告訴你,中位數是 81。
為什麼必須區分清楚呢?有時你會聽到有人說平均數, 你會想當然地以為是算術平均數,而實際上他們說的是中位數。兩者有可能大不相同。
我們以 2018 年 5 月阿爾塞納·溫格作為阿森納足球俱樂部主教練對陣伯恩利的最後一場主場比賽中首發陣容的年齡為例。
我們先計算算術平均數。把這些年齡加起來,和是 281。然後除以球員人數 11,就可以求出年齡的算術平均數為 25.5。要求出中位數,我們需要把所有的年齡按順序排列:20,22,23,23,24,25,26,26,28,29,35。
然後,找出中間那個數字,也就是第 6 個數字,因為對這個球員來說,有一半人的年齡比他大,另一半人的年齡比他小。處於中位數位置上的球員是 25 歲的格拉尼特·扎卡。眾數有兩個,分別是 23 和 26(因為分別有兩名球員的年齡是 23 歲和 26 歲)。
算術平均數和中位數非常接近,都可以廣泛地代表出現在當天阿森納隊陣容中不同年齡的球員。
現在,假設在 5∶0 的比分下,溫格先生覺得他已經厭倦了在場邊看比賽,因此在他的第 826 場英超聯賽中,他決定親自上場,向年輕人展示球是怎麼踢的。他熱身完畢,脫下外套,露出一套嶄新的紅白相間的球衣,然後讓第四裁判舉牌換人,自己換下了場上最年輕的球員康斯坦丁諾斯·馬夫羅帕諾斯。
我們看看 68 歲的溫格對場上球員年齡的平均數產生什麼影響。現在,所有人的年齡總和是 329。除以 11,得數略小於 30,這比之前的算術平均數 25.5 大。為了求中位數,我們需要再一次把年齡按順序寫出來:22,23,23,24,25,26,26,28,29,35,68。
這一次,位於中間(也就是第 6 個)數字是 26,比之前的中位數大了一歲。眾數沒有變化。
我們添加的是一個與其他數據大不相同的數字——統計學家稱為離群值。算術平均數變大了很多,比除了兩名球員以外的所有球員的年齡都要大,但是中位數隻發生了很小的變化。
這就是問題的關鍵——通常情況下,如果你不希望平均數被離群值影響,就可以使用中位數。
我們再取一組數據,以確保你熟練掌握這些內容。以 2017 年《舞動奇蹟》的明星陣容的年齡為例。這組數據給了我很多樂趣,因為我可以檢驗「現實核查」小組是否有可能在中途可靠地預測哪些選手組合會進入決賽。我發現,選手組合當前的得分是個很好的線索,各位選手在桑巴、倫巴、恰恰和搖擺舞上的得分往往略低(這兩個現象並非沒有道理)。最有趣的是,儘管從開播以來的 14 期節目看,選手們的得分似乎越來越高,但這實際上是因為隨著節目一期一期地繼續,明星們的經驗越來越豐富,所以可以拿到更高的分數。但是,我以及和我合作的統計學家們都沒有發現這個系統存在明顯的偏倚。
以下是這 15 位名人以及他們在 2017 年 9 月 9 日組隊時的年齡。
我們從算術平均數開始。所有年齡相加,和是 627。除以舞者人數 15,得數是 41.8。要找出中位數,就必須把年齡排序,然後選取排在中間的那個數。年齡由小到大依次為:24,29,29,30,32,35,41,42,42,43,54,55,56,57,58。
中位數是第 8 個數,也就是 42。可以看出,算術平均數和中位數非常接近。眾數有兩個,分別是 29 和 42。
現在,假設世界上年齡最大的人也參加了《舞動奇蹟》。他們當然是名人,但如果他們沒有很快遭到淘汰的話,你肯定會感到驚訝。要找出我創作本書時全世界年齡最大的人到底是誰無疑吃力不討好,我們姑且假設他的年齡是 117 歲吧。現在,年齡總和變成了 744。將其除以新的參賽人數 16,就會得到算術平均數 46.5。
為了找出中位數,你把這位新加入者的年齡放在上述按序排列的年齡的末尾處。這一次,中位數不是第 8 個數,而是取第 8 和第 9 個數的中間值。在本例中,這沒有任何區別, 中位數仍然是 42。眾數也沒有變化。
在本例中,由於出現了一個數值極大的離群值,因此算術平均數增加了 4.7 歲,但中位數和眾數保持不變。算術平均數再一次因為離群值而發生了很大的變化——現在,16 名參賽者中有 10 名低於平均年齡。但中位數沒有受到影響。
這些例子告訴我們,選擇不同的平均數,會導致離群值對數據的影響程度發生變化。只要你解釋清楚,選擇哪一種平均數都不能說一定是錯的,但你必須知道到底是怎麼選的,因為存在被誤導的巨大危險。
上文 [遇見] 經授權節選自中信出版·鸚鵡螺《別說你懂統計學》