你可能會遇到的平均數、中位數和眾數

2021-01-10 遇見數學

統計數據無處不在,我們每天都會遇到。無論喜歡與否我們都要用到統計數據。

要知道你到底在說什麼

已故統計天才漢斯·羅斯林(Hans Rosling,1948—2017) 指出,在瑞典生活的人平均擁有不到 2 條腿。所有人的腿都不超過 2 條,少數人少於 2 條,所以平均之後略低於 2 條。這就意味著幾乎每個瑞典人(實際上全世界所有人幾乎都是如此)的腿數都高於平均水平。這個平均數根本不可能真實反映瑞典的情況。

上面這個例子很好地說明了關於平均數的一個問題:儘管計算是正確的,但得出的平均數毫無意義,因為它忽略了數字代表的含義,而且得出的平均數無法說明數據集中那些真實的人的任何特徵。

本文將討論平均數,以及如何利用平均數深入理解一組數據或者讓它變得難以理解。我們將發現平均數非常有用, 具有某種代表性,但它不一定就是某個範圍的中點,未必能幫助我們全面掌握所有數據的特點。這種方法通過一個數字告訴我們關於整個數據集的某些有用信息,但它可能無法體現其中的極端情況以及數字的分散性。然而,新聞中一直在使用平均數,而且通常情況下沒有人提出質疑。本文涉及很多數字,但不用擔心——所有計算都非常容易。

如何計算算術平均數、中位數和眾數

你可能會遇到三種表示平均數(average)的方法:算術平均數(mean)、中位數(median) 和眾數(mode)。算術平均數就是把所有數加起來,除以數的個數後得到的值。舉個例子。假設你是一名板球運動員。在賽季結束時,如果你想知道你在本賽季的平均得分,就可以把你的攻方得分相加,然後除以你擊球的次數。(是的,板球愛好者,我知道你們需要考慮自己「不出局」的次數,但任何見過我擊球的人都會知道,為什麼我不太關心這個問題。)當人們提到平均數時,通常指的是算術平均數。

中位數是中間的數。假設一個班級有 29 人。為了求出他們考試成績的中位數,你把他們的成績按順序排列,那麼第 15 名的成績就是你要的答案。如果班上有 30 名學生,中位數就是第 15 名和第 16 名的成績的中間值。

眾數很少使用,但偶爾也會發揮作用——眾數就是出現頻率最高的那個數字。如果你想知道法國職業足球運動員年齡的眾數,就要找出哪個年齡的球員最多。如果你調查的是人們上班時使用的交通方式,眾數就是非常有用的數據了, 因為它告訴你的是使用哪種交通方式的人最多。

眾數還有一個很大的用處。比如,我們可以猜測一下 1964 年英格蘭和威爾斯人的平均死亡年齡。死亡年齡的算術平均數是 65,也就是說,如果你把這一年所有死亡者的年齡加起來再除以死亡人數,就會得到這個數字。眾數表示的則是哪個年齡的死亡人數最多。而在 1964 年,這個數字是零。

在一歲之前死亡的人比其他任何年齡的人都多。在 1964 年, 這並不是一個奇怪現象,因為在此之前的大多數年份都是如此,但從那以後就不是這樣了。這個我們現在覺得令人震驚的現象,恰恰是對醫療衛生,尤其是對助產和新生兒重症監護領域取得顯著發展獻上的一支讚歌。2016 年,英國死亡年齡的眾數是 86,算術平均數是 78。如果你感興趣,我也可以告訴你,中位數是 81。

為什麼必須區分清楚呢?有時你會聽到有人說平均數, 你會想當然地以為是算術平均數,而實際上他們說的是中位數。兩者有可能大不相同。

我們以 2018 年 5 月阿爾塞納·溫格作為阿森納足球俱樂部主教練對陣伯恩利的最後一場主場比賽中首發陣容的年齡為例。

我們先計算算術平均數。把這些年齡加起來,和是 281。然後除以球員人數 11,就可以求出年齡的算術平均數為 25.5。要求出中位數,我們需要把所有的年齡按順序排列:20,22,23,23,24,25,26,26,28,29,35。

然後,找出中間那個數字,也就是第 6 個數字,因為對這個球員來說,有一半人的年齡比他大,另一半人的年齡比他小。處於中位數位置上的球員是 25 歲的格拉尼特·扎卡。眾數有兩個,分別是 23 和 26(因為分別有兩名球員的年齡是 23 歲和 26 歲)。

算術平均數和中位數非常接近,都可以廣泛地代表出現在當天阿森納隊陣容中不同年齡的球員。

現在,假設在 5∶0 的比分下,溫格先生覺得他已經厭倦了在場邊看比賽,因此在他的第 826 場英超聯賽中,他決定親自上場,向年輕人展示球是怎麼踢的。他熱身完畢,脫下外套,露出一套嶄新的紅白相間的球衣,然後讓第四裁判舉牌換人,自己換下了場上最年輕的球員康斯坦丁諾斯·馬夫羅帕諾斯。

我們看看 68 歲的溫格對場上球員年齡的平均數產生什麼影響。現在,所有人的年齡總和是 329。除以 11,得數略小於 30,這比之前的算術平均數 25.5 大。為了求中位數,我們需要再一次把年齡按順序寫出來:22,23,23,24,25,26,26,28,29,35,68。

這一次,位於中間(也就是第 6 個)數字是 26,比之前的中位數大了一歲。眾數沒有變化。

我們添加的是一個與其他數據大不相同的數字——統計學家稱為離群值。算術平均數變大了很多,比除了兩名球員以外的所有球員的年齡都要大,但是中位數隻發生了很小的變化。

這就是問題的關鍵——通常情況下,如果你不希望平均數被離群值影響,就可以使用中位數。

我們再取一組數據,以確保你熟練掌握這些內容。以 2017 年《舞動奇蹟》的明星陣容的年齡為例。這組數據給了我很多樂趣,因為我可以檢驗「現實核查」小組是否有可能在中途可靠地預測哪些選手組合會進入決賽。我發現,選手組合當前的得分是個很好的線索,各位選手在桑巴、倫巴、恰恰和搖擺舞上的得分往往略低(這兩個現象並非沒有道理)。最有趣的是,儘管從開播以來的 14 期節目看,選手們的得分似乎越來越高,但這實際上是因為隨著節目一期一期地繼續,明星們的經驗越來越豐富,所以可以拿到更高的分數。但是,我以及和我合作的統計學家們都沒有發現這個系統存在明顯的偏倚。

以下是這 15 位名人以及他們在 2017 年 9 月 9 日組隊時的年齡。

我們從算術平均數開始。所有年齡相加,和是 627。除以舞者人數 15,得數是 41.8。要找出中位數,就必須把年齡排序,然後選取排在中間的那個數。年齡由小到大依次為:24,29,29,30,32,35,41,42,42,43,54,55,56,57,58。

中位數是第 8 個數,也就是 42。可以看出,算術平均數和中位數非常接近。眾數有兩個,分別是 29 和 42。

現在,假設世界上年齡最大的人也參加了《舞動奇蹟》。他們當然是名人,但如果他們沒有很快遭到淘汰的話,你肯定會感到驚訝。要找出我創作本書時全世界年齡最大的人到底是誰無疑吃力不討好,我們姑且假設他的年齡是 117 歲吧。現在,年齡總和變成了 744。將其除以新的參賽人數 16,就會得到算術平均數 46.5。

為了找出中位數,你把這位新加入者的年齡放在上述按序排列的年齡的末尾處。這一次,中位數不是第 8 個數,而是取第 8 和第 9 個數的中間值。在本例中,這沒有任何區別, 中位數仍然是 42。眾數也沒有變化。

在本例中,由於出現了一個數值極大的離群值,因此算術平均數增加了 4.7 歲,但中位數和眾數保持不變。算術平均數再一次因為離群值而發生了很大的變化——現在,16 名參賽者中有 10 名低於平均年齡。但中位數沒有受到影響。

這些例子告訴我們,選擇不同的平均數,會導致離群值對數據的影響程度發生變化。只要你解釋清楚,選擇哪一種平均數都不能說一定是錯的,但你必須知道到底是怎麼選的,因為存在被誤導的巨大危險。

上文 [遇見] 經授權節選自中信出版·鸚鵡螺《別說你懂統計學》

相關焦點

  • 平均數、眾數和中位數的概念和作用
  • 2021年中考數學複習:平均數、中位數和眾數關係
    中考網整理了關於2021年中考數學複習:平均數、中位數和眾數關係,希望對同學們有所幫助,僅供參考。   共同點   平均數、中位數和眾數都是來刻畫數據平均水平的統計量。   平均數能夠利用所有數據的特徵,而且比較好算。
  • 初中數學統計:平均數、加權平均數、中位數、眾數、方差的計算
    平均數的計算平均數是描述一組數據的常用指標,它反映了這組數據中各數據的平均大小或是集中趨勢。一組數據的平均數只有一個。點撥:當所給的數據組比較離散時,一般選用基本方法中的公式計算算術平均數;當所給的數據有多個重複出現時,一般選用加權平均數公式計算平均數;當數據較大、較多且在某一個常數a附近擺動時,用新數據法中公式計算平均數比較容易.中位數的計算一般地,n個數據按大小順序排列,處於最中間位置的一個數據(或最中間的兩個數據的平均數)叫做這組數據的中位數。
  • 《數學提高》眾數和中位數是什麼有什麼區別
    中位數是統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。
  • 中位數與平均數能夠直接對比嗎?
    在統計學中,中位數、平均數、眾數、總數等是不同的概念,它們分別代表了不同的數據含義。
  • 數據分析中『平均數』其實並不準確,是時候開始使用『中位數』了
    當數據呈正態分布,平均數往往處在鍾型曲線的最高點,而絕大部分數據都會處在中位數的旁邊。通過標準差,我們還能計算出距離平均數某段距離內數據的個數。標準差,即數據內數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗數據和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。計算機的出現也讓平均數變得更加普及。
  • 測評講壇【之二】| 度量一組數據的集中趨勢:平均數、中數、眾數
    要對一組數據作統計上的處理,我們就需要觀察這組數據的集中趨勢和離散趨勢。數據的集中趨勢,是一組數據中大量數據向某方向集中的程度。離散趨勢則是一組數據彼此分散的程度。度量一組數據集中趨勢的指標,最常見的有平均數、中數和眾數。
  • 數據分析應用(眾數中位數方差)
    這裡的內容在中考試題中有大概10分左右的題目內容下面我就來總結一下這裡的知識點及其一些題目的應用:1.理解平均數的意義,能計算中位數、眾數、加權平均數,了解它們是數據集中趨勢的描述。2.體會刻畫數據離散程度的意義,會計算簡單數據的方差。
  • 平均而言,你用的是錯誤的平均數(上):幾何平均數和調和平均數
    我這裡不討論中位數,不過在許多情形下,算術平均數被濫用在中位數更合適的地方。缺點: 應用幾何平均數時,可能會丟失有意義的尺度和單位。另外,它對離散值的不敏感性可能會遮蔽可能具有較大影響的大數值。和生活中的大多數事情一樣,極少有牢不可破的規則說必須使用幾何平均數(複利等少數情形除外)。
  • 「小公式」平均數與級數
    喵喵喵,小夕最近準備複習一下數學和基礎算法,所以可能會推送或者附帶推送點數學和基礎算法的小文章
  • 離散程度的度量:異眾比率、四分位差和標準差
    上一期文章 數據的集中趨勢:眾數、中位數和平均數 中,我們講了可以代表集中數值的,有三個數:眾數、中數、平均數。如果你的老闆讓你匯報上個季度的銷量表現,而他趕著開一個會,讓你只用一個指標來概括。那你可以使用眾數、中數、平均數,反映上個季度的銷量的集中位置,來代替整體水平。
  • 地學統計中的算術平均值、幾何平均值、中位數、標準偏差和標準誤差的意義和用法有何不同
    在處理分析實驗數據或採樣數據時,經常會遇到對相同採樣或相同實驗條件下同一隨機變量的多個不同取值進行統計處理的問題。此時,多數人會不假思索地直接使用算術平均值和標準差。顯然,這種做法是不嚴謹的。那麼在地學統計中不同的平均值和誤差計算方法的概念在意義和使用上有何不同呢?
  • 私授你偏態分布的正確讀取方式
    小兵我是跨專業學統計的半吊子昏析獅,常常分不清楚正態分布的左偏和右偏,好不容易自認為分得清楚了,隔一大段時間再猛然遇到偏態時
  • 全國平均月薪和中位數月薪差別這麼大說明什麼?你到中位數了嗎?
    你有沒有拖後腿呢?2020年受疫情影響,各行各業不景氣,那我們就看看2020年統計的2019年全年平均工資水平吧!由於篇幅就選擇兩張圖吧!從上面可以看出,相對而言,非私營單位平均工資要高出私營單位平均工資很多。主要是因為私營單位高低收入差距很大。很多富豪老闆屬於私營企業,而普通打工者臨時工等也屬於私營單位,這樣一平均相對數據就下來了!
  • 2020年中考數學,選擇合適方法計算平均數,四種方法你掌握了幾種
    平均數、中位數和眾數這三個統計量都是來描述數據集中趨勢的統計量,都可以用來反映數據的一般水平,可作為一組數據的代表。平均數反映了一組數據的平均大小,常用來代表總體的「平均水平」。平均數與每一個數據都有關係,其中任何數據的變動都會引起平均數的變動。平均數的計算有四種方法,你有沒有都掌握呢?
  • 拿到數據後,你需要掌握哪些數據分析方法
    平均數的相關指標可用於對比同類現象在不同地區、不同行業、不同單位等之間的差異程度,比用總量指標對比更具說服力;利用平均指標對比某些現象在不同歷史時期的變化,更能說明其發現趨勢和規律。平均分析法常用指標有算術平均數、調和平均數、幾何平均數、眾數和中位數等,其中最為常見的是算術平均數,也就是日常所說的平均數或平均值。