數據分析中『平均數』其實並不準確,是時候開始使用『中位數』了

2021-01-08 網際網路數據資訊網

(一)

1906年,偉大的科學家兼噁心的人種改良倡導者高爾頓(Francis Galton)參加了年度西英格蘭家畜展,即興做了個數學實驗。

在集會上閒逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量,猜的最準的人將獲得大獎。

高爾頓曾公開鄙視過普通大眾的愚笨。他相信只有專業人士才能做出準確的估測。787位猜測者中根本沒幾個專業人士。為了體現群眾的無知,他算出了所有猜測的平均數(而不是當時統計學家常用的中位數):1197磅。得知實際重量後他嚇了一跳:1198磅。

在如今的世界裡,我們只能見到平均數的身影:紐約4月均溫為52華氏度;庫裡場均拿到30分……只有在某些統計裡(美國家庭年收入中位數為51939美金)中位數才會露下頭角。

那麼,中位數是如何消失的?平均數又是如何成為了當今世界最流行的量數?

(二)

俗稱的平均數(average)在數學上的其實是「算數平均數」(arithmetic mean),意為所有數據之和除以數據的個數。算數平均數中的「平均數」(mean)一詞源自拉丁語的「中間」(medianus)。Mean這一概念最初由希臘數學家畢達哥拉斯提出。

畢達哥拉斯時代的mean並不具有表徵作用,它指的只是三個數字中間的那個數字,那個數字必需與兩頭的數字呈「相等的關係」。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。

花了十年時間探尋average和mean起源的統計學家Churchill Eisenhart表示,與現代人依賴於大量數據進行計算不同,早期科學測量非常不準,科學家們需要藉助理論來選出多個數據中最好的一個。

正是藉助mean這一理論的力量,古希臘天文學家託勒密從極少數的觀測中,選擇出了31』20作為月球的角直徑。如今我們知道根據所在地點的不同,月球的角直徑為29』20到34』6不等。

在英語中,average一詞在1500年左右開始出現,指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損,船員們必需扔掉一些貨物來減輕重量,那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地,這兩個概念融合在了一起,稱為了我們通常所說的平均數。

多年之後,科學家才會開始使用一種集中量數來表徵一組數據。但首先站上歷史舞臺的,不是平均數,也不是中位數,而是中列數。

(三)

科學工具往往是為了解決某些學科內特定問題而創造出來的。在集中量數的尋找過程中,人們希望解決的問題是為導航而進行的地理測量。


波斯學者比魯尼。(masmoi)

11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量數據之後,會去掉兩頭之間的數據,取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。

Eisenhart發現,17和18世紀時中列數依然盛行。牛頓和其它航海家為了計算地理位置都使用過中列數。但近幾百年來,在這被平均數佔領的世界中,中列數已經下落不明。

(四)

19世紀早期,算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道:

如果要在同一情況下用同種方式,從幾次直接觀測中選出一個數,那這些數的算術平均數便是最接近真值的數。習慣上,這假設已經已經被當成一個公理。

這究竟是如何發生的?

史書上並沒有明確的記載。Eisenhart發現,算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次採用。

直到16世紀後期,大部分科學家都在使用某種特定的算法來取測量中的最佳值。但在1580年,William Borough用了一種新算法,把8個數據「結合在了一起」,宣稱磁偏角在11°15』至11°20』之間。雖沒有明確記載,但他可能用了算術平均數。

1635年時,英國天文學家Henry Gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上,他測出磁偏角為11°,當天下午則測出11°32』。然後他寫道:

「如果我們取算術平均數,我們或許能確定,正確的測量為11°16』。」

這可能便是人類在使用平均數來估測真值的路上走出的第一步。

(五)

在數學界,中位數幾乎是與平均數在同一時間出現。1599年,數學家Edward Wrights首次在記錄中推薦了中位數。

「許多支箭射向一個標記,標記被移走,想找出標記原來所在位置的人,或許能想到這樣一種方法。他應該找到箭頭最集中的地方:在那麼多次觀測中,最中央的地方離真值最近。」

19世紀時,中位數仍是數據分析中不可或缺的一部分。在較小的數據集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。


高爾頓也是中位數的堅定支持者之一。(Wikimedia)

(六)

然而由於平均數獨特的統計學性質以及與正態分布的關係,中位數自始至終都被平均數在人氣上所壓制。

在許多情況下,大量測量出的數據會呈現「正態分布」(normal distribution)。人類身高、IQ分數、年均氣溫等數據都會以中間高、兩頭低的「鐘形曲線」形式分布。

當數據呈正態分布,平均數往往處在鍾型曲線的最高點,而絕大部分數據都會處在中位數的旁邊。通過標準差,我們還能計算出距離平均數某段距離內數據的個數。

標準差,即數據內數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗數據和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。

計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程序容易得多。以至於在Excel中,計算某些數據的中位數都要多下一番功夫。漸漸地,平均數稱為了最被人熟知,但不一定是最好的代表值。


平均數先生,中位數先生,眾數先生。(Hannah Holt / Lightbulb Books)

因為平均數容易受到極端值的影響,所以很多情況下,中位數才是幫助找到分布中心的最好的數值。許多分析師相信,不分黑白地使用平均數損害了我們對定量信息的理解。

回想一下最近讀到過的房屋均價、人均收入等數據,你就能發現,中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此,美國人口普查局決定使用中位數來衡量美國家庭年收入。

平均數同時也很難受到髒數據(dirty data)的影響。隨著統計學家需要應對的網際網路數據越來越多,當工作人員遇到不準確的數據,或者是打字時多加了一個零,中位數便顯現出了自己的優越性。

(七)

隨著數據收集和分析在我們的日常生活中的作用不斷凸顯,我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡,分析師會同時使用平均數、中位數和眾數,配以圖像來展現數據。

但我們生活在精力有限、時間倉促的社會裡。如果只能選擇一個數字,我們應該選擇中位數。

中位數還是平均數之間的抉擇有著重要的意義。選擇了平均數,心理學家容易做出錯誤的診斷,金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋,或許是時候讓我們做出一些改變了。

http://jandan.net/2016/05/06/average-mean-median.html

相關焦點

  • 『支原體qPCR檢測』的方法學驗證
    近年來,『支原體qPCR檢測』在工業領域的應用越來越多,但在項目申報前,先需要進行方法學驗證,依據藥典,在檢測限、特異性和耐用性方面達到要求後,才能替代傳統的檢查方法。 就筆者所知,在適合工業的支原體檢測和方法驗證方面,德國Minerva Biolabs(簡稱MB)公司已有很成熟的產品及商業化應用,它不僅提供有符合國際藥典的『支原體qPCR檢測』試劑盒,而且有一系列支原體標準品及輔助產品,用於qPCR方法的全面驗證。這些產品性價比也較高,全球許多客戶都在使用。
  • 『如何製作一把石刀』其實很簡單
    其實製作一把石刀很簡單,前提是一定要選對石質,比如撿起一塊石頭,感受一下石頭的重量,堅硬程度、密度、觀察光澤等...密度大帶有光澤的巖石一般會比較重,而且質地堅硬。然後重重的摔碎它,撿起有鋒利斷面的那一塊就是一把石刀。這樣的石頭一般在河裡最多,因為長期的河水衝刷,有些石頭的密度就會慢慢增加,在河裡很容易找到這樣的石頭,比如石英巖就是不錯的材質。
  • 『因果推斷』主要英文期刊推薦
    很多小夥伴在問,如何快速地獲取最新的『因果推斷』相關研究成果,小編的建議就是有針對性地選擇幾本經常刊發『因果推斷』理論、方法與應用的期刊,跟蹤期刊最新的文章
  • 『因果關係』英文研究熱點知識圖譜
    前面我們分享了『因果關係』中文研究熱點知識圖譜(←超連結)
  • 『求生者對海月水母的理解』
    小編這次來到海邊遊泳,發現了一個比手掌大一些的水母,把它撈起來後,突然感到手腕處就像被針刺了一樣,發現手腕處出現了一些小紅點,接著紅腫起來,一開始可以說的非常痛,過了大約不到十分鐘,疼痛有些緩解,但還是有些痛感,寫這篇文章的時候已經距離蟄傷已經過去30個小時,被蟄傷的地方依然發紅,如果用手撓一撓,還會隱隱作痛。
  • 『哥斯拉 -怪獸行星-』正式預告公開
    虛淵玄 x 靜野孔文 x 瀬下寛之 的『哥斯拉』終於有了正式 PV『哥斯拉 -怪獸行星-』是一個系列作的完全新作動畫。_(:з」∠)_動畫是由 Polygon Pictures 負責製作,怪不得畫風像『亞人』和『希德尼婭的騎士』,尤其是預告裡人的衣服好像希德尼婭啊。
  • 『2020小滿節氣具體時間』小滿是幾點幾分幾秒開始
    關於『2020小滿節氣具體時間』小滿是幾點幾分幾秒開始這個話題,相信很多小夥伴都非常有興趣了解,因為這個話題也是近期網絡上非常火熱的,那麼既然大家都想知道『2020小滿節氣具體時間』小滿是幾點幾分幾秒開始,華圖教育廣東公務員考試網小編便從網上搜集了一些與2020小滿節氣,小滿節氣相關的信息,下面分享給大家一起了解一下吧
  • 百度統計:一個SEM的『作弊器』
    之前很多的SEOer應該都知道百度公布的一條消息:採用Https加密協議,對用戶的搜索行為進行加密處理。簡單的說,就是用戶檢索關鍵詞的時候,對關鍵詞進行了加密,如果你使用CNZZ或者GA統計的話,將無法通過關鍵詞來源查看流量的構成,對SEO優化人員來說也就失去了一個直接的參考指標(其實Google早就這麼做了),而這一規定,不適用於百度統計!即,如果你使用百度統計,依然可以看到來自百度自然搜索的關鍵詞來源。
  • 『今日立秋 降雨持續』2020立秋是什麼時候_立秋一起貼秋膘什麼意思
    關於『今日立秋 降雨持續』2020立秋是什麼時候_立秋一起貼秋膘什麼意思這個話題,相信很多小夥伴都非常有興趣了解,因為這個話題也是近期網絡上非常火熱的,那麼既然大家都想知道『今日立秋 降雨持續』2020立秋是什麼時候_立秋一起貼秋膘什麼意思,華圖教育廣東公務員考試網小編便從網上搜集了一些與立秋,立秋一起貼秋膘相關的信息
  • 『表面張力』
    水問題をアートする展覧會『表面張力:水の未來』您是否知道製作雞蛋需要200升水,一件T恤需要2000升水?
  • Google和NASA一起開群嘲:『我們電腦比你們快100萬倍~』|極客早知道
    早在2013年Google和NASA就開始了他們對D-Wave X2量子計算的研究,D-Wave被認為是世界上第一個實現使用的量子計算機。不過直到今天,他們才真正證明了這一計算機模式的可行性。清華大學的工程師卻在近期設計出一種火箭動力的「太空清道夫」,能夠有效的清除近地軌道上的太空垃圾。
  • 『PBR材質』正確打開方式
    不管是新觀眾還是老朋友,相信各位大多都看過我的這篇推送:『材質貼圖』正確打開方式所以早期有很多藝術家在使用 V-Ray BRDF 製作金屬材質的時候,會關閉菲涅爾,同時在反射貼圖槽裡添加一個 Falloff 衰減貼圖來手動控制反射的衰減曲線,就是為了實現反射的菲涅爾現象。同期產物還有一個叫 ComplexFresnel 的插件,各位老玩家一定不陌生了。誒?
  • 『點亮屏幕:攝·影·書』開啟冬日閱讀模式
    原創 PHOTOFAIRS PHOTOFAIRS影像藝術博覽會 收錄於話題#2021年影像上海藝術博覽會4#影像藝術博覽會2#『出版』1#『點亮屏幕:攝·影·書』1#如何讀,為什麼讀1
  • 《伊洛納elona》新夥伴——『塞德娜女皇號』介紹
    在以太風暴中沉沒的塞德娜女皇號,現在竟以生命體的形態重現於世,接下來水妖就介紹一下這位新夥伴,小夥伴們一起來看看她究竟有哪些過人之處吧。 這是一位在商城中最新推出的夥伴,目前她的入手概率提升,冒險者們有高達1.5%的概率抽中『塞德娜女皇號』哦。
  • 科普 從公國角度全面了解『聖誕節』行動始末:一場徒勞的杯具!(期限送聖誕花環勳章)
    (・∀・)U.C.0079年12月24日,『大鍵琴』行動開始,地球聯邦軍第1聯合艦隊開始對吉恩公國的宇宙要塞「所羅門」發動攻勢。而在另一側的地球聯邦軍第2聯合艦隊在SIDE 1空域展開了40萬枚200平方的鏡片——「Solar System」,並一擊摧毀了所羅門的右翼,吉恩公國方面一開始並沒有探測到能源反應,還以為是地球聯邦軍使用了雷射武器。戰鬥最終以地球聯邦軍勝利告終。
  • 機設 『高達真正的子嗣』擬太陽爐量產機GNX-803T GN-XⅣ
    在名為『天上人』號宇宙飛船內和天上人與變革者之間的決戰後所回收的大量的MS機體殘骸和被天上人的中央控制電腦Veda所緊急制御而當機的MS,Innovator的技術被聯邦軍技術人員開始全力破解,包括V字小型天線控制GN粒子散布、GN粒子壓縮技術在內的新技術都一併運用到了新型GNX的開發當中去。
  • 『認識』鉸刀特點·用途·種類
    鉸刀的特點:鉸刀效率(精鏜孔均是單刃切削,而鉸刀都在4-8刃切削,所以效率遠高於鏜刀)、高精度、鉸刀刃口帶有刃帶,所以獲得更好的粗糙度;『歡迎關注品悅陽光』  按使用情況來看有手用鉸刀和機用鉸刀,機用鉸刀又可分為直柄鉸刀和錐柄鉸刀。手用的則是直柄型的。  鉸刀結構大部分由工作部分及柄部組成。工作部分主要起切削和校準功能,校準處直徑有倒錐度。而柄部則用於被夾具夾持,有直柄和錐柄之分。
  • 『快速門紅外』快速門紅外對射接線及調試說明
    2、若光電傳感器白線連接到X5時,快速捲簾門門體下落到底後,光電傳感器無信號,物體碰到『快速門紅外』時無動作,這時說明線路接線錯誤,需立即矯正。3、開啟電源,發光器指示燈會亮起,綠色燈表明光電感應器可正常使用,黃色燈時說明信號未對準4、需要手動上下左右調整光電傳感器與反射板水平位置,待二者處於同一水平位置,發射器返回信號為綠燈,這時就可以正常使用。
  • 川普:『全球暖化是中國編造的陰謀.』
    川普:『全球暖化根本是個昂貴的騙局。』川普爺爺:『給俺來盤全球暖化,我冷。』川普爺爺:『就為這盤菜要花我幾兆美元,尼瑪。』Foley:『聽著,老頭。就算你手上的大麥克填飽了你的肚子,不代表這世界就沒有飢餓。』
  • 『聚焦』一個工程師眼中的「二惡烷事件」
    這條新聞爆出來的時候,估計大多數技術人員跟我一樣,除了嗤之以鼻,沒別的感覺。因為即使是含量最高的「海飛絲摩洛哥堅果乳致美順澤去屑洗髮露」,其24ppm二惡烷含量,也是符合標準的。前面說到,產品中的二惡烷基本上是由「聚氧乙基醚」帶入的,而洗護產品中最常用的就是脂肪醇聚氧乙基醚硫酸鈉(簡稱AES)作為表面活性劑。