上一期文章 數據的集中趨勢:眾數、中位數和平均數 中,我們講了可以代表集中數值的,有三個數:眾數、中數、平均數。
如果你的老闆讓你匯報上個季度的銷量表現,而他趕著開一個會,讓你只用一個指標來概括。那你可以使用眾數、中數、平均數,反映上個季度的銷量的集中位置,來代替整體水平。
本期我們要講與之對應的三個數:異眾比率、四分位差、標準差。它們反映的是各變量值遠離其中心值的程度。或者說,反映出眾數、中位數、平均數能不能代表一組數據。
數據的離散程度越大,集中數值對該組數據的代表性就越差;離散程度越小,其代表性就越好。
眾數能不能代表一組數據?我們要看異眾比率。
異眾比率主要用于衡量眾數對一組數據的代表程度,是指非眾數組的頻數佔總頻數的比例。
* 異眾比率越大,說明非眾數組的頻數佔總頻數的比重越大,眾數的代表性越差;
* 異眾比率越小,說明非眾數組的頻數佔總頻數的比重越小,眾數的代表性越好。
中位數能不能代表一組數據?我們要看極差和四分位差。
四分位差也稱為內距或四分間距,它是上四分位數與下四分位數之差,用Q表示。
四分位差反映了中間50%的數據的離散程度,數值越小,說明中間的數據越集中;數值越大,說明中間的數據越分散。
四分位差不受極值的影響。此外,由於中位數處於數據的中間位置,因此,四分位差的大小在一定程度上說明了中位數對一組數據的代表程度。
此外,極差也可以用于衡量中位數的代表性。極差,是一組數據的最大值與最小值之差,也稱全距。
極差是最簡單的描述數據離散程度的測度值,計算簡單,易於理解。是老百姓最容易直觀感受到的「差」。比如同齡的一波年輕人裡,收入最高的張三和收入最低的李四,收入差很多。但它容易受極端值的影響。
在數據科學領域,很少用極差和四分位差:由於極差和四分位差只是利用了一組數據的個別數值信息,不能反映出整體數據的分散狀況,因而不能準確描述出數據的分散程度。
平均數能不能代表一組數據?我們要看方差和標準差。
方差是各變量值與其平均數離差平方的平均數。它在數學處理上通過平方的辦法消去離差的正負號,然後再進行平均。
方差(或標準差)能較好地反映出數據的離散程度,是應用最廣的離散程度的測度值。
標準差的計量單位 與 變量值的計量單位相同,其實際意義要比方差清楚。因此,在對實際問題進行分析時更多地使用標準差。
平均差以平均數為中心,反映了每個數據與平均數的平均差異程度,它能全面準確地反映一組數據的離散狀況。平均差越大,說明數據的離散程度越大;反之,則說明數據的離散程度越小。
有了平均數和標準差之後,就可以用它們來判斷一組數據是否有離群數據。這屬於經驗之談,一般有「經驗法則」和「切比雪夫不等式」可供參考。
(1)數據分布對稱:經驗法則
當一組數據**分布對稱**時,經驗法則表明的概括性度量:
* 約有68%的數據在平均數±1個標準差的範圍之內。
* 約有95%的數據在平均數±2個標準差的範圍之內。
* 約有99%的數據在平均數±3個標準差的範圍之內。
可以看到,在平均數±3個標準差的範圍內幾乎包含了全部數據,而在±3個標準差之外的數據,就可以算作是離群點(outlier)。
(2)數據分布不對稱:切比雪夫不等式
當一組數據**分布不對稱**時,這時可使用切比雪夫不等式。
切比雪夫不等式提供的是「下界」,也就是」所佔比例至少是多少「,它對任何分布形態的數據都適用。
根據切比雪夫不等式,至少有(1-1/k^2)的數據落在±k個標準差之內。其中k是大於1的任意值,但不一定是整數。
對於k=2,3,4,該不等式的含義是:
* 至少有75%的數據在平均數±2個標準差的範圍之內
* 至少有89%的數據在平均數±3個標準差的範圍之內
* 至少有94%的數據在平均數±4個標準差的範圍之內
在生活中我們大家傾向於把自己比作「一般」,我們的智商是平均智商。同時,又傾向於把自己與「一般」去做比較。我們把收入與平均收入作比較。我們把租金和平均租金作比較。我們把體重和我們這個年紀的人平均體重作比較。
在這些例子中,均值是比比皆是的。就其平均數本身而言,可能會產生嚴重的誤導。把我們自己和那個單一的統計數字作比較,會給我們錯誤的失敗感…或者自豪感。
而學了本章之後,我們或許可以更進一步,更理性地認識到,這取決於數據的分布方式。
所以也許別再拿自己和普通人比了…或者,如果你真的堅持要比,別只關注平均數,最起碼也看一下標準差。
如果你看到了這裡,那我真的是很開心了。如果您覺得本文有所收穫。
本文內容總結如下:
前面兩篇文章,我們分別講了如何一組數據的集中趨勢、離散趨勢,如何衡量。下期,我們講一下,兩組樣本或者多組樣本,其集中趨勢、離散趨勢,如何進行對比。感謝大家,我們下期見。
參考文獻:
1. 孫靜娟主編.《統計學》.清華大學出版社.2015:18-20.
2. 袁衛,劉超.《統計學--思想、方法與應用》(第二版).中國人民大學出版社.2011.
3. 賈俊平,何曉群,金勇進.《統計學》(第七版).中國人民大學出版社.2018.
科技造福人類
人機共贏共生
一起為超智星球
挖坑播種開荒