離散程度的度量:異眾比率、四分位差和標準差

2021-01-14 超智星球


上一期文章 數據的集中趨勢:眾數、中位數和平均數 中,我們講了可以代表集中數值的,有三個數:眾數、中數、平均數。


如果你的老闆讓你匯報上個季度的銷量表現,而他趕著開一個會,讓你只用一個指標來概括。那你可以使用眾數、中數、平均數,反映上個季度的銷量的集中位置,來代替整體水平。


本期我們要講與之對應的三個數:異眾比率、四分位差、標準差。它們反映的是各變量值遠離其中心值的程度。或者說,反映出眾數、中位數、平均數能不能代表一組數據。


數據的離散程度越大,集中數值對該組數據的代表性就越差;離散程度越小,其代表性就越好。





眾數能不能代表一組數據?我們要看異眾比率。


異眾比率主要用于衡量眾數對一組數據的代表程度,是指非眾數組的頻數佔總頻數的比例。


* 異眾比率越大,說明非眾數組的頻數佔總頻數的比重越大,眾數的代表性越差;

* 異眾比率越小,說明非眾數組的頻數佔總頻數的比重越小,眾數的代表性越好。



中位數能不能代表一組數據?我們要看極差和四分位差。


四分位差也稱為內距或四分間距,它是上四分位數與下四分位數之差,用Q表示。


四分位差反映了中間50%的數據的離散程度,數值越小,說明中間的數據越集中;數值越大,說明中間的數據越分散。


四分位差不受極值的影響。此外,由於中位數處於數據的中間位置,因此,四分位差的大小在一定程度上說明了中位數對一組數據的代表程度。


此外,極差也可以用于衡量中位數的代表性。極差,是一組數據的最大值與最小值之差,也稱全距。


極差是最簡單的描述數據離散程度的測度值,計算簡單,易於理解。是老百姓最容易直觀感受到的「差」。比如同齡的一波年輕人裡,收入最高的張三和收入最低的李四,收入差很多。但它容易受極端值的影響。


在數據科學領域,很少用極差和四分位差:由於極差和四分位差只是利用了一組數據的個別數值信息,不能反映出整體數據的分散狀況,因而不能準確描述出數據的分散程度。



平均數能不能代表一組數據?我們要看方差和標準差。


方差是各變量值與其平均數離差平方的平均數。它在數學處理上通過平方的辦法消去離差的正負號,然後再進行平均。


方差(或標準差)能較好地反映出數據的離散程度,是應用最廣的離散程度的測度值。


標準差的計量單位 與 變量值的計量單位相同,其實際意義要比方差清楚。因此,在對實際問題進行分析時更多地使用標準差。


平均差以平均數為中心,反映了每個數據與平均數的平均差異程度,它能全面準確地反映一組數據的離散狀況。平均差越大,說明數據的離散程度越大;反之,則說明數據的離散程度越小。



有了平均數和標準差之後,就可以用它們來判斷一組數據是否有離群數據。這屬於經驗之談,一般有「經驗法則」和「切比雪夫不等式」可供參考。


(1)數據分布對稱:經驗法則


當一組數據**分布對稱**時,經驗法則表明的概括性度量:


* 約有68%的數據在平均數±1個標準差的範圍之內。

* 約有95%的數據在平均數±2個標準差的範圍之內。

* 約有99%的數據在平均數±3個標準差的範圍之內。


可以看到,在平均數±3個標準差的範圍內幾乎包含了全部數據,而在±3個標準差之外的數據,就可以算作是離群點(outlier)。


(2)數據分布不對稱:切比雪夫不等式


當一組數據**分布不對稱**時,這時可使用切比雪夫不等式。


切比雪夫不等式提供的是「下界」,也就是」所佔比例至少是多少「,它對任何分布形態的數據都適用。


根據切比雪夫不等式,至少有(1-1/k^2)的數據落在±k個標準差之內。其中k是大於1的任意值,但不一定是整數。


對於k=2,3,4,該不等式的含義是:

* 至少有75%的數據在平均數±2個標準差的範圍之內

* 至少有89%的數據在平均數±3個標準差的範圍之內

* 至少有94%的數據在平均數±4個標準差的範圍之內



在生活中我們大家傾向於把自己比作「一般」,我們的智商是平均智商。同時,又傾向於把自己與「一般」去做比較。我們把收入與平均收入作比較。我們把租金和平均租金作比較。我們把體重和我們這個年紀的人平均體重作比較。


在這些例子中,均值是比比皆是的。就其平均數本身而言,可能會產生嚴重的誤導。把我們自己和那個單一的統計數字作比較,會給我們錯誤的失敗感…或者自豪感。


而學了本章之後,我們或許可以更進一步,更理性地認識到,這取決於數據的分布方式。


所以也許別再拿自己和普通人比了…或者,如果你真的堅持要比,別只關注平均數,最起碼也看一下標準差。



如果你看到了這裡,那我真的是很開心了。如果您覺得本文有所收穫。


本文內容總結如下:


前面兩篇文章,我們分別講了如何一組數據的集中趨勢、離散趨勢,如何衡量。下期,我們講一下,兩組樣本或者多組樣本,其集中趨勢、離散趨勢,如何進行對比。感謝大家,我們下期見。


參考文獻:

1. 孫靜娟主編.《統計學》.清華大學出版社.2015:18-20.

2. 袁衛,劉超.《統計學--思想、方法與應用》(第二版).中國人民大學出版社.2011.

3. 賈俊平,何曉群,金勇進.《統計學》(第七版).中國人民大學出版社.2018.

科技造福人類

人機共贏共生


一起為超智星球

挖坑播種開荒


相關焦點

  • 統計學原理 離散程度的度量
    離中趨勢分類數據:異眾比率異眾比率 (variation ratio)對分類數據離散程度的測度
  • 數據的離散程度描述
    對於任意一個數據集合,表示其離散程度的一種容易想到的度量方式就是與算術平均值的偏離,平均偏差就是這樣一種度量指標。但是,這裡有一個問題,那就是數據集合中的每個數值與算術平均值之間的偏差之和等於0。方差和標準差平均偏差使用絕對值來消除負號的影響,另一種消除負號影響的方法是平方,對應的離散程度指標是方差和標準差。方差利用平方克服了離差和等於0的問題,與平均偏差的絕對值有異曲同工之妙。但是方差同樣有其局限性,因為方差的單位是數據單位的平方,誇大了數據集合的離散程度。因此,還可以取方差的算數平方根作為描述離散程度的指標,即標準差。
  • 方差與標準差:衡量數據的離散程度
    方差和標準差是統計和概率中重要參數科學家發現了現實中很多情況,如果只用平均值沒有任何參考意義,甚至會誤導決策的判斷,歷史上由羅納德
  • 你用對「均值和標準差(SD)」和「均值和標準誤(SEM)了嗎」
    用「均值和標準差(SD)」還是「均值和標準誤(SEM)?
  • 標準差還是標準誤?
    之前後臺小夥伴留言詢問標準差和標準誤的區別,說是看公式一陣眩暈,分不清楚。其實,科班出生的同學,也是挺容易搞混的。
  • 標準差與標準誤的區別
    在日常的統計分析中,標準差和標準誤是一對十分重要的統計量,兩者有區別也有聯繫。
  • 數據離散程度描述
    因此,通常取方差的算數平方根作為描述離散程度的指標,即標準差(StandardDeviation)。總體標準差計算公式如下:樣本的方差和標準差樣本方差用S2表示,樣本標準差用S表示,不能混淆。樣本的方差和標準差計算公式與總體不一樣,計算公式如下:
  • MSSQL函數-STDEV標準偏差和STDEVP標準差
    StDev函數是算出查詢結果中指定欄位所有值的標準偏差,它是用來衡量數據偏離算術平均值的程序,標準偏差越小,這些值偏離平均值就越少,反之偏離越大。此函數不計算文本值和邏輯值(如TRUE和FALSE)。它反映了數據相對於平均值的離散程度。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 回歸標準差的計算公式 - CSDN
    (2)標準差標準差項列出了係數估計的標準差.估計係數的協方差矩陣是由以下公式計算得到的:,,(3)t-統計量t統計量是由係數估計值和標準差之間的比率來計算,它是用來檢驗係數為零的假設的。(4)概率結果的最後一項是在誤差項為正態分布或係數估計值為漸近正態分布的假設下,指出t統計量與實際觀測值一致的概率。這個概率稱為邊際顯著性水平或p值。
  • 數據不滿足正態分布——如何計算中位數(四分位數間距)
    我們一般會在文獻的統計方法部分看到這樣的描述:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。
  • 數據不滿足正態分布--如何計算中位數(四分位數間距)
    我們一般會在文獻的統計方法部分看到這樣的描述:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 002衡量系統偏離的算法:方差,標準差與變異係數
    優點是可以快速簡單的觀察數據的總體離散程度,但是,①粗略。一旦數據量變大,很難準確判斷中間數據的分布情況。②不穩定。如果把兩邊離散的數據去掉一定比例,則會趨於穩定。公式:R=最大值-最小值     這種方法把一組觀察值排序,分成四個數目相等的部分。
  • 【知識】標準差與標準誤差的區別和用法
    當數據呈正態分布的時候,使用標準差是一個很好的選擇,經驗法則告訴我們觀測值落入(μ±2σ)的比例約為95%。然而,當數據分布為偏態或U型,J型等其他非正態分布情況下,使用標準差來表示數據的分散程度可能並不是一個最佳選擇(當然你依然可使用切比雪夫法則解釋),使用其他度量如極差、百分位數等可能是一個更好地選擇。
  • 方差的計算公式 方差和標準差公式等
    方差描述隨機變量對於數學期望的偏離程度。單個偏離是消除符號影響方差即偏離平方的均值,記為D(X ):直接計算公式分離散型和連續型,具體為:這裡 是一個數。推導另一種計算公式得到:「方差等於平方的均值減去均值的平方」。其中,分別為離散型和連續型的計算公式。