數據的離散程度描述

2021-03-02 生活統計學


以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容

從上節內容可知(回顧:數據的集中趨勢描述),集中趨勢指標在表示數據集合的特徵時會有不同的缺陷,例如算術平均數會受到極端值的影響,不能完全展現數據集合的特徵,離散程度指標可以在一定程度上彌補集中趨勢指標的這個缺陷,展示出數據集合的離散情況。現在有兩個數據集合,第一個是(19,20,21),第二個是(15,20,25),如果只考慮算術平均值,那麼兩個數據集合的算術平均值都是20,無法判斷兩個數據集合有什麼不同。但是兩個數據集合有明顯差別,第二個數據集合的三個數值之間差距比第一個數據集合的大,這種情況就需要使用離散程度指標來顯示哪一個數據集合的離散程度更大。在同類離散指標的比較中,離散指標的數值越小,說明數據集合的波動(變異)程度越小;離散指標的數值越大,說明數據集合的波動(變異)程度越大。

下面介紹六種最常用的離散程度指標。在了解每種離散程度指標時,根據其含義,大家想想,離散程度指標和集中趨勢指標有沒有對應關係,例如:平均值對應下面的那些離散程度指標;中位數又對應那些指標?

極差

極差又被稱為全距,是指數據集合中最大值與最小值的差值,表示整個數據集合能夠覆蓋的數值距離。現有數據集合,全距的計算公式為:R=Xmax-Xmin。本節開頭提到的兩個數據集合,第一個數據集合的極差為21-19=2;第二個數據集合的極差為25-15=10。對比後可以發現,雖然兩個數據集合的算術平均值相同,但是第二個數據集合的極差遠遠大於第一個數據集合的極差,所以第一個數據集合的離散程度更低,穩定性更強。

生活應用:每日天氣預報都會播報當天氣溫的最高溫度和最低溫度。查看歷史天氣預報,北京在2016年的1月1日、4月1日、7月1日和10月1日的最高溫度和最低溫度分別為2/-8、17/7、32/24、22/12,求這四天每日的溫度極差及總的溫度極差。這四天的溫度極差分別為10、10、8、10,而這四天總的溫度極差為38。由此可見,雖然北京在不同季節的溫度變化很大,達到38攝氏度,但是每日的溫差卻不大,基本維持在10攝氏度左右。地球之所以能夠孕育生命,除了必需的水和空氣,溫差小也是一個重要的因素。下圖是北京2016年1月1日的每小時溫度變化曲線,可以很清楚地看到每小時的溫度及整天的溫度變化。

平均偏差

離散程度是一個相對概念,需要通過與參考值的對比才能表示出離散程度。因為算術平均值是最重要也是最常用的集中趨勢指標,所以均值也就自然能夠成為參考值。對於任意一個數據集合,表示其離散程度的一種容易想到的度量方式就是與算術平均值的偏離,平均偏差就是這樣一種度量指標。但是,這裡有一個問題,那就是數據集合中的每個數值與算術平均值之間的偏差之和等於0。

為了解決這個問題,統計學家很聰明地使用了絕對值,然後再用平均的方法,消除了負號帶來的影響,這就有了平均偏差的產生。平均偏差的數值代表了所有數值與平均值的平均偏差距離。平均偏差的計算公式為:

生活應用:標準化管理是工廠運營的基本管理方法,標準化意味著低成本、高質量和運行穩定。某知名啤酒玻璃瓶生產企業新引進了一套德國吹塑設備,希望能夠提高它們的玻璃產品質量穩定性,此時,可以使用平均偏差評價生產線的穩定性。限於篇幅,生活案例的具體分析過程可以本文截取的《人人都會數據分析》書籍獲取。

方差和標準差

平均偏差使用絕對值來消除負號的影響,另一種消除負號影響的方法是平方,對應的離散程度指標是方差和標準差。方差利用平方克服了離差和等於0的問題,與平均偏差的絕對值有異曲同工之妙。但是方差同樣有其局限性,因為方差的單位是數據單位的平方,誇大了數據集合的離散程度。因此,還可以取方差的算數平方根作為描述離散程度的指標,即標準差。根據具體應用的不同,還可以分為總體的方差和標準差以及樣本的方差和標準差。

總體方差(標準差)和樣本方差(標準差)的公式區別在於分母不同,樣本方差(標準差)的分母為樣本量n減去1,也就是自由度。關於樣本方差(標準差)的公式推導過程,自由度的含義,樣本方差(標準差)與總體方差(標準差)的作用,限於篇幅,生活案例的具體分析過程可以本文截取的《人人都會數據分析》書籍獲取。

變異係數

方差和標準差雖然能夠表示數據集合中每個數值(個案)距離算數均值的平均偏差距離,但是這個距離的大小程度卻不能很好展現,特別是對於算術平均值不同的兩個數據集合。如果兩者的方差和標準差相等時,那麼到底哪個數據集合的離散程度更高、更低或相同?對於這個問題,方差和標準差解決不了,變異係數卻可以。

從公式可知,變異係數實質上是標準差相對於算術平均值的大小。因此,如果比較算術平均值不同的兩個數據集合的相對離散程度時,使用變異係數要比使用標準差更具有說服力。此外,變異係數是無單位指標,這是它與其他離散程度指標最大的區別前面介紹的極差、平均偏差、方差和標準差都是帶有單位的數值,變異係數的這個特點使其不僅可以說明同類事物的相對離散程度,還可以說明不同類型事物的相對離散程度。例如,比較一群人的身高離散程度和體重離散程度,因為身高與體重的單位不一致,所以其他的離散程度指標都不適用,而變異係數能夠用於兩者的比較,因為它消除了單位的影響。

生活應用:某機械零件的加工作坊聘用了兩個經驗豐富的技術工人陳某和王某。陳某每小時平均生產40個零件,標準差是5件。王某每小時平均生產80個零件,標準差為6件。試問哪個工人的產量穩定性比較好呢?

依據標準差的含義,標準差越小,離散程度越小,穩定性越好,所以陳某的穩定性要比王某好,事實真的如此嗎?觀察數據後可以發現陳某的標準差雖然比王某高,但王某的生產能力是陳某的2倍。也就是說,6相對於80的變化要小於5相對於40的變化,這就是變異係數的含義,計算過程如下:

從計算結果可知,王某的變異係數要小於陳某,也就是說,王某的相對離散程度要比陳某的小,所以王某的生產穩定性要比陳某好。

四分位極差

中位數的定義大家是否還記得,將所有數據按照大小,從低到高進行排序,如果數據集合的數值個數是基數,那麼排在最中間的數據值即為中位數;如果數值個數是偶數,那麼取最中間兩個數值的算術平均值作為中位數。以此類推,排在四分之一位置的數值即為第一四分位數Q1;排在四分之二位置的數值為第二四分位數Q2,也就是中位數;排在四分之三位置的數值為第三四分位數Q3。這三個四分位數將整個數據集合分成三等分。四分位極差等於第一四分位數與第三四分位數的差值(Q3-Q1),這個差值區間包含了整個數據集合50%的數據值。下圖是箱線圖,矩形的上邊線代表第一四分位數所在的位置,下邊線代表第三四分位數所在位置,整個矩形部分代表四分位極差。


總結一下

本節介紹了六種數據離散程度的描述指標:極差、平均偏差、方差和標準差、離散係數和四分位極差。它們在描述數據的離散程度時,都有各自的優勢和劣勢。大家要根據處理數據的實際情況選擇合適的指標進行描述。平均值對應標準差(方差)和變異係數;中位數對應全距和四分位極差;眾數對應什麼?大家可以思考一下。

溫馨提示:

相關焦點

  • 描述數據離散趨勢的特徵值
    (1)極差  極差是數據中最大值與最小值之差,是用數據變動的幅度來反映其分散狀況的特徵值。極差計算簡單、使用方便,但粗略,數值僅受兩個極端值的影響,損失的質量信息多,不能反映中間數據的分布和波動規律,僅適用於小樣本。
  • 數據離散程度的衡量指標
    有些時候數據的離散程度能夠讓我們數據分析得出一些其他信息,理想情況下數據越集中那麼效果越好。那麼有沒有指標來衡量?
  • 6.4.1 數據的離散程度(第1課時)
    今天我說的這節課是義務教育北師大版八年級上冊第六章《數據的分析》第四節數據的離散程度。本節內容共計2個課時,主要讓學生在具體的情境中,逐漸理解極差、方差、標準差等概念及其計算方法,領悟極差、方差、標準差都是刻畫一組數據的離散程度,理解一組數據的穩定性與極差、方差、標準差等數值的大小相關.我要說的是第1課時。
  • 統計學原理 離散程度的度量
    離中趨勢分類數據:異眾比率異眾比率 (variation ratio)對分類數據離散程度的測度
  • Excel數據分析工具:描述統計
    之前介紹(回顧:Excel數據分析工具介紹),數據分析需要先對數據信息從三個方面做初了解:集中趨勢(回顧:數據集中趨勢描述),離散程度(回顧:數據離散程度描述)和分布形狀(數據分布形狀描述),每個方面都有各自的幾種指標:
  • 【python數據分析】:描述性統計分析之離散程度(極差、方差、標準差)
    •本文字數:約1500字•閱讀時長:約3分鐘•難度:2顆星離散程度:
  • 數據分析|數據分布特徵的描述
    拿到數據之後,首先要對數據要有個基本了解,可以從集中趨勢,離散程度及分布形狀出發,來了解自己的數據。
  • 教學研討|9.2.4總體離散程度的估計(2019版新教材)
    2.內容解析在統計學中,為了了解一組數據的特徵,我們可以從這組數據的取值規律、集中趨勢和離散程度等進行研究.一組數據的離散程度可以反映這組數據的波動情況或穩定性,刻畫一組數據的離散程度的統計量有很多,最常用的是極差、方差和標準差.極差是一種較為簡單的刻畫方式,它反映了一組數據的取值範圍。
  • Excel有哪些常用的數據描述與分析類函數?
    描述統計是數據分析中常用的方法,它是指通過數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間的關係進行估計和描述的方法。描述統計通常包括集中趨勢分析、離散趨勢分析和相關分析三大部分。使用Excel函數公式或者分析工具可以滿足這樣的分析需求。
  • 時間序列分析法中,既看不出數據的離散程度,也不能反映近、遠期
    時間序列分析法中,既看不出數據的離散程度,也不能反映近、遠期   時間序列分析法中,既看不出數據的離散程度,也不能反映近、遠期數據變化趨勢的方法是(  )。
  • [理論+spss實戰]一組數據的描述性統計分析
    第一部分:理論部分一組數據的描述性統計分析集中趨勢的度量集中趨勢是指一組數據向某一中心值靠攏的程度,它反應了一組數據中心點的位置所在眾數     :(一組數據中出現次數最多的變量值)                    離散程度的度量離散程度反應的是各變量值遠離其中心值的程度異眾比率:(非眾數組的頻數佔總頻數的比例
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○作用:對調查總體所有大量數據資料進行初步的整理和歸納,對數據進行總體的描述。如對學生成績進行整理。○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。
  • 描述性統計分析
    描述性統計分析在做數據分析時,一般先會對數據進行描述性統計分析,以便於描述該數據的各種特徵及其所代表的總體的特徵。描述性統計分析包括對數據的集中趨勢、離散程度以及分布進行分析。下面主要對集中趨勢以及離散程度的一些數字特徵進行介紹,數據分布的部分內容較多,下次單獨寫一篇文章來說明。集中趨勢度量集中趨勢,是指數據向中心靠攏的程度,它反映了一組數據中心點的位置所在。
  • 如何做好描述統計分析
    要把握數據的分布特徵,需要從3個方面進行描述:集中趨勢、離散程度和分布形狀。1、集中趨勢 集中趨勢就是指一組數據向某一中心靠攏的程度,通常有以下指標:眾數對分類數據來說,眾數是最適合描述其集中趨勢的值,它是指一組數據中出現次數最多的變量,眾數不受極端值的影響,但是可能不唯一,且當數據量較多時,才有意義。
  • SPSS統計數據的收集、整理與描述
    將數據整理成頻率(頻數)分布後,數據的數量規律性就可以大致地呈現在分布的類型和特點上。但頻數分布給予我們的是一個大致的分布形狀,還缺少代表性的數量特徵值精確地描述出不同的統計數據分布。作為統計數據的代表值,一個是分布的中心,反映分布的集中趨勢,另一個是分布的形狀,反映分布的離散程序。定義分布的中心有許多不同的方式。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 論文實戰 | 描述統計
    描述性分析是數據分析的第一步,是了解和認識數據基本特徵和結構的方法,只有在完成了描述性統計分析,充分了解和認識數據特徵後,才能更好地開展後續更複雜的數據分析
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 幾何平均數:描述等比資料(後面取值是前面數據的倍數),變量值的乘積後,開n次方。 眾數:出現頻數最多的那個數。 1 離散趨勢 極差:數據分布的最大區間——最大值減去最小值。
  • 用Excel進行數據分析:描述性統計分析
  • 多元離散選擇模型
    決策者在多種方式(例如汽車、火車、飛機)中,根據決策者的屬性(諸如職業、年齡、收入水平、健康狀況等)和方案的屬性(諸如舒適程度、耗費時間、費用等)進行選擇,如果選擇了某一方式,對於該決策者來講,相對於其它方式,其效用是最大的。另一類問題是決策者對同一個選擇對象的偏好程度。例如,商品購買問題。