數據離散程度描述

2021-01-14 生活統計學

基礎準備

前面介紹過,數據可以從三個方面進行統計描述:


集中趨勢指標是數據的一個特徵,數據的另一個特徵是離散程度指標。在統計分析中,離散程度指標可以說明集中趨勢指標的代表性如何,還可在統計推斷時用來計算誤差的大小。另外,離散程度指標還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。例如,有兩組數據,第一組是19,20,21,第二組是15,20,25。如果只根據均值(兩組的均值都是20)我們將無法區別兩組數據有什麼不同。但顯然兩組數據是有區別的。在這種情況下,就需要使用離散程度的指標來描述那一組分散的程度更大一些。


離散程度指標的種類很多,下面介紹的是常用的幾種。


離散程度指標

全距(Range)又稱極差,是指數據中最大值和最小值的差值。如果用R表示全距,用Xmax,Xmin,分別表示數據的最大值、最小值,則全距公式為:R = Xmax- Xmin。例如,前面提到的兩組數據中,第一組數據的全距R = 21 – 19 = 2,第二組數據的全距R = 25 – 15 = 10。通過全距的數值我們可以確定第二組數據的離散程度更大。由此,我們可以記住一個一般性結論:離散指標的數據越小,說明數據的變異程度就越小;數值越大,則說明數據的變異程度越大。當然,這個結論只有在同類離散指標相比較時才會有意義。


全距指標的應用

全距指標的含義容易理解,計算也很簡便。因此,在某些場合具有特殊的用途。例如,要說明一個地區的溫度情況,沒有比用溫差說明更好的指標了。在描述一種股票的波動情況時,最高價和最低價的差是常使用的特徵值。另外,在成品質量控制方法中,R控制圖也是全距的一種應用。但是,全距在計算上只與兩個極端值有關,因此它不能反應其他數據的分散情況,就這一點來說,全距只是一個比較粗糙的測度指標。如果需要全面、精確地說明數據離散程度時,就不宜使用全距。


平均差(Mean Absolute Deviation)就是各項數值與其均值之差絕對值之和的平均數。用MAD表示平均差,其公式為:


所謂離散,是個相對概念,需要用一個標準來衡量。因為均值是最重要也是最常用的指標,所以就成為衡量離散程度的一個常用標準。方法就是用各項數據與與均值相減,通常將這個差值稱為離差(Deviation)。離差數值的大小就可以說明數據的偏離程度。但是,可以證明

因為相對於均值的正、負偏差之和是相等的。為了解決離差正、負值抵消的問題,統計學家使用了絕對值的方法,如平均差

然後再用平均的方法,消除掉由於數據項數多少給離差值帶來的影響,即

從指標的含義來看,平均差的數值代表了所有數據離均值的平均距離,使用該數據說明數據的離散程度,比較容易理解。


平均差的應用

雖然平均差簡單易懂,但因為使用了絕對值,不便於進一步計算,所以在實際應用中不如其他離散指標應用那樣廣泛。但在預測領域,還常常使用該指標用於誤差的說明。


方差(Variance)就是全部數據離差平方的平均數。總體方差用表示,計算公式為:


方差克服了平均差絕對值的問題,成為描述離散程度的一個重要指標。但是,在方差數值含義的解釋上卻遇到困難。因為方差的單位是數據單位的平方,誇大了數據的離散程度,使人不易直觀理解數值意義。因此,通常取方差的算數平方根作為描述離散程度的指標,即標準差(StandardDeviation)。總體標準差計算公式如下:



樣本的方差和標準差

樣本方差用S2表示,樣本標準差用S表示,不能混淆。樣本的方差和標準差計算公式與總體不一樣,計算公式如下:


可以看到,樣本方差及標準差與總體方差和標準差的計算公式略有不同。樣本方差和標準差的分母是自由度n-1,而不是樣本容量n。因為樣本的方差和標準差在使用中,經常作為總體方差和標準差的估計量,如果直接除以樣本容量n,得到的結果相對於總體方差和標準差來說是有偏的;除以自由度n-1可以得到總體方差和標準差的較好的估計量(無偏推理過程回顧:抽樣分布:詳述均值的抽樣分布及中心極限定理)。


離散係數(Coefficient Of Variation)就是標準差與均值的比值。一般用V表示。總體的離散係數表示:

樣本的離散係數表示為:


離散係數的應用

離散係數實質上是標準差相對於均值的大小。因此,如果比較均值不相同的兩組數據相對離散程度時,使用離散係數,要比使用標準差更準確。例如,假定有甲、乙兩個工人,甲平均每小時生產40個零件,標準差是5件。乙平均每小時生產80個零件,標準差為6件。那麼那個工人的穩定性比較好呢?根據標準差的定義,標準差越小,離散性就越小,所以甲生產要比乙穩定。但是,我們看到乙的標準差雖然比甲略高,但其生產的能力確實甲的2倍(80/40)。也就是說,6相對於80的變化要小於5相對於40的變化,這個含義就是離散係數。計算過程如下:

由此可見,乙的離散係數小於甲,所以乙的生產要比甲相對穩定。離散係數是個無名數,這是它與其他離散指標的最大區別。全距、平均差還有標準差,它們都是有名數,其單位與原始數據的單位一致。離散係數的這一特點使其不僅可以說明同類事物的相對離散程度,還可以說明不同類事物的相對離散程度。例如,當我們有興趣比較一群人的身高離散程度大,還是體重離散程度大時,其他離散指標都不能用於比較,因為身高與體重的單位不一致。而離散係數就可以比較,因為它完全消除了單位的影響。

相關焦點

  • 數據的離散程度描述
    從上節內容可知(回顧:數據的集中趨勢描述),集中趨勢指標在表示數據集合的特徵時會有不同的缺陷,例如算術平均數會受到極端值的影響,不能完全展現數據集合的特徵,離散程度指標可以在一定程度上彌補集中趨勢指標的這個缺陷,展示出數據集合的離散情況。
  • 描述數據離散趨勢的特徵值
    (1)極差  極差是數據中最大值與最小值之差,是用數據變動的幅度來反映其分散狀況的特徵值。極差計算簡單、使用方便,但粗略,數值僅受兩個極端值的影響,損失的質量信息多,不能反映中間數據的分布和波動規律,僅適用於小樣本。
  • 統計學原理 離散程度的度量
    離中趨勢分類數據:異眾比率異眾比率 (variation ratio)對分類數據離散程度的測度
  • 離散程度的度量:異眾比率、四分位差和標準差
    它們反映的是各變量值遠離其中心值的程度。或者說,反映出眾數、中位數、平均數能不能代表一組數據。數據的離散程度越大,集中數值對該組數據的代表性就越差;離散程度越小,其代表性就越好。眾數能不能代表一組數據?
  • 【乾貨】利用離散程度判斷正確的投注方向
    :離散程度,外文名Measures of Dispersion,是指通過隨機地觀測變量各個取值之間的差異程度,用來衡量風險大小的指標。離散程度的測度意義:1、通過對隨機變量取值之間離散程度的測定,可以反映各個觀測個體之間的差異大小,從而也就可以反映分布中心的指標對各個觀測變量值代表性的高低。2、通過對隨機變量取值之間離散程度的測定,可以反映隨機變量次數分布密度曲線的瘦俏或矮胖程度。
  • 方差與標準差:衡量數據的離散程度
    方差開平方根後得到標準差(又稱標準偏差、均方差),標準差和原始測量數據具有相同單位,方便分析比較。統計學中的方差在統計學中,在總體數量為N,個體數據為X,平均值為u,則方差E^2公式如下:每個個體數據X與平均值u的差值的平方,再求和,再除以樣本數量N。
  • 數據離散趨勢的特徵值中的標準偏差值越小,說明( )。
    數據離散趨勢的特徵值中的標準偏差值越小,說明( )。A、數據集中程度越低,離散程度小,代表性差B、數據集中程度越高,離散程度大,代表性好C、數據集中程度越高,離散程度小,代表性好D、數據集中程度越高,離散程度小,代表性差【正確答案】 C【答案解析】 本題考查的是工程質量統計及抽樣檢驗的基本原理和方法。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○作用:對調查總體所有大量數據資料進行初步的整理和歸納,對數據進行總體的描述。如對學生成績進行整理。○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 幾何平均數:描述等比資料(後面取值是前面數據的倍數),變量值的乘積後,開n次方。 眾數:出現頻數最多的那個數。 1 離散趨勢 極差:數據分布的最大區間——最大值減去最小值。
  • 時間序列分析法中,既看不出數據的離散程度,也不能反映近、遠期
    時間序列分析法中,既看不出數據的離散程度,也不能反映近、遠期數據變化趨勢的方法是(  )。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。3、描述離散趨勢的指標:全距:又稱極差,即數據中最大值與最小值之間的差距。它能體現一組數據波動的範圍。極差越大,離散程度越大,反之,離散程度越小。方差:用于衡量每一個變量(觀察值)與總體均數之間的差異。
  • 統計學之描述性統計 | Descriptive Statistics
    一、描述性統計的分類描述性統計又分為 § 集中趨勢 Measures of central tendency § 離散趨勢 Measures of Dispersion1、集中趨勢 Measures of Central Tendency集中趨勢又稱 「數據的中心位置」,它是一組數據的代表值。
  • 帶你一文了解描述性統計分析
    :集中趨勢、離散程度、分布形式及相關程度。接著,數據分析師們,對數據進行簡單處理,取平均,取佔比等等,做成餅圖、箱線圖等等,都是集中趨勢和離散趨勢的指標啊。然後,數據分析師們和其他業務人員區別開來的地方,是什麼?就是統計學的專業知識啊。
  • 統計學入門級-描述性統計理論
    四分位數是一組數據排序後處於25%(下四分位數)和75%(上四分位數)位置上的值。箱線圖就是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種圖。額,箱線圖經常應用在識別檢測異常值方面。
  • 數據產品經理之數據分析與挖掘
    (3)統計分析方法數據分析時需要選擇合適的統計分析方法進行數據的分析,常用統計分析方法有集中趨勢、離散程度、相關強度、參數估計、假設檢驗等,通過常用統計分析方法能夠描述數據的特徵。(4)數據挖掘方法數據挖掘時需要運用數據挖掘方法來從數據中挖掘價值,常用數據挖掘的方法有分類、回歸、關聯、聚類等,這些方法能夠從不同的角度對數據進行挖掘。
  • 不會做特徵工程的 AI 研究員不是好數據科學家!下篇 - 離散數據的...
    在上篇中,作者介紹了連續型數值數據的特徵工程處理方法。本篇為下篇,主要介紹離散數據的除了方法。雷鋒網(公眾號:雷鋒網) AI 科技評論對原文進行了編譯。而在本篇文章中,我們將繼續介紹另一種結構化數據的處理 —— 這種數據本質上是離散的,俗稱分類數據(categorical data)。由於在處理數值數據的時候,我們不必處理屬於某一分類類型的數據屬性中與每個類別值有關的額外的語義複雜性,因此處理數值數據通常比處理分類數據來得更加容易。
  • 監理工程師考試輔導:質量數據的特徵值
    樣本數據特徵值是由樣本數據計算的描述樣本質量數據波動規律的指標。統計推斷就是根據這些樣本數據特徵值來分析、判斷總體的質量狀況。常用的有描述數據分布集中趨勢的算術平均數、中位數和描述數據分布離中趨勢的極差、標準偏差、變異係數等。
  • 一名合格的數據分析師,統計基礎不可或缺!
    數據分析的前提就是要學會觀察數據,了解數據,統計描述包括對數據的圖表描述和統計量描述,它能讓我們對數據有一個直觀的認識,比如數據是否完整、是否存在異常、服從什麼分布、存在什麼規律等,為數據預處理和數據分析做準備。內容框架一. 圖表描述1.
  • 基本數據統計分析--spss
    spss描述統計分析一、定義:其中均值、中位數、眾數將不再介紹;方差是所有變量值與平均數偏差平方的平均值,它表示了一組數據分布的離散程度的平均值。標準差是方差的平方根,它表示了一組數據關於平均數的平均離散程度。方差和標準差越大,說明變量值之間的差異越大,距離平均數這個「中心」的離散趨勢越大。