以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容。
從上節內容可知(回顧:數據的集中趨勢描述),集中趨勢指標在表示數據集合的特徵時會有不同的缺陷,例如算術平均數會受到極端值的影響,不能完全展現數據集合的特徵,離散程度指標可以在一定程度上彌補集中趨勢指標的這個缺陷,展示出數據集合的離散情況。現在有兩個數據集合,第一個是(19,20,21),第二個是(15,20,25),如果只考慮算術平均值,那麼兩個數據集合的算術平均值都是20,無法判斷兩個數據集合有什麼不同。但是兩個數據集合有明顯差別,第二個數據集合的三個數值之間差距比第一個數據集合的大,這種情況就需要使用離散程度指標來顯示哪一個數據集合的離散程度更大。在同類離散指標的比較中,離散指標的數值越小,說明數據集合的波動(變異)程度越小;離散指標的數值越大,說明數據集合的波動(變異)程度越大。
下面介紹六種最常用的離散程度指標。在了解每種離散程度指標時,根據其含義,大家想想,離散程度指標和集中趨勢指標有沒有對應關係,例如:平均值對應下面的那些離散程度指標;中位數又對應那些指標?
極差
極差又被稱為全距,是指數據集合中最大值與最小值的差值,表示整個數據集合能夠覆蓋的數值距離。現有數據集合,全距的計算公式為:R=Xmax-Xmin。本節開頭提到的兩個數據集合,第一個數據集合的極差為21-19=2;第二個數據集合的極差為25-15=10。對比後可以發現,雖然兩個數據集合的算術平均值相同,但是第二個數據集合的極差遠遠大於第一個數據集合的極差,所以第一個數據集合的離散程度更低,穩定性更強。
生活應用:每日天氣預報都會播報當天氣溫的最高溫度和最低溫度。查看歷史天氣預報,北京在2016年的1月1日、4月1日、7月1日和10月1日的最高溫度和最低溫度分別為2/-8、17/7、32/24、22/12,求這四天每日的溫度極差及總的溫度極差。這四天的溫度極差分別為10、10、8、10,而這四天總的溫度極差為38。由此可見,雖然北京在不同季節的溫度變化很大,達到38攝氏度,但是每日的溫差卻不大,基本維持在10攝氏度左右。地球之所以能夠孕育生命,除了必需的水和空氣,溫差小也是一個重要的因素。下圖是北京2016年1月1日的每小時溫度變化曲線,可以很清楚地看到每小時的溫度及整天的溫度變化。
離散程度是一個相對概念,需要通過與參考值的對比才能表示出離散程度。因為算術平均值是最重要也是最常用的集中趨勢指標,所以均值也就自然能夠成為參考值。對於任意一個數據集合,表示其離散程度的一種容易想到的度量方式就是與算術平均值的偏離,平均偏差就是這樣一種度量指標。但是,這裡有一個問題,那就是數據集合中的每個數值與算術平均值之間的偏差之和等於0。
為了解決這個問題,統計學家很聰明地使用了絕對值,然後再用平均的方法,消除了負號帶來的影響,這就有了平均偏差的產生。平均偏差的數值代表了所有數值與平均值的平均偏差距離。平均偏差的計算公式為:
生活應用:標準化管理是工廠運營的基本管理方法,標準化意味著低成本、高質量和運行穩定。某知名啤酒玻璃瓶生產企業新引進了一套德國吹塑設備,希望能夠提高它們的玻璃產品質量穩定性,此時,可以使用平均偏差評價生產線的穩定性。限於篇幅,生活案例的具體分析過程可以本文截取的《人人都會數據分析》書籍獲取。
平均偏差使用絕對值來消除負號的影響,另一種消除負號影響的方法是平方,對應的離散程度指標是方差和標準差。方差利用平方克服了離差和等於0的問題,與平均偏差的絕對值有異曲同工之妙。但是方差同樣有其局限性,因為方差的單位是數據單位的平方,誇大了數據集合的離散程度。因此,還可以取方差的算數平方根作為描述離散程度的指標,即標準差。根據具體應用的不同,還可以分為總體的方差和標準差以及樣本的方差和標準差。
總體方差(標準差)和樣本方差(標準差)的公式區別在於分母不同,樣本方差(標準差)的分母為樣本量n減去1,也就是自由度。關於樣本方差(標準差)的公式推導過程,自由度的含義,樣本方差(標準差)與總體方差(標準差)的作用,限於篇幅,生活案例的具體分析過程可以本文截取的《人人都會數據分析》書籍獲取。
變異係數方差和標準差雖然能夠表示數據集合中每個數值(個案)距離算數均值的平均偏差距離,但是這個距離的大小程度卻不能很好展現,特別是對於算術平均值不同的兩個數據集合。如果兩者的方差和標準差相等時,那麼到底哪個數據集合的離散程度更高、更低或相同?對於這個問題,方差和標準差解決不了,變異係數卻可以。
從公式可知,變異係數實質上是標準差相對於算術平均值的大小。因此,如果比較算術平均值不同的兩個數據集合的相對離散程度時,使用變異係數要比使用標準差更具有說服力。此外,變異係數是無單位指標,這是它與其他離散程度指標最大的區別前面介紹的極差、平均偏差、方差和標準差都是帶有單位的數值,變異係數的這個特點使其不僅可以說明同類事物的相對離散程度,還可以說明不同類型事物的相對離散程度。例如,比較一群人的身高離散程度和體重離散程度,因為身高與體重的單位不一致,所以其他的離散程度指標都不適用,而變異係數能夠用於兩者的比較,因為它消除了單位的影響。
生活應用:某機械零件的加工作坊聘用了兩個經驗豐富的技術工人陳某和王某。陳某每小時平均生產40個零件,標準差是5件。王某每小時平均生產80個零件,標準差為6件。試問哪個工人的產量穩定性比較好呢?
依據標準差的含義,標準差越小,離散程度越小,穩定性越好,所以陳某的穩定性要比王某好,事實真的如此嗎?觀察數據後可以發現陳某的標準差雖然比王某高,但王某的生產能力是陳某的2倍。也就是說,6相對於80的變化要小於5相對於40的變化,這就是變異係數的含義,計算過程如下:
從計算結果可知,王某的變異係數要小於陳某,也就是說,王某的相對離散程度要比陳某的小,所以王某的生產穩定性要比陳某好。
四分位極差中位數的定義大家是否還記得,將所有數據按照大小,從低到高進行排序,如果數據集合的數值個數是基數,那麼排在最中間的數據值即為中位數;如果數值個數是偶數,那麼取最中間兩個數值的算術平均值作為中位數。以此類推,排在四分之一位置的數值即為第一四分位數Q1;排在四分之二位置的數值為第二四分位數Q2,也就是中位數;排在四分之三位置的數值為第三四分位數Q3。這三個四分位數將整個數據集合分成三等分。四分位極差等於第一四分位數與第三四分位數的差值(Q3-Q1),這個差值區間包含了整個數據集合50%的數據值。下圖是箱線圖,矩形的上邊線代表第一四分位數所在的位置,下邊線代表第三四分位數所在位置,整個矩形部分代表四分位極差。
本節介紹了六種數據離散程度的描述指標:極差、平均偏差、方差和標準差、離散係數和四分位極差。它們在描述數據的離散程度時,都有各自的優勢和劣勢。大家要根據處理數據的實際情況選擇合適的指標進行描述。平均值對應標準差(方差)和變異係數;中位數對應全距和四分位極差;眾數對應什麼?大家可以思考一下。
溫馨提示: