有些時候數據的離散程度能夠讓我們數據分析得出一些其他信息,理想情況下數據越集中那麼效果越好。那麼有沒有指標來衡量?答案是有得,今天主要學習一下數據離散程度的衡量指標。
1.極差
極差就是對一組數據的最大值減去最小值。但是因為極差是採用兩頭的數據,沒有考慮中間的數據,所以代表性差。
2.四分位差
即數據樣本的上四分之一位和下四分之一位的差值,放映了數據中間50%部分的離散程度,其數值越小表明數據越集中,數值越大表明數據越離散,同時由於中位數位於四分位數之間,故四分位差也放映出中位數對於數據樣本的代表程度,越小代表程度越高,越大代表程度越低。但是取四分位數據的時候會因為數據的偏向問題影響,有可能上四分位和下四分位數據值相差太大,所以做為離散程度指標也欠妥。
3.方差
使用均值作為參照系,考慮了數據集中所有數值相對均值的偏離情況,並使用平方的方式進行求和取平均,避免正負數的相互抵消。方差是最常用的衡量數據離散情況的統計量。4.標準差
方差得到的數值偏差均值取平方後的算術平均數,為了能夠得到一個跟數據集中的數值同樣數量級的統計量,於是就有了標準差,標準差就是對方差取開方後得到的:基於均值和標準差就可以大致明確數據集的中心及數值在中心周圍的波動情況,也可以計算正態總體的置信區間等統計量
5.平方差
方差用取平方的方式消除數值偏差的正負,平均差用絕對值的方式消除偏差的正負性。平均差可以用均值作為參考系,也可以用中位數,這裡使用均值。
平均差相對標準差而言,更不易受極端值的影響,因為標準差是通過方差的平方計算而來的,但是平均差用的是絕對值,其實是一個邏輯判斷的過程而並非直接計算的過程,所以標準差的計算過程更加簡單直接。
參考:https://blog.csdn.net/qsir/article/details/94619194?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242