偏度與峰度的正態性分布判斷
當我們應用統計方法對數據進行分析時,會發現許多分析方法如T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或近似正態分布,正態分布在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證數據集是否符合正態分布,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測數據集是否符合正態分布,最後分析該檢測算法的適用條件以及SPSS的結果分析。
1、 偏度與峰度
(1) 偏度(Skewness)
偏度衡量隨機變量概率分布的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定數據分布的不對稱程度以及方向。
具體來說,對於隨機變量X,我們定義偏度為其的三階標準中心距:
對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:
偏度的衡量是相對於正態分布來說,正態分布的偏度為0,即若數據分布是對稱的,偏度為0。若偏度大於0,則分布右偏,即分布有一條長尾在右;若偏度小於0,則分布為左偏,即分布有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分布的偏移程度越嚴重。
【注意】數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。
(2) 峰度(Kurtosis)
峰度,是研究數據分布陡峭或平滑的統計量,通過對峰度係數的測量,我們能夠判定數據相對於正態分布而言是更陡峭還是平緩。比如正態分布的峰度為0,均勻分布的峰度為-1.2(平緩),指數分布的峰度為6(陡峭)。
峰度,定義為四階中心距除以方差的平方減3。
若峰度≈0,分布的峰態服從正態分布;
若峰度>0,分布的峰態陡峭(高尖);
若峰度<0,分布的峰態平緩(矮胖);
2、 正態性檢驗
利用變量的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。
偏度Z-score = 偏度值 ÷偏度值的標準差
峰度Z-score = 峰度值 ÷峰度值的標準差
在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變量範圍,若都滿足則可認為服從正態分布,若一個不滿足則認為不服從正態分布。
3、 正態性檢驗的適用條件
樣本的增加會減小偏度值和峰度值的標準差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本數據的正態性情況造成一定的幹擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分布性比較合理。
4、 SPSS結果分析
峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特徵不符合正態分布。