數據服從正態分布是很多分析方法的前提條件,在進行方差分析、獨立樣本T檢驗、回歸分析等分析操作前,首先要對數據的正態性進行分析,確保方法選擇正確。如果不滿足正態性特質,則需要考慮使用其他方法或對數據進行處理。
檢測數據正態性的方法有很多種,以下為幾種常見方法:圖示法、統計檢驗法、描述法。
01. 正態圖
正態分布圖可直觀地展示數據分布情況,並結合正態曲線判斷數據是否符合正態分布。
操作步驟:選擇【正態圖】分析方法,拖拽分析項到右側分析框內,點擊「開始正態圖分析」即可得到結果。
若數據基本符合正態分布,則會呈現出中間高、兩側低、左右基本對稱的「鐘形」分布曲線。若數據為定類數據或數據量較少,一般很難呈現出標準的正態分布,此時建議只要圖形呈現出「鐘形」也可接受數據服從正態分布。若數據分布完全偏離正態,則說明數據不符合正態分布。
02. P-P圖/Q-Q圖
P-P圖和Q-Q圖,都是通過散點與正態分布的預測直線法重合程度來說明數據是否服從正態分布。
P-P圖是將實際數據累積比例作為X軸,將對應正態分布累積比例作為Y軸作散點圖,反映實際累積概率與理論累積概率的符合程度。
Q-Q圖是將實際數據作為X軸,將對應正態分布分位數作為Y軸,作散點圖,反映變量的實際分布與理論分布的符合程度。
無論是P-P圖還是Q-Q圖,如數據服從正態分布,則散點分布應近似呈現為一條對角直線。反之則說明數據非正態。兩種圖的功能完全一致,使用時沒有區別。
03.正態性檢驗
利用統計圖分析正態性,往往是依靠分析者的主觀判斷進行。因而容易產生結果偏差。因此需要結合其他方法,對數據的正態性指標進行統計描述。
正態性檢驗是用於分析定量數據是否具有正態分布特質。
操作步驟與上述一致,選擇【正態性檢驗】分析方法,拖拽分析項到右側分析框內,點擊「開始正態性檢驗」即可得到結果。
如果樣本量大於50,則應該使用Kolmogorov-Smirnov檢驗結果,反之則使用Shapro-Wilk檢驗的結果。
上圖中,樣本量為300,因而選擇K-S檢驗。P值=0.149>0.05,說明數據服從正態分布。
04. 描述法
描述法即通過描述數據偏度和峰度係數檢驗數據的正態性。
偏度和峰度可通過描述性分析得到,也可在正態性檢驗中直接查看。
理論上講,標準正態分布偏度和峰度均為0,但現實中數據無法滿足標準正態分布,因而如果峰度絕對值小於10並且偏度絕對值小於3,則說明數據雖然不是絕對正態,但基本可接受為正態分布。
其他說明
(1)檢驗數據正態性的方法有很多,其中統計檢驗法對於數據的要求最為嚴格,而實際數據由於樣本不足等原因,即使數據總體正態但統計檢驗出來也顯示非正態,實用性上不如圖示法直觀,接受程度高,因此一般情況下使用圖示法相對較多。
(2)當正態圖和正態性檢驗結果出現矛盾,如正態圖顯示數據分布對稱而正態性檢驗結果P<0.05,此時建議不要追求絕對的正態,如數據基本滿足正態性即可接受服從正態分布。
(3)另外,正態性檢驗要求嚴格通常無法滿足,如果峰度絕對值小於10並且偏度絕對值小於3,則說明數據雖然不是絕對正態,但基本可接受為正態分布。
(4)若想將非正態性數據轉化為正態性數據,可將數據取對數、開根號等處理,使數據更加接近正態分布