各位小夥伴已經陸續開學,見到老朋友和新朋友的欣喜之餘,學習也關閉了摸魚模式,正式開啟科研模式。開學的這幾天,已經有好幾位萌新來問我數據不正態該怎麼辦?今天我們就一起來看一看可以怎麼辦。
1.為什麼要進行正態檢驗?我們經常使用的參數檢驗,方差分析,線性回歸分析等統計方法只有在變量服從正態分布時才能表現最佳,所以保證變量的正態性是非常重要的,這也是進行統計分析的重要步驟。
2.如何檢驗數據正態與否?正態性檢驗的方法有兩大類:
一是圖示法:概率圖(probability-probability plot, P-P plot)和分位數圖(quantile-quantile plot, Q-Q plot), 圖示散點幾乎都在一條直線上,可認為資料服從正態分布。①對偏度(skewness和峰度(kurtosis)各用一個指標來評定,其中以矩法(method of moment),又稱動差法,效率最高;矩法是利用數學上的矩原理來檢驗偏度和峰度。偏度指分布不對稱的程度和方向,用偏度係數(coefficient of skewness)衡量。②僅用一個指標來綜合評定,其中以W檢驗法(S.S.shapiro&M.B.Wilk,1965)和W'檢驗法(S.S.Shapiro&R.S.Francia,1972)效率最高,適用於樣本含量n少於100的資料;D檢驗法(R.B.D'Agostino,1971)效率也高,適用於樣本含量n為10-2000的資料。3.怎樣進行數據正態轉換?clear all
sysuse citytemp
ladder tempjuly對變量「tempjuly 」進行梯度正態變換,進行了9種變換,結果發現3種變換的結果符合正態分布(p>0.05),且平方根的效果更好,p=0.400
gladder tempjuly, l1title("") ylabel(none) xlabel(none)梯度變換後的直方圖結果可以直觀感受變換的效果
qladder tempjuly, ylabel(none) xlabel(none)梯度變換後的q-q圖
除了上述轉換方式之外,還有box-cox等轉換方法,具體介紹將在下期推文進行。
參考資料:[1]孫振球,徐勇勇.醫學統計學[M]北京:人民衛生出版社,2014:39[2]stata16.0系統數據