01
為什麼不能直接用t檢驗?
辛辛苦苦收集數據寫文章,如果因為錯誤的統計方法,而被拒稿,豈不太冤了?
可能有人會問:統計有那麼重要嗎?我拿來數據直接用t檢驗分析,多簡單暢快了,怎麼還被拒稿了?
統計真的是很重要的,一般好一些的研究機構都會有專門做統計分析的人員。
如果用錯了統計方法,還可能得出錯誤的結果,「南轅北轍」之類的也時有發生。
舉個形象點的例子:
比如小轎車在平地上開很舒服,但在野地裡開,會非常辛苦,甚至是舉步維艱;在野地裡就得開越野車,但越野車在平地上開,又會比較費油。
對於非正態的數據,t檢驗可能得出錯誤結果,這時候就需要非參數檢驗;但對於正態數據,非參數檢驗效能比較低,所以又要用t檢驗。
至於選擇用t檢驗,還是非參數檢驗,確定數據是否是正態分布,就變得很關鍵。
下面我們一起看一下如果通過SPSS實現簡單快速的正態性檢驗。
02
如何進行正態性檢驗?
查看數據集:
共四個變量
sex性別 1男 0女
Age 年齡
Bmi體質指數
Disease 疾病狀態 1患病 0未患病
分析-描述統計-探索,打開探索對話框。
Disease進入因子列表框,age進入因變量列表,然後點擊統計模塊,在統計對話框中,勾選描述和離群值,點繼續;然後點擊圖模塊,勾選因子級別並置、直方圖、含檢驗的正太圖,點繼續,最後點確定。更直觀的操作步驟如圖所示。
結果:
03
正態性檢驗結果解讀
常見的統計學檢驗有Kolmogorov-Smirnov檢驗(KS檢驗)和Shapiro-Wilk檢驗(SW檢驗),當檢驗結果的p值小於0.05,則認為數據不滿足正態性。
本例中,因為SPSS軟體使用的是中文版本,結果解讀如下:
柯爾莫戈洛夫-斯米諾夫:即KS檢驗,適用條件為樣本量≥100。本例中,選擇KS檢驗,兩組年齡正態性檢驗的p值均為0.2,均大於0.05,故認為兩組年齡均符合正態分布。
夏皮洛-威爾克:即SW檢驗,適用條件為樣本量<100。
寫在後面
其實,細心的朋友可能會發現,在進行正態性檢驗的同時,也進行了離群值的檢驗。
如果大家對離群值感興趣,可以在文章下面點擊「在看」告訴我,如果此文「在看「數超過20個,有時間給大家聊聊離群值的快速識別與處理。
- END -