T檢驗、Z檢驗與方差分析(ANOVA,Analysis of Varitation)是我們大學概率論與數理統計課程中的重要教學內容,相信大家大學時一定學過、做過作業,也在考試中遇到過相關題目。因此,理論基礎部分不再贅述。
既然都學過、做過練習,也是考試的重要內容,那麼請回答:上述三種方法能解決現實中的什麼問題?三者的應用場景有何不同?如果自信能正確的回答上述問題,那麼不必往下看了。否則,往下看。
關鍵來了:
¢Z檢驗-方差已知的均值檢驗,考慮一個因素的影響,原假設H0:X1=X0(單樣本檢驗)或 H0:X1=X2(雙樣本檢驗)。
¢T檢驗-方差未知的均值檢驗,考慮一個因素的影響,原假設X1=X0(單樣本檢驗)或H0:X1=X2
¢ANOVA分析-分析不同因素的影響,用於兩個及兩個以上樣本均值差別的顯著性檢驗。原假設為H0: X1=X2=X3=....
還是不明白?好吧,下面舉例說明。
需要回答以下問題,應該用什麼方法?
1、北京和上海數據分析師崗位的收入是否有顯著差異?
2、北京、上海、深圳三地的數據分析師崗位的收入是否有顯著差異?
3、在北京和上海的小企業和大企業,數據分析師崗位的收入是否有顯著差異?(城市和企業規模對收入是否有顯著影響)
上面三個問題應該用什麼方法進行檢驗?
1、北京和上海數據分析師崗位的收入是否有顯著差異?
第一個問題考慮一個因素(城市)對收入的影響,且是兩組樣本(北京和上海),屬於單因素雙樣本均值檢驗問題。那麼是用Z檢驗還是T檢驗呢?
好好想想吧!
Z檢驗和T檢驗的區別是什麼?
Z檢驗用於方差已知的情況,T檢驗用於方差未知的情況。那麼,在現實中的大部分情況下,方差已知還是未知呢?
大部分情況下方差是未知的,所以,第一個問題應該用T檢驗。
總之,T檢驗和Z檢驗用於單因素雙樣本均值檢驗,T檢驗用於方差未知的情況,Z檢驗用於方差已知的情況。
2、北京、上海、深圳三地的數據分析師崗位的收入是否有顯著差異?
第二個問題考慮一個因素(城市)對收入的影響,但是三組樣本(北京、上海、深圳),屬於單因素多樣本均值檢驗問題。那麼還能用Z檢驗或T檢驗嗎?答案是不能。因為上述兩種方法適用於單因素雙樣本均值檢驗,不能進行三樣本檢驗。(為什麼不能,後面文章再分析)。
ANOVA分析用於不同因素的影響,可以是一個因素,也可以是兩個因素。並且,ANOVA能夠分析多樣本。所以,ANOVA能夠分析「北京、上海、深圳三地的數據分析師崗位的收入是否有顯著差異」這樣的問題。
總之,ANOVA能夠分析單因素多樣本之間的差異。檢驗一個因素對於試驗結果的影響是否顯著,就稱為單因素方差分析One-wayANOVA
3、在北京和上海的小企業和大企業,數據分析師崗位的收入是否有顯著差異?(城市和企業規模對收入是否有顯著影響)
第三個問題考慮的是兩個因素(城市和企業規模)對收入是否有顯著影響,屬於雙因素多樣本問題。
顯然,按照前面的分析,T檢驗和F檢驗無法解決,只能用ANOVA,分析多個因素的影響。檢驗兩個因素對於試驗結果的影響是否顯著,就稱為雙因素方差分析(Two-way ANOVA),驗證因素A、B、A與B的交互作用對於試驗結果的影響是否顯著。
會選擇方法了吧?
1、北京和上海數據分析師崗位的收入是否有顯著差異?用T檢驗。
2、北京、上海、深圳三地的數據分析師崗位的收入是否有顯著差異?用單因素方差分析One-way ANOVA
3、在北京和上海的小企業和大企業,數據分析師崗位的收入是否有顯著差異?(城市和企業規模對收入是否有顯著影響)用雙因素方差分析Two-way ANOVA。
總結:
¢Z檢驗-方差已知的單因素雙樣本均值檢驗
¢T檢驗-方差未知的單因素雙樣本均值檢驗
¢ANOVA分析-多因素多樣本均值檢驗
具體怎麼進行分析呢?常用的軟體工具Excel、SPSS、Minitab等都能進行分析,不需要跟大學時考試一樣進行計算。如何用軟體進行上述三個問題的分析,如何讀分析結果,都是比較簡單的,在這不說了。如果大家想繼續學習,可以留言。如果需要,在後面介紹。