本文來自百度(https://zhuanlan.zhihu.com/p/29559936)
多因素方差分析,用於研究一個因變量是否受到多個自變量(也稱為因素)的影響,它檢驗多個因素取值水平的不同組合之間,因變量的均值之間是否存在顯著的差異。多因素方差分析既可以分析單個因素的作用(主效應),也可以分析因素之間的交互作用(交互效應),還可以進行協方差分析,以及各個因素變量與協變量的交互作用。
根據觀測變量(即因變量)的數目,可以把多因素方差分析分為:單變量多因素方差分析(也叫一元多因素方差分析)與多變量多因素方差分析(即多元多因素方差分析)。本文將重點講述一元多因素方差分析,下篇文章將詳細講述多元多因素方差分析。
一元多因素方差分析:只有一個因變量,考察多個自變量對該因變量的影響。例如:分析不同品種、不同施肥量對農作物產量的影響時,可將農作物產量作為觀測變量,品種和施肥量作為控制變量。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農作物產量的,並進一步研究哪種品種與哪種水平的施肥量是提高農作物產量的最優組合。
分析原理
通過計算F統計量,進行F檢驗。F統計量是平均組間平方和與平均組內平方和的比。
這裡,把總的影響平方和記為SST,它分為兩個部分,一部分是由控制變量引起的離差,記為SSA(組間離差平方和),另一部分是由隨機變量引起的SSE(組內離差平方和)。即SST=SSA+SSE。組間離差平方和SSA是各水平均值和總體均值離差的平方和,反映了控制變量的影響。組內離差平方和是每個數據與本水平組平均值離差的平方和,反映了數據抽樣誤差的大小程度。
通過F值看出,如果控制變量的不同水平對觀測變量有顯著影響,那觀測變量的組間離差平方和就大,F值也大;相反,如果控制變量的不同水平沒有對觀測變量造成顯著影響,那組內離差平方和就比較大,F值就比較小。
同時,SPSS還會依據F分布表給出相應的相伴概率值sig。如果sig小於顯著性水平(一般顯著性水平設為0.05、0.01、或者0.001),則認為控制變量不同水平下各總體均值有顯著差異,反之,則不然。一般地,F值越大,則sig值越小。
SPSS分析案例
現在有一個公司員工的工資表,想看一下員工性別「gender」與接受教育年限「edu」這兩個控制變量對員工「當前工資」的影響。採用多因素方差分析法,則要分別考慮「gender」、「edu」對「當前工資」的影響,稱為主效應,還要考慮「gender*edu」對「當前工資」的影響,稱為交互效應。
(1)分析步驟:將數據導入SPSS後,選擇:分析—— 一般線性模型——單變量
(2)將「當前工資」選入因變量(也就是觀測變量),將性別「gender」與受教育年限「edu」選入固定因子(也就是控制變量)。
(3)選擇「單變量」的「模型」,打開對話框後選擇「全因子」,表示方差分析的模型包括所有因素的主效應,也包括因素之間的交互效應。然後「繼續」。
(4)打開「單變量」的「繪製」對話框,選擇「gender」為橫軸變量,選擇「edu」為分線變量,單擊「添加」,即顯示這兩個因素變量的交互作用,即
「gender*edu」這個交互作用變量。由於此例中「gender」只有兩個水平,即男、女;而「edu」有多種水平。因此,如果主效應顯著,則表明因素兩種或多種水平之間存在顯著性差異。事後可以繼續對同一因素多個水平之間的均值差異進行比較,該過程稱為多重比較。
但實際上如果主效應和交互效應都達到顯著,我們更關心在多因素交互作用下,因變量有什麼影響。
因此,如果交互效應顯著的話,通常需要進行簡單效應檢驗。所謂簡單效應檢驗,是指一個因素的水平在另一個因素的某個因素的某個水平上的變異。例如我們本例中的,如果gender與edu之間存在顯著的交互作用,我們可以檢驗當gender為「女」時,edu的各個水平之間的差異,稱為edu在「女」性水平上的簡單效應;以及在「男」性水平上edu各水平之間的差異,稱為edu在「男」性水平上的簡單效應。簡單效應檢驗,實際上是把其中一個自變量固定在某一個特定的水平上,考察另一個自變量對因變量的影響。簡單效應檢驗在SPSS裡是用一個「MANOVA」命令來實現的。同理,當我們檢驗三個自變量時,若這些自變量之間的交互作用顯著,需要進行簡單簡單效應檢驗,即一個因素的水平在另外兩個因素的水平結合上的效應。也就是把兩個因素固定在各自的某一個水平上,考察第三個因素對因變量的影響。也是用「MANOVA」命令來實現的。我們觀察簡單效應顯著與否,是通過F值與sig值來看的,一般用sig值與我們設定的一個數值(0.05、0.01、或者0.001)來比較,若sig值大於該數值,說明簡單效應不顯著;反之,若sig值小於該數值,說明簡單效應顯著。
(5)打開「選項」對話框,將左邊三個控制變量均移入右邊,「顯示均值」,同時選中「描述統計」,選中「比較主效應」。
(6)點擊「確定」以後,就會在SPSS查看器裡顯示出結果。其中,最上面的那部分代碼是我們所做的操作在SPSS裡具體實現的步驟的代碼。下面的表格是我們想要的結果,從表格裡得出結論。
(7)從下面的「主體間效應的檢驗」表格裡,我們比較性別gender、受教育程度edu、及gender*edu交互作用的F值及sig值,看到edu的F值最大,sig值最小,且sig<0.05。而gender與gender*edu的sig值都大於0.05,得出結論:「gender」的主效應未達到顯著,而「edu」的主效應達到顯著,gender與edu的交互效應未達到顯著(當交互效應達到顯著時,進而可以進行簡單效應檢驗結果),就不需要進行簡單效應檢驗。則該公司員工「受教育程度」對員工「當前工資」的影響顯著,而「性別」對「當前工資」的影響不明顯。
(8)下圖為均值分布圖,即為兩因素edu與gender作用下,因變量員工工資的均值分布情況。通常,若交互效應不顯著時,圖中的因素分布線均為平行線;若交互效應顯著,圖中的因素分線不平行。此圖中,將性別「gender」作為橫軸變量,觀察接受教育年限「edu」對因變量「當前工資」的影響。
圖中得出結論:當受教育年限為20年,一般為研究生水平的時候,男女工資差別不大;受教育年限為14年,一般為專科生水平,男女工資差別不明顯。但當受教育年限為8年、17年的時候,男女工資差別尤其明顯。