簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。
探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
適用條件與簡單線性回歸分析類似,包括:線性趨勢、獨立性、正態性、方差齊性。
但是對樣本量有要求,樣本量太少時,可能會出現檢驗效能不足,回歸結果可靠性降低等問題。一般要求樣本量要超過自變量數的20倍。
案例:根據多個步態指標預測老年人動態平衡能力
實驗對象:60歲左右的老年人。
測試內容:老年人平衡分數,以及步態指標。
· 時間類指標:雙支撐時間、單支撐時間。
· 空間類指標:步長、步向角、左右側COP、前後側COP。
研究目的:根據步態參數預測老年人平衡能力。
本次分析目的:採用多個步態指標預測老年人的動態平衡能力
部分數據:
圖1
1.SPSS步驟:
1)分析-回歸-線性
圖2
2)"動態平衡得分"選入"因變量";"步長、步向角、左右測COP、前後側COP、雙支撐時間、單支撐時間"選入"自變量"。
圖3
3)按下圖勾選。
圖4
2.結果
圖5
圖5給出了各指標的均值、標準差。
圖6
圖6,共建立3個回歸模型,同時給出了依次輸入的變量,由於引入新變量後,原來模型中引入的自變量仍然有統計學意義,因此沒有自變量被除去。
圖7
(1)復相關係數R,表示模型中所有自變量與因變量之間的線性回歸關係的密切程度。實際上是yi與估計值y^的簡單線性回歸係數。取值範圍(0,1)。
復相關係數在評價多重線性回歸模型優劣時存在不足,即使向模型中增加的變量沒有統計學意義,R值仍會增大。
R值多大合適?不同的學科有不同的判斷標準。社會科學類研究一般要求大於0.4,自然科學一般要求大於0.8。
(2)決定係數R2,表示因變量y的總變異可由回歸模型中自變量解釋的部分所佔比例。
(3)調整後的決定係數R2adj。即使向模型中增加的變量沒有統計學意義,R2值仍會增大,因此需要對其調整,形成調整後的決定係數R2adj。當模型中增加沒有統計學意義的變量時,R2adj會變小,因此,R2adj是衡量模型好壞的重要指標之一。R2adj越大,模型的效果越好。
案例模型的R2adj=0.768,模型效果較好。
圖8
回歸模型的方差分析結果顯示,三個模型的P值均小於0.05,說明回歸模型有統計學意義。
剩餘標準差是誤差均方的算術平方根,反映建立的模型預測因變量的精度。剩餘標準差越小,模型的預測效果就越好。
圖9
給出了各模型自變量的偏回歸係數估計值、標準化後的偏回歸係數,以及回歸係數的顯著性檢驗結果。回歸方程:
標準化偏回歸係數:由於不同自變量的偏回歸係數的量綱不同,需要比較各自變量對因變量影響程度時,無法根據偏回歸係數值的大小直接進行比較。標準化偏回歸係數是偏回歸係數標準化的結果,排除了量綱和自變量離散程度差異的影響,可以根據絕對值的大小判斷自變量的重要程度。
標準化偏回歸係數分別為0.780,0.708,-0.233。
多重共線性。
多重共線性指自變量間存在線性相關關係,也就是一個自變量可以用其他一個或幾個自變量的線性表達式進行表示。存在多重共線性時,模型可能會有以下表現:
(1)模型檢驗結果為P≤α,但是各自變量的偏回歸係數的檢驗結果卻為P>α。
(2)專業上認為應該有統計學意義自變量檢驗結果卻無統計學意義。
(3)自變量的偏回歸係數的取值大小甚至符號明顯與實際情況相違背,難以解釋。
(4)增加或刪除一個自變量或一個案例,自變量偏回歸係數發生較大變化。
以上情況使回歸模型,特別是其中的回歸係數難以有合乎專業知識的解釋。
要強調的是,多重共線性的存在不一定必然影響模型的使用價值。理論上,共線性不應當降低模型的預測效果,主要影響的是偏回歸係數,導致模型無法用專業知識解釋。
多重共線性的識別
(1)容忍度(tolerance)。某自變量的容忍度等於1減去以該自變量為因變量,以模型中其他自變量為自變量的線性回歸模型的決定係數。容忍度越小,多重共線性就越嚴重。一般容忍度小於0.1時,認為存在嚴重的多重共線性。
案例中的容忍度都偏大,說明不存在多重共線性(圖9) 。
(2)方差膨脹因子(VIF),容忍度的倒數。VIF越大,多重共線性越嚴重。一般認為VIF要大於5或大於10時多重共線性較嚴重。
案例中的方差膨脹因子都不大於2,進一步說明模型不存在多重共線性(圖9) 。
(3)特徵值。對模型所有常數項及所有自變量提取主成分,如果自變量間存在較強的線性相關關係,則前面幾個主成分特徵值偏大,後面的主成分特徵值偏小,甚至接近0。
(4)條件指數。為最大主成分特徵值與當前主成分特徵值比值的算術平方根。所以第1個主成分的條件指數為1,如果條件指數偏大(如大於30),則存在多重共線性。
(5)變異構成。回歸模型中各項(包括常數項)的變異能夠被主成分解釋的比例,或者說各主成分對模型中各項的貢獻。如果某個主成分同時對兩個或多個自變量的貢獻都比較大,則說明這幾個自變量間存在一定程度的共線性。
多重共線性的處理
(1)逐步回歸法。只能在一定程度上解決多重共線性問題。
(2)嶺回歸。能有效解決。
(3)主成分回歸。從存在多重共線性的自變量中提取主成分,然後將特徵根較大的(如大於1)幾個主成分與其他自變量一起進行多重線性回歸,得出主成分回歸係數,再根據主成分表達式反推出原始自變量的參數估計值。代價是提取主成分時丟失了一部分信息,收益是大大降低了共線性對參數估計值的扭曲,而且多重共線性越強,主成分丟失的信息越少,越適合做主成分回歸。