多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:
毫無疑問,多元線性回歸方程應該為:
上圖中的 x1, x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣,如下圖所示:
那麼,多元線性回歸方程矩陣形式為:
其中: 代表隨機誤差, 其中隨機誤差分為:可解釋的誤差 和 不可解釋的誤差,隨機誤差必須滿足以下四個條件,多元線性方程才有意義(一元線性方程也一樣)
1:服成正太分布,即指:隨機誤差必須是服成正太分別的隨機變量。
2:無偏性假設,即指:期望值為0
3:同共方差性假設,即指,所有的 隨機誤差變量方差都相等
4:獨立性假設,即指:所有的隨機誤差變量都相互獨立,可以用協方差解釋。
今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:
點擊「分析」——回歸——線性——進入如下圖所示的界面:
將「銷售量」作為「因變量」拖入因變量框內, 將「車長,車寬,耗油率,車淨重等10個自變量 拖入自變量框內,如上圖所示,在「方法」旁邊,選擇「逐步」,當然,你也可以選擇其它的方式,如果你選擇「進入」默認的方式,在分析結果中,將會得到如下圖所示的結果:(所有的自變量,都會強行進入)
如果你選擇「逐步」這個方法,將會得到如下圖所示的結果:(將會根據預先設定的「F統計量的概率值進行篩選,最先進入回歸方程的「自變量」應該是跟「因變量」關係最為密切,貢獻最大的,如下圖可以看出,車的價格和車軸 跟因變量關係最為密切,符合判斷條件的概率值必須小於0.05,當概率值大於等於0.1時將會被剔除)
「選擇變量(E)" 框內,我並沒有輸入數據,如果你需要對某個「自變量」進行條件篩選,可以將那個自變量,移入「選擇變量框」內,有一個前提就是:該變量從未在另一個目標列表中出現!,再點擊「規則」設定相應的「篩選條件」即可,如下圖所示:
點擊「統計量」彈出如下所示的框,如下所示:
在「回歸係數」下面勾選「估計,在右側勾選」模型擬合度「 和」共線性診斷「 兩個選項,再勾選「個案診斷」再點擊「離群值」一般默認值為「3」,(設定異常值的依據,只有當殘差超過3倍標準差的觀測才會被當做異常值) 點擊繼續。
提示:
共線性檢驗,如果有兩個或兩個以上的自變量之間存在線性相關關係,就會產生多重共線性現象。這時候,用最小二乘法估計的模型參數就會不穩定,回歸係數的估計值很容易引起誤導或者導致錯誤的結論。所以,需要勾選「共線性診斷」來做判斷
通過容許度可以計算共線性的存在與否? 容許度TOL=1-RI平方 或方差膨脹因子(VIF): VIF=1/1-RI平方,其中RI平方是用其他自變量預測第I個變量的復相關係數,顯然,VIF為TOL的倒數,TOL的值越小,VIF的值越大,自變量XI與其他自變量之間存在共線性的可能性越大。
提供三種處理方法:
1:從有共線性問題的變量裡刪除不重要的變量
2:增加樣本量或重新抽取樣本。
3:採用其他方法擬合模型,如領回歸法,逐步回歸法,主成分分析法。
再點擊「繪製」選項,如下所示:
上圖中:
DEPENDENT( 因變量) ZPRED(標準化預測值) ZRESID(標準化殘差) DRESID(剔除殘差) ADJPRED(修正後預測值) SRSID(學生化殘差) SDRESID(學生化剔除殘差)
一般我們大部分以「自變量」作為 X 軸,用「殘差」作為Y軸, 但是,也不要忽略特殊情況,這裡我們以「ZPRED(標準化預測值)作為"x" 軸,分別用「SDRESID(血生化剔除殘差)」和「ZRESID(標準化殘差)作為Y軸,分別作為兩組繪圖變量。
再點擊」保存「按鈕,進入如下界面:
如上圖所示:勾選「距離」下面的「cook距離」選項 (cook 距離,主要是指:把一個個案從計算回歸係數的樣本中剔除時所引起的殘差大小,cook距離越大,表明該個案對回歸係數的影響也越大)
在「預測區間」勾選「均值」和「單值」 點擊「繼續」按鈕,再點擊「確定按鈕,得到如下所示的分析結果:(此分析結果,採用的是「逐步法」得到的結果)