多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:
毫無疑問,多元線性回歸方程應該為:
上圖中的 x1, x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣,如下圖所示:
那麼,多元線性回歸方程矩陣形式為:
其中: 代表隨機誤差, 其中隨機誤差分為:可解釋的誤差 和 不可解釋的誤差,隨機誤差必須滿足以下四個條件,多元線性方程才有意義(一元線性方程也一樣)
1:服成正太分布,即指:隨機誤差必須是服成正太分別的隨機變量。
2:無偏性假設,即指:期望值為0
3:同共方差性假設,即指,所有的 隨機誤差變量方差都相等
4:獨立性假設,即指:所有的隨機誤差變量都相互獨立,可以用協方差解釋。
今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:
點擊「分析」——回歸——線性——進入如下圖所示的界面:
將「銷售量」作為「因變量」拖入因變量框內, 將「車長,車寬,耗油率,車淨重等10個自變量 拖入自變量框內,如上圖所示,在「方法」旁邊,選擇「逐步」,當然,你也可以選擇其它的方式,如果你選擇「進入」默認的方式,在分析結果中,將會得到如下圖所示的結果:(所有的自變量,都會強行進入)
如果你選擇「逐步」這個方法,將會得到如下圖所示的結果:(將會根據預先設定的「F統計量的概率值進行篩選,最先進入回歸方程的「自變量」應該是跟「因變量」關係最為密切,貢獻最大的,如下圖可以看出,車的價格和車軸 跟因變量關係最為密切,符合判斷條件的概率值必須小於0.05,當概率值大於等於0.1時將會被剔除)
「選擇變量(E)" 框內,我並沒有輸入數據,如果你需要對某個「自變量」進行條件篩選,可以將那個自變量,移入「選擇變量框」內,有一個前提就是:該變量從未在另一個目標列表中出現!,再點擊「規則」設定相應的「篩選條件」即可,如下圖所示:
點擊「統計量」彈出如下所示的框,如下所示:
在「回歸係數」下面勾選「估計,在右側勾選」模型擬合度「 和」共線性診斷「 兩個選項,再勾選「個案診斷」再點擊「離群值」一般默認值為「3」,(設定異常值的依據,只有當殘差超過3倍標準差的觀測才會被當做異常值) 點擊繼續。
提示:
共線性檢驗,如果有兩個或兩個以上的自變量之間存在線性相關關係,就會產生多重共線性現象。這時候,用最小二乘法估計的模型參數就會不穩定,回歸係數的估計值很容易引起誤導或者導致錯誤的結論。所以,需要勾選「共線性診斷」來做判斷
通過容許度可以計算共線性的存在與否? 容許度TOL=1-RI平方 或方差膨脹因子(VIF): VIF=1/1-RI平方,其中RI平方是用其他自變量預測第I個變量的復相關係數,顯然,VIF為TOL的倒數,TOL的值越小,VIF的值越大,自變量XI與其他自變量之間存在共線性的可能性越大。
提供三種處理方法:
1:從有共線性問題的變量裡刪除不重要的變量
2:增加樣本量或重新抽取樣本。
3:採用其他方法擬合模型,如領回歸法,逐步回歸法,主成分分析法。
再點擊「繪製」選項,如下所示:
上圖中:
DEPENDENT( 因變量) ZPRED(標準化預測值) ZRESID(標準化殘差) DRESID(剔除殘差) ADJPRED(修正後預測值) SRSID(學生化殘差) SDRESID(學生化剔除殘差)
一般我們大部分以「自變量」作為 X 軸,用「殘差」作為Y軸, 但是,也不要忽略特殊情況,這裡我們以「ZPRED(標準化預測值)作為"x" 軸,分別用「SDRESID(血生化剔除殘差)」和「ZRESID(標準化殘差)作為Y軸,分別作為兩組繪圖變量。
再點擊」保存「按鈕,進入如下界面:
如上圖所示:勾選「距離」下面的「cook距離」選項 (cook 距離,主要是指:把一個個案從計算回歸係數的樣本中剔除時所引起的殘差大小,cook距離越大,表明該個案對回歸係數的影響也越大)
在「預測區間」勾選「均值」和「單值」 點擊「繼續」按鈕,再點擊「確定按鈕,得到如下所示的分析結果:(此分析結果,採用的是「逐步法」得到的結果)
結果分析如下所示:
結果分析1:
由於開始選擇的是「逐步」法,逐步法是「向前」和「向後」的結合體,從結果可以看出,最先進入「線性回歸模型」的是「price in thousands" 建立了模型1,緊隨其後的是「Wheelbase" 建立了模型2,所以,模型中有此方法有個概率值,當小於等於0.05時,進入「線性回歸模型」(最先進入模型的,相關性最強,關係最為密切)當大於等0.1時,從「線性模型中」剔除
結果分析:
1:從「模型匯總」中可以看出,有兩個模型,(模型1和模型2)從R2 擬合優度來看,模型2的擬合優度明顯比模型1要好一些
(0.422>0.300)
2:從「Anova"表中,可以看出「模型2」中的「回歸平方和」為115.311,「殘差平方和」為153.072,由於總平方和=回歸平方和+殘差平方和,由於殘差平方和(即指隨即誤差,不可解釋的誤差)由於「回歸平方和」跟「殘差平方和」幾乎接近,所有,此線性回歸模型只解釋了總平方和的一半,
3:根據後面的「F統計量」的概率值為0.00,由於0.00<0.01,隨著「自變量」的引入,其顯著性概率值均遠小於0.01,所以可以顯著地拒絕總體回歸係數為0的原假設,通過ANOVA方差分析表可以看出「銷售量」與「價格」和「軸距」之間存在著線性關係,至於線性關係的強弱,需要進一步進行分析。
結果分析:
1:從「已排除的變量」表中,可以看出:「模型2」中各變量的T檢的概率值都大於「0.05」所以,不能夠引入「線性回歸模型」必須剔除。
從「係數a」 表中可以看出:
1:多元線性回歸方程應該為:銷售量=-1.822-0.055*價格+0.061*軸距
但是,由於常數項的sig為(0.116>0.1) 所以常數項不具備顯著性,所以,我們再看後面的「標準係數」,在標準係數一列中,可以看到「常數項」沒有數值,已經被剔除
所以:標準化的回歸方程為:銷售量=-0.59*價格+0.356*軸距
2:再看最後一列「共線性統計量」,其中「價格」和「軸距」兩個容差和「vif都一樣,而且VIF都為1.012,且都小於5,所以兩個自變量之間沒有出現共線性,容忍度和
膨脹因子是互為倒數關係,容忍度越小,膨脹因子越大,發生共線性的可能性也越大
從「共線性診斷」表中可以看出:
1:共線性診斷採用的是「特徵值」的方式,特徵值主要用來刻畫自變量的方差,診斷自變量間是否存在較強多重共線性的另一種方法是利用主成分分析法,基本思想是:如果自變量間確實存在較強的相關關係,那麼它們之間必然存在信息重疊,於是就可以從這些自變量中提取出既能反應自變量信息(方差),而且有相互獨立的因素(成分)來,該方法主要從自變量間的相關係數矩陣出發,計算相關係數矩陣的特徵值,得到相應的若干成分。
從上圖可以看出:從自變量相關係數矩陣出發,計算得到了三個特徵值(模型2中),最大特徵值為2.847, 最小特徵值為0.003
條件索引=最大特徵值/相對特徵值 再進行開方 (即特徵值2的 條件索引為 2.847/0.150 再開方=4.351)
標準化後,方差為1,每一個特徵值都能夠刻畫某自變量的一定比例,所有的特徵值能將刻畫某自變量信息的全部,於是,我們可以得到以下結論:
1:價格在方差標準化後,第一個特徵值解釋了其方差的0.02, 第二個特徵值解釋了0.97,第三個特徵值解釋了0.00
2:軸距在方差標準化後,第一個特徵值解釋了其方差的0.00, 第二個特徵值解釋了0.01,第三個特徵值解釋了0.99
可以看出:沒有一個特徵值,既能夠解釋「價格」又能夠解釋「軸距」所以「價格」和「軸距」之間存在共線性較弱。前面的結論進一步得到了論證。(殘差統計量的表中數值怎麼來的,這個計算過程,我就不寫了)
從上圖可以得知:大部分自變量的殘差都符合正太分布,只有一,兩處地方稍有偏離,如圖上的(-5到-3區域的)處理偏離狀態