spss線性回歸 回歸方程 - CSDN

2020-12-12 CSDN技術社區

多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:

    毫無疑問,多元線性回歸方程應該為:

上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣,如下圖所示:

那麼,多元線性回歸方程矩陣形式為:

      其中: 代表隨機誤差, 其中隨機誤差分為:可解釋的誤差 和 不可解釋的誤差,隨機誤差必須滿足以下四個條件,多元線性方程才有意義(一元線性方程也一樣)

1:服成正太分布,即指:隨機誤差必須是服成正太分別的隨機變量。

2:無偏性假設,即指:期望值為0

3:同共方差性假設,即指,所有的  隨機誤差變量方差都相等

4:獨立性假設,即指:所有的隨機誤差變量都相互獨立,可以用協方差解釋。

 

  今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:

 


點擊「分析」——回歸——線性——進入如下圖所示的界面:

 


將「銷售量」作為「因變量」拖入因變量框內, 將「車長,車寬,耗油率,車淨重等10個自變量 拖入自變量框內,如上圖所示,在「方法」旁邊,選擇「逐步」,當然,你也可以選擇其它的方式,如果你選擇「進入」默認的方式,在分析結果中,將會得到如下圖所示的結果:(所有的自變量,都會強行進入)

如果你選擇「逐步」這個方法,將會得到如下圖所示的結果:(將會根據預先設定的「F統計量的概率值進行篩選,最先進入回歸方程的「自變量」應該是跟「因變量」關係最為密切,貢獻最大的,如下圖可以看出,車的價格和車軸 跟因變量關係最為密切,符合判斷條件的概率值必須小於0.05,當概率值大於等於0.1時將會被剔除)

「選擇變量(E)" 框內,我並沒有輸入數據,如果你需要對某個「自變量」進行條件篩選,可以將那個自變量,移入「選擇變量框」內,有一個前提就是:該變量從未在另一個目標列表中出現!,再點擊「規則」設定相應的「篩選條件」即可,如下圖所示:

 

點擊「統計量」彈出如下所示的框,如下所示:

在「回歸係數」下面勾選「估計,在右側勾選」模型擬合度「 和」共線性診斷「 兩個選項,再勾選「個案診斷」再點擊「離群值」一般默認值為「3」,(設定異常值的依據,只有當殘差超過3倍標準差的觀測才會被當做異常值) 點擊繼續。

提示:

共線性檢驗,如果有兩個或兩個以上的自變量之間存在線性相關關係,就會產生多重共線性現象。這時候,用最小二乘法估計的模型參數就會不穩定,回歸係數的估計值很容易引起誤導或者導致錯誤的結論。所以,需要勾選「共線性診斷」來做判斷

  通過容許度可以計算共線性的存在與否? 容許度TOL=1-RI平方 或方差膨脹因子(VIF):  VIF=1/1-RI平方,其中RI平方是用其他自變量預測第I個變量的復相關係數,顯然,VIF為TOL的倒數,TOL的值越小,VIF的值越大,自變量XI與其他自變量之間存在共線性的可能性越大。

提供三種處理方法:
1:從有共線性問題的變量裡刪除不重要的變量

2:增加樣本量或重新抽取樣本。

3:採用其他方法擬合模型,如領回歸法,逐步回歸法,主成分分析法。

再點擊「繪製」選項,如下所示:

  上圖中:

DEPENDENT( 因變量)   ZPRED(標準化預測值)  ZRESID(標準化殘差)    DRESID(剔除殘差)    ADJPRED(修正後預測值)   SRSID(學生化殘差)  SDRESID(學生化剔除殘差)

 一般我們大部分以「自變量」作為 X 軸,用「殘差」作為Y軸, 但是,也不要忽略特殊情況,這裡我們以「ZPRED(標準化預測值)作為"x" 軸,分別用「SDRESID(血生化剔除殘差)」和「ZRESID(標準化殘差)作為Y軸,分別作為兩組繪圖變量。

再點擊」保存「按鈕,進入如下界面:

 

如上圖所示:勾選「距離」下面的「cook距離」選項 (cook 距離,主要是指:把一個個案從計算回歸係數的樣本中剔除時所引起的殘差大小,cook距離越大,表明該個案對回歸係數的影響也越大)

在「預測區間」勾選「均值」和「單值」 點擊「繼續」按鈕,再點擊「確定按鈕,得到如下所示的分析結果:(此分析結果,採用的是「逐步法」得到的結果)



結果分析如下所示:

結果分析1:

由於開始選擇的是「逐步」法,逐步法是「向前」和「向後」的結合體,從結果可以看出,最先進入「線性回歸模型」的是「price in thousands"   建立了模型1,緊隨其後的是「Wheelbase"  建立了模型2,所以,模型中有此方法有個概率值,當小於等於0.05時,進入「線性回歸模型」(最先進入模型的,相關性最強,關係最為密切)當大於等0.1時,從「線性模型中」剔除

結果分析:

1:從「模型匯總」中可以看出,有兩個模型,(模型1和模型2)從R2 擬合優度來看,模型2的擬合優度明顯比模型1要好一些

(0.422>0.300)

2:從「Anova"表中,可以看出「模型2」中的「回歸平方和」為115.311,「殘差平方和」為153.072,由於總平方和=回歸平方和+殘差平方和,由於殘差平方和(即指隨即誤差,不可解釋的誤差)由於「回歸平方和」跟「殘差平方和」幾乎接近,所有,此線性回歸模型只解釋了總平方和的一半,

3:根據後面的「F統計量」的概率值為0.00,由於0.00<0.01,隨著「自變量」的引入,其顯著性概率值均遠小於0.01,所以可以顯著地拒絕總體回歸係數為0的原假設,通過ANOVA方差分析表可以看出「銷售量」與「價格」和「軸距」之間存在著線性關係,至於線性關係的強弱,需要進一步進行分析。


 

 結果分析:

1:從「已排除的變量」表中,可以看出:「模型2」中各變量的T檢的概率值都大於「0.05」所以,不能夠引入「線性回歸模型」必須剔除。

 

從「係數a」 表中可以看出:

1:多元線性回歸方程應該為:銷售量=-1.822-0.055*價格+0.061*軸距

但是,由於常數項的sig為(0.116>0.1) 所以常數項不具備顯著性,所以,我們再看後面的「標準係數」,在標準係數一列中,可以看到「常數項」沒有數值,已經被剔除

所以:標準化的回歸方程為:銷售量=-0.59*價格+0.356*軸距

2:再看最後一列「共線性統計量」,其中「價格」和「軸距」兩個容差和「vif都一樣,而且VIF都為1.012,且都小於5,所以兩個自變量之間沒有出現共線性,容忍度和
膨脹因子是互為倒數關係,容忍度越小,膨脹因子越大,發生共線性的可能性也越大

 

 

從「共線性診斷」表中可以看出:

1:共線性診斷採用的是「特徵值」的方式,特徵值主要用來刻畫自變量的方差,診斷自變量間是否存在較強多重共線性的另一種方法是利用主成分分析法,基本思想是:如果自變量間確實存在較強的相關關係,那麼它們之間必然存在信息重疊,於是就可以從這些自變量中提取出既能反應自變量信息(方差),而且有相互獨立的因素(成分)來,該方法主要從自變量間的相關係數矩陣出發,計算相關係數矩陣的特徵值,得到相應的若干成分。

從上圖可以看出:從自變量相關係數矩陣出發,計算得到了三個特徵值(模型2中),最大特徵值為2.847, 最小特徵值為0.003

條件索引=最大特徵值/相對特徵值 再進行開方 (即特徵值2的 條件索引為 2.847/0.150 再開方=4.351)

標準化後,方差為1,每一個特徵值都能夠刻畫某自變量的一定比例,所有的特徵值能將刻畫某自變量信息的全部,於是,我們可以得到以下結論:

1:價格在方差標準化後,第一個特徵值解釋了其方差的0.02, 第二個特徵值解釋了0.97,第三個特徵值解釋了0.00
2:軸距在方差標準化後,第一個特徵值解釋了其方差的0.00, 第二個特徵值解釋了0.01,第三個特徵值解釋了0.99

可以看出:沒有一個特徵值,既能夠解釋「價格」又能夠解釋「軸距」所以「價格」和「軸距」之間存在共線性較弱。前面的結論進一步得到了論證。(殘差統計量的表中數值怎麼來的,這個計算過程,我就不寫了)


 

從上圖可以得知:大部分自變量的殘差都符合正太分布,只有一,兩處地方稍有偏離,如圖上的(-5到-3區域的)處理偏離狀態

相關焦點

  • spss多元線性回歸模型 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量
  • 多元線性回歸spss操作 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:多元線性回歸。這次筆記的內容是多元線性回歸的SPSS操作及解讀。嚴格來講,這種一個因變量多個自變量的線性回歸叫多變量線性回歸或者多因素線性回歸更合適一些。多元或者多變量往往指的是多個因變量。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    回歸方程建立及回歸參數的區間估計,但是它們都是建立在假定因變量和自變量線性相關的基礎上。解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;三種檢驗方法雖然各有側重,但在一元線性回歸方程的檢驗中,三種檢驗的作用是相同的,因此對於一元線性回歸方程而言,只要選擇一種方法進行檢驗即可。
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:    毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣
  • 多重線性回歸實例 - CSDN
    在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識,還利用一個簡單的實例進行了簡單線性回歸的分析,今天我們就來講講多重線性回歸(也叫多元線性回歸),有關多元線性回歸的概念我在上一期的推文中也已經講過,這裡就不提了。可瀏覽上一篇SPSS的推文:SPSS第二期——線性回歸(上),兩篇對照起來看,或許能學到更多知識。
  • eviews的線性回歸專題及常見問題 - CSDN
    本實驗通過多元線性回歸分析,探究究竟哪些因素是地方財政教育支出(y)的影響因素,並做出預測。現有地區生產總值(x1)、年末常住人口(x2)、居民人均教育文化娛樂消費(x3)、居民教育消費價格指數(x4)、教育支出在地方財政支出中的比重(x5)這5個變量作為被選變量。
  • 線性回歸假設檢驗 - CSDN
    , lrg3)get_lr_stats(x4_in, y4_in, lrg4)四個模型參數幾乎一樣( get_lr_stats 在Python_一元線性回歸及回歸顯著性中)但是並非全都是線性回歸>>> get_lr_stats(x1_in, y1_in, lrg1)一元線性回歸方程為: y=3.000090909090906 + 0.5000909090909094*x相關係數(R^2): 0.6665424595087752;回歸分析(SSR): 27.51000090909094
  • spss多元線性回歸專題及常見問題 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。點擊統計,出現如下對話框,回歸係數欄選擇估算值,殘差欄選擇得賓-沃森,另外還要勾選模型擬合和共線性診斷。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。點擊統計,出現如下對話框,回歸係數欄選擇估算值,殘差欄選擇得賓-沃森,另外還要勾選模型擬合和共線性診斷。
  • SPSS實戰案例之多元線性回歸
    以下的回歸分析所涉及只包括以上幾個變量,並使用標準化之後的數據。1.2.1 參數設置單擊菜單欄「」-->「」-->「」,將彈出如圖1-7所示的對話框,將通過選擇因變量和自變量來構建線性回歸模型。因變量:標準化能源消費總額;自變量:標準化煤炭消費量、標準化焦炭消費量、標準化原油消費量、標準化原煤產量、標準化焦炭產量、標準化原油產量。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • eviews線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • eviews 線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • python線性回歸
    一.理論基礎1.回歸公式  對於單元的線性回歸,我們有:f(x) = kx + b 的方程(k代表權重,b代表截距)。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 相關和回歸—SPSS多重線性回歸
    關於線性回歸模型的應用條件在前面已經學習:(1)自變量與因變量存在線性關係;(2)殘差滿足正態性、方差齊性和獨立性;(3)自變量之間獨立,不存在共線性,且無高槓桿值、強影響點;(4)因變量為隨機變量,自變量固定變量;(5)各觀測值之間相互獨立。
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。