多重線性回歸實例 - CSDN

2021-02-08 CSDN技術社區

走過路過不要錯過

點擊藍字關注我們

致讀者：本文篇幅較長，理論知識涉及較多，強烈建議收藏，對大家的回歸分析建模分析肯定會有很多啟示！！

在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識，還利用一個簡單的實例進行了簡單線性回歸的分析，今天我們就來講講多重線性回歸(也叫多元線性回歸)，有關多元線性回歸的概念我在上一期的推文中也已經講過，這裡就不提了。可瀏覽上一篇SPSS的推文：SPSS第二期——線性回歸(上)，兩篇對照起來看，或許能學到更多知識。

多元回歸分析和上一期講到的一般線性回歸分析的步驟是大致相同的，但是對於模型的檢驗，就複雜多了。這篇推文主要講解了多元線性回歸的模型效果評價的各個指標，模型檢驗的各個指標以及解決方法，多重回歸模型進入方法的介紹，以及簡單總結了多重回歸模型的建模分析方法。考慮到篇幅原因，此推文沒有實例，僅僅只是理論知識，對於回歸建模步驟，網上有的是，反而是對模型的分析是最麻煩的，故而這篇文章側重於講解模型分析、檢驗與優化的理論知識。

模型效果評價

R方

模型所要解釋的y相對於其均值的波動性。判定係數R方的值在0~1之間，其值越接近1，表示回歸方程的擬合程度越高，更能體現觀測數據的內在規律。在一般的應用中，R方大於0.6就表示回歸方程有較好的質量

F值

回歸分析中反映回歸效果的重要指標，以回歸均方和與殘差均方和的比值表示，在一般的線性回歸中，F值應該在3.86以上

T值

回歸分析中反映每個自變量的作用力的重要指標。在回歸分析時，每個自變量都有自己的T值，T值以相應自變量的偏回歸係數與其標準誤差的比值來表示。在一般的線性回歸分析中，T的絕對值應該大於1.96。如果某個自變量的T值小於1.96，表示這個自變量對方程的影響力很小，應該儘可能把它從方程中剔除。

P值(sig值)

回歸方程的檢驗概率值共有兩種類型：整體Sig值和針對每個自變量的Sig值。整體的Sig值反映了整個方程的影響力，而針對自變量的Sig值則反映了該自變量在回歸方程中沒有作用的可能性。只有Sig值小於0.05，才表示有影響力

模型檢驗

多元回歸分析模型的檢驗是比較複雜的，主要是要對模型的正態性、線性、獨立性、多重共線性進行分析與檢驗，如果檢驗的結果不是那麼差可通過一些方法優化模型，如果檢驗結果太差就只能放棄多元回歸模型，選擇其他模型來解決問題了。

線性

針對線性來說，如果因變量與自變量線性相關，那麼他們的散點圖必定是呈線性趨勢的，也就是直線關係，在一元線性回歸中，可以直接利用SPSS繪製因變量與自變量的散點圖，在考慮是否要使用線性回歸的時候可以直觀的觀察到他們是否為線性關係，在多元線性回歸中，可以對自變量提取主成分，進而再畫散點圖。

註：其實日常分析時，我們並沒有經常先畫散點圖，對於數據是否呈線性關係，直接根據步驟建立線性回歸模型，粗暴一點的話，直接看R方就行了，同時在回歸步驟中可以選擇生成散點圖，可以反應線性關係。

獨立性

對於獨立性來說，線性回歸要求因變量的之間是相互獨立的，進而來說如果因變量獨立，那麼殘差也就是獨立的，對於殘差的獨立性，可以用Durbin-Waston檢驗來判斷是否獨立，不過DW檢驗主要是檢驗誤差的序列相關性，比如說時間序列的自相關性，該檢驗適合用於時間獨立的數據，對於非聚集型的數據不適用。

其實，一般來講，根據收集數據方式的先驗知識來判斷數據是否具有獨立性是最好的，比如你通過隨機抽樣的方式，收集到一群人的身高體重數據，你總不能說會存在明顯的數據不獨立，畢竟兩個人的身高體重也不能存在高度相關性(隨機抽樣)。

多重共線性

當我們用兩個或兩個以上的自變量進行多重回歸來預測因變量取值的時候，如果既希望提高擬合優度,又希望保持回歸方程的顯著性，那麼必須符合這樣一種隱含的假設：各自變量之間是相互獨立的。如果自變量之間存在線性相關關係，則意味著自變量之間的取值可以線性地相互決定，當我們用這個自變量預測了因變量的取值之後，另一個自變量對於決定因變量的取值已經沒有獨立的意義了，不會再對這種預測有顯著的貢獻,因而導致單個回歸參數顯著性的降低。回歸理論中，把自變量之間的線性相關性稱為多重共線性。

實際問題中,自變量之間完全相關或完全不相關的情況都是很少見的。我們應當儘量避免在回歸模型中加入高度相關的自變量。

多重共線性診斷方指標

由於多重共線性是一種樣本現象,而來源於現實生活中的樣本數據又各有其領域和背景, 所以數學上無法找到一個統一的診斷標準。這裡可以提供一些經驗的診斷規則。

1.容許度：容許度=1-Rj^2。其中的R是第j個自變量與其餘變量進行回歸時的判定係數。容許度越接近1，表示多重共線性越弱。一般的認識是，當容忍度小於0.1時，存在嚴重的多重共線性。

2.膨脹因子(VIF)：膨脹因子：膨脹因子是容許度的倒數。膨脹因子越接近1(膨脹因子理論最小值是1)，表示解釋變量之間的多重共線性越弱，一般情況下，VIF的值不應該大於5，放寬到容忍度的水平，就是不應該大於10。如果VIF=10，說明膨脹因子存在嚴重多重共線性。

3.特徵根：對模型中常數項及所有自變量計算主成分，如果自變量間存在較強的線性相關關係，則前面的幾個主成分數值較大，而後面的幾個主成分較小，甚至接近於0。

多重線性解決辦法

如果發現自變量間存在多重共線性時，可以採用以下方法解決：

逐步回歸：逐步回歸能夠在一定程度上對多重共線性的自變量組合進行篩選，將對因變量變異解釋較大的自變量保留，而將解釋較小的自變量刪除。

嶺回歸：嶺回歸是一種專門用於共線性數據分析的有偏估計回歸方法，它實際上是一種改良的最下二乘法，通過放棄最小二乘法的無偏性，以損失部分信息，降低精度為代價來尋求效果稍差但是回歸係數更符合實際的回歸方程。

主成分回歸：主成分回歸能夠對存在多重多重共線性的自變量提取主成分，提取出來的主成分之間是完全互相獨立的，然後再用提取出來的主成分與其它的自變量一起進行多重線性回歸。

極端值

在線性回歸分析中，自變量回歸係數的確定主要採用最小二乘法，而最小二乘法的原理就是兼顧每個數據點的影響，使得最後的離差平方和最小。最小二乘法擬合得到的多重線性回歸模型，會受到極端值的影響而失去客觀和準確性。極端值通常指以下三種異常值：

離群點：指那些模型預測效果不佳的觀測點

高槓桿值點：與其他預測變量有關的離群點

強影響點：對模型參數估計值有些比例失衡的點

在多元線性回歸中，要儘量排除極端值對模型的影響，但不應盲目的直接刪除極端值，應該搞清楚是不是某些特殊情況導致該值的離群，比如數據錄入錯誤，這時你可以嘗試著刪除離群點，但如果不符合這種情況，或許你該考慮是否要用加權最小二乘法來進行多重回歸了。

多元回歸模型進入方法介紹

輸入：對於用戶提供的所有自變量，回歸方程全部接納。

逐步：先檢查不在方程中的自變量，把F值最大(檢驗概率最小)且滿足進入條件的自變臉選入方程中，接著，對已經進入方程的自變量，查找滿足移出條件的自變量(F值最小且F檢驗概率滿足移出條件)將其移出。

前進：對於用戶提供的所有自變量，系統計算出所有自變量與因變量的相關係數，每次從尚未進入方程的自變量組中選擇與因變量具有最強正或負相關係數的自變量進入方程，然後檢驗此自變量的影響力，直到沒有進入方程的自變量都不滿足進入方程的標準為止。

後退：對於用戶提供的所有自變量，先讓它們全部強行進入方程，再逐個檢查，剔除不合格變量，直到方程中的所有變量都不滿足移出條件為止。

刪除：也叫一次性剔除方式，其思路是通過一次檢驗，而後剔除全部不合格變量。這種方法不能單獨使用，通常建立在前面已經構造出初步的回歸方程的基礎上，與前面其他篩選方法結合使用。

多重線性回歸模型方法總結

如果你看到了這裡，那麼福利就來了，下面給大家簡單的總結一下多元回歸建模的主要方法：

確定模型的因變量與自變量

根據研究目的確定好因變量和自變量，以便接下來的分析。

判斷有無異常值

通過線性回歸-統計-個案診斷，線性回歸-保存-勾選學生化刪除、庫克距離、槓桿值，根據新生成的學生化刪除殘差、庫克距離、槓桿值來判斷。

學生化刪除殘差的值在-3至3的範圍內，庫克距離均小於1，槓桿值均均小於0.2，不存在異常值。

如果發現異常值，則首先應該檢查是否是數據收集或錄入方面的錯誤，如是則應及時糾正。如不是數據收集或錄入方面的錯誤，則需根據實際情況，選擇去除異常值、轉換異常值的變量，或者選用非參數分析法來處理。

判斷數據是否滿足多重線性回歸假設條件

第一，因變量與所有自變量之間是否存在線性關係。通過建立未標化預測值和學生化殘差的散點圖判斷，未標化預測值和學生化殘差的散點圖呈水平帶狀，則滿足因變量與所有自變量之間存在線性關係的假設。

第二，因變量與每一個自變量之間是否存在線性關係。通過線性回歸的【圖】→【產生所有部分圖】中的散點圖判斷。

第三，方差齊性。通過線性回歸的【ANOVA】表的Sig值判斷，小於0.05為方差齊性，大於0.05為方差不齊。

第四，各自變量之間是相互獨立的。通過線性回歸的→【統計】→【共線性診斷】的結果，容許度越接近1，多重共線性越弱，膨脹因子越接近1，多重共線性越弱；膨脹因子小於10為弱多重共線性，大於10則存在嚴重共線性。如果各自變量之間存在嚴重共線性，則可選用嶺回歸或者主成分分析法來處理。

第五，殘差近似正態性。可通過直方圖或者P-P圖判斷殘差是否符合正態分布。

估計回歸模型參數，建立模型

可根據實際情況，選用強迫引入法、逐步引入法、強迫剔除法、向後剔除法、向前引入法來進行模型估計。方差不齊時，則需要用加權最小二乘法來進行模型估計。

對模型進行假設檢驗

對回歸模型進行假設檢驗一般使用方差分析法，對回歸係數進行假設檢驗一般使用t檢驗方法。

參考文獻

今天的推文就到這裡了，希望這篇推文有所幫助吧，這篇推文費了小編好多時間，如果可以，大家能滑到文末點個讚嗎，支持一下小編吧！！

不當你的世界只作你的肩膀

○

深度學習與資源共享

○

數模｜軟體｜教程｜資源｜電子書

請留下你指尖的溫度

讓太陽擁抱你

記得這是一個有溫度的公眾號

多重線性回歸實例 - CSDN

相關焦點

多重線性回歸

python多重線性回歸分析

eviews線性回歸模型 - CSDN

eviews 線性回歸模型 - CSDN

spss線性回歸回歸方程 - CSDN

多元線性回歸spss操作 - CSDN

相關和回歸—SPSS多重線性回歸

spss多元線性回歸模型 - CSDN

SPSS案例實踐:多重線性回歸分析

eviews線性回歸模型專題及常見問題 - CSDN

spss線性回歸自變量因變量專題及常見問題 - CSDN

eviews的線性回歸專題及常見問題 - CSDN

機器學習:回歸分析——多元線性回歸分析

R筆記:多重線性回歸(三)_模型評估與診斷

多元線性回歸t檢驗專題及常見問題 - CSDN

蔡雲飛:SPSS 軟體實現多重線性回歸及共線性解決辦法

線性回歸假設檢驗 - CSDN

spss多元線性回歸模型專題及常見問題 - CSDN

多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程

python線性回歸

多重線性回歸實例 - CSDN

相關焦點

多重線性回歸

python多重線性回歸分析

eviews線性回歸模型 - CSDN

eviews 線性回歸模型 - CSDN

spss線性回歸 回歸方程 - CSDN

多元線性回歸spss操作 - CSDN

相關和回歸—SPSS多重線性回歸

spss多元線性回歸模型 - CSDN

SPSS案例實踐:多重線性回歸分析

eviews線性回歸模型專題及常見問題 - CSDN

spss線性回歸自變量因變量專題及常見問題 - CSDN

eviews的線性回歸專題及常見問題 - CSDN

機器學習:回歸分析——多元線性回歸分析

R筆記:多重線性回歸(三)_模型評估與診斷

多元線性回歸t檢驗專題及常見問題 - CSDN

蔡雲飛:SPSS 軟體實現多重線性回歸及共線性解決辦法

線性回歸假設檢驗 - CSDN

spss多元線性回歸模型專題及常見問題 - CSDN

多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程

python線性回歸

spss線性回歸回歸方程 - CSDN