多重線性回歸實例 - CSDN

2021-02-08 CSDN技術社區

走過路過不要錯過

點擊藍字關注我們

致讀者:本文篇幅較長,理論知識涉及較多,強烈建議收藏,對大家的回歸分析建模分析肯定會有很多啟示!!

在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識,還利用一個簡單的實例進行了簡單線性回歸的分析,今天我們就來講講多重線性回歸(也叫多元線性回歸),有關多元線性回歸的概念我在上一期的推文中也已經講過,這裡就不提了。可瀏覽上一篇SPSS的推文:SPSS第二期——線性回歸(上),兩篇對照起來看,或許能學到更多知識。

多元回歸分析和上一期講到的一般線性回歸分析的步驟是大致相同的,但是對於模型的檢驗,就複雜多了。這篇推文主要講解了多元線性回歸的模型效果評價的各個指標,模型檢驗的各個指標以及解決方法,多重回歸模型進入方法的介紹,以及簡單總結了多重回歸模型的建模分析方法。考慮到篇幅原因,此推文沒有實例,僅僅只是理論知識,對於回歸建模步驟,網上有的是,反而是對模型的分析是最麻煩的,故而這篇文章側重於講解模型分析、檢驗與優化的理論知識。

模型效果評價

R方

模型所要解釋的y相對於其均值的波動性。判定係數R方的值在0~1之間,其值越接近1,表示回歸方程的擬合程度越高,更能體現觀測數據的內在規律。在一般的應用中,R方大於0.6就表示回歸方程有較好的質量

F值

回歸分析中反映回歸效果的重要指標,以回歸均方和與殘差均方和的比值表示,在一般的線性回歸中,F值應該在3.86以上

T值

回歸分析中反映每個自變量的作用力的重要指標。在回歸分析時,每個自變量都有自己的T值,T值以相應自變量的偏回歸係數與其標準誤差的比值來表示。在一般的線性回歸分析中,T的絕對值應該大於1.96。如果某個自變量的T值小於1.96,表示這個自變量對方程的影響力很小,應該儘可能把它從方程中剔除。

P值(sig值)

回歸方程的檢驗概率值共有兩種類型:整體Sig值和針對每個自變量的Sig值。整體的Sig值反映了整個方程的影響力,而針對自變量的Sig值則反映了該自變量在回歸方程中沒有作用的可能性。只有Sig值小於0.05,才表示有影響力

模型檢驗

多元回歸分析模型的檢驗是比較複雜的,主要是要對模型的正態性、線性、獨立性、多重共線性進行分析與檢驗,如果檢驗的結果不是那麼差可通過一些方法優化模型,如果檢驗結果太差就只能放棄多元回歸模型,選擇其他模型來解決問題了。

線性

針對線性來說,如果因變量與自變量線性相關,那麼他們的散點圖必定是呈線性趨勢的,也就是直線關係,在一元線性回歸中,可以直接利用SPSS繪製因變量與自變量的散點圖,在考慮是否要使用線性回歸的時候可以直觀的觀察到他們是否為線性關係,在多元線性回歸中,可以對自變量提取主成分,進而再畫散點圖。

註:其實日常分析時,我們並沒有經常先畫散點圖,對於數據是否呈線性關係,直接根據步驟建立線性回歸模型,粗暴一點的話,直接看R方就行了,同時在回歸步驟中可以選擇生成散點圖,可以反應線性關係。

獨立性

對於獨立性來說,線性回歸要求因變量的之間是相互獨立的,進而來說如果因變量獨立,那麼殘差也就是獨立的,對於殘差的獨立性,可以用Durbin-Waston檢驗來判斷是否獨立,不過DW檢驗主要是檢驗誤差的序列相關性,比如說時間序列的自相關性,該檢驗適合用於時間獨立的數據,對於非聚集型的數據不適用。

其實,一般來講,根據收集數據方式的先驗知識來判斷數據是否具有獨立性是最好的,比如你通過隨機抽樣的方式,收集到一群人的身高體重數據,你總不能說會存在明顯的數據不獨立,畢竟兩個人的身高體重也不能存在高度相關性(隨機抽樣)。

多重共線性

當我們用兩個或兩個以上的自變量進行多重回歸來預測因變量取值的時候,如果既希望提高擬合優度,又希望保持回歸方程的顯著性,那麼必須符合這樣一種隱含的假設:各自變量之間是相互獨立的。如果自變量之間存在線性相關關係,則意味著自變量之間的取值可以線性地相互決定,當我們用這個自變量預測了因變量的取值之後,另一個自變量對於決定因變量的取值已經沒有獨立的意義了,不會再對這種預測有顯著的貢獻,因而導致單個回歸參數顯著性的降低。回歸理論中,把自變量之間的線性相關性稱為多重共線性。

實際問題中,自變量之間完全相關或完全不相關的情況都是很少見的。我們應當儘量避免在回歸模型中加入高度相關的自變量。

多重共線性診斷方指標

由於多重共線性是一種樣本現象,而來源於現實生活中的樣本數據又各有其領域和背景, 所以數學上無法找到一個統一的診斷標準。這裡可以提供一些經驗的診斷規則。

1.容許度:容許度=1-Rj^2。其中的R是第j個自變量與其餘變量進行回歸時的判定係數。容許度越接近1,表示多重共線性越弱。一般的認識是,當容忍度小於0.1時,存在嚴重的多重共線性。

2.膨脹因子(VIF):膨脹因子:膨脹因子是容許度的倒數。膨脹因子越接近1(膨脹因子理論最小值是1),表示解釋變量之間的多重共線性越弱,一般情況下,VIF的值不應該大於5,放寬到容忍度的水平,就是不應該大於10。如果VIF=10,說明膨脹因子存在嚴重多重共線性。

3.特徵根:對模型中常數項及所有自變量計算主成分,如果自變量間存在較強的線性相關關係,則前面的幾個主成分數值較大,而後面的幾個主成分較小,甚至接近於0。

多重線性解決辦法

如果發現自變量間存在多重共線性時,可以採用以下方法解決:

逐步回歸:逐步回歸能夠在一定程度上對多重共線性的自變量組合進行篩選,將對因變量變異解釋較大的自變量保留,而將解釋較小的自變量刪除。

嶺回歸:嶺回歸是一種專門用於共線性數據分析的有偏估計回歸方法,它實際上是一種改良的最下二乘法,通過放棄最小二乘法的無偏性,以損失部分信息,降低精度為代價來尋求效果稍差但是回歸係數更符合實際的回歸方程。

主成分回歸:主成分回歸能夠對存在多重多重共線性的自變量提取主成分,提取出來的主成分之間是完全互相獨立的,然後再用提取出來的主成分與其它的自變量一起進行多重線性回歸。

極端值

在線性回歸分析中,自變量回歸係數的確定主要採用最小二乘法,而最小二乘法的原理就是兼顧每個數據點的影響,使得最後的離差平方和最小。最小二乘法擬合得到的多重線性回歸模型,會受到極端值的影響而失去客觀和準確性。極端值通常指以下三種異常值:

離群點:指那些模型預測效果不佳的觀測點

高槓桿值點:與其他預測變量有關的離群點

強影響點:對模型參數估計值有些比例失衡的點

在多元線性回歸中,要儘量排除極端值對模型的影響,但不應盲目的直接刪除極端值,應該搞清楚是不是某些特殊情況導致該值的離群,比如數據錄入錯誤,這時你可以嘗試著刪除離群點,但如果不符合這種情況,或許你該考慮是否要用加權最小二乘法來進行多重回歸了。

多元回歸模型進入方法介紹

輸入:對於用戶提供的所有自變量,回歸方程全部接納。

逐步:先檢查不在方程中的自變量,把F值最大(檢驗概率最小)且滿足進入條件的自變臉選入方程中,接著,對已經進入方程的自變量,查找滿足移出條件的自變量(F值最小且F檢驗概率滿足移出條件)將其移出。

前進:對於用戶提供的所有自變量,系統計算出所有自變量與因變量的相關係數,每次從尚未進入方程的自變量組中選擇與因變量具有最強正或負相關係數的自變量進入方程,然後檢驗此自變量的影響力,直到沒有進入方程的自變量都不滿足進入方程的標準為止。

後退:對於用戶提供的所有自變量,先讓它們全部強行進入方程,再逐個檢查,剔除不合格變量,直到方程中的所有變量都不滿足移出條件為止。

刪除:也叫一次性剔除方式,其思路是通過一次檢驗,而後剔除全部不合格變量。這種方法不能單獨使用,通常建立在前面已經構造出初步的回歸方程的基礎上,與前面其他篩選方法結合使用。

多重線性回歸模型方法總結

如果你看到了這裡,那麼福利就來了,下面給大家簡單的總結一下多元回歸建模的主要方法:

1

確定模型的因變量與自變量

根據研究目的確定好因變量和自變量,以便接下來的分析。

2

判斷有無異常值

通過線性回歸-統計-個案診斷,線性回歸-保存-勾選學生化刪除、庫克距離、槓桿值,根據新生成的學生化刪除殘差、庫克距離、槓桿值來判斷。

學生化刪除殘差的值在-3至3的範圍內,庫克距離均小於1,槓桿值均均小於0.2,不存在異常值。

如果發現異常值,則首先應該檢查是否是數據收集或錄入方面的錯誤,如是則應及時糾正。如不是數據收集或錄入方面的錯誤,則需根據實際情況,選擇去除異常值、轉換異常值的變量,或者選用非參數分析法來處理。

3

判斷數據是否滿足多重線性回歸假設條件

第一,因變量與所有自變量之間是否存在線性關係。通過建立未標化預測值和學生化殘差的散點圖判斷,未標化預測值和學生化殘差的散點圖呈水平帶狀,則滿足因變量與所有自變量之間存在線性關係的假設。

第二,因變量與每一個自變量之間是否存在線性關係。通過線性回歸的【圖】→【產生所有部分圖】中的散點圖判斷。

第三,方差齊性。通過線性回歸的【ANOVA】表的Sig值判斷,小於0.05為方差齊性,大於0.05為方差不齊。

第四,各自變量之間是相互獨立的。通過線性回歸的→【統計】→【共線性診斷】的結果,容許度越接近1,多重共線性越弱,膨脹因子越接近1,多重共線性越弱;膨脹因子小於10為弱多重共線性,大於10則存在嚴重共線性。如果各自變量之間存在嚴重共線性,則可選用嶺回歸或者主成分分析法來處理。

第五,殘差近似正態性。可通過直方圖或者P-P圖判斷殘差是否符合正態分布。

4

估計回歸模型參數,建立模型

可根據實際情況,選用強迫引入法、逐步引入法、強迫剔除法、向後剔除法、向前引入法來進行模型估計。方差不齊時,則需要用加權最小二乘法來進行模型估計。

5

對模型進行假設檢驗

對回歸模型進行假設檢驗一般使用方差分析法,對回歸係數進行假設檢驗一般使用t檢驗方法。

參考文獻

今天的推文就到這裡了,希望這篇推文有所幫助吧,這篇推文費了小編好多時間,如果可以,大家能滑到文末點個讚嗎,支持一下小編吧!!

不當你的世界  只作你的肩膀

深度學習與資源共享

數模|軟體|教程|資源|電子書

請留下你指尖的溫度

讓太陽擁抱你

記得這是一個有溫度的公眾號

相關焦點

  • 多重線性回歸
    python多重線性回歸分析多重線性回歸分析定義>多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:Multivariate Linear Regression數據準備#多重線性回歸
  • python多重線性回歸分析
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:MulitipleLinear Regression多元線性回歸模型:Multivariate Linear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')
  • eviews線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • eviews 線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • spss線性回歸 回歸方程 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:    毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸
  • 多元線性回歸spss操作 - CSDN
    (5)各自變量間不存在多重共線。存在多重共線可導致結果與客觀事實不符、估計方程不穩定等諸多問題。逐步回歸可以限制有較強關係的自變量進入方程,如存在多重共線,可以剔除某個造成共線性的自變量,或合併自變量,也可改用領回歸、主成分回歸、偏最小二乘法回歸等。多重共線可以利用容差、方差膨脹因子、特徵根、條件指數、方差比例、相關係數以及殘差圖等多種方法考察。
  • 相關和回歸—SPSS多重線性回歸
    關於線性回歸模型的應用條件在前面已經學習:(1)自變量與因變量存在線性關係;(2)殘差滿足正態性、方差齊性和獨立性;(3)自變量之間獨立,不存在共線性,且無高槓桿值、強影響點;(4)因變量為隨機變量,自變量固定變量;(5)各觀測值之間相互獨立。
  • spss多元線性回歸模型 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量
  • SPSS案例實踐:多重線性回歸分析
    ,統計學上建議稱之為多重線性回歸,避免和多元統計方法衝突。因變量犯罪率連續數值變量,有多個自變量,從研究目標和數據類型來看,可選用多重線性回歸分析。線性關係初步判斷線性回歸要求每個自變量和因變量之間存在線性關係,可以依靠相關分析和散點圖來初步判斷。
  • eviews線性回歸模型專題及常見問題 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • eviews的線性回歸專題及常見問題 - CSDN
    本實驗通過多元線性回歸分析,探究究竟哪些因素是地方財政教育支出(y)的影響因素,並做出預測。現有地區生產總值(x1)、年末常住人口(x2)、居民人均教育文化娛樂消費(x3)、居民教育消費價格指數(x4)、教育支出在地方財政支出中的比重(x5)這5個變量作為被選變量。
  • 機器學習:回歸分析——多元線性回歸分析
    我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸。生活中的現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際。所以相比一元線性回歸,多元線性回歸的實際意義更大。
  • R筆記:多重線性回歸(三)_模型評估與診斷
    本例多重線性回歸模型的決定係數R^2=0.2352,即結局變量的總變異中可由回歸模型中解釋變量解釋的部分僅佔23.52%,參見《多重線性回歸(一):模型擬合》。除了決定係數、校正的決定係數外,赤池信息準則(AIC)、殘差均方(MSE)、Cp統計量也是模型優劣的標準。
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 蔡雲飛:SPSS 軟體實現多重線性回歸及共線性解決辦法
    當因變量與自變量組之間存在多重線性關係時,應用多重線性回歸模型可以很好地刻畫它們之間的關係。由上式可以看出,實測值由兩部分組成,第一部分為其估計值,用表示,即給定各自變量取值時,因變量Y的估計值,表示能由自變量決定的部分。為殘差,是應變量實測值 Y 與其估計值之間的差值,表示不由自變量決定的部分。
  • 線性回歸假設檢驗 - CSDN
    對 xxx 的線性回歸是有效的, lrg3)get_lr_stats(x4_in, y4_in, lrg4)四個模型參數幾乎一樣( get_lr_stats 在Python_一元線性回歸及回歸顯著性中)但是並非全都是線性回歸>>> get_lr_stats(x1_in, y1_in, lrg1)一元線性回歸方程為: y=3.000090909090906 + 0.5000909090909094*x相關係數(R^2): 0.6665424595087752;回歸分析(SSR): 27.51000090909094
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:    毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • python線性回歸
    一.理論基礎1.回歸公式  對於單元的線性回歸,我們有:f(x) = kx + b 的方程(k代表權重,b代表截距)。