逐步回歸(stepwise regression)完整指南

2021-01-08 SPSSAU

回歸是一種統計方法,可讓我們了解自變量和因變量之間的關係。

逐步回歸是回歸分析中一種篩選變量的過程,我們可以使用逐步回歸從一組候選變量中構建回歸模型,讓系統自動識別出有影響的變量。

理論說明

逐步回歸,是通過逐步將自變量輸入模型,如果模型具統計學意義,並將其納入在回歸模型中。同時移出不具有統計學意義的變量。最終得到一個自動擬合的回歸模型。其本質上還是線性回歸。

一、研究背景

研究人員針對血壓與年齡,體重,體表面積,持續時間,脈搏率、壓力水平之間是否存在關係進行研究。

二、操作步驟

首先,可以分別對變量做相關分析或散點圖,初步了解各自變量X與因變量Y的關係。

登錄SPSSAU,選擇【通用方法】--【相關】或【可視化】--【散點圖】。

相關分析

從相關分析結果看,年齡、體重、體表面積、脈搏頻率與血壓有顯著的正相關關係。

然後,再利用逐步回歸進行分析。選擇【進階方法】--【逐步回歸】。

進階方法-逐步回歸

逐步回歸

逐步回歸

逐步回歸分析僅在回歸分析的基礎上,加入了一項功能,即自動化移除掉不顯著的X,通常逐步回歸分析用於探索研究中。

指標說明

在分析時,可首先對模型情況進行分析,然後分析X的顯著性,並判斷X對Y的影響關係大小及方向。

根據回歸結果顯示,最終模型共包含年齡、體重、體表面積共3個自變量。R方值為0.995,意味著年齡,體重,體表面積可以解釋血壓的99.5%變化原因,說明模型構建較好。

最終具體分析可知:

年齡的回歸係數值為0.702(t=15.961,p=0.000<0.01),意味著年齡會對血壓產生顯著的正向影響關係。

體重的回歸係數值為0.906(t=18.490,p=0.000<0.01),意味著體重會對血壓產生顯著的正向影響關係。

體表面積的回歸係數值為4.627(t=3.042,p=0.008<0.01),意味著體表面積會對血壓產生顯著的正向影響關係。

總結分析可知:年齡, 體重, 體表面積會對血壓產生顯著的正向影響關係。

三、其他說明

逐步回歸雖然是很好的選擇自變量的方法,但同時這種方法也存在一些缺陷:

首先,該方法按一定順序添加或刪除變量,所以最終會得到由該順序確定的自變量組合,由系統自動判斷哪些變量應該保留,哪些需要移除,可能會出現核心研究變量被移除的情況。

其次,如果逐步回歸結果會收到樣本量的影響,一般需要適當的大樣本才能獲得較為可靠的分析結果。

相關焦點

  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    1、  多元回歸分析(multiple linear regression)研究一個因變量對幾個自變量的線性依存關係時,其模型稱為多元線性回歸。函數方程建立有四種方法:全模型法、向前選擇法、向後選擇法、逐步選擇法。其數學模型為:Yk=β0+β1X1+β2X2+…+βkXk+ε(k=1,2,…,n).
  • 多元回歸中常見的變量選擇方法及其在R中實現
    對於這個過程,可以根據回歸中各預測變量的回歸係數的顯著性手動判斷選擇。也有一些機器自動選擇方法,目前比較常用的例如逐步回歸法(stepwise method),全子集回歸(all-subsets regression)等。下文以多元線性回歸為例,簡介這些變量選擇方法在R語言中的實現過程。
  • 地理加權回歸模型(GWR, Geographically Weighted Regression)
    >DeVar<- "GenEl2004"InDeVars<- c("DiffAdd"," LARent", "SC1","Unempl",             "LowEduc","Age18_24", "Age25_44",              "Age45_64")#過多的自變量可能導致局部共線性問題#逐步回歸
  • 原創案例:Matlab多元線性回歸分析-逐步回歸
    ,逐步回歸法是對多個變量進行分析的有效方法。逐步回歸的基本思想是逐個引入自變量,保留影響顯著的變量,剔除影響不顯著的變量,最終使得回歸方程擬合度趨於完美。在Matlab中,函數stepwise的功能就是對需要分析的變量進行逐步回歸,最後得出回歸方程各個擬合信息。Stepwise的簡單用法是stepwize(X,Y),X是由若干個自變量列向量組成的矩陣,Y是由因變量構成的列向量。
  • 用R進行Lasso regression回歸分析
    glmnet是由史丹福大學的統計學家們開發的一款R包,用於在傳統的廣義線性回歸模型的基礎上添加正則項,以有效解決過擬合的問題,支持線性回歸,邏輯回歸,泊松回歸,cox回歸等多種回歸模型,連結如下https://cran.r-project.org/web/packages/glmnet/index.html對於正則化,提供了以下3種正則化的方式
  • 一圖一話87:回歸-Regression,到底是什麼
    論文的全名叫:Regression towards Mediocrity in Hereditary Stature(連結:http://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf).
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    作者:丁點helper 來源:丁點幫你前面的文章主要介紹了回歸的一些關鍵詞,比如回歸係數、樣本和總體回歸方程、預測值和殘差等,今天我們結合一個案例來看看如何做完整的回歸分析,準確而言,是多重線性回歸(Multiple Linear Regreesion)。
  • 多元回歸中partial regression plot 與partial residual plot 有何區別?
    於是我便查了一下相關材料,真是不查不知道,一查嚇一跳,原來partial regression plot (偏回歸圖)和 partial residual plot(偏殘差圖)在實際應用中已經混淆到了令人髮指的地步了。鄙人試圖通過此文,明確這種圖的原理,意義和用法的差異, 以防止大家繼續受到此問題的困擾。
  • CFA二級:線性回歸假設的違反,識別與處理「量化方法分析」
    CFA二級量化方法重點分析:線性回歸假設的違反,識別與處理   高頓財經CFA講師  Quine老師   線性回歸分析的有效性依賴於若干假設,這些假設包括:
  • SPSS超詳細操作:分層回歸(hierarchical multiple regression)
    針對這種情況,我們可以使用分層回歸分析(hierarchical multiple regression),但需要先滿足以下8項假設:那麼,進行分層回歸分析時,如何考慮和處理這8項假設呢?3.1 假設1-2假設1和假設2分別要求因變量是連續變量、自變量不少於2個。這與研究設計有關,需根據實際情況判斷。
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量
  • 人工智慧之回歸模型(RM)
    最直接的辦法是依據輸入寫出一個目標值的計算公式,該公式就是所謂的回歸方程(regressionequation)。求回歸方程中的回歸係數的過程就是回歸。回歸是對真實值的一種逼近預測。回歸是統計學中最有力的算法之一。
  • 第5章 自變量選擇與逐步回歸
    在這種情況下可用逐步回歸分析,進行x因子的篩選,這樣建立的多元回歸模型預測效果會更較好。逐步回歸分析,首先要建立因變量y與自變量x之間的總回歸方程,再對總的方程及每—個自變量進行假設檢驗。當總的方程不顯著時,表明該多元回歸方程線性關係不成立;而當某—個自變量對y影響不顯著時,應該把它剔除,重新建立不包含該因子的多元回歸方程。篩選出有顯著影響的因子作為自變量,並建立「最優」回歸方程。
  • rlm:Robust regression by iterated reweighted least squares(IRLS)
    Outlier:在線性回歸中,離群值是具有較大殘差的觀測值。Leverage:在預測變量上具有極值的觀測值是具有高槓桿的點。槓桿是衡量一個自變量偏離其均值的程度。高槓桿點對回歸係數的估計有很大的影響。Influence:如果移除觀測結果會使回歸係數的估計發生很大的變化,那麼該觀測結果就是有影響的。影響力可以被認為是槓桿和離群值的產物。Cook’s distance:測量槓桿信息和殘差的方法。
  • 人工智慧機器學習三大類之回歸模型(RM)
    最直接的辦法是依據輸入寫出一個目標值的計算公式,該公式就是所謂的回歸方程(regressionequation)。求回歸方程中的回歸係數的過程就是回歸。回歸是對真實值的一種逼近預測。回歸是統計學中最有力的算法之一。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。