SPSS超詳細操作:分層回歸(hierarchical multiple regression)

2021-02-24 醫咖會

最大攜氧能力(maximal aerobic capacity, VO2max)是評價人體健康的關鍵指標,但因測量方法複雜,不易實現。某研究者擬通過一些方便、易得的指標建立受試者最大攜氧能力的預測模型。

目前,該研究者已知受試者的年齡和性別與最大攜氧能力有關,但這種關聯強度並不足以進行回歸模型的預測。因此,該研究者擬逐個增加體重(第3個變量)和心率(第4個變量)兩個變量,並判斷是否可以增強模型的預測能力

本研究中,研究者共招募100位受試者,分別測量他們的最大攜氧能力(VO2max),並收集年齡(age)、性別(gender)、體重(weight)和心率(heart_rate)變量信息,部分數據如下:

 

註:心率(heart_rate)測量的是受試者進行20分鐘低強度步行後的心率。

研究者擬判斷逐個增加自變量(weight和heart_rate)後對因變量(VO2max)預測模型的改變。針對這種情況,我們可以使用分層回歸分析(hierarchical multiple regression),但需要先滿足以下8項假設:

那麼,進行分層回歸分析時,如何考慮和處理這8項假設呢?

3.1 假設1-2

假設1和假設2分別要求因變量是連續變量、自變量不少於2個。這與研究設計有關,需根據實際情況判斷。

3.2 假設3-8

為了檢驗假設3-8,我們需要在SPSS中運行分層回歸,並對結果進行一一分析。

(1) 點擊Analyze→Regression→Linear

出現下圖:


(2) 將因變量(VO2max)放入Dependent欄,再將自變量(age和gender)放入Independent欄:

解釋:因研究者已知性別、年齡與最大攜氧能力的關係,我們先把這兩個變量放入模型。

(3) 點擊Next,彈出下圖:

解釋:大家可能會注意到Independent(s)框中的標籤由-Block 1 of 1- 變為-Block 2 of 2-。這說明age和gender變量依舊存在於模型中,在- Block 2 of 2-中,大家可以點擊Previous查看。同時,Method欄應設置為「Enter」,一般是SPSS自動設置的;如果不是,也應人工設置為「Enter」。

(4) 將自變量(weight)放入Independent欄

解釋:放入weight變量是為了檢驗加入該變量後對age、gender-VO2max預測模型的影響。

(5) 點擊Next,彈出下圖:

解釋:大家可能會注意到Independent(s)框中的標籤由-Block 2 of 2- 變為-Block 3 of 3-。同樣地,age、gender和weight變量依舊存在於模型中,可以點擊Previous查看。Method欄也應設置為「Enter」,如果不是,改為「Enter」。

(6) 將自變量(heart_rate)放入Independent欄

解釋:放入heart_rate變量是為了檢驗加入該變量後對age、gender、weight-VO2max預測模型的影響。

(7) 點擊Statistics,彈出下圖:

(8) 在Regression Coefficient框內點選Confidence intervals,在Residuals框內點選Durbin-Watson和Casewise diagnosis,並在主對話框內點選R squared change、Descriptives、Part and partial correlations和Collinearity diagnosis

(9) 點擊Continue,回到主界面。

(10) 點擊Plots,彈出下圖:

(11)在Standardized Residual Plots對話框中點選Histogram和Normal probability,並點選Produce all partial plots

(12) 點擊Continue回到主對話框

(13) 點擊Save

(14) 在Predicted Values框內點選Unstandardized,在Distances框內點選Cook’s和Leverage values,在Residuals框內點選Studentized和Studentized deleted

(15) 點擊Continue→OK

經過這些操作,Variable View 和Data View對話框中會增加5個變量:

這5個變量分別是未標化預測值(unstandardized predicted values,PRE_1),學生化殘差(studentized residuals,SRE_1),學生化刪除殘差(studentized deleted residuals,SDR_1),Cook距離(Cook's Distance values,COO_1)以及槓桿值(leverage values,LEV_1)。

根據這5個新增變量和其他結果,我們將逐一對假設3-8進行檢驗。

注意:分層回歸對假設3-8的檢驗過程與多重線性回歸基本一致,為避免重複講解,我們在本章節只介紹基本原理,詳細內容請參見多重線性回歸分析。

3.2.1  假設3:具有相互獨立的觀測值

觀測值之間相互獨立是分層回歸的基本假設之一,主要檢驗的是1st-order autocorrelation,即鄰近的觀測值(主要是殘差)之間沒有相關性。我們根據SPSS中的Durbin-Watson檢驗判斷該假設,如果不滿足,則需要運用其他模型,如時間序列模型等。

3.2.2 假設4:自變量和因變量之間存在線性關係

分層回歸不僅要求因變量與所有自變量存在線性關係,還要求因變量與每一個自變量之間存在線性關係。其中,我們主要通過繪製未標化預測值(PRE_1)和學生化殘差(SRE_1)的散點圖檢驗因變量與所有自變量之間的線性關係。

而為檢驗因變量與每一個自變量之間是否存在線性關係,我們則需要分別繪製每個自變量與因變量的散點圖。如果假設4不滿足,我們可以嘗試進行數據轉換或者其他統計方法。

3.2.3 假設5:等方差性

等方差性也可以通過學生化殘差(SRE_1)與未標化預測值(PRE_1)之間的散點圖進行檢驗。如果研究結果提示不滿足等方差性假設,我們也可以通過一些統計手段進行矯正,如對自變量進行轉換或採用加權最小二乘法回歸方程等。


3.2.4 假設6:不存在多重共線性

當回歸中存在2個或多個自變量高度相關時,就會出現多重共線。它不僅可影響自變量對因變量變異的解釋能力,還影響整個分層回歸模型的擬合。

為了檢驗假設6,我們主要關注相關係數(correlation coefficients)和容忍度/方差膨脹因子(Tolerance/VIF)兩類指標。一般來說,如果自變量之間的相關係數大於0.7,或者容忍度小於0.1,方差膨脹因子大於10,我們就會懷疑模型存在多重共線性。

3.2.5 假設7:不存在顯著的異常值

根據作用方式的不同,分層回歸的異常值主要分為離群值(outliers)、強槓桿點(leverage points)和強影響點(influential points)3類。異常的觀測值可以符合其中一類或幾類。但無論是哪一類都對分層回歸的預測能力有著嚴重的負面影響。好在我們可以通過SPSS檢測這些異常值。

其中,(1) 離群值是指實際值與預測值相差較大的數據,可以用Casewise Diagnostics檢驗和學生化刪除殘差(SDR_1)兩種方法進行檢驗。(2) 我們通過數據的槓桿值(LEV_1)檢測強槓桿點。(3) 而強影響點主要通過Cook距離(COO_1)進行檢測。如果存在這些異常值,我們可以根據實際情況判斷是否需要剔除或調整。

3.2.6 假設8:殘差近似正態分布

在分層回歸中,我們可以使用兩種方法判斷回歸殘差是否近似正態分布:(1) 帶正態曲線的柱狀圖或P-P圖;(2) 根據學生化殘差繪製的正態Q-Q圖。詳細內容參見多重線性回歸分析。

分層回歸可以得到3個主要結果:

新增自變量解釋因變量變異的比例

根據自變量預測因變量

自變量改變一個單位,因變量的變化情況

為了更好地解釋和報告分層回歸的結果,我們需要統計以下3個方面:

各模型的比較

模型的擬合程度

回歸係數

4.1 各模型的比較

比較不同模型是進行分層回歸的主要目的。SPSS輸出變量納入結果,如下:

從Model欄可以看出,本研究共有3個模型:Model 1、Model 2和Model 3。Variables Entered欄顯示該研究中每個模型較前一個模型增加的變量。

Model 1是第一個模型,沒有前序變量,因此該模型的自變量只有gender和age。Model 2比前一個模型(Model 1)增加了weight變量;Model 3比Model 2增加了heart_rate變量。這3個模型的納入變量與之前的SPSS操作一致,如下:

必須注意的是,Model 2和Model 3中納入的變量都是在上一個模型基礎上的。比如,Model 3是在Model 2的基礎上納入heart_rate變量,即共納入age、gender、weight和heart_rate四個變量,而不是heart_rate一個變量,具體解釋如下:

4.2 判斷分層回歸模型的擬合程度

判斷分層回歸模型擬合程度的指標有很多,我們主要向大家介紹變異的解釋程度、R2值在各模型間的變化和模型的統計學意義3個指標。


4.2.1變異的解釋程度

分層回歸中的每個模型都相當於一個強制納入變量(Enter method)的多重線性回歸模型,具體評價指標也相似:

Measures of model 『fit』 for the three models: 分別評價本研究中3個模型的擬合程度

R2是多層回歸的重要指標,反映自變量解釋因變量變異的程度。從上表可以看出,隨著自變量數量的增加,模型1-3的R2逐漸增加,分別是0.188、0.427和0.710,提示各模型對因變量的預測能力逐漸加強。

但是分層模型主要是檢驗增加自變量是否具有統計學意義,如模型2增加了weight變量後R2的變化是否具有統計學意義呢?我們將在4.2.2節為詳細大家介紹。

4.2.2 R2值在各模型間的變化

為了判斷新增變量對回歸的影響,我們需要關注下表的右半部分:

Assessing model change:對比模型變化

R Square Change欄顯示的是該模型與上一個模型R2的差值,Sig. F Change欄顯示的是該差值的統計檢驗的P值。以Model 1為例,如下:

Initial Model(Model 1):模型1

模型1是初始模型,在空模型的基礎上增加了age和gender兩個變量。該模型的R2差值(R Square Change欄)和R2值(R Square欄)相同,均為0.188。R2差值具有統計學意義,P<0.001(Sig. F Change欄)。

模型2在模型1的基礎上增加了weight變量,R2值的變化情況如下:

Change between Model 1 and Model 2: 對比模型1和模型2

模型2的R2差值為0.239,即模型2的R2值(0.427)與模型1的R2值(0.188)的差。Sig. F Change欄提示,P<0.001,即模型2的R2差值具有統計學意義。

在本研究中,模型2與模型1的差別僅在於weight變量,提示在回歸中納入weight變量後自變量對因變量變異的解釋能力增加23.9%(P<0.001),即納入體重變量對受試者最大攜氧能力的預測改善有統計學意義

解釋:如果我們在模型2中增加了不止一個變量,那麼R2值的改變就是所有新增變量共同作用的結果,而不是某一個變量的。

模型3在模型2的基礎上增加了heart_rate變量,R2值的變化情況如下:

Change between Model 2 and Model 3:對比模型2和模型3

模型3的R2差值為0.283,即模型3的R2值(0.710)與模型2的R2值(0.427)的差。Sig. F Change欄提示,P<0.001,即模型3的R2差值具有統計學意義。提示在回歸中納入heart_rate變量後自變量對因變量變異的解釋能力增加28.3%(P<0.001),即納入心率變量對受試者最大攜氧能力的預測改善有統計學意義

4.2.3 模型的統計學意義

分層回歸的每一個模型都相當於一個多重線性回歸模型。SPSS輸出ANOVA表格中包括對每一個模型的評價,如下:

一般來說,我們習慣性只匯報最終模型的結果(本研究的模型3),如下:

模型3是全模型,納入gender、age、weight和heart_rate四個變量。結果示,該模型具有統計學意義,F(4,95)=58.078,P<0.001,提示因變量和自變量之間存在線性相關,說明相較於空模型,納入這四個自變量有助於預測因變量。

注釋:如果SPSS輸出的結果中「Sig」值為「.000」,代表的是P<0.001,而不是P=0.000。同時,如果P>0.05,我們最好在報告中寫清楚具體數值,如P=0.092,從而為讀者提供更多的信息。

4.3 回歸係數

正如前文所述,分層回歸模型主要關注的是最終模型,即本研究中的模型3,在對回歸係數進行解釋時也是如此。

Full model (Model 3):模型3

我們可以按照多重線性回歸的分析方法對分層回歸係數進行解釋。連續變量(如age變量)的回歸係數表示自變量每改變一個單位,因變量的變化情況。分類變量(如gender變量)的回歸係數表示不同類別之間的差異,詳細內容參見多重線性回歸。

值得注意的是,我們運行分層回歸的主要目的是分析是否有必要增加新的自變量,而不是進行預測,回歸係數不是我們主要關注的結果。但是如果在匯報時需要提供回歸係數,我們也可以把這部分增加在報告中。

5.1 簡潔匯報

本研究採用分層回歸,分析逐步增加體重和心率變量是否可以提高性別、年齡對最大攜氧能力的預測水平。最終模型(模型3)納入性別、年齡、體重和心率4個變量,具有統計學意義R2=0.710,F(4, 95) = 58.078 (P<0.001),調整R2=0.698。

僅增加體重變量(模型2)後,R2值增加0.239,F(1, 96) = 40.059(P<0.001),具有統計學意義。增加心率變量(模型3)後,R2值增加0.283,F(1, 96) = 92.466(P<0.001),具有統計學意義,具體結果見表1。

表1. 分層回歸結果

5.2 具體匯報

本研究採用分層回歸,分析逐步增加體重和心率變量是否可以提高性別、年齡對最大攜氧能力的預測水平。通過繪製部分回歸散點圖和學生化殘差與預測值的散點圖,判斷自變量和因變量之間存在線性關係。

已驗證研究觀測值之間相互獨立(Durbin-Watson檢驗值為1.910);並通過繪製學生化殘差與未標化的預測值之間的散點圖,證實數據具有等方差性。

回歸容忍度均大於0.1,不存在多重共線性。異常值檢驗中,不存在學生化刪除殘差大於3倍標準差的觀測值,數據槓桿值均小於0.2,也沒有Cook距離大於1的數值。Q-Q圖提示,研究數據滿足正態假設。

最終模型(模型3)納入性別、年齡、體重和心率4個變量,具有統計學意義R2=0.710,F(4, 95) = 58.078 (P<0.001),調整R2 = 0.698。僅增加體重變量(模型2)後,R2值增加0.239,F(1, 96) = 40.059 (P<0.001),具有統計學意義。增加心率變量(模型3)後,R2值增加0.283,F(1, 96) = 92.466 (P<0.001),具有統計學意義,具體結果見表1。

表1. 分層回歸結果

解釋:我們為了儘可能地向大家展示分層回歸結果,在表1裡納入了所有可能需要匯報的指標。但在實際工作中,大家可能並不需要匯報這麼多,應視情況而定。

(如果你想使用文中數據進行練習,請隨時給小咖(微信:xys2016ykf)發消息,小咖將原始數據發給你。)

關注醫咖會,輕鬆學習統計學~

有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。如果想進群,添加小咖時請註明「加群」二字。

點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些統計教程

相關焦點

  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。1、  多元回歸分析(multiple linear regression)
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • spss怎麼分析因子?spss因子分析法詳細步驟
    spss不僅可以分析主成分 ,還可以分析因子哦,但是很多朋友不知道spss怎麼分析因子?小編下面有一個spss因子分析法詳細步驟哦,只要大家按照spss因子分析法詳細步驟一步步操作就知道spss怎麼分析因子了哦,下面就和小編一起來看看吧!
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    今天,我們推送一篇更為詳細的二分類Logistic回歸教程,本次的研究目的和上面那篇有所不同,有何不同呢,我們詳細來看。因為Box-Tidwell方法太過複雜,這裡就不再詳細介紹,有想詳細了解的,可以和小咖(微信:xys2016ykf)聯繫,小咖把詳細步驟發給你~。  如果一個及以上連續自變量與因變量的logit轉換值間不存在線性關係,可以對其進行數據轉換以滿足線性假設,需注意以下幾點:  1) 數據轉換針對原始的連續自變量,如年齡(age)。
  • spss 非線性回歸 - CSDN
    但多分類變量在線性回歸中不能直接作為自變量進行運算,這就需要使用我們今天講解的虛擬線性回歸分析了。下面就通過實際案例來詳細講解。 我們搜集了558名樣本的壓力、心理、STS及一般資料數據,想研究壓力及心理是否會顯著影響STS,此前已經算出,受傷、身體、加班、認同為STS差異顯著的因素,因此這4個變量將作為控制變量納入回歸分析(圖1)。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • spss多元線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • 用R進行Lasso regression回歸分析
    glmnet是由史丹福大學的統計學家們開發的一款R包,用於在傳統的廣義線性回歸模型的基礎上添加正則項,以有效解決過擬合的問題,支持線性回歸,邏輯回歸,泊松回歸,cox回歸等多種回歸模型,連結如下https://cran.r-project.org/web/packages/glmnet/index.html對於正則化,提供了以下3種正則化的方式
  • 醫學統計與R語言:Rare Events Logistic Regression
    比如要探索研究該疾病的影響因素,通常的做法是對病例和非病例的兩類人群建立logistic回歸模型,然而由於資料中的病例所佔的比例遠遠低於非病例的比重,這就給稀有事件的統計分析帶來一系列問題,在這種情況下仍採用常規的logistic回歸方法就不適合了。
  • spss主成分怎麼進行分析?spss主成分分析法步驟
    spss 這款軟體功能非常多哦,還可以分析主成分哦,但是很多朋友不知道spss主成分怎麼進行分析?小編下面準備了spss主成分分析法詳細步驟,大家安裝 詳細步驟一步步操作就知道spss主成分怎麼進行分析?
  • SPSS方法|嶺回歸分析
    :嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。
  • 一圖一話87:回歸-Regression,到底是什麼
    論文的全名叫:Regression towards Mediocrity in Hereditary Stature(連結:http://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf).
  • 地理加權回歸模型(GWR, Geographically Weighted Regression)
    回歸係數隨位置發生變化,針對每個給定的位置分別進行求解。求解時確定以下三件事:確定帶寬(即以任意一點為中心,鄰域的範圍);鄰域對該點影響的大小即權重,通過核函數確定。遵循原則為越近的數據點所待估計點的權重越高;距離類型,如歐式距離。常用的核函數如下所示,其中參數b為核函數的帶寬(bandwidth)。
  • spss是什麼軟體?spss軟體是用來做什麼的?
    很多人看到有人在用spss,好奇spss是什麼軟體?spss是用來做什麼的? spss是一個非常好用的統計分析軟體, spss用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟體產品及相關服務軟體哦,下面小編就來詳細介紹一下吧!
  • 科研SPSS統計思維實戰研討會
    本課程以目前科研界最廣泛使用的SPSS軟體為操作載體,教大家如何把握核心,一步一步分析應對各種科研工作中常見的統計設計及數據統計分析,包括複雜多元統計。課程配有詳細的內部筆記資料供複習,兩整天的現場課程重在掌握各種統計模型的關注點、整套分析邏輯與思維,及了解統計設計和數據分析中常犯的錯誤及如何避免。同時自帶電腦當場練習、交流、提問,以加深印象。
  • 多元回歸中partial regression plot 與partial residual plot 有何區別?
    於是我便查了一下相關材料,真是不查不知道,一查嚇一跳,原來partial regression plot (偏回歸圖)和 partial residual plot(偏殘差圖)在實際應用中已經混淆到了令人髮指的地步了。鄙人試圖通過此文,明確這種圖的原理,意義和用法的差異, 以防止大家繼續受到此問題的困擾。
  • 學會spss就能找到數據分析工作嗎
    大學課堂上學習了spss,老師也講了很多知識,但是現在準備畢業了,我做的實習工作就是用業內的數據進行最新的行業研究。現在真正需要用到spss進行分析了,我卻看不懂老闆給的數據和分析要求,難道這就是理論與實際的脫節嗎?
  • 回歸分析spss步驟 - CSDN
    我們的教程中曾詳細講述了SPSS線性回歸分析,儘管線性回歸可以滿足絕大多數的數據分析,但是在現實情況中,並不能適用於所有的數據,當因變量和自變量之間的關係我們無法確定是否為線性或者其他非線性類型的模型關係時候,那麼我們就需要用到曲線回歸,來確定因變量和自變量之間到底最適合什麼樣的模型。
  • 一文讀懂多元回歸分析
    一、多元回歸分析簡介用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear