SPSS實戰案例之多元線性回歸

2021-02-08 SPSS統計訓練營

線性回歸數據來自於國泰安數據服務中心的經濟研究資料庫。網址:http://www.gtarsc.com/p/sq/。數據名稱為:全國各地區能源消耗量與產量,該數據的年度標識為2006年,地區包括我國30個省,直轄市,自治區(西藏地區無數據)。

1.1 數據預處理

數據預處理包括的內容非常廣泛,包括數據清理和描述性數據匯總,數據集成和變換,數據歸約,數據離散化等。本次實習主要涉及的數據預處理只包括數據清理和描述性數據匯總。一般意義的數據預處理包括缺失值填寫和噪聲數據的處理。於此我們只對數據做缺失值填充,但是依然將其統稱數據清理。

1.1.1 數據導入與定義

單擊「打開數據文檔」,將xls格式的全國各地區能源消耗量與產量的數據導入SPSS中,如圖1-1所示。

(圖1-1 導入數據)

導入過程中,各個欄位的值都被轉化為字符串型(String),我們需要手動將相應的欄位轉回數值型。單擊菜單欄的「」-->「」將所選的變量改為數值型。如圖1-2所示:

(圖1-2 定義變量數據類型)

1.1.2 數據清理

數據清理包括缺失值的填寫和還需要使用SPSS分析工具來檢查各個變量的數據完整性。單擊「」-->「」,將檢查所輸入的數據的缺失值個數以及百分比等。如圖1-3所示:

(圖1-3缺失值分析)

能源數據缺失值分析結果如表1-1所示:

單變量統計


N

均值

標準差

缺失

極值數目a

計數

百分比

能源消費總量

30

9638.50

6175.924

0

.0

0

1

煤炭消費量

30

9728.99

7472.259

0

.0

0

2

焦炭消費量

30

874.61

1053.008

0

.0

0

2

原油消費量

28

1177.51

1282.744

2

6.7

0

1

汽油消費量

30

230.05

170.270

0

.0

0

1

煤油消費量

28

45.40

66.189

2

6.7

0

4

柴油消費量

30

392.34

300.979

0

.0

0

2

燃料油消費量

30

141.00

313.467

0

.0

0

3

天然氣消費量

30

19.56

22.044

0

.0

0

2

電力消費量

30

949.64

711.664

0

.0

0

3

原煤產量

26

9125.97

12180.689

4

13.3

0

2

焦炭產量

29

1026.49

1727.735

1

3.3

0

2

原油產量

18

1026.48

1231.724

12

40.0

0

0

燃料油產量

25

90.72

134.150

5

16.7

0

3

汽油產量

26

215.18

210.090

4

13.3

0

2

煤油產量

20

48.44

62.130

10

33.3

0

0

柴油產量

26

448.29

420.675

4

13.3

0

1

天然氣產量

20

29.28

49.391

10

33.3

0

3

電力產量

30

954.74

675.230

0

.0

0

0

表2-1 能源消耗量與產量數據缺失值分析

( 表1-1 能源消耗量與產量數據缺失值分析)

SPSS提供了填充缺失值的工具,點擊菜單欄「」-->「」,即可以使用軟體提供的幾種填充缺失值工具,包括序列均值,臨近點中值,臨近點中位數等。結合本次實習數據的具體情況,我們不使用SPSS軟體提供的替換缺失值工具,主要是手動將缺失值用零值來代替。

1.1.3 描述性數據匯總

描述性數據匯總技術用來獲得數據的典型性質,我們關心數據的中心趨勢和離中趨勢,根據這些統計值,可以初步得到數據的噪聲和離群點。中心趨勢的量度值包括:均值(mean),中位數(median),眾數(mode)等。離中趨勢量度包括四分位數(quartiles),方差(variance)等。

SPSS提供了詳盡的數據描述工具,單擊菜單欄的「」-->「」-->「」,將彈出如圖2-4所示的對話框,我們將所有變量都選取到,然後在選項中勾選上所希望描述的數據特徵,包括均值,標準差,方差,最大最小值等。由於本次數據的單位不盡相同,我們需要將數據標準化,同時勾選上「將標準化得分另存為變量」。

(圖1-4 描述性數據匯總)

得到如表1-2所示的描述性數據匯總。

N

極小值

極大值

均值

標準差

方差


能源消費總量

30

911

26164

9638.50

6175.924

38142034.412

煤炭消費量

30

332

29001

9728.99

7472.259

55834651.378

焦炭消費量

30

19

5461

874.61

1053.008

1108824.853

原油消費量

30

0

5555

1099.01

1273.265

1621202.562

汽油消費量

30

18

771

230.05

170.270

28991.746

煤油消費量

30

0

262

42.37

64.896

4211.520

柴油消費量

30

27

1368

392.34

300.979

90588.441

燃料油消費量

30

0

1574

141.00

313.467

98261.261

天然氣消費量

30

1

106

19.56

22.044

485.947

電力消費量

30

98

3004

949.64

711.664

506464.953

原煤產量

30

0

58142

7909.17

11741.388

1.379E8

焦炭產量

30

0

9202

992.28

1707.998

2917256.193

原油產量

29

0

4341

637.12

1085.379

1178048.432

燃料油產量

30

0

497

75.60

126.791

16075.971

汽油產量

30

0

1032

186.49

208.771

43585.122

煤油產量

30

0

219

32.30

55.394

3068.535

柴油產量

30

0

1911

388.52

420.216

176581.285

天然氣產量

30

0

164

19.52

42.371

1795.341

電力產量

30

97

2536

954.74

675.230

455935.003

有效的 N (列表狀態)

29







(表1-2 描述性數據匯總)

標準化後得到的數據值,以下的回歸分析將使用標準化數據。如圖1-5所示:

(圖1-5 數據標準化)

我們還可以通過描述性分析中的「」來得到各個變量的眾數,均值等,還可以根據這些量繪製直方圖。我們選取個別變量(能源消費總量)的直方圖,可以看到我們因變量基本符合正態分布。如圖1-6所示:

(圖1-6能源消費總量)

1.2 回歸分析

我們本次實驗主要考察地區能源消費總額(因變量)與煤炭消費量、焦炭消費量、原油消費量、原煤產量、焦炭產量、原油產量之間的關係。以下的回歸分析所涉及只包括以上幾個變量,並使用標準化之後的數據。

1.2.1 參數設置

單擊菜單欄「」-->「」-->「」,將彈出如圖1-7所示的對話框,將通過選擇因變量和自變量來構建線性回歸模型。因變量:標準化能源消費總額;自變量:標準化煤炭消費量、標準化焦炭消費量、標準化原油消費量、標準化原煤產量、標準化焦炭產量、標準化原油產量。自變量方法選擇:進入,個案標籤使用地名,不使用權重最小二乘法回歸分析—即WLS權重為空。

(圖1-7選擇線性回歸變量還需要設置統計量的參數)

我們選擇回歸係數中的「」和其他項中的「」。選中估計可輸出回歸係數B及其標準誤,t值和p值,還有標準化的回歸係數beta。選中模型擬合度複選框:模型擬合過程中進入、退出的變量的列表,以及一些有關擬合優度的檢驗:R,R2和調整的R2, 標準誤及方差分析表。如圖1-8所示:

(圖1-8 設置回歸分析統計量)

在設置繪製選項的時候,我們選擇繪製標準化殘差圖,其中的正態概率圖是rankit圖。同時還需要畫出殘差圖,Y軸選擇:ZRESID,X軸選擇: ZPRED。如圖1-9所示:

(圖1-9 設置繪製)

左上框中各項的意義分別為:

「DEPENDNT」因變量

「ZPRED」標準化預測值

「ZRESID」標準化殘差

「DRESID」刪除殘差

「ADJPRED」調節預測值

「SRESID」學生化殘差

「SDRESID」學生化刪除殘差

許多時候我們需要將回歸分析的結果存儲起來,然後用得到的殘差、預測值等做進一步的分析,「保存」按鈕就是用來存儲中間結果的。可以存儲的有:預測值系列、殘差系列、距離(Distances)系列、預測值可信區間系列、波動統計量系列。本次實驗暫時不保存任何項。

設置回歸分析的一些選項,有:步進方法標準單選鈕組:設置納入和排除標準,可按P值或F值來設置。在等式中包含常量複選框:用於決定是否在模型中包括常數項,默認選中。如圖1-10所示:

(圖1-10 設置選項)

1.2.2 結果輸出與分析

在以上選項設置完畢之後點擊確定,SPSS將輸出一系列的回歸分析結果。我們來逐一貼出和分析,並根據它得到最後的回歸方程以及驗證回歸模型。

表1-3所示,是回歸分析過程中輸入、移去模型記錄。具體方法為:enter(進入)

輸入/移去的變量

輸入/移去的變量

模型

輸入的變量

移去的變量

方法

1

Zscore(原油產量), Zscore(原煤產量), Zscore(焦炭消費量), Zscore(原油消費量), Zscore(煤炭消費量), Zscore(焦炭產量)

.

輸入

(表1-3 輸入的變量)

表1-4所示是模型匯總,R稱為多元相關係數,R方(R2)代表著模型的擬合優度。我們可以看到該模型是擬合優度良好。

模型匯總

模型匯總


模型

R

R 方

調整 R 方

標準 估計的誤差

Sig.

1

.962

.925

.905

.30692707

.000

(表1-4 模型匯總)

表1-5所示是離散分析。,F的值較大,代表著該回歸模型是顯著。也稱為失擬性檢驗。

模型

平方和

df

均方

F

1

回歸

25.660

6

4.277

45.397

殘差

2.072

22

.094


總計

27.732

28



(表1-5 離散分析)

表1-6所示的是回歸方程的係數,根據這些係數我們能夠得到完整的多元回歸方程。觀測以下的回歸值,都是具有統計學意義的。因而,得到的多元線性回歸方程:Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6

(x1為煤炭消費量,x2為焦炭消費量,x3為原油消費量,x4為原煤產量,x5為原炭產量,x6為原油產量,Y是能源消費總量)

結論:能量消費總量由主要與煤炭消費總量所影響,成正相關;與原煤產量成一定的反比。

係數

係數

模型

非標準化係數

標準係數

t

Sig.

B

標準 誤差

beta

1

(常量)

.008

.057


.149

.883

Zscore(煤炭消費量)

1.061

.126

1.071

8.432

.000

Zscore(焦炭消費量)

.087

.101

.088

.856

.401

Zscore(原油消費量)

.157

.085

.159

1.848

.078

Zscore(原煤產量)

-.365

.155

-.372

-2.360

.028

Zscore(焦炭產量)

-.105

.150

-.107

-.697

.493

Zscore(原油產量)

-.017

.070

-.017

-.247

.807

(表1-6回歸方程係數)

模型的適合性檢驗,主要是殘差分析。殘差圖是散點圖,如圖1-11所示:

(圖1-11殘差圖)

可以看出各散點隨機分布在e=0為中心的橫帶中,證明了該模型是適合的。同時我們也發現了兩個異常點,就是廣東省和四川省,這種離群點是值得進一步研究的。

還有一種殘差正態概率圖(rankit圖)可以直觀地判斷殘差是否符合正態分布。如圖1-12所示:

(圖1-12 rankit(P-P)圖)

它的直方圖如圖1-13所示:

(圖1-13 rankit(直方)圖)


精選自:林場的博客

原標題:SPSS19.0實戰之多元線性回歸

原文地址:http://www.cnblogs.com/ventlam/archive/2010/12/27/spsslinear.html

本文關鍵詞:多元回歸 或者 回歸分析

點擊左下方 閱讀原文 可閱讀相關文章

SPSS實戰案例

和數據小兵一起學SPSS統計分析

新浪微博丨@數據小兵

個人博客丨www.datasoldier.net

相關焦點

  • 原理+代碼|Python實戰多元線性回歸模型
    文章來源: 早起Python作者:蘿蔔前言「多元線性回歸模型」非常常見,是大多數人入門機器學習的第一個案例,儘管如此,裡面還是有許多值得學習和注意的地方。其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。
  • SPSS案例實踐:多重線性回歸分析
    當只考察一個自變量對因變量的影響時,我們稱之為簡單一元線性回歸,如果要多考察一些自變量,此時許多人習慣性將之稱為多元線性回歸
  • Python 實戰多元線性回歸模型,附帶原理+代碼
    來源 | 早起Python( ID:zaoqi-python )「多元線性回歸模型」非常常見,是大多數人入門機器學習的第一個案例,儘管如此,裡面還是有許多值得學習和注意的地方。其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。主要將分為兩個部分:
  • spss多元線性回歸模型 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量
  • 多元線性回歸spss操作 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:多元線性回歸。這次筆記的內容是多元線性回歸的SPSS操作及解讀。嚴格來講,這種一個因變量多個自變量的線性回歸叫多變量線性回歸或者多因素線性回歸更合適一些。多元或者多變量往往指的是多個因變量。
  • 科研SPSS統計思維實戰研討會
    63) 方差分析的終極解決之道——一般線性模型的SPSS實現?2*2表資料及spss實現93) 配對研究設計的2*2表資料及spss實現94) 雙向無序的R*C表資料及spss實現95) 106) 什麼是多重線性回歸與多元回歸分析?107) 一般線性模型與廣義線性模型與混合線性模型的差別與聯繫?108) 分類變量的關聯性分析要領?
  • spss多元線性回歸專題及常見問題 - CSDN
    案例來源:中華護理雜誌2018年7期一.案例北京市社區失能老年人的照護需求及其影響因素。以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:    毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸,將會組成一個矩陣,如下圖所示:
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。
  • 一元(多元)線性回歸分析之R語言實現
    上篇介紹了《一元(多元)線性回歸分析之Excel實現》,本篇來探討一下回歸分析在R語言中的實現,我們將從更專業的角度對模型進行一些解讀。
  • 模型之母:多元線性回歸
    0x00 前言 在線性回歸的前3篇中,我們介紹了簡單線性回歸這種樣本只有一個特徵值的特殊形式,並且了解了一類機器學習的建模推導思想,即:然後通過最優化損失函數或者效用函數,獲得機器學習的模型。然後我們推導並實現了最小二乘法,然後實現了簡單線性回歸。最後還以簡單線性回歸為例,學習了線性回歸的評價指標:均方誤差MSE、均方根誤差RMSE、平均絕對MAE以及R方。
  • spss線性回歸 回歸方程 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:    毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量,如果有「N組樣本,那麼這個多元線性回歸
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • 基於R軟體實現多元線性回歸
    一個多元線性回歸在R中的實現示例在一元回歸中,只包含一個預測變量和響應變量間的關係。與此相比,當存在兩個或以上的預測變量時,稱為多元回歸(Multiple Regression)。如果只考慮變量間的線性關係時,就是多元線性回歸(Multiple Linear Regression)。
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。
  • 從零開始學Python數據分析【21】--線性回歸(實戰部分)
    關於如何構建並求解多元線性回歸模型的理論部分我們已經在《從零開始學Python數據分析【20】--線性回歸(理論部分)》中做了詳細的梳理,包括模型的偏回歸係數的計算、模型的顯著性檢驗和偏回歸係數的檢驗。如果你對理論部分還不是很明白的,建議你先看一下我之前寫的文章。
  • 美賽真題回顧-多元線性回歸模型預測全球海平面上升幅度
    基於前面收集的數據和已有結果, 這裡將建立多元線性回歸模型來預測由於北極冰雪融化 (主要是格陵蘭冰蓋和北極海冰的融化) 所導致的全球海平 面上升幅度。如圖 1-16 所示為使用多元線性回歸模型對海平面上升幅度進行預測的流程。
  • Python 機器學習:多元線性回歸
    python機器學習:線性回歸往下講,這篇文章要講解的多元線性回歸。1、什麼是多元線性回歸模型?當y值的影響因素不唯一時,採用多元線性回歸模型。例如商品的銷售額可能不電視廣告投入,收音機廣告投入,報紙廣告投入有關係,可以有 sales =β0+β1*TV+β2* radio+β3*newspaper.
  • spss 方法 線性回歸專題及常見問題 - CSDN
    案例來源:中華護理雜誌2018年7期一.案例北京市社區失能老年人的照護需求及其影響因素。以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1: