線性回歸數據來自於國泰安數據服務中心的經濟研究資料庫。網址:http://www.gtarsc.com/p/sq/。數據名稱為:全國各地區能源消耗量與產量,該數據的年度標識為2006年,地區包括我國30個省,直轄市,自治區(西藏地區無數據)。
1.1 數據預處理數據預處理包括的內容非常廣泛,包括數據清理和描述性數據匯總,數據集成和變換,數據歸約,數據離散化等。本次實習主要涉及的數據預處理只包括數據清理和描述性數據匯總。一般意義的數據預處理包括缺失值填寫和噪聲數據的處理。於此我們只對數據做缺失值填充,但是依然將其統稱數據清理。
1.1.1 數據導入與定義單擊「打開數據文檔」,將xls格式的全國各地區能源消耗量與產量的數據導入SPSS中,如圖1-1所示。
(圖1-1 導入數據)
導入過程中,各個欄位的值都被轉化為字符串型(String),我們需要手動將相應的欄位轉回數值型。單擊菜單欄的「」-->「」將所選的變量改為數值型。如圖1-2所示:
(圖1-2 定義變量數據類型)
1.1.2 數據清理數據清理包括缺失值的填寫和還需要使用SPSS分析工具來檢查各個變量的數據完整性。單擊「」-->「」,將檢查所輸入的數據的缺失值個數以及百分比等。如圖1-3所示:
(圖1-3缺失值分析)
能源數據缺失值分析結果如表1-1所示:
單變量統計
N
均值
標準差
缺失
極值數目a
計數
百分比
低
高
能源消費總量
30
9638.50
6175.924
0
.0
0
1
煤炭消費量
30
9728.99
7472.259
0
.0
0
2
焦炭消費量
30
874.61
1053.008
0
.0
0
2
原油消費量
28
1177.51
1282.744
2
6.7
0
1
汽油消費量
30
230.05
170.270
0
.0
0
1
煤油消費量
28
45.40
66.189
2
6.7
0
4
柴油消費量
30
392.34
300.979
0
.0
0
2
燃料油消費量
30
141.00
313.467
0
.0
0
3
天然氣消費量
30
19.56
22.044
0
.0
0
2
電力消費量
30
949.64
711.664
0
.0
0
3
原煤產量
26
9125.97
12180.689
4
13.3
0
2
焦炭產量
29
1026.49
1727.735
1
3.3
0
2
原油產量
18
1026.48
1231.724
12
40.0
0
0
燃料油產量
25
90.72
134.150
5
16.7
0
3
汽油產量
26
215.18
210.090
4
13.3
0
2
煤油產量
20
48.44
62.130
10
33.3
0
0
柴油產量
26
448.29
420.675
4
13.3
0
1
天然氣產量
20
29.28
49.391
10
33.3
0
3
電力產量
30
954.74
675.230
0
.0
0
0
表2-1 能源消耗量與產量數據缺失值分析
( 表1-1 能源消耗量與產量數據缺失值分析)
SPSS提供了填充缺失值的工具,點擊菜單欄「」-->「」,即可以使用軟體提供的幾種填充缺失值工具,包括序列均值,臨近點中值,臨近點中位數等。結合本次實習數據的具體情況,我們不使用SPSS軟體提供的替換缺失值工具,主要是手動將缺失值用零值來代替。
1.1.3 描述性數據匯總描述性數據匯總技術用來獲得數據的典型性質,我們關心數據的中心趨勢和離中趨勢,根據這些統計值,可以初步得到數據的噪聲和離群點。中心趨勢的量度值包括:均值(mean),中位數(median),眾數(mode)等。離中趨勢量度包括四分位數(quartiles),方差(variance)等。
SPSS提供了詳盡的數據描述工具,單擊菜單欄的「」-->「」-->「」,將彈出如圖2-4所示的對話框,我們將所有變量都選取到,然後在選項中勾選上所希望描述的數據特徵,包括均值,標準差,方差,最大最小值等。由於本次數據的單位不盡相同,我們需要將數據標準化,同時勾選上「將標準化得分另存為變量」。
(圖1-4 描述性數據匯總)
得到如表1-2所示的描述性數據匯總。
N
極小值
極大值
均值
標準差
方差
能源消費總量
30
911
26164
9638.50
6175.924
38142034.412
煤炭消費量
30
332
29001
9728.99
7472.259
55834651.378
焦炭消費量
30
19
5461
874.61
1053.008
1108824.853
原油消費量
30
0
5555
1099.01
1273.265
1621202.562
汽油消費量
30
18
771
230.05
170.270
28991.746
煤油消費量
30
0
262
42.37
64.896
4211.520
柴油消費量
30
27
1368
392.34
300.979
90588.441
燃料油消費量
30
0
1574
141.00
313.467
98261.261
天然氣消費量
30
1
106
19.56
22.044
485.947
電力消費量
30
98
3004
949.64
711.664
506464.953
原煤產量
30
0
58142
7909.17
11741.388
1.379E8
焦炭產量
30
0
9202
992.28
1707.998
2917256.193
原油產量
29
0
4341
637.12
1085.379
1178048.432
燃料油產量
30
0
497
75.60
126.791
16075.971
汽油產量
30
0
1032
186.49
208.771
43585.122
煤油產量
30
0
219
32.30
55.394
3068.535
柴油產量
30
0
1911
388.52
420.216
176581.285
天然氣產量
30
0
164
19.52
42.371
1795.341
電力產量
30
97
2536
954.74
675.230
455935.003
有效的 N (列表狀態)
29
(表1-2 描述性數據匯總)
標準化後得到的數據值,以下的回歸分析將使用標準化數據。如圖1-5所示:
(圖1-5 數據標準化)
我們還可以通過描述性分析中的「」來得到各個變量的眾數,均值等,還可以根據這些量繪製直方圖。我們選取個別變量(能源消費總量)的直方圖,可以看到我們因變量基本符合正態分布。如圖1-6所示:
(圖1-6能源消費總量)
1.2 回歸分析我們本次實驗主要考察地區能源消費總額(因變量)與煤炭消費量、焦炭消費量、原油消費量、原煤產量、焦炭產量、原油產量之間的關係。以下的回歸分析所涉及只包括以上幾個變量,並使用標準化之後的數據。
1.2.1 參數設置單擊菜單欄「」-->「」-->「」,將彈出如圖1-7所示的對話框,將通過選擇因變量和自變量來構建線性回歸模型。因變量:標準化能源消費總額;自變量:標準化煤炭消費量、標準化焦炭消費量、標準化原油消費量、標準化原煤產量、標準化焦炭產量、標準化原油產量。自變量方法選擇:進入,個案標籤使用地名,不使用權重最小二乘法回歸分析—即WLS權重為空。
(圖1-7選擇線性回歸變量還需要設置統計量的參數)
我們選擇回歸係數中的「」和其他項中的「」。選中估計可輸出回歸係數B及其標準誤,t值和p值,還有標準化的回歸係數beta。選中模型擬合度複選框:模型擬合過程中進入、退出的變量的列表,以及一些有關擬合優度的檢驗:R,R2和調整的R2, 標準誤及方差分析表。如圖1-8所示:
(圖1-8 設置回歸分析統計量)
在設置繪製選項的時候,我們選擇繪製標準化殘差圖,其中的正態概率圖是rankit圖。同時還需要畫出殘差圖,Y軸選擇:ZRESID,X軸選擇: ZPRED。如圖1-9所示:
(圖1-9 設置繪製)
左上框中各項的意義分別為:
「DEPENDNT」因變量
「ZPRED」標準化預測值
「ZRESID」標準化殘差
「DRESID」刪除殘差
「ADJPRED」調節預測值
「SRESID」學生化殘差
「SDRESID」學生化刪除殘差
許多時候我們需要將回歸分析的結果存儲起來,然後用得到的殘差、預測值等做進一步的分析,「保存」按鈕就是用來存儲中間結果的。可以存儲的有:預測值系列、殘差系列、距離(Distances)系列、預測值可信區間系列、波動統計量系列。本次實驗暫時不保存任何項。
設置回歸分析的一些選項,有:步進方法標準單選鈕組:設置納入和排除標準,可按P值或F值來設置。在等式中包含常量複選框:用於決定是否在模型中包括常數項,默認選中。如圖1-10所示:
(圖1-10 設置選項)
1.2.2 結果輸出與分析在以上選項設置完畢之後點擊確定,SPSS將輸出一系列的回歸分析結果。我們來逐一貼出和分析,並根據它得到最後的回歸方程以及驗證回歸模型。
表1-3所示,是回歸分析過程中輸入、移去模型記錄。具體方法為:enter(進入)
輸入/移去的變量
輸入/移去的變量
模型
輸入的變量
移去的變量
方法
1
Zscore(原油產量), Zscore(原煤產量), Zscore(焦炭消費量), Zscore(原油消費量), Zscore(煤炭消費量), Zscore(焦炭產量)
.
輸入
(表1-3 輸入的變量)
表1-4所示是模型匯總,R稱為多元相關係數,R方(R2)代表著模型的擬合優度。我們可以看到該模型是擬合優度良好。
模型匯總
模型匯總
模型
R
R 方
調整 R 方
標準 估計的誤差
Sig.
1
.962
.925
.905
.30692707
.000
(表1-4 模型匯總)
表1-5所示是離散分析。,F的值較大,代表著該回歸模型是顯著。也稱為失擬性檢驗。
模型
平方和
df
均方
F
1
回歸
25.660
6
4.277
45.397
殘差
2.072
22
.094
總計
27.732
28
(表1-5 離散分析)
表1-6所示的是回歸方程的係數,根據這些係數我們能夠得到完整的多元回歸方程。觀測以下的回歸值,都是具有統計學意義的。因而,得到的多元線性回歸方程:Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6
(x1為煤炭消費量,x2為焦炭消費量,x3為原油消費量,x4為原煤產量,x5為原炭產量,x6為原油產量,Y是能源消費總量)
結論:能量消費總量由主要與煤炭消費總量所影響,成正相關;與原煤產量成一定的反比。
係數
係數
模型
非標準化係數
標準係數
t
Sig.
B
標準 誤差
beta
1
(常量)
.008
.057
.149
.883
Zscore(煤炭消費量)
1.061
.126
1.071
8.432
.000
Zscore(焦炭消費量)
.087
.101
.088
.856
.401
Zscore(原油消費量)
.157
.085
.159
1.848
.078
Zscore(原煤產量)
-.365
.155
-.372
-2.360
.028
Zscore(焦炭產量)
-.105
.150
-.107
-.697
.493
Zscore(原油產量)
-.017
.070
-.017
-.247
.807
(表1-6回歸方程係數)
模型的適合性檢驗,主要是殘差分析。殘差圖是散點圖,如圖1-11所示:
(圖1-11殘差圖)
可以看出各散點隨機分布在e=0為中心的橫帶中,證明了該模型是適合的。同時我們也發現了兩個異常點,就是廣東省和四川省,這種離群點是值得進一步研究的。
還有一種殘差正態概率圖(rankit圖)可以直觀地判斷殘差是否符合正態分布。如圖1-12所示:
(圖1-12 rankit(P-P)圖)
它的直方圖如圖1-13所示:
(圖1-13 rankit(直方)圖)
精選自:林場的博客
原標題:SPSS19.0實戰之多元線性回歸
原文地址:http://www.cnblogs.com/ventlam/archive/2010/12/27/spsslinear.html
本文關鍵詞:多元回歸 或者 回歸分析
點擊左下方 閱讀原文 可閱讀相關文章
SPSS實戰案例
和數據小兵一起學SPSS統計分析
新浪微博丨@數據小兵
個人博客丨www.datasoldier.net