線性回歸時要求殘差方差齊次,通俗理解為所有的觀測數據在計算過程中具有相同的貢獻。但是實踐中有時候會出現殘差方差不齊的情況,此時普通最小二乘法不再適用。
通常來說,此類情況可以使用加權的最二乘法(WLS)擬合線性回歸模型。WLS會降低具有較大方差的觀測數據對分析過程的影響。
案例背景介紹
現在我想用歷史數據來預測一個新商業街的成本,解釋變量包括面積、商業街種類(室內、戶外)、建築師從業年數。
先測試普通線性回歸擬合的殘差表現,以成本為因變量,以面積、商業街種類、建築師從業年數為自變量做線性回歸,我們輸出一個殘差散點圖,如下:
觀察發現,殘差有逐漸放大的趨勢,初步判斷殘差方差不齊。圖形法是最為簡便的辦法,推薦大家常用。
現在結論是線性回歸不適用了,殘差的方差不齊,怎麼辦?小兵來測試使用加權的回歸分析。
首先估算權重
加權加權,那我們首先得有權重才行。這個權重可不是隨便指定一個,它應當是隨著觀察數據的變異和變化的。
SPSS提供了【估算權重】的專用菜單,需要用戶指定一個與因變量相關的連續數據變量作為權重計算的基礎。
在SPSS頂部菜單欄打開【分析】【回歸】【權重估算】對話框。
(1)以成本為因變量,以面積、商業街種類、建築師從業年數為自變量;
(2)根據專業知識,本例選擇面積自變量來估計權重,權重為1/權重變量k次方;
(3)命令SPSS幫我們尋找最佳的冪k,本例為快速確認冪k,從[3,5]間以0.1為步長進行尋優;
(4)【選項】按鈕打開,勾選【將最佳權重保存為新變量】;
SPSS執行後我們來看結果:
冪k從3開始,3.1到3.2,依次遞進到5,每次都計算一個對數似然值(不用管它原理),注意標準哦:對數似然值取最大時對應指數就是我們要確認的最佳冪k。顯然本例k取3.5時,對數似然值最大。
因此k=3.5,權重為1/面積變量的3.5次方。這些我們不用自己計算了,SPSS已經幫我們計算並另存為一個新變量。
在SPSS的數據視圖下,我們會看到新增了一個變量,名稱為【WGT_1】這就是我們未來加權的權重數據了。
阿彌陀佛,終於有權重數據了。
開始加權回歸WLS
SPSS菜單欄【分析】【回歸】【線性】。
(1)以成本為因變量,以面積、商業街種類、建築師從業年數為自變量;
(2)以新增的WGT_1為權重變量;
(3)點開【保存】對話框,保存未標準化後的預測值和殘差;
執行加權的線性回歸,來看結果:
前面方差分析結果顯示加權回歸模型有統計學意義(P小於0.01),調整後的R方72.4%,加權的回歸模型解釋能力尚可,具體表格結果此處略。
直接看回歸係數表格。各自變量具有統計學意義。寫出加權的回歸擬合方程如下:
Y=53.44+149.3*面積-26.5*商業街種類-2.2*建築師從業年數
強調一下,加權回歸過程呢不會自動幫我們輸出殘差圖,這需要用戶自行來轉換數據並自行作圖。這一操作略微麻煩一些,不過讀者們千萬不要畏難。
加權回歸輸出的未標準化殘差和預測值,還需要經過轉換後方可用於殘差圖的製作。因此我們需要利用SPSS的【計算變量】功能來轉換回去。目標是生存兩個新的預測值和殘差,轉換的方法是他們本身乘以加權變量的開平方。
Ok,現在做加權回歸的殘差圖。
和未加權回歸殘差相比,加權處理後殘差散點圍繞在ei=0這條直線的上下兩側均勻分布,無明顯規律性變化,說明此處殘差的方差基本能滿足齊次的要求,加權處理起到改善模型的效果。
本文完
文/圖=數據小兵