多元線性回歸的核心問題:應該選擇哪些變量???
AIC = n ln (RSSp/n)+2p
其中:n為變量總個數,p為選出的變量個數(AIC越小越好)
根據上圖中對該數據集作出的線性回歸模型的各個統計量進行分析發現:
這裡使用step函數,R會自動計算原始模型的AIC數值和去除各個變量後AIC的變化情況,從而找到去除模型無關變量,作出更為準確的線性回歸模型。
因為第一次作出的線性回歸模型為全變量的模型,所以這裡使用step進行逐步回歸的時候,只能使用backward或者both方法進行逐步回歸。從而得到在去除無關變量EXAMINATION變量後,得到一個擬合效果更好的線性回歸模型。
例 6.10 某種水泥在凝固時放出的熱量Y(卡/克)與水泥中四種化學成分X1,X2,X3,X4有關,現測得13組數據,如表6.5所示。希望從中選取重要的變量,建立Y關於它們的線性回歸方程。
分析步驟:
首先作出多元線性回歸方程,建立所有變量的回歸模型:
從上述建立的回歸模型可知,從X1到X4四個變量的「顯著性檢驗」一個*都沒有。可見,如果選擇全部變量做回歸方程,效果是很不好的。
下面使用函數step()做逐步回歸:
使用step方法處理後的結果如下:
在使用step函數進行處理的時候,最後一步的操作,無論去掉哪一個變量,AIC值均會升高,因此R軟體終止計算,得到了「最優」的回歸方程。
可見,現在變量X1,X2,X4的「顯著性檢驗」發生了好轉。雖然R2也達到了0.9823,但仍然有不足。在R軟體中,還有兩個函數可以用來做逐步回歸。這兩個函數是add1()和drop1():
從運算結果來看,如果去掉變量X4,AIC值會從24.97增加到25.42,是增加的最少的。另外,除AIC準則外,殘差的平方和也是逐步回歸的重要指標之一,從直觀來看,擬合越好的方程,殘差的平方和應越小。去掉X4,殘差的平方和上升9.93,也是最少的。因此,從這兩個指標來看,應該再去掉變量X4.
這個結果應該還是滿意的,因為所有的檢驗均是顯著的,最後得到「最優」。