Merry Christmas · Merry Christmas · Merry Christmas · Merry
聖誕襪是要用來裝禮物的,所以是小朋友最喜歡的東西,晚上他們會將自己的襪子掛在床邊,等待第二天早上收禮。
Merry Christmas · Merry Christmas · Merry Christmas · Merry
今日學習:殘差到底是個什麼鬼?我們為什麼要做殘差分析?
一年一度的中質協黑帶考試成績已經公布,一顆懸著的心終於可以放下來!
但是精益六西格瑪的實踐才剛剛開始。大家好,我想大家在回歸分析中,方差分析中,DOE分析中都會碰到殘差分析,那麼什麼是殘差?什麼是殘差分析?什麼又是標準化殘差?分析的意義在哪裡?回歸模型是怎麼出來的呢?
本期主要說明一個知識點:殘差和標準化殘差
一、殘差的定義(殘差到底是什麼鬼?)
殘差:實際值和擬合值殘留的距離(如上圖所示)
二、殘差分析的定義
在 回歸模型y=β0+β1+e中,假定e的期望值為0,並且方差相等服從正態分布的一個隨機變量。但是,如果關於e的假設不成立,此時所做的檢驗以及估計和預測都站不住腳。確定有關e假定是否成立的分析方法之一:殘差分析(residual analysis)。
三、為什麼要進行殘差分析?
用最小二乘法進行回歸分析的人都知道,在回歸分析後的結果都要進行殘差圖(Residual Plots)分析驗證模型的有效性,那 為什麼我們要進行殘差分析呢?分析出來的 殘差圖又是如何看呢?
Response=(Constant+Predictors)+Error
響應(Response)=確定性(Deterministic)+隨機性(Stochastic)
確定性部分(The Deterministic Portion)
在預測模型中,該部分是由關於預測自變量的函數組成,其中包含了回歸模型中所有可解釋、可預測的信息。
隨機誤差(The Stochastic Error)
Stochastic 這個詞很牛逼,其不僅蘊含著隨機性(random),還有不可預測性(unpredictable)。這兩點放在一起,就是在告訴我們回歸模型下的預測值和觀測值之間的差異必須是隨機不可預測的。換句話說,在誤差(error)中不應該含有任何可解釋、可預測的信息(這也就是不能出現規則形狀的原因)。
所以、模型中的確定性部分應該是可以很好的解釋或預測任何現實世界中固有的隨機響應。如果你在隨機誤差中發現有可解釋的、可預測的信息,那就說明你的預測模型缺少了些可預測信息。那麼殘差圖(residual plots)就可以幫助你檢查是否模型OK。(參考以下四個殘差圖)
四、殘差和標準化殘差
1、殘差
殘差(residual)是因變量的觀測值Yi與根據估計的回歸方程求出的預測Yi^ 之差,用e表示。反映了用估計的回歸方程去預測yi而引起的誤差。第i個觀察值的殘差為:ei=yi-yi^(文章開頭的示意圖理解更直接)
2、標準化殘差
標準化殘差(standardized residual)是殘差除以其標準差後得到的值,也稱為Pearson殘差或半學生化殘差(semi-studentized residuals),用Ze表示,第i個觀察值 標準化殘差為:
(Se是殘差的標準化估計)其實就是殘差除以殘差的標準差。
如果誤差項e服從正態分布的這一假定成立,則標準化殘差的分布也服從正態分布,大約有95%的標準化殘差在-2和2之間。(中心極限定理)
標準化殘差意義:
標準化殘差遵從標準正態分布N(0,1)。實驗點的標準化殘差落在(-2,2)區間以外的概率≤0.05。若某一實驗點的標準化殘差落在(-2,2)區間以外,可在95%置信度將其判為異常實驗點,不參與回歸直線擬合。
最後我們再看看Minitab輸出的殘差和標準化殘差
如果您還有殘差有關的問題,歡迎大家一起探討學習。