(多元回歸中,education前面的係數由3909.91變為1020.39,思考原因)
(從統計角度出發考慮,可能是一個中介模型)
多元回歸的標準回歸方程(一元回歸,標準回歸係數等於相關係數)。
交互項如果顯著,說明begin對salary的影響會在minority的不同水平上有不同影響。要分開列方程,否則不用分開。此例中交互項不顯著,不用分開列兩個回歸方程。
兩個分類自變量回歸的F值(虛擬變量,K-1,實際是三個變量)與三分類變量方差分析的F值相同。回歸方程的F檢驗是檢驗方程的有效性。
共線性:交互項乘積和其中一個變量的相關性高。中心化:變量的觀測值分別減去平均數。
沒有x值,但是標準化預測值(Zpre)包含了x的信息。
理想:圍繞著0正態分布,0附近最多。
異方差性:自變量對應的Y的值方差不齊,有的大,有的小。
自相關:各次觀察的殘差相關不獨立。
差分法:使用第二次和第一次的差值作為第一個自變量。
左上角是理想型,右上角是異方差性。
左下是線性回歸模型不對,可能是曲線回歸。
右下是自相關,往往出現在追蹤數據中。
變量變換:對數變換。
增加樣本量:異常是因為取值太少了。
非線性模型,曲線模型。
WLS,不滿足OLS,用其他的參數估計方法。
自變量不是因,因變量不是果。
Xy與x/y相關性強,存在共線性。中心化後,相關變弱。調節模型,XY要做中心化。
不能簡單地只看R平方。
用二次方,倒數還是對數?要結合理論。
模型要可以預測其他更多的點。
係數要有意義,模型參數具有物理意義。因而一般不選用三次方以上模型,參數難以解釋。(二次方體現了變化率)。
選用3個變量預測少的的還是90多個變量預測多的?要根據實際情況,預測地震,會選擇90多個變量的模型,考慮簡潔性,選擇前者。要根據實際需要來選擇。
增加觀測值。
回歸方程一樣,但是散點圖不一致
圖4不適合做回歸
圖2適合做線性回歸
啟發:對數據的描述是更基礎的,不要拿到數據就去做回歸。要看看極端值、離群值和數據的大致形態。
以上內容摘自wenjianbing老師課件。
……未完待續