線性回歸和最小回歸直線
我們先對一個散點圖隨便增加一個直線,然後計算出數據中散點到直線對應點的距離,將它們的平方加和得到一個平方差。
然後我們旋轉這一條直線,我們按同樣的方式再次計算一遍,因此我們會得到另外的一個平方差。
我們重複之前的步驟:
最後我們會得到一個直線曲率和平方和的對應關係,我們把它們繪製在坐標軸上。
我們可以看出,在某個斜率的時候,平方和取值最小,此時的直線就被稱為最小回歸直線。
那麼我們如何計算關於這個直線的相關量呢?
首先,我們將所有點都壓縮到y軸上,並計算點到平均值的距離並將它們的平方相加,再計算我們需要的另一個統計量,我們會得到:
SS(mean) = (data - mean)^2Var(mean) = SS(mean)/n其中n是樣本容量
我們再計算點到回歸直線相應點的距離的平方和以及我們需要的統計量,我們得到:
SS(fit) = (data - line)^2Var(fit) = SS(fit)/
至此,我們可以計算出R方的值:
R方即是我們認為因變量能夠在多少程度上解釋自變量的值,假設R方等於0.6,那說明我們認為x可以解釋60%的y的變異率。
要注意,做線性回歸至少需要3個點,因為兩點必能確定一條直線。
關於這個直線的置信度(p-value),我們需要計算F值。
計算方法如下:
在本例中,p(fit),p(mean),n分別等於回歸直線的參數個數,截距平均值的參數個數和樣本量,比如y由斜率和截距取得:
因此p(fit)為2, 而p(mean)是縱軸均值計算出來的,y軸所對應變量和變量本身是一個比率為1的正比例函數,因此均值只由一個因素決定,p(mean)在此等於1。
計算後,我們可以通過查F-distribution表來獲取p value並進行假設檢驗。
今天的分享到此為止,
那麼朋友們,再見。