線性回歸 Y = ax + b 的擬合程度,都是用 R 平方來進行判定,所以本篇文章來梳理 R 平方的具體計算方式。
首先,根據這一回歸方程,可以依據自變量 x 的取值來預測因變量 Y 的取值。但預測的精度取決於回歸直線對觀測數據的擬合程度。各個觀測點(也就是訓練集的數據)越是緊密圍繞直線,說明直線對觀測數據的擬合程度越好,反之則越差。
兩個變量的相關分析中,我們用相關係數來衡量,Pearson 相關係數就是 R 值。這個在《相關係數之Pearson》有過介紹。
R 值的作用也很清楚。判斷自變量與因變量的關係,以確定該自變量有沒有納入回歸方程的必要。如果是一元回歸,就是有沒有做回歸分析的必要。一般情況下,如果 R 低於 ±0.5,則這個自變量不需要納入回歸方程。另外一個就是上面說的,衡量預測的精度。
再來介紹下 R 平方。 可以理解為 Pearson 係數的平方,但計算方法是通過類似方差分析的方法得到的。R 平方又叫決定係數,反應因變量 Y 的總變異中回歸關系所能解釋的百分比。如圖,如果 R 平方值 0.6326,代表的是總變異中回歸關係可解釋部分的佔比為 63%。
R 平方的公式如下:
每個觀測點的離差,比較直觀的是直接在坐標系上表現,其中:
是 SSR。也就是因為自變量 x 的變化,引起的 y 的變化,代表回歸關係中可被解釋的部分。
圖:統計學-賈俊平
SSR(回歸平方和):樣本平均值與預測值的差的平方和,由 x 與 y 的線性關係引起的 y 變化,代表回歸關係中可被解釋的部分。
SSE(殘差平方和):樣本觀測值與預測值的差的平方和,除 x 影響之外的其他因素引起的 y 變化,代表回歸關係中不可解釋的部分。
SST(總平方和):樣本觀測值與樣本平均值的差的平方和,代表總的變異程度。
從圖中和公式可以看出,SST = SSR+ SSE ,總變異來自兩個方面的影響,一個是來自因變量 x 的影響(SSR),一個是來自無法預測的殘差幹擾(SST),想要回歸直線擬合的越好,就需要讓能被回歸可解釋的部分(SSR/SST)佔比越高,無法被回歸解釋的部分(SSE/SST)佔比越小。
總結下,平方值是取值範圍在 0 到 1 之間,當趨勢線的 R 平方值等於 1 或接近 1 時,意味著大部分 Y 的總變異可以被回歸方程式的 x 變化所解釋,模型擬合程度的越高,可靠性越高,反之則可靠性較低。