線性回歸擬合優度的度量:R平方

2021-01-15 Python面面觀

線性回歸 Y = ax + b 的擬合程度,都是用 R 平方來進行判定,所以本篇文章來梳理 R 平方的具體計算方式。

首先,根據這一回歸方程,可以依據自變量 x 的取值來預測因變量 Y 的取值。但預測的精度取決於回歸直線對觀測數據的擬合程度。各個觀測點(也就是訓練集的數據)越是緊密圍繞直線,說明直線對觀測數據的擬合程度越好,反之則越差。

兩個變量的相關分析中,我們用相關係數來衡量,Pearson 相關係數就是 R 值。這個在《相關係數之Pearson》有過介紹。

R 值的作用也很清楚。判斷自變量與因變量的關係,以確定該自變量有沒有納入回歸方程的必要。如果是一元回歸,就是有沒有做回歸分析的必要。一般情況下,如果 R 低於 ±0.5,則這個自變量不需要納入回歸方程。另外一個就是上面說的,衡量預測的精度。

再來介紹下 R 平方。 可以理解為 Pearson 係數的平方,但計算方法是通過類似方差分析的方法得到的。R 平方又叫決定係數,反應因變量 Y 的總變異中回歸關系所能解釋的百分比。如圖,如果 R 平方值 0.6326,代表的是總變異中回歸關係可解釋部分的佔比為 63%。

R 平方的公式如下:

image.png

每個觀測點的離差,比較直觀的是直接在坐標系上表現,其中:

是 SSR。也就是因為自變量 x 的變化,引起的 y 的變化,代表回歸關係中可被解釋的部分。

圖:統計學-賈俊平

SSR(回歸平方和):樣本平均值與預測值的差的平方和,由 x 與 y 的線性關係引起的 y 變化,代表回歸關係中可被解釋的部分。

SSE(殘差平方和):樣本觀測值與預測值的差的平方和,除 x 影響之外的其他因素引起的 y 變化,代表回歸關係中不可解釋的部分。

SST(總平方和):樣本觀測值與樣本平均值的差的平方和,代表總的變異程度。

從圖中和公式可以看出,SST = SSR+ SSE ,總變異來自兩個方面的影響,一個是來自因變量 x 的影響(SSR),一個是來自無法預測的殘差幹擾(SST),想要回歸直線擬合的越好,就需要讓能被回歸可解釋的部分(SSR/SST)佔比越高,無法被回歸解釋的部分(SSE/SST)佔比越小。

總結下,平方值是取值範圍在 0 到 1 之間,當趨勢線的 R 平方值等於 1 或接近 1 時,意味著大部分 Y 的總變異可以被回歸方程式的 x 變化所解釋,模型擬合程度的越高,可靠性越高,反之則可靠性較低。

相關焦點

  • 擬合優度 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • R語言——交叉驗證法計算線性回歸模型擬合優度的第三種R方
    R方和調整R方是判斷回歸模型擬合度的最為方便簡單的指標,一般來說,數值越大代表模型的擬合度越好。R方的缺點很明顯,當我們在回歸模型中加入更多的回歸自變量時,不管這個回歸自變量能否解釋因變量,R方都會增加。為了克服這個缺點,引入了調整R方。兩者的計算方法如下,其中分子為擬合值和實際值的差值的平方的和。大部分的初級和中級的計量課本都只會介紹這兩種R方,但實際上,還存在第三種R方。
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • python多重線性回歸分析
    回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性回歸分析。用途:線性回歸,主要用來做預測分析,例如預測未來一周天氣、下一季度月銷售量,銷售額,身高和體重的配比,等等問題..........
  • 一元線性回歸顯著性檢驗專題及常見問題 - CSDN
    (11)  因為總平方和反映因變量 y 的波動程度或稱不確定性,在建立了 y 對 x 的線性回歸後,總平方和SST就分解成回歸平方和SSR與殘差平方和SSE這兩部分越大,線性回歸越好,所以定義樣本決定係數r2: 回歸平方和與總離差平方和之比。
  • 理解並分析R與R平方
    1、R:一般用來度量數據之間的線性相關性,通常分為三種:Spearman,Pearson和kendall,在SPSS中也能直接使用,R的定義如下圖公式(1)所示:(1)R數學公式2、R_square:R_square起源於數學統計上,在一個線性模型中,我們通常使用它去評估該模型線性擬合度的高低,對於R_square的定義如下圖公式(2)所示,其中SST:總平方和(類似於方差)
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 擬合優度專題及常見問題 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • r語言多元線性回歸相關性_多元線性回歸調整相關性 - CSDN
    多元線性回歸多元線性回歸的核心問題:應該選擇哪些變量???RSS(殘差平方和)與R2  (相關係數的平方)選擇法:遍歷所有可能的組合,選出使RSS最小,R2  最大的模型。
  • 線性擬合與曲線擬合,直接在圖上添加擬合曲線、擬合方程、判別係數...
    1、什麼是線性擬合?線性擬合,顧名思義,針對兩組數據或多組數據,找出一條最佳擬合直線,常用於處理與自變量呈線性關係的因變量。線性擬合是數據處理的常用方法,擬合的目的是對呈現一定數值關係的因變量與自變量找出最佳擬合方程,一般用線性回歸來實現。
  • 線性回歸與最小二乘法
    線性回歸模型是使用最廣泛的模型之一,也最經典的回歸模型,如下所示x軸表示自變量x的值,y軸表示因變量y的值,圖中的藍色線條就代表它們之間的回歸模型
  • SPSS多元線性回歸案例:回歸分析方法實戰
    1.線性回歸(Linear Regression)線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關係。
  • 回歸方程的顯著性檢驗 - CSDN
    of squares for total, , Lyy),其度量了觀測值中總的變異性。∵ 自由度有可加性∴                    (11)  因為總平方和反映因變量 y 的波動程度或稱不確定性,在建立了 y 對 x 的線性回歸後,總平方和SST就分解成回歸平方和SSR與殘差平方和SSE這兩部分,其中SSR是由回歸方程確定的,也就是由自變量
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • 深入研究線性回歸
    當我說到「線性回歸」時,大多數人開始想到的是最小二乘法(OLS)。如果你不熟悉這個術語,下面的方程可能會有幫助:學過最小二乘法嗎?如果學過,那麼你就走在正確的道路上了。但是線性回歸不僅僅是最小二乘法。首先,讓我們更仔細地看看最小二乘法。
  • 回歸係數顯著性t檢驗 - CSDN
    of squares for total, , Lyy),其度量了觀測值中總的變異性。∵ 自由度有可加性∴                    (11)  因為總平方和反映因變量 y 的波動程度或稱不確定性,在建立了 y 對 x 的線性回歸後,總平方和SST就分解成回歸平方和SSR與殘差平方和SSE這兩部分,其中SSR是由回歸方程確定的,也就是由自變量
  • spss 方法 線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • spss多元線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • t檢驗回歸方程專題及常見問題 - CSDN
    of squares for total, , Lyy),其度量了觀測值中總的變異性。∵ 自由度有可加性∴                    (11)  因為總平方和反映因變量 y 的波動程度或稱不確定性,在建立了 y 對 x 的線性回歸後,總平方和SST就分解成回歸平方和SSR與殘差平方和SSE這兩部分,其中SSR是由回歸方程確定的,也就是由自變量
  • 評價線性模型,R平方是個好裁判嗎? | 協和八
    更進一步來講,在線性模型中選擇包括哪些變量,其實就是選擇模型本身——確定了變量,我們就可以用最小二乘法算出回歸係數, 同時模型的預測值也就確定了。換句話說,選擇變量的過程也就是在構建模型的過程。那麼,面對一個具體問題的時候,我們到底應該怎樣決定在線性模型中要包含哪些變量?