回歸分析中R方和調整R方的區別

2020-11-21 人工智慧遇見磐創

介紹

當我開始我的數據科學之旅時,我探索的第一個算法是線性回歸。

在理解了線性回歸的概念和算法的工作原理之後,我非常興奮地使用它並在問題陳述中做出預測。我相信你們大多數人也會這麼做的。但是一旦我們建立了模型,下一步是什麼呢?

接下來是棘手的部分。一旦我們建立了模型,下一步就是評估它的性能。毋庸置疑,模型評價是一項關鍵性的任務,它凸顯了模型的不足。

選擇最合適的評價指標是一個關鍵的任務。而且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這兩者有什麼區別?我應該用哪一個?

R方和調整R方是兩個評估指標,對於任何一個數據科學的追求者來說,這兩個指標可能會讓他們感到困惑。

它們對評估回歸問題都非常重要,我們將深入了解和比較它們。它們各有利弊,我們將在本文中詳細討論。

目錄

殘差平方和了解R方統計量關於R方統計量的問題調整R方統計量殘差平方和

為了清楚地理解這些概念,我們將討論一個簡單的回歸問題。在這裡,我們試圖根據「花在學習上的時間」來預測「獲得的分數」。學習時間是我們的自變量,考試成績是我們的因變量或目標變量。

我們可以繪製一個簡單的回歸圖來可視化這些數據。

黃點代表數據點,藍線是我們預測的回歸線。如你所見,我們的回歸模型並不能完美地預測所有的數據點。

那麼我們如何利用這些數據來評估回歸線的預測呢?我們可以從確定數據點的殘差開始。

數據中某一點的殘差是實際值與線性回歸模型預測值之間的差值。

殘差圖告訴我們回歸模型是否適合數據。殘差的平方實際上是回歸模型優化的目標函數。

利用殘差值,我們可以確定殘差的平方和,也稱為殘差平方和或RSS。。

RSS值越低,模型預測值越好。或者我們可以這樣說——如果回歸線使RSS值最小化,那麼回歸線就是最佳擬合線。

但這其中有一個缺陷——RSS是一個尺度變量統計。由於RSS是實際值和預測值的平方差之和,因此該值取決於目標變量的大小。

例子:

假設你的目標變量是銷售產品所產生的收入。殘差取決於目標的大小。如果收入大小以「1百盧比」為單位計算的話(即目標可能是1、2、3等),那麼我們可能會得到0.54左右的RSS(假設)。

但是如果收入目標變量以「盧比」為單位(即目標值為100、200、300等),那麼我們可能會得到一個更大的RSS,即5400。即使數據沒有變化,RSS的值也會隨著目標的大小而變化。這使得很難判斷什麼是好的RSS值。

那麼,我們能想出一個更好的尺度不變的統計量嗎?這就是R方出現的地方。

R方統計量

R方統計量是一種尺度不變的統計量,它給出了線性回歸模型解釋的目標變量的變化比例。

這可能看起來有點複雜,所以讓我在這裡把它分解。為了確定模型解釋的目標變化比例,我們需要首先確定以下內容-

平方和(TSS)

目標變量的總變化是實際值與其平均值之差的平方和。

TSS或總平方和給出了Y的總變化量。我們可以看到它與Y的方差非常相似。雖然方差是實際值和數據點之間差的平方和的平均值,TSS是平方和的總和。

既然我們知道了目標變量的總變化量,我們如何確定模型解釋的這種變化的比例?我們回到RSS。

殘差平方和(RSS)

正如我們前面討論的,RSS給出了實際點到回歸線距離的總平方。殘差,我們可以說是回歸線沒有捕捉到的距離。

因此,RSS作為一個整體給了我們目標變量中沒有被我們的模型解釋的變化。

R方

現在,如果TSS給出Y的總變化量,RSS給出不被X解釋的Y的變化量,那麼TSS-RSS給出了Y的變化,並且這部分變化是由我們的模型解釋的!我們可以簡單地再除以TSS,得到由模型解釋的Y中的變化比例。這是我們的R方統計量!

R方=(TSS-RSS)/TSS=解釋變化/總變化 =1–未解釋的變化/總變化

因此,R方給出了目標變量的可變性程度,由模型或自變量解釋。如果該值為0.7,則意味著自變量解釋了目標變量中70%的變化。

R方始終介於0和1之間。R方越高,說明模型解釋的變化越多,反之亦然。

如果RSS值很低,這意味著回歸線非常接近實際點。這意味著自變量解釋了目標變量的大部分變化。在這種情況下,我們會有一個非常高的R方值。

相反,如果RSS值非常高,則意味著回歸線遠離實際點。因此,自變量無法解釋目標變量中的大部分變量。這會給我們一個很低的R方值。

所以,這就解釋了為什麼R方值給出了目標變量的變化量。

關於R方統計量的問題

R方統計並不完美。事實上,它有一個主要缺陷。不管我們在回歸模型中添加多少變量,它的值永遠不會減少。

也就是說,即使我們在數據中添加冗餘變量,R方的值也不會減少。它要麼保持不變,要麼隨著新的自變量的增加而增加。

這顯然沒有意義,因為有些自變量在確定目標變量時可能沒有用處。調整R方處理了這個問題。

調整R方統計量

調整R方考慮了用於預測目標變量的自變量數量。在這樣做的時候,我們可以確定在模型中添加新的變量是否會增加模型的擬合度。

讓我們看看調整R方的公式,以便更好地理解它的工作原理。

在這裡,

n表示數據集中的數據點數量k表示自變量的個數R代表模型確定的R方值因此,如果R方在增加一個新的自變量時沒有顯著增加,那麼調整R方值實際上會減少。

另一方面,如果增加新的自變量,我們看到R方值顯著增加,那麼調整R方值也會增加。

如果我們在模型中加入一個隨機自變量,我們可以看到R方值和調整R方值之間的差異。

如你所見,添加隨機獨立變量無助於解釋目標變量的變化。我們的R方值保持不變。因此,給我們一個錯誤的指示,這個變量可能有助於預測輸出。然而,調整R方值下降,表明這個新變量實際上沒有捕捉到目標變量的趨勢。

顯然,當回歸模型中存在多個變量時,最好使用調整R方。這將使我們能夠比較具有不同數量獨立變量的模型。

結尾

在這篇文章中,我們研究了R方統計值是什麼,它在哪裡不穩定。我們還研究了調整R方。

希望這能讓你更好地理解事情。現在,你可以謹慎地確定哪些自變量有助於預測回歸問題的輸出。

相關焦點

  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    例如,含因子A、B和因變量y的雙因素不平衡因子設計,有三種效應:A和B的主效應,A和B的交互效應。假設你正使用如下表達式對數據進行建模:Y ~ A + B + A : B有三種類型的方法可以分解等式右邊各效應對y所解釋的方差。類型1(序貫型)效應根據表達式中先出現的效應進行調整。A不做調整,B根據A調整,A:B交互項根據A和B調整。
  • R語言——交叉驗證法計算線性回歸模型擬合優度的第三種R方
    想來想去,今天就寫一篇和R語言有關的,畢竟不能忘記初心呀!凡是學過計量的同學,哪怕只記得一點點皮毛,對於R方和調整R方也應該是再熟悉不過了。R方和調整R方是判斷回歸模型擬合度的最為方便簡單的指標,一般來說,數值越大代表模型的擬合度越好。R方的缺點很明顯,當我們在回歸模型中加入更多的回歸自變量時,不管這個回歸自變量能否解釋因變量,R方都會增加。為了克服這個缺點,引入了調整R方。
  • 回歸分析檢驗_回歸分析中f檢驗和t檢驗 - CSDN
    『回歸分析』『線性回歸中的平方誤差』如上圖,線性回歸的平方誤差如下,這裡可以直觀的解釋一下:因為卡方分布是由標準正態分布採樣來的,根據正態分布的曲線,採樣到0附近的概率最大,所以當自由度很小時,卡方分布在靠近0的地方概率就很大,但是隨著自由度的增加,卡方分布的隨機變量變成了很多樣本點的平方和,當然得到0的概率逐漸減小,均值逐漸增大,所以卡方分布的曲線逐漸右移,當自由度n很大時,
  • 用R進行Lasso regression回歸分析
    ridge regression,嶺回歸lasso regression,套索回歸elastic-net regression,彈性網絡回歸這3者的區別就在於正則化的不同,套索回歸使用回歸係數的絕對值之和作為正則項,即L1範式;嶺回歸採用的是回歸係數的平方和,即L2範式;彈性網絡回歸同時採用了以上兩種策略,其正則項示意如下
  • python散點圖中如何添加擬合線並顯示擬合方程與R方?
    numpy.polyfit(x, y, deg, rcond=None, full=False, w=None, cov=False)# x:要擬合點的橫坐標# y:要擬合點的縱坐標# deg:自由度.例如:自由度為2,那麼擬合出來的曲線就是二次函數,自由度是3,擬合出來的曲線就是3次函數首先我們先來構造一下需要被擬合的散點
  • CFA教材輔導:測試多元回歸的顯著性/修正R方
    在本節中,我們進一步討論通過回歸的方差分析來衡量模型的解釋程度等問題。如果回歸模型中沒有任何自變量有助於解釋因變量,則斜率係數應全部等於0。但是,在多元回歸中,我們基於每個斜率係數均等於零的t檢驗方法而檢驗所有斜率係數等於0的原假設是沒有意義的,因為這種檢驗未考慮自變量之間相互作用的影響。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    統計分析和數據挖掘的區別和聯繫聯繫:都來源於統計基礎理論,數據挖掘中也經常會用到統計分析方法,如主成分分析、回歸分析     區別:數據挖掘是統計分析方法的延伸和發展。統計分析常需要先做假設或判斷,然後利用數據分析技術來驗證假設是否成立。
  • 多元逐步回歸分析r方結果解釋_r語言多元回歸篩選變量逐步回歸分析...
    Minitab Express 1.5 for Mac 是一個強大的數據分析軟體,可以運行在Mac系統上軟體可以激活永久使用,支持語言英文;Minitab Express專為教學和學習介紹性統計而設計,包括概率分布
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • r中回歸結果怎麼判定模型好壞_lasso回歸 模型好壞 - CSDN
    模型中不同形式的m(X)會幻化為不同的模型體系,一般可以將模型分為兩大類:m(X)可以幻化為數學公式,即公式模型,一般比較成熟的都是公式模型,例如回歸模型的理論與底蘊就比較完善,模型的假定都是可以進行檢驗的;
  • 為什麼萬有引力和距離的平方成反比,就是R方在分母上
    為什麼萬有引力和距離的平方成反比,就是R方在分母上1.對萬有引力而言,元素有這麼幾個。3.顯然,萬有引力要和質量成正比。3.1即F=C*m*M,C為常數。4.直觀F=GmM與半徑R有一個函數關係。4.1最簡單的函數關係就是正比和反比。4.2考慮反比,但是是幾次方呢?
  • 擬合優度檢驗_擬合優度檢驗r方公式 - CSDN
    Hosmer和Lemeshow的模擬結論是基於使用的,建議如果我們在模型中有10個協變量 。直觀地說,使用較小的g值可以減少檢測錯誤規範的機會。 的數量,並計算預期的0和1的數量。 最受歡迎的見解1.R語言多元Logistic邏輯回歸 應用案例2.面板平滑轉移回歸(PSTR)分析案例實現
  • R語言實現LASSO回歸模型
    我們知道廣義線性模型包括了一維連續因變量、多維連續因變量、非負次數因變量、二元離散因變量、多元離散因變等的回歸模型。然而LASSO對以上的數據類型都適合,也可以說LASSO 回歸的特點是在擬合廣義線性模型的同時進行變量篩選(variable selection)和複雜度調整(regularization)。
  • 每天學習一點R:44.卡方檢驗
    實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。卡方檢驗在R中由chisq.test函數完成。
  • SPSS超詳細操作:卡方檢驗(R*C列聯表)
    今天我們再和大家分享一下,如何用SPSS來做RxC列聯表的卡方檢驗。研究者擬分析購房人與購房類型的關係,共招募了在過去12個月中有過購房記錄的333位受試者,收集了購房人類型(buyer_type)和房屋類型(property_type)的變量信息。
  • 多元線性回歸如何提高r方_多元線性回歸分析的r語言實現rstudio...
    為準確預測元寶山露天煤礦湧水量,提高煤礦生產安全係數,基於礦區多降雨量和煤炭產量實測數據,以降雨量和煤炭產量為湧水量影響因子,運用水文地質比擬法和多元非線性回歸分析法,分別建立礦區湧水量預測模型
  • r語言的p值檢驗 - CSDN
    醫學統計與R語言:對數正態分布與卡方分布醫學統計與R語言:qvalue醫學統計與R語言:Meta 回歸作圖(Meta regression Plot)醫學統計與R語言:aggregate.plot了解一下醫學統計與R語言:有序Probit回歸(Ordered Probit Model)醫學統計與R語言:Probit回歸模型及邊際效應
  • 方臉和國字臉的區別,方臉怎麼變成瓜子臉?
    方臉怎麼變成瓜子臉?在這個看臉的時代,每個人都想要瘦臉,可是臉型不是說變就能變的,尤其是方臉和國字臉,可能很多人還搞不清方臉和國字臉的區別,今天就從方臉和國字臉的區別入手,來說說方臉的人要怎麼變成瓜子臉。方臉和國字臉的區別是臉型不同。
  • 1500r和1800r曲率對比分析 淺談曲率的變化
    1500r和1800r曲率對比分析 淺談曲率的變化 工程師譚軍 發表於 2018-09-05 09:18:41   本文主要是關於1500r和1800r曲率的相關介紹,並著重對1500r和1800r曲率以及曲率數字的變化進行了詳盡的闡述
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。