【回歸分析】R、R平方與調整後的R平方

2021-02-08 JitLogistics

延伸閱讀:【需求預測】跟蹤信號TS與自平滑跟蹤信號ASTS

延伸閱讀:天真預測NF與預測準確度標杆FTAB

延伸閱讀:量化「不確定性」的三個常用指標

延伸閱讀:構建預測體系的「金字塔」結構

延伸閱讀:說說那些讓企業抓狂的預測準確率

延伸閱讀:怎樣使用季節因子搭配統計預測模型完成基線預測
延伸閱讀:關於供應鏈預測:你/我知道的都太少了(3)
延伸閱讀:安全庫存九宮格法的探討

延伸閱讀:Forecast Validation Meeting預測決策會議

延伸閱讀:庫存計劃如何應對永遠錯誤的銷售預測

延伸閱讀:為何所謂正確的預測幾乎不可能存在?

延伸閱讀:每天只需工作2小時供應鏈人士是如何煉成的

延伸閱讀:需求計劃的工作很閒嗎?

延伸閱讀:ABCXYZ策略分類在需求計劃和供應計劃中的應用

延伸閱讀:2018計劃工作年終總結和2019目標:總監版

延伸閱讀:最實用的呆滯物料處理方案



回歸分析,是對兩個或兩個以上變量之間的因果關係進行定量研究的一種統計分析方法。回歸分析,也是我們進行需求預測常用的一種因果建模方法。


我們做回歸分析時,離不開一個字母「R」。本文向大家介紹R、R平方與調整後的R平方的概念、在回歸分析中作用以及計算方法。

 

一、R,相關係數。

顧名思義,相關係數,是衡量兩個變量之間相關程度的係數,是判定變量之間線性相關性的一個相對指標。相關係數用字母R表示,最早由英國統計學家卡爾·皮爾遜設計並提出。


相關係數R取值在±1之間,當R為0時,表示兩個變量絕對不相關;當R大於0時,兩個變量正相關,即你增加我也增加,你減少我也減少;當R小於0時,兩個變量負相關,即你增加我減少,你減少我增加;當R等於1或-1時,表示兩個變量絕對相關。

相關係數R越接近於±1,兩個變量之間相關性越強。一般認為:當R值為±0.7或更大時,兩個變量高度相關,即強相關;當R值在±0.5~±0.7之間時,兩個變量中度相關;當R值在±0.3~±0.5之間時,兩個變量弱相關;當R值低於±0.3時,說明兩個變量之間幾乎不存在相關關係。


相關係數R在回歸分析中的作用主要有兩點。

1、判斷自變量與因變量的關係,以確定該自變量有沒有納入回歸方程的必要(如果是一元回歸,就是有沒有做回歸分析的必要)。一般情況下,如果R低於±0.5,則這個自變量不需要納入回歸方程。


2、用回歸分析預測,對實際值與預測值進行相關分析,相關係數R代表著回歸方程的精度,也即回歸方程的擬合程度。


另外,說明一下,回歸分析是因果預測常用方法之一,但兩個變量之間有相關關係,並不一定有因果關係,因果關係是相關關係的一種。


相關係數計算公式如下圖。


 

二、R平方,判定係數。

判定係數,又叫決定係數,是指在線性回歸中,回歸可解釋離差平方和與總離差平方和之比值,其數值等於相關係數R的平方。


我們以下圖來解釋這個定義。如下圖所示,當沒有促銷時,銷售預測為平均線A,有促銷產生時,銷售預測為回歸直線L,P點為一定促銷費用時的實際銷售量,與回歸線L相交於y』點,與平均線A相交於O點。


 

如圖,P點到平均線A的距離PO為我們不做回歸分析的離均差,在這裡稱為總離差。P點與回歸線L的垂直交點y』到平均線A的距離y』O,這是我們做了回歸分析後能夠預測到的部分,即回歸模型可解釋的部分,故稱為回歸可解釋離差。全部期間點的回歸可解釋離差平方和除以總離差平方和,即為判定係數R平方。不過,判定係數不用這麼複雜計算,直接將相關係數R進行平方即可。

判定係數是一個解釋性係數,在回歸分析中,其主要作用是評估回歸模型對因變量y產生變化的解釋程度,也即判定係數R平方是評估回歸模型好壞的指標。R平方取值範圍也為0~1,通常以百分數表示。比如回歸模型的R平方等於0.7,那麼表示,此回歸模型對預測結果的可解釋程度為70%。


一般認為,R平方大於0.75,表示模型擬合度很好,可解釋程度較高;R平方小於0.5,表示模型擬合有問題,不宜採用進行回歸分析。


 

三、調整後的R平方,修正自由度的判定係數。

多元回歸實際應用中,判定係數R平方有個最大的問題:增加自變量的個數時,判定係數就會增加,即隨著自變量的增多,R平方會越來越大,會顯得回歸模型精度很高,有較好的擬合效果。而實際上可能並非如此,有些自變量與因變量(即預測)完全不相關,增加這些自變量,並不會提升擬合水平和預測精度。為避免這種現象,調整後的R平方粉墨登場。


R平方的主要問題是未考慮自由度問題,為解決這個問題,為避免增加自變 量而高估R平方,需要對R平方進行調整。採用的方法是用樣本量n和自變量的個數k去調整 R平方。調整後的R平方計算公式如下圖。


 

從以上公式看出,調整後的R平方同時考慮了樣本量(n)和回歸中自變量的個數(k)的影響,這使得調整後的R平方永遠小於R平方,並且調整R平方的值不會由於回歸中自變量個數的增加而越來越接近1。


因調整後的R平方較R平方測算更準確,在回歸分析尤其是多元回歸中,我們通常使用調整後的R平方對回歸模型進行精度測算,以評估回歸模型的擬合度和效果。


一般認為,在回歸分析中,0.5為調整後的R平方的臨界值,如果調整後的R平方小於0.5,則要分析我們所採用和未採用的自變量。另,如果調整後的R平方與R平方存在明顯差異,則意味著所用的自變量不能很好的測算因變量的變化,或者是遺漏了一些可用的自變量。調整後的R平方與R平方間差距越大,模型的擬合越差。


 

以上介紹了與回歸分析相關的幾個係數:相關係數R、判定係數R平方、修正自由度的判定係數「調整後的R平方」。但回歸模型優劣的評定,不僅僅是這三個係數,還需要其它的評價辦法與指標,比如多重共線性、顯著性驗證、方差分析等。後續我將逐步介紹,敬請關注。



延伸閱讀:【需求預測】跟蹤信號TS與自平滑跟蹤信號ASTS

延伸閱讀:天真預測NF與預測準確度標杆FTAB

延伸閱讀:量化「不確定性」的三個常用指標

延伸閱讀:構建預測體系的「金字塔」結構

延伸閱讀:說說那些讓企業抓狂的預測準確率

延伸閱讀:怎樣使用季節因子搭配統計預測模型完成基線預測
延伸閱讀:關於供應鏈預測:你/我知道的都太少了(3)
延伸閱讀:安全庫存九宮格法的探討

延伸閱讀:Forecast Validation Meeting預測決策會議

延伸閱讀:庫存計劃如何應對永遠錯誤的銷售預測

延伸閱讀:為何所謂正確的預測幾乎不可能存在?

延伸閱讀:每天只需工作2小時供應鏈人士是如何煉成的

延伸閱讀:需求計劃的工作很閒嗎?

延伸閱讀:ABCXYZ策略分類在需求計劃和供應計劃中的應用

延伸閱讀:2018計劃工作年終總結和2019目標:總監版

延伸閱讀:最實用的呆滯物料處理方案


相關焦點

  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 理解並分析R與R平方
    數學算法一、數學中的R平方:1、R:一般用來度量數據之間的線性相關性,通常分為三種:Spearman,Pearson和kendall,在SPSS(類似於方差)SSR:回歸平方和(SST-SSE)SSE:殘差平方和(實際值與模型預測值/觀察值之間樣本總的差異)
  • R語言和Python實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?我們期望回歸平方和佔比越大,那麼我們的模型就越好;但是回歸平方和<=總平方和;
  • 對比R語言和Python,教你實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?我們期望回歸平方和佔比越大,那麼我們的模型就越好;但是回歸平方和<=總平方和;
  • R語言 | 回歸分析(一)
    這種分析思路,即所謂的回歸分析(regression analysis)。回歸分析是根據一個或多個預測變量來「預測」結果變量的方法。換句話說,我們可以理解為通過得到的樣本中的自變量和因變量關係,來預測結果的方法。
  • 回歸分析中R方和調整R方的區別
    而且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這兩者有什麼區別?我應該用哪一個?R方和調整R方是兩個評估指標,對於任何一個數據科學的追求者來說,這兩個指標可能會讓他們感到困惑。它們對評估回歸問題都非常重要,我們將深入了解和比較它們。它們各有利弊,我們將在本文中詳細討論。
  • 基於R語言的主成分和因子分析
    主成分滿足的條件:1)每個主成分P都是原變量的線性組合,有多少個原變量就有多少個主成分,任意主成分可以表示成:2)公式中的未知係數aij滿足平方和為1;3)P1是線性組合中方差最大,依次是P2,P3,...Pm,並且各主成分之間互不相關。
  • R語言實戰:回歸
    多層多元線性多變量Logistic泊松Cox比例風險時間序列非線性非參數穩健普通最小二乘 (OLS) 回歸法,包括簡單線性回歸,多項式回歸和多元線性回歸。 擬合回歸模型簡單線性回歸多項式回歸多元線性回歸簡單線性回歸數據集head(women) height weight1 58 1152 59 1173 60 1204 61 1235 62 126
  • 已知電纜平方換算直徑的快速計算公式
    如何計算已知電纜平方數把他換算成直徑數:電纜平方換算直徑的公式是:截面除以圓周率(3.14)再開方,再乘以2.比如2.5平方的直徑是1.785毫米根據圓面積的計算公式,πr=2.5r=2.5/3.14=0.7962r=√0.7962=0.89252r=1.785其他電纜直徑計算以此類推
  • 【每日一題】41.x的平方
    如果你想好答案了請查看解題思路和代碼實現▼·解題思路·二分法,int最大開根號也就46340.9,從0~46340之間找到n,n的平方小於x,n+1的平方大於x。·代碼實現·class Solution {public:    int mySqrt(int x) {        int l = 0, r = x, ans = -1;        while (l <= r) {
  • 三角形外接圓半徑R≥內切圓直徑2r
    設三角形外接圓半徑為R,內切圓半徑為r。那麼有結論:本期提供兩種證明方法。第一種證法利用歐拉公式,即外接圓圓心(外心)與內切圓圓心(內心)距離的平方等於外接圓半徑的平方減去外接圓半徑與內切圓半徑乘積的2倍:
  • R語言:機器學習程序包
    遞歸拆分利用樹形結構模型,來做回歸、分類和生存分析,主要在rpart包(http://cran.r-project.org/web/packages/rpart/index.html)和tree包(http://cran.r-project.org
  • 為什麼萬有引力和距離的平方成反比,就是R方在分母上
    為什麼萬有引力和距離的平方成反比,就是R方在分母上1.對萬有引力而言,元素有這麼幾個。5.萬有引力的形式:F=G*m*M/r^2。6.勢的概念。6.1勢是一個梯度,對引力場而言就是df/dx。6.2是某點,或者某個區域力的落差,勢大表示力的差距大。
  • 【源頭活水】Sparse R-CNN:簡化版fast rcnn
    對於第0個格子的q會和K中的所有向量進行計算,目的是查找某個位置附近有沒有大象,如果有那麼該特徵就會加權輸出,整個過程計算完成後就可以把編碼向量中的大象、狗和貓的編碼嵌入信息提取出來,然後後面接fc進行分類和回歸就比較容易,因為特徵已經對齊了。
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    回歸作為一個廣義的概念,涵蓋了許多變種,R語言中也為其提供了強大而豐富的函數和選項(但顯然選項越多,對初學者越不友好),早在2005年,R中就有200多種關於回歸分析的函數 (https://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf,這個文檔提供了部分回歸分析函數列表,供大家參考)。
  • (案例)線性/非線性回歸分析Matlab算例
    1762 1960 1902 2013 2446 2736 2825];%因變量時間序列數據%生成一個17*2 矩陣,其中第1 列元素均為1,作為常數項的自變量X=[ones(size(x')),x'];%調用一元回歸分析函數,自變量X 包含常數項和因變量,b 是回歸參數估計值,%bint是置信區間,r 和rint 分別表示殘差及殘差對應的置信區間。
  • 從R方談到平方和分解,談到OLS是在幹啥...
    這裡,SSR是殘差平方和,SST是總平方和。最理想的情況,若完全沒有殘差,模型完美擬合,那麼R^2=1;最差的情況,如果回歸模型就是被解釋變量的均值。那其實完全沒有解釋力,殘差平方和等於總平方和,R^2=0。當然,這裡是說有截距項的回歸模型!如果沒有截距,就有可能小於0。
  • R與生物專題 | 第三十五講 R-多元線性回歸
    Error t value Pr(>|t|)(Intercept) 82.43375 6.16185 13.378 < 2e-16 ***Insulin 0.14246 0.01079 13.197 < 2e-16 ***Pregnancies 1.51089 0.38921 3.882 0.000122 ***BMI 0.39216
  • 如右圖所示如果平行四邊形ABCD的面積是10平方釐米,那麼圓的面積
    題目如右圖所示,如果平行四邊形ABCD的面積是10平方釐米,那麼圓的面積是( )平方釐米。我們知道圓的面積公式是:π×半徑的平方。既然半徑無法求出(針對的是小學階段),那麼嘗試求「半徑的平方」試試。觀察圖1可知,平行四邊形的底就是圓的直徑,高就是圓的半徑。解:設圓的半徑是r釐米,則平行四邊形的底是2r釐米,高是r釐米。
  • 一文讀懂 Gage R&R
    如果你的目的是如何做GRR,那麼你只需要兩點即可: 1)了解如何設計測量過程;2)會使用專門的Excel表或者Minitab 分析軟體進行分析。當然,這個計算器正式基於AIAG Gage R&R ANOVA 方法開發出來的,連結如下:http://gagerandr.com/online-gage-rr/anova-gage-rr-calculator/進入網頁後,點擊 load test data (上傳測試數據),如下圖所示,紅色區域將會變成可編輯狀態,這時你就可以把收集的