【R語言教程】線性回歸決定係數R方的計算方法及具體意義 ——【醫學和生物統計】

2021-02-18 杏花開醫學

決定係數(coefficient ofdetermination),有的書上翻譯為判定係數,也稱為擬合優度。

決定係數反應了y的波動有多少百分比能被x的波動所描述,即表徵依變數Y的變異中有多少百分比,可由控制的自變數X來解釋.

表達式:R2=SSR/SST=1-SSE/SST

其中:SST=SSR+SSE,SST(total sum of squares)為總平方和,SSR(regression sum of squares)為回歸平方和,SSE(error sum of squares) 為殘差平方和。

回歸平方和:SSR(Sum of Squares forregression) = ESS (explained sum of squares)

殘差平方和:SSE(Sum of Squares for Error) = RSS(residual sum of squares)

總離差平方和:SST(Sum of Squares fortotal) = TSS(total sum of squares)

SSE+SSR=SST RSS+ESS=TSS

意義:擬合優度越大,自變量對因變量的解釋程度越高,自變量引起的變動佔總變動的百分比高。觀察點在回歸直線附近越密集。取值範圍:0-1.

舉例:

假設有10個點,如下圖:

用R來實現如何求線性方程和R2:

# 線性回歸的方程

mylr = function(x,y){

plot(x,y)

x_mean = mean(x)

y_mean = mean(y)

xy_mean = mean(x*y)

xx_mean = mean(x*x)

yy_mean = mean(y*y)

m = (x_mean*y_mean - xy_mean)/(x_mean^2 - xx_mean)

b = y_mean - m*x_mean

f = m*x+b# 線性回歸方程

lines(x,f)

sst = sum((y-y_mean)^2)

sse = sum((y-f)^2)

ssr = sum((f-y_mean)^2)

result = c(m,b,sst,sse,ssr)

names(result) = c('m','b','sst','sse','ssr')

return(result)

}

x = c(60,34,12,34,71,28,96,34,42,37)

y = c(301,169,47,178,365,126,491,157,202,184)

f = mylr(x,y)

f['m']

f['b']

f['sse']+f['ssr']

f['sst']

R2= f['ssr']/f['sst']

最後方程為:f(x)=5.3x-15.5

R2為99.8,說明x對y的解釋程度非常高。

相關焦點

  • 統計諮詢:決定係數(R方)是否越大越好?
    問題:尊敬的老師您好,想問一下決定係數R2越大越好,但是有沒有說具體的範圍?大於多少就是有意義的?謝謝老師。
  • 相關性分析在SPSS中的具體操作,一文讀懂相關係數的含義及使用——【醫學和生物統計】
    相關性分析介紹生物和醫學統計中,相關分析屬於流程前端的探索性分析,研究變量間關係及性質
  • R語言和Python實現回歸分析
    當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • R與生物專題 | 第三十四講 R-簡單線性回歸模型(2)
    standard error: 96.75 on 391 degrees of freedomMultiple R-squared: 0.3378, Adjusted R-squared: 0.3361F-statistic: 199.4 on 1 and 391 DF, p-value: < 2.2e-16摘要輸出顯示
  • R語言——交叉驗證法計算線性回歸模型擬合優度的第三種R方
    本來打算這周繼續更新一篇LaTex的小短文,但是貌似我已經很久沒有寫R語言相關的東西了。想來想去,今天就寫一篇和R語言有關的,畢竟不能忘記初心呀!凡是學過計量的同學,哪怕只記得一點點皮毛,對於R方和調整R方也應該是再熟悉不過了。R方和調整R方是判斷回歸模型擬合度的最為方便簡單的指標,一般來說,數值越大代表模型的擬合度越好。
  • 醫學統計與R語言:Tobit回歸模型
    subset of inputs for the glm famil醫學統計與R語言:多重線回歸自變量篩選的幾種方法醫學統計與R語言:關聯規則Apriori算醫學統計與R語言:列聯表可視化的4種方醫學統計與R語言:盤它!
  • R語言統計篇:簡單線性回歸
    (x)與因變量(y)之間線性關係的方法,它的目的是擬合出一個線性函數或公式來描述x與y之間的關係。線性回歸是統計學中最基礎、重要、並且被廣泛使用的方法之一。據KD Nuggets網站的調查報告顯示,回歸方程位列Top1,是被數據科學家應用次數最多的方法,據說這樣的領先地位將會持續到2118年!可以這麼說:得回歸者得天下!
  • R與生物專題 | 第三十五講 R-多元線性回歸
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 對比R語言和Python,教你實現回歸分析
    當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • R與生物專題 | 第五十四講 R-樣本量及實驗效能計算
    , power = NULL, alternative =c("two.sided", "less","greater"))其中,n1為第一組的樣本量,n2為第二組的樣本量,其他同pwr.t.test()
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    回歸作為一個廣義的概念,涵蓋了許多變種,R語言中也為其提供了強大而豐富的函數和選項(但顯然選項越多,對初學者越不友好),早在2005年,R中就有200多種關於回歸分析的函數 (https://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf,這個文檔提供了部分回歸分析函數列表,供大家參考)。
  • 醫學統計與R語言:隨機森林與Logistic預測(randomForest vs Logistic regression)
    :配對均值檢驗可視化加label醫學統計與R語言:線性固定效應模型(Linear fix effect model )醫學統計與R語言:Tobit回歸模型醫學統計與R語言:唉,畫個圖!subset of inputs for the glm famil醫學統計與R語言:多重線回歸自變量篩選的幾種方法醫學統計與R語言:關聯規則Apriori算醫學統計與R語言:列聯表可視化的4種方醫學統計與R語言:盤它!
  • R語言 | Pearson、Spearman、Kendall、Polychoric、Polyserial相關係數簡介及R計算
    首先簡介常見的用於描述變量間相關性的係數,包括Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、(Point-)Biserial等。  Pearson相關係數(皮爾森相關)是使用最廣泛的相關性統計量,用於測量兩組連續變量之間的線性關聯程度。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    利用回歸平方和與總離差平方和的比值來說明X與Y的相關性,稱為決定係數,即有:決定係數的開方被稱為相關係數,前面介紹過相關係數r(Excel數據分析工具:協方差與相關係數),計算公式為:兩者的計算結果是完全一致的。相關係數與決定係數都能表示變量之間的線性相關程度,但是相關係數計算更簡便且能表示相關關係的方向。
  • 相關係數簡介及R計算
    首先簡介常見的用於描述變量間相關性的係數,包括Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、(Point-)Biserial等。  Pearson相關係數(皮爾森相關)是使用最廣泛的相關性統計量,用於測量兩組連續變量之間的線性關聯程度。
  • 基於R語言的主成分和因子分析
    主成分滿足的條件:1)每個主成分P都是原變量的線性組合,有多少個原變量就有多少個主成分,任意主成分可以表示成:2)公式中的未知係數aij滿足平方和為1;3)P1是線性組合中方差最大,依次是P2,P3,...Pm,並且各主成分之間互不相關。
  • r語言 檢驗p值 - CSDN
    醫學統計與R語言:對數正態分布與卡方分布醫學統計與R語言:qvalue醫學統計與R語言:Meta 回歸作圖(Meta regression Plot)醫學統計與R語言:aggregate.plot了解一下醫學統計與R語言:有序Probit回歸(Ordered Probit Model)醫學統計與R語言:Probit回歸模型及邊際效應
  • R與生物專題 | 第三十二講 R-回歸分析概述
    回歸分析回歸分析(或回歸模型)是機器學習中監督性學習的方法之一,它是由一個或多個預測變量/自變量(x)的值預測連續性數據類型的結果變量/因變量(y)。當回歸模型中有多個預測變量時,您可能希望選擇預測變量的最佳組合以構建最佳預測模型。這個過程稱為模型選擇,這包括,比較包含不同預測變量集的多個模型,以選擇性能最佳的模型,從而將預測誤差降至最低。
  • R筆記:多重線性回歸(三)_模型評估與診斷
    (1)模型擬合優度評估在模型擬合完畢通過summary()函數可以獲得參數估計表,同時函數也給出了模型的決定係數、校正的決定係數。本例多重線性回歸模型的決定係數R^2=0.2352,即結局變量的總變異中可由回歸模型中解釋變量解釋的部分僅佔23.52%,參見《多重線性回歸(一):模型擬合》。
  • 相關和回歸—SPSS多重線性回歸
    定義模型(確定研究問題、定義變量)⇒適用條件檢驗假設⇒自變量篩選⇒模型和偏回歸係數假設檢驗⇒殘差分析⇒強影響點、高槓桿值和離群點判斷⇒多重共線診斷⇒結論,具體可以查看下面兩個教程,講的比較仔細。模型擬合效果診斷和模型檢驗,通過R方等指標判斷回歸的實際效果;德賓沃森檢驗(Durbin-Watson)對殘差獨立性檢驗(觀測值間獨立性檢驗),如果統計量>2,而自變量個數又少於4個,可以判斷殘差間相互獨立,但是更多應該依據專業判斷觀測值之間是否獨立