StatQuest生物統計學 - 線性擬合的R2和p值

2021-01-14 生信菜鳥團

R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小

上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合,了解了直線擬合和曲線擬合的一般方法,但是如何衡量線性擬合的效果呢?

數據擬合後的效果由兩個參數來衡量:一個是R2,另一個是p值。

R2是擬合所能解釋的數據波動的比例

由於隨機誤差和變量效應的存在,對於任何任何測定數據相應變量Y,它的值都可以由變量效應X以及隨機誤差來表示:Y=X+Error或者Y=X1+X2+X3+...+Error。

假如一次擬合後,數據波動大幅下降,那麼就可以說這個擬合可以很好的解釋數據趨勢,而這個數據波動下降的比例就是R2。在上一節的「擬合基礎」中,已經知道直線擬合的經典方法是最小二乘法,而最小二乘法的基本思想就是讓擬合後的數據點同原數據之間的殘差平方和(Sum of Squared Residuals,SS)最小,而R2的計算也就是根據擬合前後的殘差平方和計算出來的。

以小鼠大小與小鼠重量之間的關係為例(例子1),數據點見「下圖 小鼠大小與小鼠重量」,則擬合方程的R2就等於[SS(mean)-SS(fit)] / SS(mean)。

具體來說,SS(mean)是小鼠大小的總波動性衡量,也就是"下圖 小鼠大小的平均值"所示的數據點同平均值之間的平方殘差之和(殘差是平均值同數據點之間的差值)。

SS(fit)代表擬合後,也就是將小鼠重量納入考慮後小鼠大小的波動性大小。

所以SS(mean)-SS(fit)就代表了擬合所解釋的波動性大小,而R2自然就代表了擬合所解釋的數據波動比例。

為何SS(mean)可以代表小鼠大小的總波動性?

一組數據在不進行擬合的時候,可以使用平均值來衡量,所以所有點同mean之間的殘差平方和就是數據的總波動大小。

對於此例來說,SS(mean)=100,SS(fit=40),所以R2 = (100-40)/100=60%,表明擬合後可以很好的降低數據波動,也就是說將小鼠重量納入模型後,它就可以解釋60%的原數據波動情況。

StatQuest-week10-1

其實更一般的情況下,數據波動應該是由方差來衡量的,也就是說R2=[Var(mean)-Var(fit)] / Var(mean),Var(mean)是總方差,Var(fit)是擬合後的方差。

其中,Var(mean)=SS(mean)/n,Var(fit)=SS(fit)/n,n是樣本量大小。

只是由於擬合前後的樣本量都是一樣的,所以才可以使用R2=[SS(mean)-SS(fit)] / SS(mean)取代。

p值是擬合只是隨機變異的可能性大小

知道了R2的統計學意義之後,再來看模型的p值的統計學意義是什麼。

考慮一下下述情況,對於樣本量是2的數據,那麼由於兩點之間必有一條直線,所以此時的擬合會得到很高的R2,R2=100%,然而我們知道這是沒有什麼意義的,為了更一步的區分這種情況,就需要引入另一個概念p值,它代表有多大的可能性表明本次擬合只是一次隨機事件。

StatQuest-week10-2

擬合的p值是根據F檢驗得出來的,也就是說需要計算F統計量,

F =Var(fit)/Var(non-fit)=[SS(mean)-SS(fit)/(Num.fit-Num.mean)]/[SS(fit)/n-Num.fit]

其中SS(mean)和SS(fit)都是指的殘差平方和。Num.fit是指的擬合方程式的參數數量,對於例子1小鼠大小來說參數有兩個:截距和小鼠重量。Num.mean是指的不進行擬合時的參數數量,參數只有平均值,因此數量為1。

知道了F統計量,如何計算p值呢?

首先需要知道p值是如何計算的,p值是3個事件概率的加和:當前事件的發生的概率、同當前事件發生概率相同的事件概率以及小於當前事件發生概率的事件概率。

舉例來說,假如下圖代表2000年中國女性的平均身高,其中低於142cm和高於169cm的人的概率是一樣的,各2.5%。那麼「事件一個人的身高大於169」的p值就等於P(Height>169)+P(Height<142)=0.05。

StatQuest-week10-3

而對於F檢驗來說,如下圖,它是例子1擬合的F曲線(概率密度曲線),F曲線是由自由度決定的,也就是由(Num.fit-Num.mean)和(n-Num.fit)決定。

下圖中F=5.32右側概率為0.05,那麼例子1中的擬合若想有統計學意義,F值必須大於5.32。

假定已經計算出例子1的F值為8,那麼p值就等於F=8右側的概率0.022。由於p值小於0.05,因此是統計學上的小概率事件,所以不太可能是偶爾發生的隨機事件,而是擬合有統計學意義。

StatQuest-week10-4

參考資料

StatQuest課程:https://statquest.org/video-index/

 猜你喜歡

生信基礎知識100講

生信菜鳥團-專題學習目錄(5)

還有更多文章,請移步公眾號閱讀

▼ 如果你生信基本技能已經入門,需要提高自己,請關注下面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。

▼ 如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。

    



相關焦點

  • ...與曲線擬合,直接在圖上添加擬合曲線、擬合方程、判別係數R2和P值
    1、什麼是線性擬合?線性擬合,顧名思義,針對兩組數據或多組數據,找出一條最佳擬合直線,常用於處理與自變量呈線性關係的因變量。線性擬合是數據處理的常用方法,擬合的目的是對呈現一定數值關係的因變量與自變量找出最佳擬合方程,一般用線性回歸來實現。2、什麼是曲線擬合?
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    簡單線性回歸主要採用R²衡量模型擬合效果,而調整後R²用於修正因自變量個數的增加而導致模型擬合效果過高的情況,它多用于衡量多重線性回歸分析模型的擬合效果。線性回歸方差分析表的主要作用是通過F檢驗來判斷回歸模型的回歸效果,即檢驗因變量與所有自變量之間的線性關係是否顯著,用線性模型來描述它們之間的關係是否恰當。
  • 深度研究:回歸模型評價指標R2_score
    預備知識 搞清楚R2_score計算之前,我們還需要了解幾個統計學概念。則:回歸平方和:SSR即估計值與平均值的誤差,反映自變量與因變量之間的相關程度的偏差平方和殘差平方和:SSE即估計值與真實值的誤差,反映模型擬合程度總離差平方和:SST即平均值與真實值的誤差,反映與數學期望的偏離程度
  • 機器學習與統計學:R方代表什麼?和P值的關係是什麼?
    作者:掛枝兒 原文:https://zhuanlan.zhihu.com/p/110886609 我們在做邏輯回歸或是其他線性模型的時候,經常會遇到一個模型衡量指標叫做 ,網上很多一個普遍的解釋是: 表達了2個變量間關係的解釋程度百分比程度
  • 回歸方程的擬合優度檢驗 - CSDN
    相信大家如果學過高中生物,都知道孟德爾——遺傳學之父,當時他根據顏色和形狀把豌豆分為四類:黃圓、綠圓、黃皺和綠皺.孟德爾根據遺傳學原理判斷這四類的比例應為9:3:3:1.為做驗證,孟德爾分別統計了這四類豌豆的個數,正是利用檢驗證明了這令人激動的結論在處理分類數據時,這些類別值本身對統計檢驗沒有多大用處,比如像「男性」、「女性」和「其他」這樣的類別數據沒有任何數學意義。
  • f值 mse p值 ssr 線性回歸 - CSDN
    回歸分析--多元回歸介紹一下多元回歸分析中的統計量總觀測值 總自變量 自由度:回歸自由度 ,殘差自由度  SST總平方和                  SSR回歸平方和
  • 線性擬合與曲線擬合,直接在圖上添加擬合曲線、擬合方程、判別係數...
    1、什麼是線性擬合?線性擬合,顧名思義,針對兩組數據或多組數據,找出一條最佳擬合直線,常用於處理與自變量呈線性關係的因變量。線性擬合是數據處理的常用方法,擬合的目的是對呈現一定數值關係的因變量與自變量找出最佳擬合方程,一般用線性回歸來實現。
  • 一文教你全面掌握用Python實現線性回歸
    所有建模任務都是在自變量和因變量存在一定關聯的假設下進行的。而零假設則正好相反,也就是說自變量和因變量之間沒有任何關聯。因此,算出每一個係數的p值就能得知,從數據值上來說,該變量對於預估因變量是否重要。一般來說,如果p值小於0.05,那麼自變量和因變量就之間存在強烈關係。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯著的風險增加48%(p值為0.091)。而對比前一組,聲稱結果呈現顯著性的研究,風險比也是1.2。他們的研究只是更加精確,風險間隔區間在9%到33%之間(p值為0.0003)。
  • 線性回歸中+t值的含義_線性回歸 y截距p值的計算 - CSDN
    線性回歸模型的基本特性就是:模型是參數的線性函數。最簡單的線性回歸模型當然是模型是參數的線性函數的同時,也是輸入變量的線性函數,或者叫做線性組合。對於線性模型而言,一般所選擇的損失函數是平方損失。由於模型是線性的,所以在模式識別和機器學習的實際應用中存在非常大的局限性,特別是當輸入向量的維度特別高的時候,其局限性就更為明顯。但同時,線性模型在數學分析上相對較為簡單,進而成為了很多其他的複雜算法的基礎。
  • 擬合優度 - CSDN
    統計學上,我們把這個因素引起的y的變差平方和稱為「回歸平方和」(regression sum of squares,SSR)。 對於由隨機因素造成的y的變差平方和稱為「剩餘平方和」(errors sum of squares,SSE)。
  • 如何找到時序數據中線性的趨勢
    最初的趨勢可能不是線性的。讓我們計算數據和我們提取的趨勢之間的RMSE和R。但問題是:即使我們擬合的曲線是高次多項式,我們仍然可以用線性回歸來找到它。考慮這個二次表達式:y = a + bx + cx我們要找的值是a, b, c,和他們都是線性的。忘記x的權重,我們看的是權重,b和c,所以線性回歸——它只是發生,我們將不得不在多個維度做線性回歸。
  • 擬合優度專題及常見問題 - CSDN
    統計學上,我們把這個因素引起的y的變差平方和稱為「回歸平方和」(regression sum of squares,SSR)。 對於由隨機因素造成的y的變差平方和稱為「剩餘平方和」(errors sum of squares,SSE)。
  • 簡單線性回歸模型
    3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。當模型擬合成功後,我們使用summary()函數來得到擬合的具體結果。而其他常用的獲取線性回歸模型擬合結果的函數如下表所示。
  • 你真的懂p值嗎? 說人話的統計學
    轉自:協和八
  • 線性回歸擬合優度的度量:R平方
    線性回歸 Y = ax + b 的擬合程度,都是用 R 平方來進行判定,所以本篇文章來梳理 R 平方的具體計算方式
  • matlab插值擬合(二)
    1 基於最小二乘法的多項式擬合函數:polyfitp = polyfit(x,y,n),待擬合的多項式為p(1)*x^n + p(2)*x^(n-1) +…+ p(n)*x + p(n+1),其中x是擬合數據的自變量,y是因變量,n是擬合多項式的階數,如當n為1時,即為一次線性擬合。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。