R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小
上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合,了解了直線擬合和曲線擬合的一般方法,但是如何衡量線性擬合的效果呢?
數據擬合後的效果由兩個參數來衡量:一個是R2,另一個是p值。
R2是擬合所能解釋的數據波動的比例由於隨機誤差和變量效應的存在,對於任何任何測定數據相應變量Y,它的值都可以由變量效應X以及隨機誤差來表示:Y=X+Error或者Y=X1+X2+X3+...+Error。
假如一次擬合後,數據波動大幅下降,那麼就可以說這個擬合可以很好的解釋數據趨勢,而這個數據波動下降的比例就是R2。在上一節的「擬合基礎」中,已經知道直線擬合的經典方法是最小二乘法,而最小二乘法的基本思想就是讓擬合後的數據點同原數據之間的殘差平方和(Sum of Squared Residuals,SS)最小,而R2的計算也就是根據擬合前後的殘差平方和計算出來的。
以小鼠大小與小鼠重量之間的關係為例(例子1),數據點見「下圖 小鼠大小與小鼠重量」,則擬合方程的R2就等於[SS(mean)-SS(fit)] / SS(mean)。
具體來說,SS(mean)是小鼠大小的總波動性衡量,也就是"下圖 小鼠大小的平均值"所示的數據點同平均值之間的平方殘差之和(殘差是平均值同數據點之間的差值)。
SS(fit)代表擬合後,也就是將小鼠重量納入考慮後小鼠大小的波動性大小。
所以SS(mean)-SS(fit)就代表了擬合所解釋的波動性大小,而R2自然就代表了擬合所解釋的數據波動比例。
為何SS(mean)可以代表小鼠大小的總波動性?
一組數據在不進行擬合的時候,可以使用平均值來衡量,所以所有點同mean之間的殘差平方和就是數據的總波動大小。
對於此例來說,SS(mean)=100,SS(fit=40),所以R2 = (100-40)/100=60%,表明擬合後可以很好的降低數據波動,也就是說將小鼠重量納入模型後,它就可以解釋60%的原數據波動情況。
StatQuest-week10-1其實更一般的情況下,數據波動應該是由方差來衡量的,也就是說R2=[Var(mean)-Var(fit)] / Var(mean),Var(mean)是總方差,Var(fit)是擬合後的方差。
其中,Var(mean)=SS(mean)/n,Var(fit)=SS(fit)/n,n是樣本量大小。
只是由於擬合前後的樣本量都是一樣的,所以才可以使用R2=[SS(mean)-SS(fit)] / SS(mean)取代。
p值是擬合只是隨機變異的可能性大小知道了R2的統計學意義之後,再來看模型的p值的統計學意義是什麼。
考慮一下下述情況,對於樣本量是2的數據,那麼由於兩點之間必有一條直線,所以此時的擬合會得到很高的R2,R2=100%,然而我們知道這是沒有什麼意義的,為了更一步的區分這種情況,就需要引入另一個概念p值,它代表有多大的可能性表明本次擬合只是一次隨機事件。
擬合的p值是根據F檢驗得出來的,也就是說需要計算F統計量,
F =Var(fit)/Var(non-fit)=[SS(mean)-SS(fit)/(Num.fit-Num.mean)]/[SS(fit)/n-Num.fit]
其中SS(mean)和SS(fit)都是指的殘差平方和。Num.fit是指的擬合方程式的參數數量,對於例子1小鼠大小來說參數有兩個:截距和小鼠重量。Num.mean是指的不進行擬合時的參數數量,參數只有平均值,因此數量為1。
知道了F統計量,如何計算p值呢?
首先需要知道p值是如何計算的,p值是3個事件概率的加和:當前事件的發生的概率、同當前事件發生概率相同的事件概率以及小於當前事件發生概率的事件概率。
舉例來說,假如下圖代表2000年中國女性的平均身高,其中低於142cm和高於169cm的人的概率是一樣的,各2.5%。那麼「事件一個人的身高大於169」的p值就等於P(Height>169)+P(Height<142)=0.05。
而對於F檢驗來說,如下圖,它是例子1擬合的F曲線(概率密度曲線),F曲線是由自由度決定的,也就是由(Num.fit-Num.mean)和(n-Num.fit)決定。
下圖中F=5.32右側概率為0.05,那麼例子1中的擬合若想有統計學意義,F值必須大於5.32。
假定已經計算出例子1的F值為8,那麼p值就等於F=8右側的概率0.022。由於p值小於0.05,因此是統計學上的小概率事件,所以不太可能是偶爾發生的隨機事件,而是擬合有統計學意義。
StatQuest-week10-4參考資料
StatQuest課程:https://statquest.org/video-index/
猜你喜歡
生信基礎知識100講
生信菜鳥團-專題學習目錄(5)
還有更多文章,請移步公眾號閱讀
▼ 如果你生信基本技能已經入門,需要提高自己,請關注下面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。
▼ 如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。