01 擬合優度是什麼?
下面言歸正傳,敲黑板、劃重點了啊!
所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。
02 擬合優度是怎麼來的?
英國統計學家F.Galton研究父親身高和其成年兒子身高的關係時,從大量的樣本觀測值的散點圖中,天才般地發現了一條貫穿其中的直線,這條直線能夠描述父親和成年兒子身高之間的關係。F.Galton把這種現象叫做「回歸」,這條貫穿數據點的線稱為「回歸線」。
當然,F.Galton還發現,即便父親身高都相同,他們的成年兒子身高也不盡相同。這就是說:成年兒子身高的差異會受到兩個因素的影響:一個是他父親身高的影響;另一個是其他隨機因素的影響。
那麼,我們可以這麼理解,即「回歸方程」中的被解釋變量y的各觀測值之間的差異,也是由兩個方面原因造成的:一是由解釋變量x的不同取值造成的;二是由其他隨機因素所造成的。
實際上,回歸方程所反映的是:解釋變量x的不同取值變化對被解釋變量y的影響規律,因此其本質上揭示的是上述第一個原因。
統計學上,我們把這個因素引起的y的變差平方和稱為「回歸平方和」(regression sum of squares,SSR)。
對於由隨機因素造成的y的變差平方和稱為「剩餘平方和」(errors sum of squares,SSE)。
那麼,y的總變差平方和(total sum of squares,SST),就等於其「回歸平方和」與「剩餘平方和」之和。即:
回到擬合優度的問題上,我們就容易理解,當所有樣本點都落在回歸線上時,回歸方程的擬合優度一定是最高的。此時,y的SST只包含SSR部分,沒有SSE。
由此可知,在y的SST中,如果SSR所佔比例遠大於SSE所佔比例,換句話說,就是回歸方程如果能夠解釋的變差所佔比例較大,那麼,這個回歸方程的擬合優度就高。
在統計學中,對於一元線性回歸方程,通常採用R^(R的平方)統計量來檢驗擬合優度,這個統計量也稱為判定係數。
式中,R^(R的平方)反映了回歸方程所能解釋的變差比例,其取值在0~1之間,R^(R的平方)越接近1,說明回歸方程對於樣本數據點的擬合優度越高;反之,R^(R的平方)越接近0,說明回歸方程對於樣本數據點的擬合優度越低。
當然,上面是一元線性回歸方程的擬合優度。對於其他的回歸方程肯定有所區別啦!比如,多元線性回歸方程的擬合優度,用的是「調整的判定係數」。
公式中,這個n-p-1,n-1是SSE和SST的自由度。實際上,這個調整的判定係數,其實還是擬合優度檢驗基本思路的體現!
03 擬合優度應該怎麼看?
回歸方程的擬合優度檢驗,本質上是一種描述性的刻畫,不涉及到對解釋變量和被解釋變量的總體關係的推斷。
那麼,對於不同的模型,當然是擬合優度越大越好。但是,反過來問,擬合優度多少可以接受呢?這個不同學科往往有著不同的慣例和標準,有的說在社會學中差不多在0.3左右都很普遍的,也有的說動不動就高達0.9以上的擬合優度讓人質疑;而且不同的樣本觀測值也會得出不同的值,以小編做過的回歸分析擬合優度來看,同樣的一個模型論文裡能達到0.9,而自己才只能達到0.6。不過,總的來說,擬合優度如果超過0.5,那應該不必過於擔心了,因為我們不能單純以擬合優度作為判別模型好壞的標準,更應關注模型設定的合理性。
小夥伴們,對於回歸分析,還需要進行回歸方程的顯著性檢驗、回歸係數的顯著性檢驗以及殘差分析等,記住:「擬合優度」很重要,但要是只單單看「擬合優度」這一個指標,則是沒有意義的哦!