我們先來聊聊歷史,從「回歸」這個詞被發明的源頭聊起。話說有一個叫高爾頓的生物學家兼統計學家在研究人類遺傳問題時發現了一個現象:非常高的父親,其兒子的身高往往要比父親矮一點,而非常矮的父親,兒子的身高也會比父親高一些,也就是說,人類的身高從高矮兩個極端移向所有人的平均值,他把這種現象稱為「向平均回歸(regression to the mean)」。
其實仔細想想這種現象應該是正常的才對,如果不發生這種向平均值回歸的事情,那麼高的人後代將越來越高,同樣矮的人的後代會越來越矮,那麼經過一系列的種族繁衍後,人類將變成特別高和特別矮的兩極分化狀態。
這是回歸這個詞的由來,所以我們再來理解一下什麼是回歸分析,首先我要去分析兩個現象之間有什麼關係,然後我要知道現象之間的具體形式,並用數學表達式來展示。比如上次的相關性分析中我們說到了城市化水平和離婚率之間存在著相關關係,那麼這兩個變量之間的關係到底深到什麼程度,是誰在影響誰,這就需要我們用函數定量地去描述,這就是回歸。
在上一小節說相關性的時候,我們會把兩個變量之間的關係用散點圖來展示,更進一步地,還會去找到一條最合適的平均線,也就是「向平均回歸的線」,而這條線的函數表達式,就是我們說的回歸方程,所以說,回歸分析要尋找的就是變量之間的最佳擬合關係。
常見回歸算法有線性和非線性,這裡我們就重點說下線性回歸
線性回歸,顧名思義,就是用一條直線去擬合樣本的趨勢。包括一元線性回歸和多元線性回歸,在實踐中,多元應用的較多。什麼是「元」?實際上就是自變量X,一個X就是一元線性回歸,多個X就是多元線性回歸。
一元線性回歸是最基本的回歸,對於每一個自變量X都有因變量Y,誤差項是一個服從正態分布的隨機變量且相互獨立,上公式:
在線性回歸裡,我們只需要關注2點:一個是x和y是線性表達式,這一點很重要,如果有非線性關係的變量我們用線性來描述,這就不對了;另一點是線性回歸有一個誤差項,且誤差項服從正態分布,這個怎麼理解呢?不是所有的關係都能百分之百用函數表達式去解釋的,可能有80%的部分我們可以去解釋,但是還有20%的部分我們解釋不了,就把它歸為誤差項。
評價回歸算法的指標做出了回歸分析的表達式,那麼如何評價它的好壞呢?這樣預測是準確還是不準確呢?就要用到幾個指標來評價。
R平方評估模型擬合度的好壞,取值範圍是[0,1],R平方越大,說明模型擬合的越好。R平方的值與自變量的個數有關,自變量越多,R方越大,這樣的話就削弱了R方的評價能力,因此需要剔除自變量數目影響後的R平方,也就是修正後的R平方,這是在多元線性回歸中需要了解的。
在Excel中我們可以通過畫趨勢線來得到R平方。
檢驗因變量和自變量之間的線性關係是否顯著,回歸方程整體的顯著性檢驗,用到的是F檢驗。
P值回歸方程係數的顯著性檢驗:P值,理論顯著性水平α值,通常為0.01、0.05。如果某個係數對應的P值小於顯著性水平,則認為在顯著性水平下,該回歸係數是顯著的。
這些評價指標還可以用Excel裡的【回歸】功能實現。
我在之前的文章中也寫過具體的做法:
用Excel做回歸分析
其實這些錯誤都是對業務不理解導致的,所以技術是一方面,思維層面的思考是另一方面,二者結合才能發揮更大的作用。
請小姐姐喝杯☕️ 吧~