回歸系列(一)|怎樣正確地理解線性回歸

2021-01-14 CDA數據分析師

作者:丁點helper

來源:丁點幫你

線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。

線性回歸運用這麼廣泛很大程度在於它的內在邏輯十分簡單。一般情況下,就是找Y的影響因素或者說是衡量自變量(X)對因變量(Y)的影響程度,即便不理解其中的數學計算也可以很容易地憑藉各種軟體找到我們想要的結果。

確實如此,線性回歸,尤其是一般線性模型(一個Y,多個X)使用起來沒什麼障礙,但大家是否完全理解清楚了所有應該掌握的內容(非數學計算)可能有待思考,這個系列的文章我們以「線性回歸」為主題,希望能讓大家對這個問題的認識能再全面一丁點。

回歸一詞的來源

初學的小夥伴有沒有思考過,為什麼叫「回歸」?

回歸,這個詞,英文叫「Regression」,最早出現在1886年英國遺傳學家Francis Galton發表的一篇研究身高的論文(」Regression towards mediocrity in hereditary stature」),他發現子女的身高會向整個群體身高的均值回歸。

什麼叫均值回歸?

大家是否想過人類生活繁衍了無數代,但總體來看,成年男子的身高並沒有發生太大的變化,基本穩定在1米6至1米8(暫不考慮人種差異)。

這種現象很大程度就是因為存在均值回歸,即身高較高的父母雖然子女也比較高,但往往比父母矮;身高較矮的父母,其子女的身高往往比父母高。

所以,這裡的均值回歸,就是指子代的身高會向整個人類的平均身高靠攏的趨勢。

換句話講:姚明的孩子大概率會比姚明矮、潘長江的孩子大概率會比潘長江高。

因此,正是因為身高的均值回歸現象(向整個群體的平均身高回歸),整個人類的身高水平才能比較均衡。

倘若,個子高的父親生的孩子比自己還高,而個子矮的父親生的孩子比自己還矮,那麼整個人類的身高就會呈現「兩極分化」的態勢:要麼特別高、要麼特別矮。

由此來看,最早的「回歸」實際上描述的是一種「現象「,即人們的身高不會無限制地上升或降低,而是會朝著平均水平回歸。

當然,這種現象並不僅限於「身高」,我們身邊的很多現象都有向均值回歸的趨勢。比如考試成績,一般來講,成績很難持續提升或下降,而是大概率呈現波動狀態,維持在一個平均水平。

而現如今,回歸更多是指代一種「方法」,即研究兩個或兩個以上變量相關關係的方法。以一個變量為因變量(Y),另一個或一些變量為自變量(X),構建一個方程——左邊為Y,右邊為X,通過計算X的係數來估計X對Y的影響。

比如通過父母的平均身高來估計子女的身高。我們以父母的平均身高為「X」,以孩子的身高為「Y」,然後探討這兩個變量之間的線性關係,這就是一個典型的回歸模型。

Francis Galton的研究——父母平均身高與子女身高的回歸線

區分總體和樣本

在剛開始接觸統計的時候,我們會經常強調一對概念——總體和樣本。但是,這個問題在做回歸時可能會被忽略。

因為無論做哪種統計分析,我們獲得數據幾乎永遠都是」樣本數據「:統計量的大小僅僅反映了這組數據的情況。

比如,我們想考察」教育年限(X)「與」收入(Y)「是否存在相關關係。通過抽樣,獲得了兩組數據(例如1000名對象的教育年限和目前的月收入),得出相關係數為0.8。

但是,這個相關係數僅僅反映了這1000名對象的情況,對於所有人(即我們研究的總體),這個相關關係是否仍然成立?

所以,我們必須要進行檢驗,即相關係數的假設檢驗。因為我們關心的是相關關係的有無,所以,最主要的是檢驗總體相關係數是否為0(H0假設)。因為」0「代表無關,只要不為」0「,就證明總體數據的相關關係存在。

同樣的,我們也可以用獲得的這1000名對象的數據,做回歸分析,以」教育年限「(X)為自變量,以」月收入「(Y)為因變量,得到回歸方程:Y = 2000+200X+ε

這裡,我們最關注的是X的回歸係數——200。

這裡的200,意味著教育程度每增加一年,月收入增加200元。

但是,這個關係也只是反映了這1000名研究對象的情況,對於所有人,是否教育程度每增加一年,月收入都會增加200元?

這就有待進行假設檢驗,同樣我們也是關注:總體回歸係數是否為0。

因此,在接觸回歸的第一步,我們需要明確,自己手頭上數據所獲得的回歸方程僅僅是一個樣本的情況。

如果重複抽樣,再進行相同的回歸分析,就會得到另一個回歸方程。

也就是說,目前得到的這個回歸方程(以及其中的回歸係數),它是可變的,是一個樣本值,隨著樣本的變化而變化。也正因為此,我們才需要對回歸係數進行檢驗。

實際上,教科書對總體回歸和樣本回歸也有著清晰區分,就連方程的術語和符號也不例外:

所以,」戴帽子「(^)的都是樣本值,或者說是總體的估計值。

理清了這一點,才能更好地搞懂回歸係數的假設檢驗等問題。

最後出個題目考考大家,當我們做回歸係數(β)的假設檢驗時,下面A、B兩種寫法哪種正確:

相關焦點

  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    回顧:多重線性回歸多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。在實際應用中,我們當然很少只納入一個自變量。
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 回歸系列(五)|線性回歸分析做完後,還應考慮什麼?
    作者:丁點helper 來源:丁點幫你上一篇文章介紹了一般線性回歸的典型操作,並且留了一個思考題。感謝小夥伴的參與,大家很厲害,沒有被迷惑到,線性回歸獲得的係數代表的是相關關係,而非因果關聯。回歸是相關不是因果多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。
  • 線性回歸
    1、標準化對於多元線性回歸需要對各個自變量進行標準化,排除單位的影響。標準化方法:即將原始數據減去相應變量的均數後再除以該變量的標準差,而標準化得到的回歸方程稱為標準化回歸方程,相應得回歸係數為標準化回歸係數。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 一文教你全面掌握用Python實現線性回歸
    全文共4968字,預計學習時長15分鐘或更長本文旨在為讀者理解和應用線性回歸時提供參考。雖然線性回歸算法很簡單,但是只有少數人能真正理解其基本原則。事實上,許多更高級的方法可被視為線性回歸的延伸。因此,理解好這一簡單模型將為將來更複雜的學習打下良好基礎。線性回歸可以很好地回答以下問題:· 兩個變量間有關係嗎?· 關係有多強?· 哪一個變量的影響最大?
  • 機器學習的線性回歸分析
    回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性回歸分析。
  • 【線性回歸】多變量分析:多元回歸分析
    多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。
  • 入門機器學習之線性回歸
    如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱為多重線性回歸分析。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?「注意,線性回歸問題的確定並不是通過自變量的形式,而是問題中待估計的未知參數最高次都為一次且關於未知參數呈線性關係。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • 機器學習算法系列(一):logistic回歸
    作者| Ray編輯| 安可出品| 磐創AI技術團隊目錄:一、Logistic分布二、二項Logistic回歸原理三、參數估計四、Logistic回歸的正則化五、Logistic回歸和線性回歸區別六、為什麼Logistic回歸的輸入特徵一般都是離散化而不是連續的
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • 一文輕鬆看懂線性回歸分析的交互作用!
    含交互項的回歸方程多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。通過估計以上回歸方程X1和X2的回歸係數,β1和β2,即可定量地衡量出教育程度、性別對收入的影響。比如,β1的含義即為:控制性別後,教育程度每增加一年,個人收入增加的量。這是我們前面講過的,很好理解。
  • SPSS多元線性回歸案例:回歸分析方法實戰
    1.線性回歸(Linear Regression)線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關係。
  • 文科生都能看懂的機器學習教程:梯度下降、線性回歸、邏輯回歸
    把複雜的東西簡單化,讓非專業人士也能短時間內理解,並露出恍然大悟的表情,是一項非常厲害的技能。  舉個例子。你正在應聘機器學習工程師,面對的是文科出身的HR,如果能在最短時間內讓她了解你的專業能力,就能極大地提升面試成功率。  現在,機器學習這麼火,想入行的人越來越多,然而被搞糊塗的人也越來越多。因為大眾很難理解機器學習是幹嗎的?
  • 零基礎的同學如何用stata做一元線性回歸模型?
    如何用stata做出滿意的一元線性回歸模型呢 ?小編邀請了不同學科的研究生分享stata的學習心得,希望能夠幫助更多對計量感興趣的同學們。分享者(小熊)零基礎的同學如何做一元線性回歸模型首先,什麼是一元線性回歸?
  • 深入研究線性回歸
    當我說到「線性回歸」時,大多數人開始想到的是最小二乘法(OLS)。如果你不熟悉這個術語,下面的方程可能會有幫助:學過最小二乘法嗎?如果學過,那麼你就走在正確的道路上了。但是線性回歸不僅僅是最小二乘法。首先,讓我們更仔細地看看最小二乘法。
  • SPSS|簡單線性回歸(一)
    即,本研究中簡單線性回歸的觀測值具有相互獨立性,滿足假設4。但不得不說,Durbin-Watson檢驗不是萬能的。它僅適用於對鄰近觀測值相關性的檢驗(1st-order autocorrelation)。舉例來說,我們一般按照調查順序錄入數據,將第一位受試者錄入到第一行,再將第二位受試者錄入到第二行。