細說回歸分析

2021-03-06 可樂的數據分析之路
什麼是回歸

我們先來聊聊歷史,從「回歸」這個詞被發明的源頭聊起。話說有一個叫高爾頓的生物學家兼統計學家在研究人類遺傳問題時發現了一個現象:非常高的父親,其兒子的身高往往要比父親矮一點,而非常矮的父親,兒子的身高也會比父親高一些,也就是說,人類的身高從高矮兩個極端移向所有人的平均值,他把這種現象稱為「向平均回歸(regression to the mean)」。

其實仔細想想這種現象應該是正常的才對,如果不發生這種向平均值回歸的事情,那麼高的人後代將越來越高,同樣矮的人的後代會越來越矮,那麼經過一系列的種族繁衍後,人類將變成特別高和特別矮的兩極分化狀態。

這是回歸這個詞的由來,所以我們再來理解一下什麼是回歸分析,首先我要去分析兩個現象之間有什麼關係,然後我要知道現象之間的具體形式,並用數學表達式來展示。比如上次的相關性分析中我們說到了城市化水平和離婚率之間存在著相關關係,那麼這兩個變量之間的關係到底深到什麼程度,是誰在影響誰,這就需要我們用函數定量地去描述,這就是回歸。

在上一小節說相關性的時候,我們會把兩個變量之間的關係用散點圖來展示,更進一步地,還會去找到一條最合適的平均線,也就是「向平均回歸的線」,而這條線的函數表達式,就是我們說的回歸方程,所以說,回歸分析要尋找的就是變量之間的最佳擬合關係

常見回歸算法

有線性和非線性,這裡我們就重點說下線性回歸

線性回歸,顧名思義,就是用一條直線去擬合樣本的趨勢。包括一元線性回歸和多元線性回歸,在實踐中,多元應用的較多。什麼是「元」?實際上就是自變量X,一個X就是一元線性回歸,多個X就是多元線性回歸。

一元線性回歸是最基本的回歸,對於每一個自變量X都有因變量Y,誤差項是一個服從正態分布的隨機變量且相互獨立,上公式:


多元線性回歸就是多個自變量x,X和Y之間的函數關係如下:

在線性回歸裡,我們只需要關注2點:一個是x和y是線性表達式,這一點很重要,如果有非線性關係的變量我們用線性來描述,這就不對了;另一點是線性回歸有一個誤差項,且誤差項服從正態分布,這個怎麼理解呢?不是所有的關係都能百分之百用函數表達式去解釋的,可能有80%的部分我們可以去解釋,但是還有20%的部分我們解釋不了,就把它歸為誤差項。

評價回歸算法的指標

做出了回歸分析的表達式,那麼如何評價它的好壞呢?這樣預測是準確還是不準確呢?就要用到幾個指標來評價。

R平方

評估模型擬合度的好壞,取值範圍是[0,1],R平方越大,說明模型擬合的越好。R平方的值與自變量的個數有關,自變量越多,R方越大,這樣的話就削弱了R方的評價能力,因此需要剔除自變量數目影響後的R平方,也就是修正後的R平方,這是在多元線性回歸中需要了解的。

在Excel中我們可以通過畫趨勢線來得到R平方。


F統計量

檢驗因變量和自變量之間的線性關係是否顯著,回歸方程整體的顯著性檢驗,用到的是F檢驗。

P值

回歸方程係數的顯著性檢驗:P值,理論顯著性水平α值,通常為0.01、0.05。如果某個係數對應的P值小於顯著性水平,則認為在顯著性水平下,該回歸係數是顯著的。

這些評價指標還可以用Excel裡的【回歸】功能實現。

我在之前的文章中也寫過具體的做法:

用Excel做回歸分析

致命的回歸錯誤

其實這些錯誤都是對業務不理解導致的,所以技術是一方面,思維層面的思考是另一方面,二者結合才能發揮更大的作用。

請小姐姐喝杯☕️ 吧~

相關焦點

  • 機器學習:回歸分析——多元線性回歸分析
    從前面的學習中我們知道:社會經濟現象的變化往往受到多個因素的影響,因此一般要進行多元回歸分析。我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸。所以相比一元線性回歸,多元線性回歸的實際意義更大。本節我們將使用來自UIC數據集中的能效數據集(ENB2012_data.xlsx)進行演示,探索如何使用Python對數據集進行多元回歸分析。
  • 什麼是回歸?什麼是回歸分析?回歸分析預測的分類方法有哪些?
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。
  • Logistic回歸分析之二元Logistic回歸
    在研究X對於Y的影響時,如果Y為定量數據,那麼使用多元線性回歸分析(SPSSAU通用方法裡面的線性回歸);如果Y為定類數據,那麼使用Logistic回歸分析。結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。
  • python數據分析--回歸函數及線性回歸分析
    2.工具數據分析有很多成熟的工具可以使用,如R、python、spss等。此處我們選用python進行分析。首先,我們需要安裝並導入python數據分析常用的庫。__version__)3.線性回歸分析Y= aX + b + e ,e表示殘差。
  • SPSS教程-回歸分析
    //SPSS//Course//回歸分析SPSS01圖線性回歸分析由ANOVA(方差分析)表可知F統計量的觀測值為592.25,顯著性概率為0.000,即拒絕原假設,說明因變量和自變量的線性關係是非常顯著的,可建立線性模型。由係數表可知回歸模型的常數項為-4993.281,自變量「國內生產總值」的回歸係數為0.197。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 16種常用的數據分析方法-回歸分析
    2 回歸分析 研究自變量與因變量之間關係形式的分析方法,它主要是通過建立因變量y 與影響他的自變量Xi 之間的回歸模型,來預測因變量y 的發展趨勢。
  • 範例分析:一元(簡單線性)相關與回歸分析
    基礎準備前面以兩變量的簡單線性相關與回歸分析為例,分篇幅介紹了以下內容:相關與回歸分析基礎;一元
  • SPSS方法|嶺回歸分析
    :嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。
  • 嶺回歸分析(SPSS+SAS)
    嶺回歸:嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。
  • 你知道回歸分析的本質是什麼嗎?別稀裡糊塗做回歸分析了!
    >無論實驗性研究還是觀察性研究,線性回歸分析十分重要,尤其是現況調查和隊列研究。在現況調查中,回歸分析既可以初步探索變量與變量的關係,也可以通過多變量的回歸分析開展因果關聯性分析(下圖)。學習回歸分析,首先得了解回歸的歷史,模型的定義,建模的意義等,本文將基於簡單線性回歸,來幫助大家全面了解線性回歸分析。「回歸」是由英國著名生物學家兼統計學家高爾頓(Francis Galton,1822~1911.生物學家達爾文的表弟)在研究人類遺傳問題時提出來的。
  • 生存分析之Cox回歸
    正如連續資料的單因素分析常用t檢驗、方差分析,對應的多因素分析是多重線性回歸,分類資料的單因素分析方法卡方分析,對應的多因素分析有logistic回歸,生存分析的常用單因素(或少數因素)的分析有Life Tables法、Kaplan-Meier法,對應的多因素模型則常用Cox回歸模型(Cox風險比例模型)。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • 數據分析不得不知的七種回歸分析技術
    回歸分析技術是一種非常重要的數據分析方法,有著廣泛的應用,能夠解決目標變量為連續的預測分析問題。什麼是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。
  • 線性回歸分析淺談
    這種方法常用於校準(calibration),常見的例子如製備一系列已知不同濃度的標準品溶液並測試其響應值(如吸光度),然後用線性回歸分析求得校準曲線方程(等一等1012吸光度2.15.09.012.617.321.024.7既然是採用線性回歸分析過程,首先需要判斷這兩組數據之間是否存在線性關係。
  • R語言 | 回歸分析(一)
    這種分析思路,即所謂的回歸分析(regression analysis)。回歸分析是根據一個或多個預測變量來「預測」結果變量的方法。換句話說,我們可以理解為通過得到的樣本中的自變量和因變量關係,來預測結果的方法。
  • Excel數據分析篇:線性回歸
    一、什麼是回歸分析(Regression)1、定義確定兩種或兩種以上變量間相關關係的一種統計分析方法。
  • 我用Excel發現了數據分析的本質:回歸分析
    最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?比如,用戶點擊率與網站訪問量之間是否有關係、廣告曝光量與投入成本的關係等等,這個方程的求取過程也就是所謂的「回歸分析」。回歸分析在統計學中包含了很多類別,比如一元回歸、多遠回歸、方差回歸、線性回歸、非線性回歸等,但我們不必涉及這麼深,只需要了解其本質即可。
  • 「回歸分析」知識點梳理
    在本文中,我們將討論什麼是回歸分析,它是如何工作的。回歸分析是作為數據科學家需要掌握的第一個算法。它是數據分析中最常用的預測建模技術之一。即使在今天,大多數公司都使用回歸技術來實現大規模決策。要回答「什麼是回歸分析」這個問題,我們需要深入了解基本面。
  • 線性回歸-如何對數據進行回歸分析
    當自變量的個數大於1時,就是多元回歸;當因變量的個數大於1 時,就是多重回歸。在經過了1078 份數據的分析之後,最終他得出結論:人類的身高維持在相對穩定的狀態,他稱之為回歸效應,並給出了歷史上第一個回歸公式:公式中的 Y 代表子代身高,X 代表父代身高,單位為英寸。