如何用線性回歸模型做數據分析?

2020-11-30 騰訊網

編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。

一、什麼是線性回歸

線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係;對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關係的數據類型的應用場景。

線性回歸應用於數據分析的場景主要有兩種:

驅動力分析:某個因變量指標受多個因素所影響,分析不同因素對因變量驅動力的強弱(驅動力指相關性,不是因果性);

預測:自變量與因變量呈線性關係的預測;

模型數學形式:=0+11+22+ +

例如要衡量不同的用戶特徵對滿意分數的影響程度,轉換成線性模型的結果可能就是:分數=-2.1+0.56*年齡。

線性回歸模型分為一元線性回歸與多元線性回歸:區別在於自變量的個數。

二、線性係數的計算:最小二乘法

我們知道了模型的公式,那麼模型的係數是如何得來呢?我們用最小二乘法來確定模型的係數——最小二乘法,它通過最小化誤差的平方和尋找數據的最佳函數匹配,利用最小二乘法可以求得一條直線,並且使得擬合數據與實際數據之間誤差的平方和為最小。

將上述模型公式簡化成一個四個點的線性回歸模型來具體看:分數=-2.1+0.56*年齡

最小二乘法選取能使模型 誤差平方和= 1+ 2+ 3+ 4最小化的直線,生成直線後即可得出模型自變量的係數和截距。

三、決定係數R方(R-squared)與調整R方

R方(適用一元線性回歸)。

R方也叫決定係數,它的主要作用是衡量數據中的因變量有多準確可以被某一模型所計算解釋。

公式:

離差平方和:代表因變量的波動,即因變量實際值與其平均值之間的差值平方和。

誤差平方和:代表因變量實際值與模型擬合值之間的誤差大小。

故R方可以解釋因變量波動中,被模型擬合的百分比,即R方可以衡量模型擬合數據的好壞程度;R方的取值範圍>

使用不同模型擬合自變量與因變量之間關係的R方舉例:

R方=1 模型完美的擬合數據(100%)

R方=0.91 模型在一定程度較好的擬合數據(91%)

R方>

調整R方(適用多元線性回歸):

一般的R方會存在一些問題,即把任意新的自變量加入到線性模型中,都可能會提升R方的值,模型會因加入無價值的變量導致R方提升,對最終結果產生誤導。

故在建立多元線性回歸模型時,我們把R方稍稍做一些調整,引進數據量、自變量個數這兩個條件,輔助調整R方的取值,我們把它叫調整R方;調整R方值會因為自變量個數的增加而降低(懲罰),會因為新自變量帶來的有價值信息而增加(獎勵);可以幫助我們篩選出更多有價值的新自變量。

n:數據量大小(行數)->數據量越大,新自變量加入所影響越小;

p:自變量個數->自變量個數增加,調整R方變小,對這個量進行懲罰;

一句話,調整R方不會因為模型新增無價值變量而提升,而R方會因為模型新增無價值變量而提升!通過觀測調整R方可以在後續建模中去重多重共線性的幹擾,幫助我們選擇最優自變量組合。

R方/調整R方值區間經驗判斷:

非常弱的模型擬合

0.3-0.5->弱的模型擬合

0.5-0.7->適度的模型擬合

>0.7->較好的模型擬合

四、線性回歸在數據分析中的實戰流程

我們以共享單車服務滿意分數據為案例進行模型實戰,想要去分析不同的特徵對滿意分的影響程度,模型過程如下:

1. 讀取數據

2. 切分因變量和自變量、分類變量轉換啞變量

3. 使用VIF去除多重共線性

多重共線性:就是在線性回歸模型中,存在一對以上強相關變量,多重共線性的存在,會誤導強相關變量的係數值。

強相關變量:如果兩個變量互為強相關變量,當一個變量變化時,與之相應的另一個變量增大/減少的可能性非常大。

當我們加入一個年齡強相關的自變量車齡時,通過最小二乘法所計算得到的各變量係數如下,多重共線性影響了自變量車齡、年齡的線性係數。

這時候,可以使用VIF消除多重共線性:VIF=1/(1-R方),R方是拿其他自變量去線性擬合此數值變量y得到的線性回歸模型的決定係數。某個自變量造成強多重共線性判斷標準通常是:VIF>10

我們發現,年齡的VIF遠大於10,故去除年齡這一變量,去除後重新計算剩餘變量VIF發現所有均>

4. 計算調整R方

5. 數據標準化

我們希望不同自變量的線性係數,相互之間有可比性,不受它們取值範圍影響。

6. 擬合模型,計算回歸係數

共享單車分數案例,因變量是分數,自變量是年齡、組別、城區,線性回歸的結果為:分數 = 5.5 + 2.7 * 年齡 +0.48 * 對照組 + 0.04 * 朝陽區 + 0.64 * 海澱區 + 0.19 * 西城區。

7. 生成分析洞見——驅動力因素

最終產出不同用戶特徵對用戶調研分數的驅動性排名——驅動力分數反應各個變量代表因素,對目標變量分數的驅動力強弱,驅動力分數絕對值越大,目標變量對因素的影響力越大;反之越小,驅動力分數為負時,表明此因素對目標變量的影響為負向。

8. 根據回歸模型進行預測

至此,回歸模型已經建好,預測就不寫了,把要預測的數據x自變量導入模型即可預測y。

相信大家讀完這篇文章,對線性回歸模型已經有了一些了解,大家快快動起手來把模型應用到自己的實際工作中吧!

作者:趙小洛,公眾號:趙小洛洛洛

本文由 @趙小洛 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 零基礎的同學如何用stata做多元線性回歸模型?
    上一期,我們分享了如何用stata做一元線性回歸模型,不知道同學們學的怎麼樣呢?有沒有自己動手操作一遍呢?這一期:我們將學習如何用stata做多元線性回歸模型!這些是小王(邀請者)最近學習計量時的一些心得和體會,希望能與大家一起分享。
  • 零基礎的同學如何用stata做一元線性回歸模型?
    stata軟體越來越受研究生的喜歡,很多研究生在做統計研究、學術分析的時候,也多選用此軟體。網上有關stata的教程有很多,但對於沒有基礎的同學來說,學起來稍微就有些吃力了。那麼,零基礎的同學應該如何學習呢?如何用stata做出滿意的一元線性回歸模型呢 ?
  • 如何用EXCEL線性回歸分析法快速做數據分析預測
    回歸分析法,即二元一次線性回歸分析預測法先以一個小故事開始本文的介紹。十三多年前,筆者就職於深圳F集團時,曾就做年度庫存預測報告,與筆者新入職一臺籍高管Edwin分別按不同的方法模擬預測下一個年度公司總存貨庫存。令我吃驚的是,本人以完整的數據推算做依據,做出的報告結果居然與僅入職數周,數據不齊全的Edwin制定的報告結果吻合度達到99%以上。仍清楚記得,筆者曾用得是標準的周轉天數計算公式反推法,而Edwin用的正是本文重點介紹的二元一次線性回歸分析法。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。壹 數據導入Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。
  • 多元線性回歸與模型診斷
    將所有變量加入進行回歸;b.移除擬合效果最差的一個變量(尤其是不顯著的變量);c.移除後繼續採用線性回歸模型進行擬合,再次移除不顯著的變量;d.重複以上步驟,直至所有變量的擬合結果都顯著;註:通常選擇顯著性α在1%~0.1%(相應t值至少為2.57或3.29)Python案例分析:
  • 【線性回歸】多變量分析:多元回歸分析
    實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    (2)相關分析主要是描述兩個變量之間相關關係的密切程度;回歸分析不僅可以揭示變量X對變量Y的影響程度,還可以根據回歸模型進行預測。回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡單線性回歸、多重線性回歸;而非線性回歸,需要進行對數轉化等方式,將其轉化為線性回歸的形式進行研究。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 統計計量 | 用R做多元線性回歸分析(文末有福利)
    回歸分析是一種統計學上分析數據的方法,目的在於了解兩個或多個變量間是否相關
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?前面兩期我們已經分享了一元線性回歸模型、多元線性回歸模型的操作方法,今天我們將分享logistic回歸的學習心得,希望大家都能有所收穫哦。
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • Python數據科學:線性回歸
    本次介紹:線性回歸:多個連續變量與一個連續變量間的關係。其中線性回歸分為簡單線性回歸和多元線性回歸。/ 01 / 數據分析與數據挖掘資料庫:一個存儲數據的工具。線性回歸旨在使殘差平方和最小化。下面以書中的案例,實現一個簡單線性回歸。建立收入與月均信用卡支出的預測模型。
  • 線性回歸分析思路總結!簡單易懂又全面!
    線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!線性回歸回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。
  • 針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法
    【導讀】對於機器學習而言,獲取數據的成本有時會非常昂貴,因此為模型選擇一個合理的訓練數據規模,對於機器學習是至關重要的。在本文中,作者針對線性回歸模型和深度學習模型,分別介紹了確定訓練數據集規模的方法。
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    作者:丁點helper 來源:丁點幫你前面的文章主要介紹了回歸的一些關鍵詞,比如回歸係數、樣本和總體回歸方程、預測值和殘差等,今天我們結合一個案例來看看如何做完整的回歸分析,準確而言,是多重線性回歸(Multiple Linear Regreesion)。
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    多元線性回歸:這是一種線性回歸的形式,當有兩個或多個預測因子時使用。我們將看到多個輸入變量如何共同影響輸出變量,同時還將了解計算與簡單LR模型的不同之處。我們還將使用Python構建一個回歸模型。最後,我們將深入學習線性回歸,學習共線性、假設檢驗、特徵選擇等內容。