線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟

2020-12-15 許栩原創之管理與職場

許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。

線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。

本章,我將詳細講解用多元線性回歸分析進行需求預測的十大步驟:數據收集、數據清洗、列出所有的變量、確定納入回歸方程的自變量、確定並消除多重共線性、求解多元線性回歸方程、確認回歸方程的精度、顯著性驗證、計算置信區間、正式預測。

一、數據收集。

我們做統計,進行數據分析,首先的,都是需要有數據。有數據才能統計,有數據才能進行數據分析。以回歸分析做需求預測,同樣需要有數據,最先開始的,是數據收集。

數據收集是按照確定的數據分析和框架內容,有目的的收集、整合相關數據的一個過程。

從上面數據收集的定義可以看出,數據收集需要有明確的目的,即我們先要確定我們是為了什麼事而去收集數據。本專欄的主題是用回歸分析進行需求預測,所以,在這裡,我們收集數據的目的非常明確,收集數據就是為了有效的採用回歸分析的方法來進行需求預測。

所以,我們需要收集的,就是與需求預測這個目的相關的數據,比如銷量數據(因變量),以及各種影響銷量因素的數據(自變量)等等。對需求預測沒有幫助的數據,在回歸分析中不需要收集(比喻相關財務數據)。

回歸分析需要的數據一般來源於我們日常的記錄(含人工記錄與系統生成),比如生產原始單據與報表、出入庫報單、銷售數據、促銷信息、重大事件特殊事件記錄、調查與調研信息等等。

二、數據清洗。

我們收集到了一定量的數據,但這些數據往往不是直接能用的,我們需要對數據進行一些處理與加工,使數據能夠被我們後續進行各分析所使用,這個過程就是數據清洗。

數據清洗一般包括以下工作(數據清洗方法比較多也比較有針對性,本專欄不深入,大家感興趣,可以私下交流):清除不必要的數據,清除錯誤的數據,填補缺失的數據,轉換數據,提取或合併數據,計算與分組分類等等。

三、列出所有的變量。

數據收集並清洗後,需要根據數據,列出所有有效的變量(指經收集清洗後有完整可用數據的變量)。

以本專欄回歸火鍋店為例,在收集數據並經必要的整理清洗後,我們得到了如上圖的數據(回歸火鍋店每日業績),根據這些數據,可以列出了全部變量(自變量:氣溫、折扣、帥哥站臺;因變量:業績)。

四、進行相關分析,確定納入回歸方程的自變量。

列出全部的自變量後,接下來,對每個自變量與因變量進行相關分析,以確定將哪些自變量納入回歸方程。

如上圖右上所示,我們採取Excel函數CORREL計算相關係數,三個自變量的相關係數分別為氣溫-0.818、折扣-0.793、帥哥站臺0.122。(相關係數計算詳見本專欄第2章。)

按照自變量相關程度的標準和是否納入回歸方程的標準(如上圖右下所示),氣溫和折扣為強相關,直接納入回歸方程;帥哥站臺為不相關,將其排除在回歸方程之外。即:回歸火鍋店這個例子,經相關分析後,我們確定了回歸方程的兩個自變量:氣溫和折扣。

五、確定並消除多重共線性。

確定納入回歸方程的自變量,我們接下來需要判定回歸方程存不存在多重共線性,如果存在多重共線性話,我們需要進行消除多重共線性的操作。(關於多重共線性,詳見本專欄第6章。)

我們用方差膨脹因子(VIF)來判定回歸方程存不存在多重共線性。如上圖,本例中,VIF計算結果,氣溫(VIF=3.022),折扣(VIF=2.694)。根據方差膨脹因子可接受到標準,本案例中,兩個自變量VIF都小於5,表明我們兩個自變量之間不存在多重共線性,不需要進行消除多重共線性的操作。

六、求解多元線性回歸方程。

經過以上步驟,按回歸火鍋店的數據,最終選擇兩個自變量,氣溫和促銷折扣,我們列出多元線性回歸方程:y=a1x1+a2x2+b。接下來,就是進行多元線性回歸方程的求解。(求解多元回歸方程詳見本專欄第5章。)

如上圖, 我們採用Excel函數LINEST求解多元回歸方程。(LINEST函數的用法詳見本專欄的第4、5兩章。特別提醒,LINEST函數是一個數組函數,一起選中需要輸入公式的三個單元格,完成公式內容輸入後,Ctrl+Shift+Enter三鍵同按最終完成公式錄入,得出函數計算結果。)

本例兩個自變量從左到右依次是氣溫和折扣,LINEST函數計劃出來的回歸係數從左到右依次是折扣和氣溫,順序相反。本例兩個自變量回歸係數分別是,氣溫回歸係數-140.7,折扣回歸係數是-10582.7,截距為15801.2(兩個回歸係數均為負數,代表這兩個自變量和因變量都是反相關關係。即氣溫越高,業績越低,折扣力度越大,業績越高)。

本例多元回歸方程求解結果:y=-140.7x1-10582.7x2+15801.2。

七、確認回歸方程的精度。

求出回歸方程後,我們需要對這個回歸方程進行一系列評價和評估,第一個要做的是確認回歸方程的精度。

我們用給調整後的R2來衡量回歸方程精度。(判定係數R2與調整後的R2詳見本專欄第2章)。

確認回歸方程的精度具體步驟如下(詳細如上圖)。

1、按求出的回歸方程對已有數據進行預測,得到預測業績數據列(y』)。

2、計算因變量實際業績y與預測業績y』的相關係數R,計算結果為0.857。

3、計算因變量實際業績y與預測業績y』的判定係數R2,計算結果為0.734。

4、計算調整後的R2,計算結果為0.686

5、按我建議的確認回歸方程精度的判定標準(詳見本專欄第7章),本例調整後的R2為0.686,接近0.75,表示回歸模型擬合度較好,回歸方程的精度較高,回歸方程的精度確認成功。

八、顯著性驗證。

顯著性驗證的方法一般有兩種,一是測算回歸方程總體顯著性的F檢驗,二是測算回歸係數個體顯著性的t檢驗。(顯著性驗證詳見本專欄第8章。)

本例採用第一種方法,即回歸方程的總體顯著性驗證的F檢驗。

F檢驗測算的是回歸方程的總體顯著性,我們以Excel的數據分析工具來進行F檢驗。

請見上圖。本例F檢驗,上圖是以5%的顯著性水平(置信度95%),用Excel的數據分析工具中的回歸分析計算的結果。結果顯示,F統計值為15.19。

我們用Excel函數FINV來計算標準的F統計值,將顯著性水平0.05,第1自由度2,第2自由度11(14-2-1)輸入函數,得出標準的F統計值3.98。

計算的F統計值為15.19,遠大於標準的F統計值3.98,本例顯著性驗證F檢驗成功。

九、計算置信區間。

經過回歸方程的顯著性驗證,接下來,我們計算置信區間。(關於置信度與置信區間,詳見本專欄第9章。)

我們用Excel函數TINV+STDEVA+ SQRT來計算置信區間,詳細如下(見上圖)。

1、用TINV函數計算t值。將顯著性水平α=0.05,樣本個數n=14,輸入函數,t值=TINV(0.05,14-1)=2.16。

2、用STDEVA函數計算預測業績y』的標準差,如下圖,y』的標準差=747。

3、將以上數據套入置信區間的計算公式,計算置信區間,得出,置信區間=±2.16*747/SQRT(14)=±431。

十、正式預測並得出預測結果。

好,我們經過上述九步的一系列動作,現在可以正式預測了。

經天氣預報查詢,未來1月26日氣溫為-2℃,經回歸火鍋店管理層決定,當天火鍋店進行97折促銷,我們以回歸分析來預測1月26日回歸火鍋店的業績,具體的有以下幾點(見上圖)。

1、我們將需要預測當天的兩個自變量(氣溫為-2℃,折扣0.97),代入上幾步我們解出的,已經確認過精度的,並進行過顯著性驗證的多元回歸方程y=-140.7x1-10582.7x2+15801.2,得出當天業績預測的基準結果(如預測過程中沒有引進置信區間,那這個基準結果就是最終預測結果),即y=-140.7*(-2)-10582.7*0.97+15801.2= 5817元。

2、我們設定的置信水平是95%,根據第九步的計算,置信區間=±431,我們以預測的基準結果±431,得到當日預測業績的上下限,即5817±431,最大6248元,最小5386元。

3、當氣溫-2度,並進行97折促銷時,我們得出預測結果:1月26日,回歸火鍋店的業績,有95%的可能在5386元~6248元之間。

專欄總結。

至此,許栩原創專欄《從入門到高手:線性回歸分析詳解》共10章,全部更新完成。下面再回顧一下專欄的全部內容,作為總結。

第1章,我講述了變量、因變量、自變量和「啞變量」的相關概念。

第2章,詳細介紹確定關係與相關關係,相關係數與判定係數的概念及其計算方法。

第3章,從頭說明回歸分析的歷史、概念和分類。

第4章和第5章,分別講解一元線性回歸方程和多元線性回歸方程的公式和計算方法。

第6章,重點介紹多元回歸分析的常見現象,多重共線性。

第7章~第9章,我分別講述了如何確認回歸方程的精度,如何進行顯著性驗證,以及如何計算置信區間。

第10章,正式預測。

許栩原創專欄《從入門到高手:線性回歸分析詳解》全部內容就講解到這裡,感謝您的支持與閱讀,許栩原創下一個專欄再見,謝謝!

相關焦點

  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。④先以我們後續需要用來做線性回歸的列「內容閱讀量」為標準,將不含該值的數據行去除:調用dropna函數,並執行info函數看數據情況。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。線性回歸應用於數據分析的場景主要有兩種:驅動力分析:某個因變量指標受多個因素所影響,分析不同因素對因變量驅動力的強弱(驅動力指相關性,不是因果性);預測:自變量與因變量呈線性關係的預測;模型數學形式:=0+11+22++
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    作者:丁點helper 來源:丁點幫你前面的文章主要介紹了回歸的一些關鍵詞,比如回歸係數、樣本和總體回歸方程、預測值和殘差等,今天我們結合一個案例來看看如何做完整的回歸分析,準確而言,是多重線性回歸(Multiple Linear Regreesion)。
  • 什麼是回歸?什麼是回歸分析?回歸分析預測的分類方法有哪些?
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。
  • spss線性回歸 回歸方程 - CSDN
    我是一隻正在迭代的分析獅天天。最近看了B站UP主好好玩量化的視頻《回答沈逸老師,新冠疫情下越民主死越多嗎?》,用到的分析方法就是線性回歸,決定猛學習一下,再來評判視頻裡的結論。>線性回歸,首先應用於定距變量之間,本質上是分析一個因變量和一組自變量之間的相關關係,既可以解釋,也可以做預測。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    可以證明:在一元線性回歸中,當b=0時,有以下結論:範例分析某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的數據,列入下表中,根據這些數據對回歸方程在顯著水平0.05做單側檢驗。
  • 基於R軟體實現多元線性回歸
    一個多元線性回歸在R中的實現示例在一元回歸中,只包含一個預測變量和響應變量間的關係。與此相比,當存在兩個或以上的預測變量時,稱為多元回歸(Multiple Regression)。如果只考慮變量間的線性關係時,就是多元線性回歸(Multiple Linear Regression)。
  • 一文輕鬆看懂線性回歸分析的交互作用!
    作者:丁點helper來源:丁點幫你前幾天的文章,我們聚焦在回歸分析,今天來看看在回歸分析中常常要研究的一類難點問題——交互作用的探究。交互(interaction),字面上不太好理解,但是從數學表達上卻很簡單。
  • 線性回歸假設檢驗 - CSDN
    , lrg3)get_lr_stats(x4_in, y4_in, lrg4)四個模型參數幾乎一樣( get_lr_stats 在Python_一元線性回歸及回歸顯著性中)但是並非全都是線性回歸>>> get_lr_stats(x1_in, y1_in, lrg1)一元線性回歸方程為: y=3.000090909090906 + 0.5000909090909094*x相關係數(R^2): 0.6665424595087752;回歸分析(SSR): 27.51000090909094
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:   今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:
  • 原理+代碼|Python實戰多元線性回歸模型
    主要將分為兩個部分:詳細原理Python 實戰Python 實戰Python 多元線性回歸的模型的實戰案例有非常多,這裡雖然選用的經典的房價預測多重線性回歸模型的主要假設之一是我們的預測變量(自變量)彼此不相關。我們希望預測變量(自變量)與反應變量(因變量)相關,而不是彼此之間具有相關性。
  • 使用Python線性回歸:預測Steam的打折的幅度
    使用Python線性回歸預測Steam遊戲的打折的幅度上篇文章我們解決了Steam是否打折的問題,這篇文章我們要解決的是到底打折幅度有多少,這裡我們就不能使用分類模型,而需要使用回歸的模型了。主要目標在這個項目中,我將試圖找出什麼樣的因素會影響Steam的折扣率並建立一個線性回歸模型來預測折扣率。數據數據將直接從Steam的官方網站上獲取。
  • 機器學習之多元線性回歸模型梯度下降公式與代碼實現(篇二)
    上一篇我們介紹了線性回歸的概述和最小二乘的介紹,對簡單的一元線性方程模型手推了公式和python代碼的實現。機器學習之線性回歸模型詳細手推公式與代碼實現(篇一)今天這一篇來介紹多元線性回歸模型多元線性回歸模型介紹在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸
  • 用Excel求解回歸方程的3種方法:LINEST、散點圖和數據分析工具
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第四章,一元線性回歸分析。實際場景中,對需求影響的因素很多,也就是說自變量很多,很少能用單一的變量,也即一元回歸分析來做好預測。回歸分析在預測裡的應用,主要是多元回歸。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    線性回歸是最流行和討論最多的模型之一,它無疑是深入機器學習(ML)的入門之路。這種簡單、直接的建模方法值得學習,這是進入ML的第一步。在繼續討論之前,讓我們回顧一下線性回歸可以大致分為兩類。簡單線性回歸:當只有一個輸入變量時,它是線性回歸最簡單的形式。
  • SPSS方法|嶺回歸分析
    :嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。1 實施的一般步驟1 嶺回歸分析通常要先對 X 變量作中心化和標準化處理, 以使不同自變量處於同樣數量級上而便於比較。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    二.解析在進行影響失能老年人照護需求的單因素分析時,根據資料情況選擇t檢驗、方差分析或秩和檢驗。以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • 線性回歸方程的顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第8章,顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗。上一章,我講述了回歸方程的精度,在回歸分析中,我們求出回歸方程後,除了確認回歸方程的精度外,我們要需要對回歸方程進行顯著性驗證,以確認回歸方程的有效性。本章,我同樣分如下三個小節對顯著性驗證進行講解,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。1、什麼是顯著性驗證?