許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。
線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
本章,我將詳細講解用多元線性回歸分析進行需求預測的十大步驟:數據收集、數據清洗、列出所有的變量、確定納入回歸方程的自變量、確定並消除多重共線性、求解多元線性回歸方程、確認回歸方程的精度、顯著性驗證、計算置信區間、正式預測。
一、數據收集。
我們做統計,進行數據分析,首先的,都是需要有數據。有數據才能統計,有數據才能進行數據分析。以回歸分析做需求預測,同樣需要有數據,最先開始的,是數據收集。
數據收集是按照確定的數據分析和框架內容,有目的的收集、整合相關數據的一個過程。
從上面數據收集的定義可以看出,數據收集需要有明確的目的,即我們先要確定我們是為了什麼事而去收集數據。本專欄的主題是用回歸分析進行需求預測,所以,在這裡,我們收集數據的目的非常明確,收集數據就是為了有效的採用回歸分析的方法來進行需求預測。
所以,我們需要收集的,就是與需求預測這個目的相關的數據,比如銷量數據(因變量),以及各種影響銷量因素的數據(自變量)等等。對需求預測沒有幫助的數據,在回歸分析中不需要收集(比喻相關財務數據)。
回歸分析需要的數據一般來源於我們日常的記錄(含人工記錄與系統生成),比如生產原始單據與報表、出入庫報單、銷售數據、促銷信息、重大事件特殊事件記錄、調查與調研信息等等。
二、數據清洗。
我們收集到了一定量的數據,但這些數據往往不是直接能用的,我們需要對數據進行一些處理與加工,使數據能夠被我們後續進行各分析所使用,這個過程就是數據清洗。
數據清洗一般包括以下工作(數據清洗方法比較多也比較有針對性,本專欄不深入,大家感興趣,可以私下交流):清除不必要的數據,清除錯誤的數據,填補缺失的數據,轉換數據,提取或合併數據,計算與分組分類等等。
三、列出所有的變量。
數據收集並清洗後,需要根據數據,列出所有有效的變量(指經收集清洗後有完整可用數據的變量)。
以本專欄回歸火鍋店為例,在收集數據並經必要的整理清洗後,我們得到了如上圖的數據(回歸火鍋店每日業績),根據這些數據,可以列出了全部變量(自變量:氣溫、折扣、帥哥站臺;因變量:業績)。
四、進行相關分析,確定納入回歸方程的自變量。
列出全部的自變量後,接下來,對每個自變量與因變量進行相關分析,以確定將哪些自變量納入回歸方程。
如上圖右上所示,我們採取Excel函數CORREL計算相關係數,三個自變量的相關係數分別為氣溫-0.818、折扣-0.793、帥哥站臺0.122。(相關係數計算詳見本專欄第2章。)
按照自變量相關程度的標準和是否納入回歸方程的標準(如上圖右下所示),氣溫和折扣為強相關,直接納入回歸方程;帥哥站臺為不相關,將其排除在回歸方程之外。即:回歸火鍋店這個例子,經相關分析後,我們確定了回歸方程的兩個自變量:氣溫和折扣。
五、確定並消除多重共線性。
確定納入回歸方程的自變量,我們接下來需要判定回歸方程存不存在多重共線性,如果存在多重共線性話,我們需要進行消除多重共線性的操作。(關於多重共線性,詳見本專欄第6章。)
我們用方差膨脹因子(VIF)來判定回歸方程存不存在多重共線性。如上圖,本例中,VIF計算結果,氣溫(VIF=3.022),折扣(VIF=2.694)。根據方差膨脹因子可接受到標準,本案例中,兩個自變量VIF都小於5,表明我們兩個自變量之間不存在多重共線性,不需要進行消除多重共線性的操作。
六、求解多元線性回歸方程。
經過以上步驟,按回歸火鍋店的數據,最終選擇兩個自變量,氣溫和促銷折扣,我們列出多元線性回歸方程:y=a1x1+a2x2+b。接下來,就是進行多元線性回歸方程的求解。(求解多元回歸方程詳見本專欄第5章。)
如上圖, 我們採用Excel函數LINEST求解多元回歸方程。(LINEST函數的用法詳見本專欄的第4、5兩章。特別提醒,LINEST函數是一個數組函數,一起選中需要輸入公式的三個單元格,完成公式內容輸入後,Ctrl+Shift+Enter三鍵同按最終完成公式錄入,得出函數計算結果。)
本例兩個自變量從左到右依次是氣溫和折扣,LINEST函數計劃出來的回歸係數從左到右依次是折扣和氣溫,順序相反。本例兩個自變量回歸係數分別是,氣溫回歸係數-140.7,折扣回歸係數是-10582.7,截距為15801.2(兩個回歸係數均為負數,代表這兩個自變量和因變量都是反相關關係。即氣溫越高,業績越低,折扣力度越大,業績越高)。
本例多元回歸方程求解結果:y=-140.7x1-10582.7x2+15801.2。
七、確認回歸方程的精度。
求出回歸方程後,我們需要對這個回歸方程進行一系列評價和評估,第一個要做的是確認回歸方程的精度。
我們用給調整後的R2來衡量回歸方程精度。(判定係數R2與調整後的R2詳見本專欄第2章)。
確認回歸方程的精度具體步驟如下(詳細如上圖)。
1、按求出的回歸方程對已有數據進行預測,得到預測業績數據列(y』)。
2、計算因變量實際業績y與預測業績y』的相關係數R,計算結果為0.857。
3、計算因變量實際業績y與預測業績y』的判定係數R2,計算結果為0.734。
4、計算調整後的R2,計算結果為0.686
5、按我建議的確認回歸方程精度的判定標準(詳見本專欄第7章),本例調整後的R2為0.686,接近0.75,表示回歸模型擬合度較好,回歸方程的精度較高,回歸方程的精度確認成功。
八、顯著性驗證。
顯著性驗證的方法一般有兩種,一是測算回歸方程總體顯著性的F檢驗,二是測算回歸係數個體顯著性的t檢驗。(顯著性驗證詳見本專欄第8章。)
本例採用第一種方法,即回歸方程的總體顯著性驗證的F檢驗。
F檢驗測算的是回歸方程的總體顯著性,我們以Excel的數據分析工具來進行F檢驗。
請見上圖。本例F檢驗,上圖是以5%的顯著性水平(置信度95%),用Excel的數據分析工具中的回歸分析計算的結果。結果顯示,F統計值為15.19。
我們用Excel函數FINV來計算標準的F統計值,將顯著性水平0.05,第1自由度2,第2自由度11(14-2-1)輸入函數,得出標準的F統計值3.98。
計算的F統計值為15.19,遠大於標準的F統計值3.98,本例顯著性驗證F檢驗成功。
九、計算置信區間。
經過回歸方程的顯著性驗證,接下來,我們計算置信區間。(關於置信度與置信區間,詳見本專欄第9章。)
我們用Excel函數TINV+STDEVA+ SQRT來計算置信區間,詳細如下(見上圖)。
1、用TINV函數計算t值。將顯著性水平α=0.05,樣本個數n=14,輸入函數,t值=TINV(0.05,14-1)=2.16。
2、用STDEVA函數計算預測業績y』的標準差,如下圖,y』的標準差=747。
3、將以上數據套入置信區間的計算公式,計算置信區間,得出,置信區間=±2.16*747/SQRT(14)=±431。
十、正式預測並得出預測結果。
好,我們經過上述九步的一系列動作,現在可以正式預測了。
經天氣預報查詢,未來1月26日氣溫為-2℃,經回歸火鍋店管理層決定,當天火鍋店進行97折促銷,我們以回歸分析來預測1月26日回歸火鍋店的業績,具體的有以下幾點(見上圖)。
1、我們將需要預測當天的兩個自變量(氣溫為-2℃,折扣0.97),代入上幾步我們解出的,已經確認過精度的,並進行過顯著性驗證的多元回歸方程y=-140.7x1-10582.7x2+15801.2,得出當天業績預測的基準結果(如預測過程中沒有引進置信區間,那這個基準結果就是最終預測結果),即y=-140.7*(-2)-10582.7*0.97+15801.2= 5817元。
2、我們設定的置信水平是95%,根據第九步的計算,置信區間=±431,我們以預測的基準結果±431,得到當日預測業績的上下限,即5817±431,最大6248元,最小5386元。
3、當氣溫-2度,並進行97折促銷時,我們得出預測結果:1月26日,回歸火鍋店的業績,有95%的可能在5386元~6248元之間。
專欄總結。
至此,許栩原創專欄《從入門到高手:線性回歸分析詳解》共10章,全部更新完成。下面再回顧一下專欄的全部內容,作為總結。
第1章,我講述了變量、因變量、自變量和「啞變量」的相關概念。
第2章,詳細介紹確定關係與相關關係,相關係數與判定係數的概念及其計算方法。
第3章,從頭說明回歸分析的歷史、概念和分類。
第4章和第5章,分別講解一元線性回歸方程和多元線性回歸方程的公式和計算方法。
第6章,重點介紹多元回歸分析的常見現象,多重共線性。
第7章~第9章,我分別講述了如何確認回歸方程的精度,如何進行顯著性驗證,以及如何計算置信區間。
第10章,正式預測。
許栩原創專欄《從入門到高手:線性回歸分析詳解》全部內容就講解到這裡,感謝您的支持與閱讀,許栩原創下一個專欄再見,謝謝!