許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。
在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。
這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
多元線性回歸分析是一種應用範圍很廣的定量預測方法,是使用最多的需求預測方法之一,也是商業領域應用最廣泛的建模技術之一。多元線性回歸分析幾乎可運用於任何商業環境中,當然,包括需求預測。
本章主要內容如下。(專欄總目錄見下圖)
1、多元回歸方程。
2、納入多元回歸方程自變量的確定。
3、求解多元回歸方程。
多元回歸方程。
多元回歸分析,又稱重回歸分析,就是通過多個因素(自變量)對目標(因變量)進行預測的一種手段和方法。
多元回歸分析,可以理解為有兩個或兩個以上自變量的回歸分析。
多元回歸分析自變量和因變量的關係,可以多元方程式的形式表現出來,這個多元方程式就是多元回歸方程。
多元回歸擁有兩個或兩個以上的自變量,多元線性回歸方程式是y=a1x1+a2x2+…+anxn+b。多元回歸方程與一元回歸方程很相似,區別在於一元回歸方程是一個自變量,而多元回歸方程有多個自變量。(見下圖)
下圖式中,y為因變量,即我們要預測的目標變量,x1為自變量1,x2為自變量2,x3為自變量3,…,xn為自變量n,。
a1、a2、a3、…、an分別為x1、x2、x2、…、xn的回歸係數(也叫偏回歸係數),代表每個自變量對因變量影響的程度。
b為截距,為多元線性回歸直線與Y軸交點的縱坐標。
納入多元回歸方程自變量的確定。
前文我說到,影響需求的因素,也就是說自變量有很多個,我們不可能也沒有必要把這些自變量都納入多元回歸方程。何況這些自變量有的影響大,有的影響小,有的重要,有的不重要。這時,我們需要做出選擇,需要採取辦法將影響大的自變量納入多元回歸方程。
採取什麼方法呢?做相關分析。即對每一個自變量和因變量做相關分析,也就是求出每一個自變量和因變量的相關係數R,然後按一定的標準,將相關係數R達到一定標準的納入回歸方程。(這裡涉及到一個「多重共線性」的問題,我將在本專欄的下一章,即第六章詳細講述,本章暫不深入。)
我們可以用Excel函數CORREL計算相關係數R(詳細計算方法請見本專欄第二章《回歸分析的基礎概念之2:確定關係與相關關係,相關係數與判定係數》)。
相關係數R達到多少才可以納入多元回歸方程,我給出如下的標準。(詳見下圖)
上圖說明如下:
1、強相關、中相關直接納入多元回歸方程,即相關係數R比±0.5或更大(小)的自變量直接納入多元回歸方程。
2、弱相關,即相關係數在±0.3—±0.5之間的變量,可考慮納入多元回歸方程。根據其它數據情況(比如多重共線性),以及這個變量的特性及未來發展預期等情況綜合考慮。
3、微弱相關或不相關,即相關係數比±0.3或更小(大)的變量,直接排除在多元回歸方程之外。
下圖,我給出了一個納入多元回歸方程自變量選擇的實例。我仍模擬了「回歸火鍋店」的一組數據,下文的求解多元回歸方程,也將用這個數據。(為便於講解,我只列出了三個自變量。)