有過編制預算經驗的朋友,應該會很熟悉,在預測技術裡,回歸分析應用非常廣泛,是用來進行定量數據分析的方法。線性回歸分析是一種統計方法,用於確定某個變量(或一組變量)對另一個變量的影響。
這個解釋其實有點拗口,舉個例子,我們知道,銷售推廣費用會影響到銷售量,那具體是怎樣的關係?如果要預測未來的數據,可以怎麼做?比較簡單的方法,就是基於歷史數據,將兩者之間的關係量化,表示為一個線性關係:Y=a + bX。
其中,X是自變量,Y是因變量,意思就是,Y會因為X的變化而變化;a是Y軸的截距,a的存在是為了讓表達式更準確,b是回歸係數,或者叫做斜率。具體到之前的例子,Y就是銷售量,X是銷售推廣費用。
回歸分析最關鍵的一步,就是要得到a和b的值。可以用二元一次方程的方式去求解,但那樣用到的數據太少,會影響到預測的準確性。在excel裡,提供了一個非常好的工具,可以基於一組數據來進行求解。只要有準備好的數據,用工具自動計算a和b的值,比手工計算的準確度要好,也更簡單。
1、準備工作。
excel中,默認可能沒有加載數據分析工具的,在準備使用前,需要先添加。在【excel選項】的【excel加載項】中,添加【分析工具庫】,之後,在excel工具欄的【數據】頁籤下,就會有【數據分析】的功能。
2、對於數據進行相關性分析。
相關性就是判斷兩組數據之間有沒有關係,以及關係的緊密程度。還是用前面的例子,我們認為銷售量和銷售推廣費之間是有線性關係的,那真實數據是不是這樣呢?就可以通過求這兩組數據之間的相關係數來確定。
在【數據分析】工具裡,有一個求相關係數的工具,只需要把兩組數據輸入,就能計算出來相關係數。相關係數的數值範圍是【-1,1】之間,負數表示負相關,一個增加另一個減少,0表示無關 ,而正數表示正相關,一個增加另一個也增加。典型的比如,同類產品組中的A和B兩個產品,A的銷量增加B會減少,那A和B之間的銷量就是負相關。相關係數的絕對值越大,越接近於1,表示相關係數越強,一般地,大於0.8表示強相關。
比如,我們把之前案例裡的上一年度數據,整理到EXCEL中,得到相關係數是0.947208,這表明,兩組數據之間存在強相關性。在實際處理中,輸入數據不能太少,一般至少不低於12組數據。如果數據中有某一個數據明顯異常,也會導致的相關係數變低,這時,不應該立刻否定相關性,而是應該優先去分析這個異常數據產生的原因,未來會不會重現,然後再進行調整。
3、回歸分析
在確定相關係數符合分析要求後,則可以藉助execl進行下一步的回歸分析。在【數據分析】裡,選擇回歸。
需要注意一下,Y值的輸入區域,對應的【銷售量】列的值,也就是因變量,而X值輸入區域,對應的是【推廣費用】一列的值,是自變量。選擇將結果輸出到新的表頁,在新表頁中,就包括了回歸分析相關的數據(如下圖)。
其中,有這樣幾個數據比較關鍵:
1、【回歸統計】中的Multiple R是相關係數,就是前面第二個步驟裡單獨計算的相關性,可以再次確認一下。
2、【回歸統計】中的R Square,也就是R平方,又叫做擬合優度或者決定係數,它表示因變量的變化,可以在多大程度上通過自變量的變化來進行解釋。R方的取值範圍是【0,1】,R平方值越大,表示模型擬合的越好。一般大於70%就算擬合的不錯,60%以下的就需要修正模型。
3、在【方差分析】中,df是自由度,SS是平方和,MS是均方,F是F統計量,Significance F是回歸方程總體的顯著性檢驗,其中我們主要關注F檢驗的結果,即Significance F值,F檢驗主要是檢驗因變量與自變量之間的線性關係是否顯著,用線性模型來描述他們之間的關係是否恰當,越小越顯著。這個案例裡F值很小,說明因變量與自變量之間顯著。(這一段是抄來的,我是真沒看懂)
4、 最後一張表的第一列,是回歸方程a和b的值。那示例中的數據,最後得到的方程式就是:Y=5720.946+0.879989X。以後就可以用這個表達式,來計算當輸入的X發生變化時,得到的Y是多少。比如預測下一年銷售推廣費用投入後,帶來的銷售量。
以上只是最基礎的部分,有興趣的朋友還可以更深入地挖掘一下。前陣子在做一個給小朋友玩的小道具,也用到了excel裡的數據分析,生成隨機數,還是蠻好用的,excel不愧是傳說中最好使的分析工具。
不過,在運用線性回歸進行分析的時候,有基本假設作為前提:
首先,自變量和因變量之間確實存在穩定的線性關係;
其次,則要求用線性回歸得到的估計值與真實值之間的差異,服從均值為0,標準差為常數的正態分布。
一個是搭建模型之前要用數據確認的,一個是事後要再回測,也就是說模型不是用一次就完了,還要再用實際數進行驗證,並反覆修正。
註:是最近正好看了關於預測技術的內容,就結合起來簡單整理一下,這部分並沒有實際做過,歡迎有實戰經驗的朋友來拍磚。另,測試了兩天廣告,感謝大家的容忍。