一、多元回歸分析簡介
用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear regression),簡稱多元回歸(multiple regression)。
多元回歸分析是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!
回歸分析的基本思想是:雖然自變量和因變量之間沒有嚴格的、確定性的函數關係,但可以設法找出最能代表它們之間關係的數學表達形式。
二、多元回歸線性分析的運用
具體地說,多元線性回歸分析主要解決以下幾方面的問題。
(1)確定幾個特定的變量之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表達式;
(2)根據一個或幾個變量的值,預測或控制另一個變量的取值,並且可以知道這種預測或控制能達到什麼樣的精確度;
(3)進行因素分析。例如在對於共同影響一個變量的許多變量(因素)之間,找出哪些是重要因素,哪些是次要因素,這些因素之間又有什麼關係等等。
在運用多元線性回歸時主要需要注意以下幾點:
首先,多元回歸分析應該強調是多元線性回歸分析!強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計算線性回歸方程的得分進行了概率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當然,還有很多分析最終也是回歸思想!
第三:什麼是「回歸」,回歸就是向平均靠攏。
第四:如果你用線性回歸方式去解釋過去,你只能朝著一個趨勢繼續,但未來對過去的偏離有無數種可能性;
第五:線性回歸方程納入的自變量越多,越應該能夠反應現實,但解釋起來就越困難;
第六:統計學家往往追求的是簡約的模型和更高的解釋度,往往關注模型R平方,共線性和回歸診斷問題;
第七:市場研究人員往往注重模型的解釋合理性,是否與預設的直覺一直,是否支持了我的市場假設等;
多元線性回歸分析的主要目的是:解釋和預測
三、多元回歸模型的建立
模型的表達形式如下:
在此徵用一個網絡上的例子來做詳細講解:
假設我們收集了100個企業客戶經理對我產品的總體滿意度和分項指標的滿意度評價,我期望知道,什麼分項指標對我總體滿意度有重要影響,它的改進更能夠提升總體滿意度;如果建立預測模型,我期望知道了分項指標的評價就能夠預測總體滿意度數值;
在SPSS中選擇回歸分析後,把X10作為因變量,X1到X7作為自變量,選擇相應的統計參數和輸出結果:
R平方是我們最需要關注的,該值說明了方程的擬合好壞,R平方=0.80非常不錯了,說明:1)總體滿意度的80%的變差都可以由7個分項指標解釋,或者說,7個分項指標可以解釋總體滿意度80%的變差!2)R平方如果太大,大家不要高興太早,社會科學很少有那麼完美的預測或解釋,一定存在了共線性!
方程分析表的顯著性表明了回歸具有解釋力!
線性回歸方程給出可預測的計算係數,但是,社會科學很少進行預測,重要的是解釋;
這裡要注意的是如果自變量的測量尺度是統一的話,我們可以直接比較係數的大小,但是如果自變量的測量尺度不統一的話,我們必須看標準化回歸係數,標準化回歸係數去掉的量綱,且反應了重要性!我們就是需要重要性測量!
當然,這個時候,研究人員應該關注每個指標的回歸係數是否真的等於零,要進行假設檢驗!
四、多元回歸模型的顯著性檢驗
上文中有提到,若R平方過大,擬合優度很好的情況下,可能存在多重共線性,而多重共線性便是多元回歸模型產生誤差的主要原因。
造成多重共線性的原因有一下幾種:
1、解釋變量都享有共同的時間趨勢;
2、一個解釋變量是另一個的滯後,二者往往遵循一個趨勢;
3、由於數據收集的基礎不夠寬,某些解釋變量可能會一起變動;
4、某些解釋變量間存在某種近似的線性關係;
判別:
1、發現係數估計值的符號不對;
2、某些重要的解釋變量t值低,而R方不低
3、當一不太重要的解釋變量被刪除後,回歸結果顯著變化;
檢驗:
1、相關性分析,相關係數高於0.8,表明存在多重共線性;但相關係數低,並不能表示不存在多重共線性;
2、vif檢驗;
3、條件係數檢驗;
解決方法:
克服主成分分析的統計方式有主成分回歸、嶺回歸、逐步回歸,其定義分別為:
主成分回歸:主成分分析法作為多元統計分析的一種常用方法在處理多變量問題時具有其一定的優越性,其降維的優勢是明顯的,主成分回歸方法對於一般的多重共線性問題還是適用的,尤其是對共線性較強的變量之間。當採取主成分提取了新的變量後,往往這些變量間的組內差異小而組間差異大,起到了消除共線性的問題。
嶺回歸:嶺回歸分析實際上是一種改良的最小二乘法,是一種專門用於共線性數據分析的有偏估計回歸方法。嶺回歸分析的基本思想是當自變量間存在共線性時,解釋變量的相關矩陣行列式近似為零,X'X是奇異的,也就是說它的行列式的值也接近於零,此時OLS估計將失效。此時可採用嶺回歸估計。嶺回歸就是用X'X+KI代替正規方程中的X'X,人為地把最小特徵根由minli提高到min(li+k),希望這樣有助於降低均方誤差。
逐步回歸:逐步回歸(Stepwise Regression)是一種常用的消除多重共線性、選取「最優」回歸方程的方法。其做法是將逐個引入自變量,引入的條件是該自變量經F檢驗是顯著的,每引入一個自變量後,對已選入的變量進行逐個檢驗,如果原來引入的變量由於後面變量的引入而變得不再顯著,那麼就將其剔除。引入一個變量或從回歸方程中剔除一個變量,為逐步回歸的一步,每一步都要進行F 檢驗,以確保每次引入新變量之前回歸方程中只包含顯著的變量。這個過程反覆進行,直到既沒有不顯著的自變量選入回歸方程,也沒有顯著自變量從回歸方程中剔除為止。
處理多重共線性的原則:
1、 多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施;
2、 嚴重的多重共線性問題,一般可根據經驗或通過分析回歸結果發現。如影響係數符號,重要的解釋變量t值很低。要根據不同情況採取必要措施。
3、 如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果;
五、總概模型圖
文章來源|知乎(版權歸作者所有)
作者|蔡逸
編輯|劉劉劉佳楠