一文讀懂多元回歸分析

2021-01-17 量化研究方法

一、多元回歸分析簡介

用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear regression),簡稱多元回歸(multiple regression)。

多元回歸分析是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!

回歸分析的基本思想是:雖然自變量和因變量之間沒有嚴格的、確定性的函數關係,但可以設法找出最能代表它們之間關係的數學表達形式。

二、多元回歸線性分析的運用

具體地說,多元線性回歸分析主要解決以下幾方面的問題。

(1)確定幾個特定的變量之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表達式;

(2)根據一個或幾個變量的值,預測或控制另一個變量的取值,並且可以知道這種預測或控制能達到什麼樣的精確度;

(3)進行因素分析。例如在對於共同影響一個變量的許多變量(因素)之間,找出哪些是重要因素,哪些是次要因素,這些因素之間又有什麼關係等等。

在運用多元線性回歸時主要需要注意以下幾點:

首先,多元回歸分析應該強調是多元線性回歸分析!強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。

第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計算線性回歸方程的得分進行了概率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當然,還有很多分析最終也是回歸思想!

第三:什麼是「回歸」,回歸就是向平均靠攏。

第四:如果你用線性回歸方式去解釋過去,你只能朝著一個趨勢繼續,但未來對過去的偏離有無數種可能性;

第五:線性回歸方程納入的自變量越多,越應該能夠反應現實,但解釋起來就越困難;

第六:統計學家往往追求的是簡約的模型和更高的解釋度,往往關注模型R平方,共線性和回歸診斷問題;

第七:市場研究人員往往注重模型的解釋合理性,是否與預設的直覺一直,是否支持了我的市場假設等;

多元線性回歸分析的主要目的是:解釋和預測

三、多元回歸模型的建立

模型的表達形式如下:


在此徵用一個網絡上的例子來做詳細講解:


假設我們收集了100個企業客戶經理對我產品的總體滿意度和分項指標的滿意度評價,我期望知道,什麼分項指標對我總體滿意度有重要影響,它的改進更能夠提升總體滿意度;如果建立預測模型,我期望知道了分項指標的評價就能夠預測總體滿意度數值;



在SPSS中選擇回歸分析後,把X10作為因變量,X1到X7作為自變量,選擇相應的統計參數和輸出結果:


R平方是我們最需要關注的,該值說明了方程的擬合好壞,R平方=0.80非常不錯了,說明:1)總體滿意度的80%的變差都可以由7個分項指標解釋,或者說,7個分項指標可以解釋總體滿意度80%的變差!2)R平方如果太大,大家不要高興太早,社會科學很少有那麼完美的預測或解釋,一定存在了共線性!


方程分析表的顯著性表明了回歸具有解釋力!

線性回歸方程給出可預測的計算係數,但是,社會科學很少進行預測,重要的是解釋;

這裡要注意的是如果自變量的測量尺度是統一的話,我們可以直接比較係數的大小,但是如果自變量的測量尺度不統一的話,我們必須看標準化回歸係數,標準化回歸係數去掉的量綱,且反應了重要性!我們就是需要重要性測量!

當然,這個時候,研究人員應該關注每個指標的回歸係數是否真的等於零,要進行假設檢驗!

四、多元回歸模型的顯著性檢驗

上文中有提到,若R平方過大,擬合優度很好的情況下,可能存在多重共線性,而多重共線性便是多元回歸模型產生誤差的主要原因。

造成多重共線性的原因有一下幾種:

1、解釋變量都享有共同的時間趨勢;

2、一個解釋變量是另一個的滯後,二者往往遵循一個趨勢;

3、由於數據收集的基礎不夠寬,某些解釋變量可能會一起變動;

4、某些解釋變量間存在某種近似的線性關係;

判別:

1、發現係數估計值的符號不對;

2、某些重要的解釋變量t值低,而R方不低

3、當一不太重要的解釋變量被刪除後,回歸結果顯著變化;

檢驗:

1、相關性分析,相關係數高於0.8,表明存在多重共線性;但相關係數低,並不能表示不存在多重共線性;

2、vif檢驗;

3、條件係數檢驗;

解決方法:

克服主成分分析的統計方式有主成分回歸、嶺回歸、逐步回歸,其定義分別為:

主成分回歸:主成分分析法作為多元統計分析的一種常用方法在處理多變量問題時具有其一定的優越性,其降維的優勢是明顯的,主成分回歸方法對於一般的多重共線性問題還是適用的,尤其是對共線性較強的變量之間。當採取主成分提取了新的變量後,往往這些變量間的組內差異小而組間差異大,起到了消除共線性的問題。

嶺回歸:嶺回歸分析實際上是一種改良的最小二乘法,是一種專門用於共線性數據分析的有偏估計回歸方法。嶺回歸分析的基本思想是當自變量間存在共線性時,解釋變量的相關矩陣行列式近似為零,X'X是奇異的,也就是說它的行列式的值也接近於零,此時OLS估計將失效。此時可採用嶺回歸估計。嶺回歸就是用X'X+KI代替正規方程中的X'X,人為地把最小特徵根由minli提高到min(li+k),希望這樣有助於降低均方誤差。

逐步回歸:逐步回歸(Stepwise Regression)是一種常用的消除多重共線性、選取「最優」回歸方程的方法。其做法是將逐個引入自變量,引入的條件是該自變量經F檢驗是顯著的,每引入一個自變量後,對已選入的變量進行逐個檢驗,如果原來引入的變量由於後面變量的引入而變得不再顯著,那麼就將其剔除。引入一個變量或從回歸方程中剔除一個變量,為逐步回歸的一步,每一步都要進行F 檢驗,以確保每次引入新變量之前回歸方程中只包含顯著的變量。這個過程反覆進行,直到既沒有不顯著的自變量選入回歸方程,也沒有顯著自變量從回歸方程中剔除為止。

處理多重共線性的原則:

1、  多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施;

2、  嚴重的多重共線性問題,一般可根據經驗或通過分析回歸結果發現。如影響係數符號,重要的解釋變量t值很低。要根據不同情況採取必要措施。

3、  如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果;

五、總概模型圖





文章來源|知乎(版權歸作者所有)

作者|蔡逸

編輯|劉劉劉佳楠

相關焦點

  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • 【從入門到高手:回歸分析】多元回歸分析:如何求解多元回歸方程
    在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元回歸分析)來做好需求預測。這時,我們需要用到多元回歸分析。回歸分析在需求預測的應用,也主要是多元回歸分析。對需求預測而言,多元回歸更具有適用性和有效性。
  • 多元回歸分析入門
    要了解變量之間如何發生相互影響的,就需要利用相關分析和回歸分析。在上一章講述了相關分析有關內容。本章介紹回歸分析基本概念,回歸分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析以及邏輯回歸分析等。j基本概念:    相關分析和回歸分析都是研究變量間關係的統計學課題。
  • 【線性回歸】多變量分析:多元回歸分析
    多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量
  • 多元回歸樹分析Multivariate Regression Trees,MRT
    MRT是一種強大而可靠的分類方法,即使被劃分的變量含有缺失值,或者響應變量與解釋變量是非線性關係,或解釋變量之間存在高階相互關係,經過交叉驗證等一系列篩選過程,多元回歸樹都能夠發揮很好的預測作用。從k組中隨機選取一組作為「驗證組」(testing set),剩餘k-1組(訓練組,training set)重現混合後通過約束分析,按照組內平方和最小的原則,建立回歸樹。將以上過程重複k-1次,即依次剔除一組數據。共產生k個回歸樹,對於每個回歸樹的不同分類方案,將驗證組(一組數據)內的對象分配到分組結果中。計算每個回歸樹分類方案的CVRE。
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 廣義線性回歸分析模型Logistic,一文讀懂它!
    作者:丁點helper來源:丁點幫你前文我們已經講解了相關與回歸的基礎知識,並且重點討論了多重線性回歸的應用與診斷分析。今天的文章,我們來看看日常學習和科研中應用同樣廣泛的另一類回歸分析——Logistic回歸。Logisti回歸與多重線性回歸的區別多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。
  • SPSS大戰多元回歸分析
    使用多元回歸進行數據分析,分析軟體供選擇的比較多,主要有Eviews、Spss、Stata、Sas、Gretel等。
  • 管理心理學之統計(22)回歸分析與多元回歸
    回歸方程的顯著性測驗:回歸分析回歸方程假設檢驗的虛無假設陳述了兩個變量總體間不存在關係,具體表述為:方程沒有對Y值的變異做出有顯著性的貢獻和解釋。或者說回歸方程中算出的b值不能代表任何X和Y之間的真正關係,只是由隨機或者樣本誤差造成的,總體真正的b為零。
  • 統計計量 | 用R做多元線性回歸分析(文末有福利)
    回歸分析是一種統計學上分析數據的方法,目的在於了解兩個或多個變量間是否相關
  • 一文讀懂線性回歸和梯度下降
    (點擊上方公眾號,可快速關注)轉自:BYRanshttp://www.cnblogs.com/BYRans/p/4700202.html好文投稿
  • r語言 多元回歸模型_r語言多元回歸模型殘差分析 - CSDN
    1、多元線性回歸模型1.1多元回歸模型與多元回歸方程設因變量為y,k個自變量分別為,描述因變量y如何依賴於自變量和誤差項ε的方程稱為多元回歸模型。其一般形式可表示為:式中,為模型的參數,ε為隨機誤差項。
  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    研究多個因素間關係及具有這些因素的個體之間的一系列統計分析方法稱為多元(因素)分析。主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。1、案例背景某北方城市研究喉癌發病的危險因素,使用1:2匹配的病例對照研究方法進行調查。共有25對配對數據(每對3個,即25*3=75行數據)。
  • 多元線性回歸spss結果分析_spss多元線性回歸分析結果分析 - CSDN
    通過查閱北京統計局出示的有關數據以及閱讀相關文獻,搜集北京市近15年的統計資料,基於SPSS多元線性回歸中的逐步回歸分析法,建立回歸模型。
  • 一文讀懂電容傳感器
    藍色標題,獲取文章】 10、一文讀懂光纖傳感器 11、一文讀懂溫溼度傳感器 12
  • 原創案例:Matlab多元線性回歸分析-逐步回歸
    在多元線性回歸分析中,逐步回歸法是對多個變量進行分析的有效方法。逐步回歸的基本思想是逐個引入自變量,保留影響顯著的變量,剔除影響不顯著的變量,最終使得回歸方程擬合度趨於完美。在Matlab中,函數stepwise的功能就是對需要分析的變量進行逐步回歸,最後得出回歸方程各個擬合信息。Stepwise的簡單用法是stepwize(X,Y),X是由若干個自變量列向量組成的矩陣,Y是由因變量構成的列向量。
  • 一文讀懂MEMS傳感器(必須收藏)
    【點擊藍色標題,獲取文章】 1
  • 學會用多元回歸分析武裝頭腦
    回歸分析是在體育博彩中應用最廣泛的統計方法,在影響比賽結果的因素和結果之間建立定量的聯繫。最常用的回歸方法是多元線性回歸和邏輯回歸,在不同的條件下,可以計算體育比賽某個結果的概率或者直接計算出結果。當因變量是線性的時候適合用線性回歸,比如計算球隊的積分、黃牌數等等;非線性時適合用邏輯回歸,非線性變量其實就是分類變量,比如輸或贏就2種狀態。