線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!
線性回歸
回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。
當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。在SPSSAU裡均是使用【通用方法】裡的【線性回歸】實現分析的。
Step1:數據類型
線性回歸要求因變量Y(被解釋變量)一定是定量數據,如果因變量Y為定類數據,則可以採用【進階方法】中的【logit回歸】。
Step2:變量篩選
對於引入模型的自變量,通常沒有個數要求。但從經驗上看,不要一次性放入太多自變量。如果同時自變量太多,容易引起共線性問題。建議根據專業知識進行選擇,同時樣本量不能過少,通常要滿足樣本個數是自變量的20倍以上。
如果自變量為定類數據,需要對變量進行啞變量處理。可以在SPSSAU的【數據處理】→【生成變量】進行設置。具體步驟可以查看:什麼是虛擬變量?怎麼設置才正確?
控制變量,可以是定量數據,也可以是定類數據。一般來說更多是定類數據,如:性別,年齡,工作年限等人口統計學變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。
Step3:正態性檢驗
理論上,回歸分析的因變量Y要求需服從正態分布,SPSSAU提供多種檢驗正態性的方法。
如果數據不正態,可以做對數處理。若數據為問卷數據,建議可跳過正態性檢驗這一步。原因在於問卷數據屬於定序數據,很難保證正態性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。
Step4:散點圖和相關分析
一般來說,回歸分析之前需要做相關分析,原因在於相關分析可以先了解是否有關係,回歸分析是研究有沒有影響關係,有相關關係但並不一定有回歸影響關係。當然回歸分析之前也可以使用散點圖直觀查看數據關係情況等。
Step5:SPSSAU操作
研究:在線英語學習購買因素研究
①操作步驟
將性別、年齡、月收入水平、產品、促銷、渠道、價格、個性化服務、隱私保護共九個變量作為自變量,而將購買意願作為因變量進行線性回歸分析。勾選「保存殘差和預測值」。
②指標解讀
非標準化係數(B):非標準化回歸係數。回歸模型方程中使用的是非標準化係數。標準化係數(Beta):標準化回歸係數。可用於比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大t值:t檢驗的過程值,回歸分析中涉及兩種檢驗(t檢驗和F檢驗),t檢驗分別檢驗每一個X對Y的影響關係,通過t檢驗說明這個X對Y有顯著的影響關係;F檢驗用於檢驗模型整體的影響關係,通過F檢驗,則說明模型中至少有一個X對Y有顯著的影響關係。此處的t值,為t檢驗的過程值,用於計算P值。一般無需關注。p值:t檢驗所得p值。P值小於0.05即說明,其所對應的X對因變量存在顯著性影響關係。VIF值:共線性指標。大於5說明存在共線性問題。R:決定係數,模型擬合指標。反應Y的波動有多少比例能被X的波動描述。調整R:調整後的決定係數,也是模型擬合指標。當x個數較多是調整R比R更為準確。F檢驗:通過F檢驗,說明模型中至少有一個X對Y有顯著的影響關係。分析時主要關注後面的P值即可。D-W值:D-W檢驗值,Durbin-Watson檢驗,是自相關性的一項檢驗方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好。
③結果分析
分析時可按照「分析建議」給出的步驟來分析。
模型公式顯示在智能分析中,可直接使用。
本例中得到的分析結果為:
產品、促銷、個性化服務、保護隱私四個變量對購買意願有正向影響關係。
Step6:模型後檢驗
到這裡很多人認為已經分析完了,可以得出結果,實際上還遠遠沒結束。回歸模型有很多限制條件,上述步驟裡我們只是構建了模型,至於模型質量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進行確認。
通常需要對線性回歸模型檢驗以下幾個方面:
多重共線性
在進行線性回歸分析時,容易出現自變量之間彼此相關的現象,我們稱這種現象為多重共線性。
當出現嚴重共線性問題時,會導致分析結果不穩定,甚至出現回歸係數的符號與實際情況完全相反的情況,因而需要及時進行處理。
①診斷指標
檢驗多重共線性,可查看分析結果中的VIF值。
VIF>5說明存在共線性問題,VIF>10,說明存在嚴重的多重共線性問題,模型構建較差,需要進行處理。
②處理方法
(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實際操作中較難實現。
(2)對自變量進行相關分析,找出相關係數高的變量,手工移出後再做線性回歸分析。
(3)採用逐步回歸法,讓系統自動篩選出最優分析項,剔除引起多重共線性的變量。
(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。
殘差獨立性(自相關)
殘差獨立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關,說明可能存在與因變量相關的因素沒有引入回歸方程,整體模型構建較差。
①診斷指標
D-W值用於判斷自相關性,判斷標準是2附近即可(1.8~2.2之間),如果達標說明沒有自相關性,即樣本之間並沒有幹擾關係。
②處理方法
問卷數據基本不會出現自相關問題,如有自相關問題時建議查看因變量Y的數據。
殘差正態性
殘差正態性也是線性回歸方程的基本前提之一。在分析時可保存殘差項,然後使用「正態圖」直觀檢測殘差正態性情況。
regressionXXXX_residual代表殘差值regressionXXXX_prediction 代表預測值
如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。如果殘差正態性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。
殘差方差齊性(異方差)
①檢驗方法
方差齊性可以通過散點圖來考察,在分析時可保存殘差項,以模型自變量X或因變量Y為橫坐標,殘差值為縱坐標,作散點圖。
如果隨著預測值的增加,殘差值保持相同的離散程度,則說明方差齊。
如果殘差值隨著預測值的增加而變寬或變窄,則說明有異方差。
②異方差的處理方法
處理異方差問題有三種辦法,分別是數據處理、穩健標準誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。
異方差問題在計量經濟中較常出現,問卷數據很少出現異方差問題,建議查看幫助手冊。
異常值
除此之外,如果回歸分析出現各類異常,可能存在異常值應該回歸模型。在散點圖裡可觀察到是否有異常值存在。
如果剔除觀察值後,回歸方程的標準差顯著減小,也可以判斷改觀察值為異常值。
總結
以上就是線性回歸分析的分析流程梳理,但在實際研究過程中,理論與實際操作會有較大「距離」,具體還需要結合實際研究考察。