線性回歸分析思路總結!簡單易懂又全面!

2020-12-12 SPSSAU

線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!

線性回歸

回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。

當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。在SPSSAU裡均是使用【通用方法】裡的【線性回歸】實現分析的。

SPSSAU-線性回歸

Step1:數據類型

線性回歸要求因變量Y(被解釋變量)一定是定量數據,如果因變量Y為定類數據,則可以採用【進階方法】中的【logit回歸】。

Step2:變量篩選

對於引入模型的自變量,通常沒有個數要求。但從經驗上看,不要一次性放入太多自變量。如果同時自變量太多,容易引起共線性問題。建議根據專業知識進行選擇,同時樣本量不能過少,通常要滿足樣本個數是自變量的20倍以上。

如果自變量為定類數據,需要對變量進行啞變量處理。可以在SPSSAU的【數據處理】→【生成變量】進行設置。具體步驟可以查看:什麼是虛擬變量?怎麼設置才正確?

控制變量,可以是定量數據,也可以是定類數據。一般來說更多是定類數據,如:性別,年齡,工作年限等人口統計學變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。

Step3:正態性檢驗

理論上,回歸分析的因變量Y要求需服從正態分布,SPSSAU提供多種檢驗正態性的方法。

如果數據不正態,可以做對數處理。若數據為問卷數據,建議可跳過正態性檢驗這一步。原因在於問卷數據屬於定序數據,很難保證正態性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。

Step4:散點圖和相關分析

一般來說,回歸分析之前需要做相關分析,原因在於相關分析可以先了解是否有關係,回歸分析是研究有沒有影響關係,有相關關係但並不一定有回歸影響關係。當然回歸分析之前也可以使用散點圖直觀查看數據關係情況等。

Step5:SPSSAU操作

研究:在線英語學習購買因素研究

①操作步驟

將性別、年齡、月收入水平、產品、促銷、渠道、價格、個性化服務、隱私保護共九個變量作為自變量,而將購買意願作為因變量進行線性回歸分析。勾選「保存殘差和預測值」。

②指標解讀

線性回歸分析結果

非標準化係數(B):非標準化回歸係數。回歸模型方程中使用的是非標準化係數。標準化係數(Beta):標準化回歸係數。可用於比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大t值:t檢驗的過程值,回歸分析中涉及兩種檢驗(t檢驗和F檢驗),t檢驗分別檢驗每一個X對Y的影響關係,通過t檢驗說明這個X對Y有顯著的影響關係;F檢驗用於檢驗模型整體的影響關係,通過F檢驗,則說明模型中至少有一個X對Y有顯著的影響關係。此處的t值,為t檢驗的過程值,用於計算P值。一般無需關注。p值:t檢驗所得p值。P值小於0.05即說明,其所對應的X對因變量存在顯著性影響關係。VIF值:共線性指標。大於5說明存在共線性問題。R:決定係數,模型擬合指標。反應Y的波動有多少比例能被X的波動描述。調整R調整後的決定係數,也是模型擬合指標。當x個數較多是調整R比R更為準確。F檢驗:通過F檢驗,說明模型中至少有一個X對Y有顯著的影響關係。分析時主要關注後面的P值即可。D-W值:D-W檢驗值,Durbin-Watson檢驗,是自相關性的一項檢驗方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好。

③結果分析

分析時可按照「分析建議」給出的步驟來分析。

SPSSAU-分析建議
SPSSAU-智能分析
SPSSAU-智能分析

模型公式顯示在智能分析中,可直接使用。

本例中得到的分析結果為:

產品促銷個性化服務、保護隱私四個變量對購買意願有正向影響關係。

Step6:模型後檢驗

到這裡很多人認為已經分析完了,可以得出結果,實際上還遠遠沒結束。回歸模型有很多限制條件,上述步驟裡我們只是構建了模型,至於模型質量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進行確認。

通常需要對線性回歸模型檢驗以下幾個方面:

多重共線性

在進行線性回歸分析時,容易出現自變量之間彼此相關的現象,我們稱這種現象為多重共線性。

當出現嚴重共線性問題時,會導致分析結果不穩定,甚至出現回歸係數的符號與實際情況完全相反的情況,因而需要及時進行處理。

①診斷指標

檢驗多重共線性,可查看分析結果中的VIF值。

VIF>5說明存在共線性問題,VIF>10,說明存在嚴重的多重共線性問題,模型構建較差,需要進行處理。

②處理方法

(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實際操作中較難實現。

(2)對自變量進行相關分析,找出相關係數高的變量,手工移出後再做線性回歸分析。

(3)採用逐步回歸法,讓系統自動篩選出最優分析項,剔除引起多重共線性的變量。

(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。

殘差獨立性(自相關)

殘差獨立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關,說明可能存在與因變量相關的因素沒有引入回歸方程,整體模型構建較差。

①診斷指標

D-W值用於判斷自相關性,判斷標準是2附近即可(1.8~2.2之間),如果達標說明沒有自相關性,即樣本之間並沒有幹擾關係。

②處理方法

問卷數據基本不會出現自相關問題,如有自相關問題時建議查看因變量Y的數據。

殘差正態性

殘差正態性也是線性回歸方程的基本前提之一。在分析時可保存殘差項,然後使用「正態圖」直觀檢測殘差正態性情況。

regressionXXXX_residual代表殘差值regressionXXXX_prediction 代表預測值

殘差正態圖

如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。如果殘差正態性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。

殘差方差齊性(異方差)

①檢驗方法

方差齊性可以通過散點圖來考察,在分析時可保存殘差項,以模型自變量X或因變量Y為橫坐標,殘差值為縱坐標,作散點圖。

如果隨著預測值的增加,殘差值保持相同的離散程度,則說明方差齊。

如果殘差值隨著預測值的增加而變寬或變窄,則說明有異方差。

②異方差的處理方法

處理異方差問題有三種辦法,分別是數據處理、穩健標準誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。

異方差問題在計量經濟中較常出現,問卷數據很少出現異方差問題,建議查看幫助手冊。

異常值

除此之外,如果回歸分析出現各類異常,可能存在異常值應該回歸模型。在散點圖裡可觀察到是否有異常值存在。

如果剔除觀察值後,回歸方程的標準差顯著減小,也可以判斷改觀察值為異常值。

總結

以上就是線性回歸分析的分析流程梳理,但在實際研究過程中,理論與實際操作會有較大「距離」,具體還需要結合實際研究考察。

相關焦點

  • 範例分析:一元(簡單線性)相關與回歸分析
    (簡單線性)相關分析與回歸分析;回歸參數的區間估計;一元(簡單線性)回歸方程的假設檢驗;今篇用例題將上面的內容串聯起來,講述簡單線性(一元)相關與回歸分析的完整過程。因為要分析的是產量對單位成本的影響,所以,將產量作為自變量,單位成本作為因變量(回顧:一元(簡單線性)相關分析與回歸分析)。
  • 7種執行簡單的線性回歸的分析與討論!
    【IT168 資訊】對於無數的數據科學家來說,線性回歸是許多統計建模和預測分析項目的起點。擬合的重要性,無論是準確的還是快速的,對於大數據集的線性模型都不能被誇大。
  • 8 種進行簡單線性回歸的方法分析與討論
    8 種進行簡單線性回歸的方法分析與討論 Tirthajyoti Sarkar 發表於 2018-01-05 08:18:57 本文中,作者討論了 8 種在 Python
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    在這個高級語言層出不窮的年代,這樣做顯然不明智,所以我考慮用優秀的數據分析工具——R語言(不敢說最優秀,雖然心裡是這麼想的,我怕有人要罵我!)做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 線性回歸-如何對數據進行回歸分析
    通常,我們的模型是通過多個特徵值來預測一個目標值,那麼線性回歸模型的數學公式為:其中:線性回歸模型與數學中的解方程不同,後者的結果是精確解,而前者則是一個近似解。因此在公式中存在一個 ε 。在經過了1078 份數據的分析之後,最終他得出結論:人類的身高維持在相對穩定的狀態,他稱之為回歸效應,並給出了歷史上第一個回歸公式:公式中的 Y 代表子代身高,X 代表父代身高,單位為英寸。
  • 線性回歸分析淺談
    在數學分析中,最簡單的數學函數關係莫過於線性方程,用於求解這個函數關係式的方法大多採用最小平方差(least square,LS,有的也稱最小二乘法)方法。這種方法常用於校準(calibration),常見的例子如製備一系列已知不同濃度的標準品溶液並測試其響應值(如吸光度),然後用線性回歸分析求得校準曲線方程(等一等
  • 機器學習:回歸分析——多元線性回歸分析
    我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸。生活中的現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際。所以相比一元線性回歸,多元線性回歸的實際意義更大。
  • Excel數據分析篇:線性回歸
    通過數據間相關性分析的研究,進一步建立自變量(i=1,2,3,…)與因變量Y之間的回歸函數關係,即回歸分析模型,從而預測數據的發展趨勢。 2、分類按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 多重線性回歸實例 - CSDN
    在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識,還利用一個簡單的實例進行了簡單線性回歸的分析,今天我們就來講講多重線性回歸(也叫多元線性回歸),有關多元線性回歸的概念我在上一期的推文中也已經講過,這裡就不提了。可瀏覽上一篇SPSS的推文:SPSS第二期——線性回歸(上),兩篇對照起來看,或許能學到更多知識。
  • 一文輕鬆看懂線性回歸分析的交互作用!
    作者:丁點helper來源:丁點幫你前幾天的文章,我們聚焦在回歸分析,今天來看看在回歸分析中常常要研究的一類難點問題——交互作用的探究。交互(interaction),字面上不太好理解,但是從數學表達上卻很簡單。
  • 機器學習套路:線性回歸
    (點擊上方藍字,快速關注我們)轉自:sharkdtuhttp://sharkdtu.com/posts/ml-linear-regression.html好文投稿, 請點擊 → 這裡了解詳情線性回歸可以說是機器學習中最簡單
  • python數據分析--回歸函數及線性回歸分析
    2.工具數據分析有很多成熟的工具可以使用,如R、python、spss等。此處我們選用python進行分析。首先,我們需要安裝並導入python數據分析常用的庫。__version__)3.線性回歸分析Y= aX + b + e ,e表示殘差。
  • 簡單易懂,結構方程模型思路總結
    結構方程模型是結合了多種統計分析方法,可同時檢驗因子、分析項、誤差項間的關係,既可以測量也可以進行分析。本文將基於SPSSAU系統進行說明。結構方程模型與路徑分析主要區別就在於完整的結構方程模型包含了測量關係,如果僅包括影響關係,此時稱作路徑分析。如此以外,還有一些容易混淆的方法,都在下表中列出:2、分析思路
  • Python環境下的8種簡單線性回歸算法
    GitHub 地址:對於大多數數據科學家而言,線性回歸方法是他們進行統計學建模和預測分析任務的起點。但我們不可誇大線性模型(快速且準確地)擬合大型數據集的重要性。如本文所示,在線性回歸模型中,「線性」一詞指的是回歸係數,而不是特徵的 degree。
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。④先以我們後續需要用來做線性回歸的列「內容閱讀量」為標準,將不含該值的數據行去除:調用dropna函數,並執行info函數看數據情況。
  • python多重線性回歸分析
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:MultivariateLinear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')df根據預測目標,確定自變量和因變量#多重線性回歸
  • 應用sklearn工具做線性回歸分析
    (4)利用所求得的回歸方程,並根據自變量的給定值對因變量進行預測,對自變量進行控制。回歸分析的對數據的要求要進行回歸分析,對數據是有一定的要求的,有學者提出了,在應用多元回歸時,所分析的數據必須符合以下基本假定:(1)正態性假定(2)因變量的各個觀察值之間必須是相互獨立的。
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。