線性回歸分析思路總結!簡單易懂又全面!

2020-12-05 SPSSAU

線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!

線性回歸

回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。

當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。在SPSSAU裡均是使用【通用方法】裡的【線性回歸】實現分析的。

SPSSAU-線性回歸

Step1:數據類型

線性回歸要求因變量Y(被解釋變量)一定是定量數據,如果因變量Y為定類數據,則可以採用【進階方法】中的【logit回歸】。

Step2:變量篩選

對於引入模型的自變量,通常沒有個數要求。但從經驗上看,不要一次性放入太多自變量。如果同時自變量太多,容易引起共線性問題。建議根據專業知識進行選擇,同時樣本量不能過少,通常要滿足樣本個數是自變量的20倍以上。

如果自變量為定類數據,需要對變量進行啞變量處理。可以在SPSSAU的【數據處理】→【生成變量】進行設置。具體步驟可以查看:什麼是虛擬變量?怎麼設置才正確?

控制變量,可以是定量數據,也可以是定類數據。一般來說更多是定類數據,如:性別,年齡,工作年限等人口統計學變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。

Step3:正態性檢驗

理論上,回歸分析的因變量Y要求需服從正態分布,SPSSAU提供多種檢驗正態性的方法。

如果數據不正態,可以做對數處理。若數據為問卷數據,建議可跳過正態性檢驗這一步。原因在於問卷數據屬於定序數據,很難保證正態性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。

Step4:散點圖和相關分析

一般來說,回歸分析之前需要做相關分析,原因在於相關分析可以先了解是否有關係,回歸分析是研究有沒有影響關係,有相關關係但並不一定有回歸影響關係。當然回歸分析之前也可以使用散點圖直觀查看數據關係情況等。

Step5:SPSSAU操作

研究:在線英語學習購買因素研究

①操作步驟

將性別、年齡、月收入水平、產品、促銷、渠道、價格、個性化服務、隱私保護共九個變量作為自變量,而將購買意願作為因變量進行線性回歸分析。勾選「保存殘差和預測值」。

②指標解讀

線性回歸分析結果

非標準化係數(B):非標準化回歸係數。回歸模型方程中使用的是非標準化係數。標準化係數(Beta):標準化回歸係數。可用於比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大t值:t檢驗的過程值,回歸分析中涉及兩種檢驗(t檢驗和F檢驗),t檢驗分別檢驗每一個X對Y的影響關係,通過t檢驗說明這個X對Y有顯著的影響關係;F檢驗用於檢驗模型整體的影響關係,通過F檢驗,則說明模型中至少有一個X對Y有顯著的影響關係。此處的t值,為t檢驗的過程值,用於計算P值。一般無需關注。p值:t檢驗所得p值。P值小於0.05即說明,其所對應的X對因變量存在顯著性影響關係。VIF值:共線性指標。大於5說明存在共線性問題。R:決定係數,模型擬合指標。反應Y的波動有多少比例能被X的波動描述。調整R調整後的決定係數,也是模型擬合指標。當x個數較多是調整R比R更為準確。F檢驗:通過F檢驗,說明模型中至少有一個X對Y有顯著的影響關係。分析時主要關注後面的P值即可。D-W值:D-W檢驗值,Durbin-Watson檢驗,是自相關性的一項檢驗方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好。

③結果分析

分析時可按照「分析建議」給出的步驟來分析。

SPSSAU-分析建議
SPSSAU-智能分析
SPSSAU-智能分析

模型公式顯示在智能分析中,可直接使用。

本例中得到的分析結果為:

產品促銷個性化服務、保護隱私四個變量對購買意願有正向影響關係。

Step6:模型後檢驗

到這裡很多人認為已經分析完了,可以得出結果,實際上還遠遠沒結束。回歸模型有很多限制條件,上述步驟裡我們只是構建了模型,至於模型質量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進行確認。

通常需要對線性回歸模型檢驗以下幾個方面:

多重共線性

在進行線性回歸分析時,容易出現自變量之間彼此相關的現象,我們稱這種現象為多重共線性。

當出現嚴重共線性問題時,會導致分析結果不穩定,甚至出現回歸係數的符號與實際情況完全相反的情況,因而需要及時進行處理。

①診斷指標

檢驗多重共線性,可查看分析結果中的VIF值。

VIF>5說明存在共線性問題,VIF>10,說明存在嚴重的多重共線性問題,模型構建較差,需要進行處理。

②處理方法

(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實際操作中較難實現。

(2)對自變量進行相關分析,找出相關係數高的變量,手工移出後再做線性回歸分析。

(3)採用逐步回歸法,讓系統自動篩選出最優分析項,剔除引起多重共線性的變量。

(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。

殘差獨立性(自相關)

殘差獨立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關,說明可能存在與因變量相關的因素沒有引入回歸方程,整體模型構建較差。

①診斷指標

D-W值用於判斷自相關性,判斷標準是2附近即可(1.8~2.2之間),如果達標說明沒有自相關性,即樣本之間並沒有幹擾關係。

②處理方法

問卷數據基本不會出現自相關問題,如有自相關問題時建議查看因變量Y的數據。

殘差正態性

殘差正態性也是線性回歸方程的基本前提之一。在分析時可保存殘差項,然後使用「正態圖」直觀檢測殘差正態性情況。

regressionXXXX_residual代表殘差值regressionXXXX_prediction 代表預測值

殘差正態圖

如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。如果殘差正態性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。

殘差方差齊性(異方差)

①檢驗方法

方差齊性可以通過散點圖來考察,在分析時可保存殘差項,以模型自變量X或因變量Y為橫坐標,殘差值為縱坐標,作散點圖。

如果隨著預測值的增加,殘差值保持相同的離散程度,則說明方差齊。

如果殘差值隨著預測值的增加而變寬或變窄,則說明有異方差。

②異方差的處理方法

處理異方差問題有三種辦法,分別是數據處理、穩健標準誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。

異方差問題在計量經濟中較常出現,問卷數據很少出現異方差問題,建議查看幫助手冊。

異常值

除此之外,如果回歸分析出現各類異常,可能存在異常值應該回歸模型。在散點圖裡可觀察到是否有異常值存在。

如果剔除觀察值後,回歸方程的標準差顯著減小,也可以判斷改觀察值為異常值。

總結

以上就是線性回歸分析的分析流程梳理,但在實際研究過程中,理論與實際操作會有較大「距離」,具體還需要結合實際研究考察。

相關焦點

  • 簡單線性回歸分析
    線性回歸分析,統計學上是對具有相關性的變量進行定量分析,分析變量之間的定量關係。
  • 簡單線性回歸模型
    高爾頓解釋說,自然界存在某種約束力將人的身高向某個平均數靠攏——或者說是回歸——也即是統計學上回歸的涵義。本期我們的主題便是通過R來解決線性回歸分析中的若干問題。2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?
  • 7種執行簡單的線性回歸的分析與討論!
    【IT168 資訊】對於無數的數據科學家來說,線性回歸是許多統計建模和預測分析項目的起點。擬合的重要性,無論是準確的還是快速的,對於大數據集的線性模型都不能被誇大。對於簡單線性回歸,可以選擇1級。如果要擬合更高級別的模型,則可以從線性特徵數據中構建多項式特徵並擬合模型。 2.方法:Stats.linregress()這是一個高度專業化的線性回歸函數,可以在Scipy的統計模塊中找到。
  • 8 種進行簡單線性回歸的方法分析與討論
    8 種進行簡單線性回歸的方法分析與討論 Tirthajyoti Sarkar 發表於 2018-01-05 08:18:57 本文中,作者討論了 8 種在 Python 環境下進行簡單線性回歸計算的算法,不過沒有討論其性能的好壞
  • 簡單易懂,結構方程模型思路總結
    如此以外,還有一些容易混淆的方法,都在下表中列出:2、分析思路SPSSAU分析建議從整體分析角度看,完整分析步驟包括以下幾個步驟:模型構建→探索性因子分析/驗證性因子分析→設置模型→評估模型→模型調整。
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 【線性回歸】多變量分析:多元回歸分析
    實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!
  • SPSS分析技術:線性回歸分析
    回歸分析類型回歸分析根據自變量個數,自變量冪次以及變量類型可以分為很多類型,常用的類型有:線性回歸;曲線回歸;二元Logistic回歸技術;線性回歸原理回歸分析就是建立變量的數學模型,建立起衡量數據聯繫強度的指標,並通過指標檢驗其符合的程度。
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • SPSS:簡單線性回歸分析(圖文案例)
    分享SPSS統計分析方法,使科學研究更容易。
  • 一文輕鬆看懂線性回歸分析的交互作用!
    作者:丁點helper來源:丁點幫你前幾天的文章,我們聚焦在回歸分析,今天來看看在回歸分析中常常要研究的一類難點問題——交互作用的探究。交互(interaction),字面上不太好理解,但是從數學表達上卻很簡單。
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • Python環境下的8種簡單線性回歸算法
    GitHub 地址:對於大多數數據科學家而言,線性回歸方法是他們進行統計學建模和預測分析任務的起點。但我們不可誇大線性模型(快速且準確地)擬合大型數據集的重要性。如本文所示,在線性回歸模型中,「線性」一詞指的是回歸係數,而不是特徵的 degree。
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    部分研究在數據分析時,忽略了前期的設計思路,只是簡單地把因變量和所有自變量納入統計軟體中相應位置,點擊運行直接給出結果。從數據上來看,病例對照研究和隊列研究的數據形式完全一樣,軟體操作過程也並無不同,都是指定因變量和自變量,然後給出參數估計值及統計檢驗結果。
  • 驗證性因子分析思路總結
    Step1:因子分析類型因子分析可分為兩種類型:探索性因子分析(EFA)和驗證性因子分析(CFA)。探索性因子分析,主要用於濃縮測量項,將所有題項濃縮提取成幾個概括性因子,達到減少分析次數,減少重複信息的目的。
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。