回歸系列(五)|線性回歸分析做完後,還應考慮什麼?

2021-01-10 CDA數據分析師

作者:丁點helper

來源:丁點幫你

上一篇文章介紹了一般線性回歸的典型操作,並且留了一個思考題。

感謝小夥伴的參與,大家很厲害,沒有被迷惑到,線性回歸獲得的係數代表的是相關關係,而非因果關聯。

回歸是相關不是因果

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。

因為,回歸的使用僅能說明數據之前存在關聯,但這種關聯是否真正代表了兩者的內在聯繫還需要更深入的研究。

之所以採用回歸分析,就是通過納入多個自變量,達到控制混雜因素的作用,但是我們無法納入所有可能的因素,即所謂的「遺漏變量」(omitted variables),從而導致回歸的結果不準確。

例如,探究教育程度與收入的關係,如果我們在回歸分析中沒有納入「父母的平均教育程度」這個變量,此時,這個變量就被稱為「遺漏變量」。

根據常識,父母的教育程度應該是孩子未來收入的重要影響因素,同時也幾乎決定了孩子的教育程度。因此,遺漏這個變量有可能讓我們得出有偏差的結果(一般會高估個人教育程度對未來收入的影響)。

同時,如果X與Y之間的關係,不是X導致Y,而是Y導致X(稱作「反向因果」),此時的回歸分析也會得出有統計學意義的結果(總體回歸係數不為0)。

但這個結果無法顯示相關關係的方向,即無法判斷是X→Y,還是Y→X,從而誤導我們的判斷。

例如,常有人說,一個國家保護私人產權制度越完善,這個國家就越富裕。

這意味著完備的產權促進了國家經濟的發展,於是人們建議:貧窮的國家都要實施良好的私有產權保護。

不可否認,產權對提升經濟發展的確有作用。但我們不能忽略這其中的反向因果。

也就是說,很有可能是一個國家富裕之後才開始注意產權保護,產權制度才會更加完善,由此,並非是產權促進了經濟的發展,是經濟發展促進了產權的完善。

所以,我們不能只從兩組數據的相關就推測因果,除了那些沒有納入考慮的變量,反向因果也有可能對我們進行誤導。

由此來看,回歸分析更像是一種探索,它提供某種線索,啟示我們下一步的研究方向。

回歸診斷——殘差圖

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。

回歸分析有時候之所以不能揭示因果,除了上面談到的遺漏變量效應和反向因果外,某些假設條件的違反也會導致回歸的結果不準。

所以,我們要牢記做完回歸併不意味著萬事大吉,進行必要的診斷性分析十分必要。

回歸診斷,就是通過各種方法來驗證回歸分析的假設條件以及其他因素的影響,這裡我們重點講講回歸LINE條件的診斷和多重共線性的識別。

前文我們提到過做線性回歸的時候一般需滿足:線性、獨立、正態、方差齊(LINE)條件。

對這些假設條件的診斷其實有各種各樣的辦法,其中一種使用十分廣泛,簡單易學,同時效率也比較高的做法是作殘差圖。

畫殘差圖,一般是以回歸分析Y的預測值為橫軸,以殘差為縱軸做散點圖。

如果打開SPSS,可以看到回歸分析模塊中有很多種殘差:未標準化、標準化、學生化等等。

簡單起見,大家可以選擇所謂的「學生化」殘差。

不知有同學是否了解過,什麼叫「學生化殘差」?(不能再古怪了!)

實際上,它和我們前面學習的t檢驗還有聯繫。

t檢驗發明者的筆名就叫「學生」,即student,所以這裡的「學生化殘差」可以簡單理解為一種t變換(與標準化,即z變換類似)。

具體的細節感興趣的同學可以去查一查。在我們的具體應用中,採用「學生化殘差」和「預測值」做散點圖還是挺簡單的,而且可以發現一些問題。

一條原則:如果線性回歸效果較好,則殘差圖的各個散點會圍繞著「殘差=0」水平線上下均勻分布,如下圖中的紅線。

這可能是最簡單的診斷方法,通過觀察散點在上述紅線上下的分布情況來推測回歸分析的質量,同時提示需要改進的方向。

例如,下面這張散點圖,就提示Y與自變量X之間可能存在某種曲線關係。

當增加某個自變量的二次項後,回歸被改善。

沒有添加任何二次項

增加x1的二次項,擬合效果提示

除此以外,線性回歸診斷另一個常見的問題是,當自變量X之間互相存在高度相關性時,會導致回歸方程估計結果不穩定,回歸係數的標準誤大大增加(可以通過數學公式證明,標準誤計算的分母因為X之間的相關係數而變大,從而整個標準誤變小),稱為共線性。

共線性最大的問題是,導致本身有意義(P<0.05)的結果變為無意義(P>0.05)。

SPSS在線性回歸分析模塊也有專門的共線性診斷指標,我們在分析時點選即可:

根據上一篇文章中的例子,共線性診斷的的指標均在要求之內,提示共線性問題不嚴重。

最後,如果線性回歸的LINE沒有通過診斷分析,需要怎樣改進呢?如下圖,大家作為參考,這些內容後期有機會我們逐漸給大家講解。

相關焦點

  • 【線性回歸】多變量分析:多元回歸分析
    下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計算線性回歸方程的得分進行了概率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當然,還有很多分析最終也是回歸思想!
  • 回歸系列(一)|怎樣正確地理解線性回歸
    作者:丁點helper 來源:丁點幫你線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。線性回歸運用這麼廣泛很大程度在於它的內在邏輯十分簡單。
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    (2)相關分析主要是描述兩個變量之間相關關係的密切程度;回歸分析不僅可以揭示變量X對變量Y的影響程度,還可以根據回歸模型進行預測。回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡單線性回歸、多重線性回歸;而非線性回歸,需要進行對數轉化等方式,將其轉化為線性回歸的形式進行研究。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • SPSS多元線性回歸案例:回歸分析方法實戰
    回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。使用曲線/線來擬合這些數據點,在這種方式下,從曲線或線到數據點的距離差異最小。
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。壹 數據導入Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    (對於變量類型如何判斷還不太了解的同學,戳此回顧)這裡進行回歸分析,一是判斷這些X是否都會影響Y(總體回歸係數是否不為0);二是通過構造的回歸方程,未來根據X的值計算Y的預測值。線性回歸的SPSS操作回歸分析用SPSS操作的步驟如下:SPSS數據錄入格式SPSS回歸分析的菜單(Linear代表線性回歸)回歸操作窗口,Dependent為因變量,Independent
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • SPSS統計分析案例:一元線性回歸
    微信號後臺有非常之多的關於回歸分析的留言,作為最常見的統計分析方法,在工作生活中的應用需求量巨大,這兩天已經為大家選好了案例數據,先從一元線性回歸分析開始。一元線性回歸,顧名思義,僅有一個自變量的回歸模型,研究的是一個因素對結果的影響,可以用於預測,也經常被稱之為簡單線性回歸分析。
  • 簡單線性回歸分析
    線性回歸分析,統計學上是對具有相關性的變量進行定量分析,分析變量之間的定量關係。
  • SPSS分析技術:線性回歸分析
    回歸分析類型回歸分析根據自變量個數,自變量冪次以及變量類型可以分為很多類型,常用的類型有:線性回歸;曲線回歸;二元Logistic回歸技術;線性回歸原理回歸分析就是建立變量的數學模型,建立起衡量數據聯繫強度的指標,並通過指標檢驗其符合的程度。
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 簡單線性回歸模型
    高爾頓解釋說,自然界存在某種約束力將人的身高向某個平均數靠攏——或者說是回歸——也即是統計學上回歸的涵義。本期我們的主題便是通過R來解決線性回歸分析中的若干問題。2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • spss多元線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。