多元線性回歸預測spss - CSDN

2021-01-19 CSDN技術社區

回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。請大家不要覺得本人偷奸耍滑,居然只有一個主題,兩個半知識點。相信我,內容會很充實的。

對於線性回歸的定義主要是這樣的:線性回歸,是基於最小二乘法原理產生古典統計假設下的最優線性無偏估計。是研究一個或多個自變量與一個因變量之間是否存在某種線性關係的統計學方法。

這個什麼叫線性回歸,什麼叫最小二乘法,在在高中數學課本裡邊就有涉及。我就不重複了嘿嘿。本質上講一元線性回歸是多元線性回歸的一個特例,因此我們就直接討論多元線性回歸了哈。

為了便於敘述,我們先舉個例子,假設我們想研究年齡,體重,身高,和血壓的線性回歸關係。

打開菜單分析——回歸——線性,打開主對話框。很容易可以知道在本例中因變量選擇血壓,自變量選擇年齡,身高,體重。然後注意,在因變量那個框框下邊還有一個寫著方法的下拉的單選菜單。這個方法指的是建立多元線性方程的方法,也就是自變量進入分析的方法。一共包括五種,進入,逐步,刪除,向後,向前。進入是最簡單的一種,就是強迫指定選中的自變量都進入方程。其餘四個方法比較複雜,系統會依照不同的規則自動的幫助你剔除不合格的自變量,以此保證方程的可靠性。

下邊的選擇變量框框是用來指定分析個案的選擇規則,這個一般大家是所有的個案都利用,所以不用管它。再下邊的個案標籤變量,是用來在圖形中標註值得,也不是重點。最下邊的WLS權重,是在加權最小二乘法裡邊使用的,這裡不管它。

介紹完主面板以後我們來看統計量選項卡。這張選項卡比較小,一般勾選的主要有估計,模型擬合度,共線性診斷,DW檢驗統計量。其中前兩個是常規選項,後兩個是用來判斷共線性的。(由於方程中有兩個以上的自變量,如果這些自變量之間存在相關關係,就可能導致模型的失敗。可能會出現本應該與因變量正相關的變量結果為負相關啊之類的問題。這時候就要看是不是存在多重共線性。)

繼續,單擊繪製。勾選直方圖,正太概率圖。

繼續,單擊保存。勾選預測值的未標準化,殘差的未標準化,預測區間的均值,單值,最下邊的包含協方差矩陣。

繼續。單擊選項。勾選使用F的概率,在等式中包含常量。

繼續,確定。

結果的解釋也說不上複雜。首先看模型匯總表的R方,這個值介於0和1之間,表示你的方程能解釋你的模型的百分之多少,所以越接近1越好啦。然後要看方差分析表。第一行的回歸對應的最後邊的p值會告訴你這個方程是不是可信(注意,這個是整個方程的基礎,這個p值不合格的話下邊的數據都是無效的)。小於0.05認為就是可信的哈。

然後再看下邊的係數表,這個表裡的p值會告訴你每個自變量在這個方程裡是否可信。小於0.05認為可信哈。在最前邊的B下邊那一列會告訴你每個自變量在方程裡的係數(非標準化係數的意思是用你原來的數據算出來的係數,標準係數的意思是你的數據標準化以後算出的係數。你寫方程時肯定看非標準化的哈)。圖片的話你的P-P圖上的每個空心圓都要儘量穿在那個線上邊,圓心越靠近那個線越好。

到這裡一般多元線性回歸的基本知識就結束了。操作不是很難,但是遺憾的是,在實際生活中,關於多元線性回歸,還有許多問題。最常見的問題是這樣的。你為了保險,選了十幾個變量在模型裡邊。這樣的話,可能你的方程確實解釋了很大一部分模型,但是這除了使方程過分複雜以外,還會引發嚴重的多重共線性。所以不要選很多的變量在你的方程裡邊。或者你在模型裡選了五六個變量,其中一部分p值小於0.05,另一部分大於。而且最要命的是你覺得你的自變量好像都明顯和你的因變量相關。這個問題在於,有可能你的一部分自變量和你的因變量的相關性非常強,太強了,所以你的其他變量看上去就沒有那麼相關了。這時候你需要試試改變你的進入方法,改成逐步或者其他什麼的。也許可以解決問題。

但是不是所有的問題都可以用調整變量,或者改變變量進入方法可以解決的。有一些問題在於你的自變量的類型。有許多變量都是分類型的,比如你的性別,你是否抽菸,你的健康級別(不健康,一般,健康,非常健康)之類的。通常來講,錄入數據時會使用數字來表示特定含義。比如1是男,2是女,比如1,2,3,4來代表健康級別等等。一般情況下作分析是沒有問題的,但是在回歸裡邊也許不那麼適合。

尤其是對於無序資料來說。

舉個例子。季節。我們用1,2,3,4來表示四季。假設我們把這個變量當做一般變量寫到方程裡邊,那麼我們就有這麼個方程Y=X+X1*a,其中X1是四季變量。那麼春季就是X+a,夏季就是X+2a,秋季就是X+3a,冬季就是X+4a,考慮一下,四季之間本來是沒有等級關係的,但是這個方程裡邊顯示的冬季遠遠會比夏季的值大,那麼真實情況是這樣嗎?很可能不是。因此就會造成方程的偏差。為了解決這個問題。我們引入虛擬變量的概念。

虛擬變量的設置方法是這樣的,如果我們有d個水平,那麼我們就設置d-1個虛擬變量,選出一個變量來做參照,虛擬變量全為0時為這個參照變量。虛擬變量有一個為1時代表某一個水平。還拿季節舉例子,我們有四個季節,那麼我們就設置三個虛擬變量,我們使000代表春季,100代表夏,010代表秋,001代表東。那麼春季就是參照變量。(實際上設置四個虛擬變量也是可以的,但是結果一摸一樣)

所以現在我們的一個代表四季的變量就變成了三個虛擬變量。我們的方程就變成了Y=X+X1*a+X2*b+X3*c。那麼X就是春季的值X+X1就是夏季的值X+X2就是秋季的值X+X3就是冬季的值,是不是更準確了?

在張文彤老師的spss高級教程裡邊講解到了虛擬變量的用法。但是由於是高級教程,因此並沒有提到如何設置虛擬變量。網上很多博客裡邊也沒有提到這個問題。但是為了完整性,我還是想寫一下吧(畢竟這個系列的文章沒有數據轉換這個內容)。在線性回歸裡邊,你需要自己設定虛擬變量。打開轉換——重新編碼為不同變量,把季節變量(或者行業,地區,或者別的什麼)選到輸入變量——輸出變量裡邊,名稱裡輸入你的新名稱,標籤要點一下,點一下更改。單擊下邊的舊值和新值,舊值裡邊輸入1,新值輸入1,點添加。然後舊值輸入2,新值輸入0,點添加,以此類推。設置好一個虛擬變量以後,設置第二個的時候,記得先把第一個從右邊的窗口傳回左邊的窗口。有點麻煩,但是在所難免嘛。

然後注意做回歸的時候,在主面板裡邊自變量的第一張僅選擇你的虛擬變量,方法選進入。你要確保你的虛擬變量都要一塊進到方程裡嘛。然後點下一張,選擇其他的數值變量,方法可以選逐步啊什麼的。看結果的時候前邊已經講過了,虛擬變量改變的就是截距嘛。其他的結果都和一般的多元線性回歸結果一樣的。要注意的是就算有的虛擬變量p值合格,有的不合格,你選擇變量的時候也必須把一個變量設置出的所有的虛擬變量選到一塊,要麼都要,要麼都不要。

虛擬變量主要就是這樣了。但是除了變量類型導致的問題以外,還有一個很嚴重的問題就是多重共線性。雖然我們講,我們要少選幾個變量,我們要降維,我們要想辦法消減多重共線性。但是不可避免的,我們總是會碰到變量具有多重共線性的情況。

判斷多重共線性,主要是通過共線性診斷裡的VIF值和DW檢驗。VIF介於1到5時,就認為沒有多重共線性。大於10時,認為存在嚴重多重共線性。在這裡我們不討論VIF大於10的情況(不然我下篇文章討論什麼?),我們要討論的是另一種非常特殊的情況,VIF值合格,但是DW檢驗沒有通過。這時候怎麼辦?

當然你可以假裝沒有看見DW檢驗,你繼續做分析的話。很可能別人也看不出來,但是如果你的老師就是想考考你的廣義差分法呢?

所以我們還是討論一下廣義差分法的操作辦法。

首先你要保存你的變量的殘差,在時間序列裡邊做滯後一期的殘差(就在主面板裡),然後把殘差和滯後一期的殘差做回歸,記下它的斜率,在做滯後一期的自變量,因變量。建立新變量=原變量-斜率*滯後一期的變量(所有的自變量,因變量都要算新變量),然後再做回歸。

這上邊就是一次完整的廣義差分法操作過程。檢查DW,如果不合格,還需要在做一次廣義差分。一般至多做兩三次就可以了。過程有點複雜,其實用eviews做廣義差分會簡單許多。

多元線性回歸的內容已經結束了。祝大家學習愉快!


相關焦點

  • 多元線性回歸spss操作 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • SPSS多元線性回歸分析
    事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!土壤和植被養分是作物產量的重要影響因素。
  • spss線性回歸 回歸方程 - CSDN
    ,用到的分析方法就是線性回歸,決定猛學習一下,再來評判視頻裡的結論。>線性回歸,首先應用於定距變量之間,本質上是分析一個因變量和一組自變量之間的相關關係,既可以解釋,也可以做預測。就是一個用線性回歸解釋相關性的問題。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • 多元線性回歸係數檢驗 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 多重線性回歸實例 - CSDN
    在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識,還利用一個簡單的實例進行了簡單線性回歸的分析,今天我們就來講講多重線性回歸(也叫多元線性回歸),有關多元線性回歸的概念我在上一期的推文中也已經講過,這裡就不提了。可瀏覽上一篇SPSS的推文:SPSS第二期——線性回歸(上),兩篇對照起來看,或許能學到更多知識。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。
  • spss多元線性回歸模型專題及常見問題 - CSDN
    調整的R平方比調整前R平方更準確一些,圖中的最終調整R方為0.550,表示自變量一共可以解釋因變量55%的變化(variance),另外,由於使用的是StepWise Linear Regression (SWLR),分析——回歸——線性——「方法」選擇「逐步」,所以模型1、2、3的R方逐漸增大,標準誤差逐漸減小。
  • 多元線性回歸例題 - CSDN
    %多元線性回歸求解clearclcx=[120731808012512581.190133.02731808012512581.190129.63731808012512581.190158.77731808012512581.190145.32731808012512581.190
  • 基於R軟體實現多元線性回歸
    一個多元線性回歸在R中的實現示例在一元回歸中,只包含一個預測變量和響應變量間的關係。與此相比,當存在兩個或以上的預測變量時,稱為多元回歸(Multiple Regression)。如果只考慮變量間的線性關係時,就是多元線性回歸(Multiple Linear Regression)。
  • 值 多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.模型簡介1.1模型的結構多元線性回歸模型通常用來描述變量y和x之間的隨機線性關係,即:
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 原理+代碼|Python實戰多元線性回歸模型
    其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。主要將分為兩個部分:詳細原理Python 實戰Python 實戰Python 多元線性回歸的模型的實戰案例有非常多,這裡雖然選用的經典的房價預測
  • f t 線性回歸專題及常見問題 - CSDN
    1、標準化對於多元線性回歸需要對各個自變量進行標準化,排除單位的影響。標準化方法:即將原始數據減去相應變量的均數後再除以該變量的標準差,而標準化得到的回歸方程稱為標準化回歸方程,相應得回歸係數為標準化回歸係數。
  • 單變量回歸分析spss - CSDN
    簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
  • 線性回歸的統計假設 - CSDN
    在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    多元線性回歸:這是一種線性回歸的形式,當有兩個或多個預測因子時使用。我們將看到多個輸入變量如何共同影響輸出變量,同時還將了解計算與簡單LR模型的不同之處。我們還將使用Python構建一個回歸模型。最後,我們將深入學習線性回歸,學習共線性、假設檢驗、特徵選擇等內容。
  • 經典線性回歸模型假定 - CSDN
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • eviews 線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸