1
回歸的由來
回歸這個詞最早是被高爾頓提出的,高爾頓是達爾文的表兄。他非常痴迷於兄長的進化論說,所以一直期望把進化論理論應用到實證中以證明不同人為什麼會具有不同的特性。
終於,高爾頓發現:父親的身高和兒子的身高之間存在著某種給定的關係。
通過進一步的研究發現:子輩的平均身高是其父輩平均身高以及他們所處族群平均身高的加權平均和。
伴隨著這一著名發現,「回歸」一詞首次被提出。
論文中把「回歸」現象稱為:均值回歸或者平庸回歸(reversion to the mean/reversion to mediocrity)。意思是:哪怕單看一組父親和孩子的身高,兩個人的身高可能差異很大,但是從整個人群上來看,父親和孩子的身高分布應該是很相近的。
2
回歸分析
研究自變量與因變量之間關係形式的分析方法,它主要是通過建立因變量y 與影響他的自變量Xi 之間的回歸模型,來預測因變量y 的發展趨勢。
3
回歸分析類型
1、一元線性回歸分析:
只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變量與因變量Y的關係,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。
3、Logistic回歸分析
線性回歸模型要求因變量是連續的正態分布變裡,且自變量和因變量呈線性關係,而Logistic回歸模型對因變量的分布沒有要求,一般用於因變量是離散時的情況
Logistic回歸模型有條件與非條件之分:
條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
之所以有不同類型的回歸分析,是由於原始分析數據X、Y變量的數據類型不同,不同類型的數據在進行回歸分析時,要採用合適的回歸分析類型。
線性回歸分析:適用Y為定量變量、只有1個:
當回歸模型中X變量只有1個,則適用簡單線性回歸或者一元線性回歸;
當X變量有多個,則應進行多元線性回歸分析。
Logistic回歸,:適用Y為定類變量、只有1個:
當Y為0、1變量時(比如1為願意和0為不願意,1為購買和0為不購買),應進行二元logistic回歸分析或二元Probit回歸模型;
當Y為分類變量時,如1,2,3(比如DELL, Thinkpad,Mac),應做多分類logistic回歸分析;
而Y為多類且為有序變量時,如1,2,3(比如1為不願意,2為中立,3為願意),可使用有序logistic回歸分析。
Y為定量變量、只有多個時:
有時會將Y合併概括成1個(比如使用平均值),然後使用線性回歸
如不做Y合併,可考慮使用PLS回歸(此情況使用較少,PLS回歸模型非常複雜)。
4
為什麼使用回歸分析?
看例子:
在疫情影響的經濟條件下,要估計一家公司的銷售額增長情況。
你有公司最新的數據,數據顯示銷售額增長大約是經濟增長的2.5倍。使用回歸分析,我們就可以根據當前和過去的信息來預測未來公司的銷售情況。
由此可知,回歸分析能夠跟據過去與當前的銷售額變量,預估公司未來的銷售情況。
這是由於回歸分析的結論能夠:
表明自變量和因變量之間的顯著關係
表明多個自變量對一個因變量的影響強度
所以在工作中,回歸分析能夠幫助我們比較衡量不同尺度的變量之間的相互影響,如價格變動與促銷活動數量之間聯繫,並構建預測模型。
5
案例
一、問題與數據
有一份關於大學生對某商品購買意願的調查問卷。共收集到468份問卷數據,將「性別」、「年齡」、「專業」、「收入(生活費)」四個變量作為潛在的影響因素,購買意願為Y,做二元Logistic回歸分析。
部分問卷數據如圖:
二、對問題的分析
使用Logistic模型前,對數據進行基本判斷:
假設1:因變量即結局是二分類變量。
假設2:有至少1個自變量,自變量可以是連續變量,也可以是分類變量。
假設3:每條觀測間相互獨立。分類變量(包括因變量和自變量)的分類必須全面且每一個分類間互斥。
假設4:最小樣本量為自變量數目的15倍,也有認為樣本量應達到自變量數目的50倍
三、SPSS操作
1.選擇 「分析」-「回歸」-「二項 Logistic回歸」
2.「選項」指定輸出內容和設置建模中的某些參數。如下圖:
3. 「保存」項將預測結果等保存到數據編輯窗口,如下圖:
4. 「分類」選項設置性別、收入分類變量對比為指示符、以第一個為參考類別。
結果解釋:
無購買意向的269人中,模型正確識別了236人,錯誤識別了33人,正確率為87.7%。有購買意向的162中,模型正確識別了31人,錯誤識別了131人,正確率為19.1%,模型的總的預測正確率為62.9%。
最終檢驗中, P值為0.364,大於顯著性水平,因此,不拒絕原假設。
在單因素分析中,年齡的統計p值大於0.05,接受原假設。
也就是說,模型中年齡變量對是否願意購買影響不顯著,可以不用考慮年齡。