統計計量 | 用R做多元線性回歸分析(文末有福利)

2021-02-21 數據Seminar

回歸分析是一種統計學上分析數據的方法,目的在於了解兩個或多個變量間是否相關、相關方向與強度,並建立數學模型,以便通過觀察特定變量(自變量),來預測研究者感興趣的變量(因變量)。
其中,i為1,2,...,n;k為解釋變量的數目,稱為回歸參數。




回顧一下計量課上,多元線性回歸模型的基本假定有哪些?

假設1:解釋變量是非隨機的或固定的,且各X之間互不相關(無多重共線性);

假設2:隨機誤差項具有零均值、同方差及不序列相關;

假設3:解釋變量與隨機項不相關;

假設4:隨機項滿足正態分布;

假設5:樣本容量趨於無窮時,各解釋變量的方差趨於有界常數;

假設6:回歸模型的設定是正確的。

如果違背以上假設,那麼我們回歸的統計結果很可能就不正確了。

那麼利用R軟體,如何進行正確而高效的多元線性回歸分析呢?本期我們用R中的lm()函數對個人抽樣數據(有效樣本1219個)進行擬合線性回歸,樣例數據展示如下表:

idincomeyrschhhwktotagegenderhanzuurbanprovince43000117001224.527010435000023500656300105065000340009282801065360004550082.333101036....1312151000542271101351121626006283811051411217120012213711041431218600092126111434612194000531.53511146


註:id是個人身份代碼,income是個人收入,yrsch是教育年限,hhwktot是在家休閒時間,age是年齡,gender是性別,hanzu是民族虛擬變量,urban反映戶籍制度,province是指省份。

基於樣本數據,假如我們想探究個人收入和其他因素的關係,包括教育程度、休閒時間、年齡、性別、民族和戶籍。現在我們使用lm()函數擬合多元線性回歸模型。


## 加載包library(openxlsx)library(dplyr)library(stargazer)library(car)## 讀取數據pid_data<-read.xlsx("OLS_Data.xlsx")

左右滑動查看更多

## 提取關鍵變量corr_data<-as.data.frame(pid_data[,c("income","yrsch","hhwktot","age","gender","hanzu","urban")])## 散點矩陣scatterplotMatrix(corr_data,spread=F,lty.smooth=2)

左右滑動查看更多

scatterplotMatrix()函數在非對角線區域繪製變量散點圖,並添加平滑擬合線,對角線區域繪製每個變量的密度圖和軸須圖。從圖1中可以看到,大多數連續變量是正態分布曲線,但都存在一定程度的偏斜。個人收入隨著教育程度和年齡的增加而增加,隨著閒暇時間的增加而減少等等。
fit<-lm(log(income)~yrsch+hhwktot+age+gender+hanzu+urban,data=pid_data)summary(fit)




stargazer(fit,type="text", title="Regression Results", dep.var.labels=c("log(income)"), covariate.labels=c("yrsch","hhwktot",'age', "gender","hanzu","urban"), ci=FALSE, ci.level=0.90, single.row=TRUE)

左右滑動查看更多

從圖2看,教育年限的回歸係數為0.069,且在1%水平上顯著,表示控制閒暇時間、年齡、性別、民族、戶口不變時,教育程度每增加一年,個人收入將會提升6.9%。此外,F統計量在1%水平上顯著,調整R方為0.347,總體來看,所有預測變量解釋了收入水平34.68%的方差。


上面的擬合回歸模型是不是好的估計呢?我們知道,一個好的回歸模型應當滿足假設前提,包括:自變量要與因變量有線性關係;殘差基本呈正態分布;殘差方差基本不變(同方差性);殘差(樣本)間相互獨立。下面我們用plot()繪圖觀察:

## 回歸診斷par(mfrow=c(2,2))plot(fit)

左右滑動查看更多

線性:「殘差圖與擬合圖(Residuals vs Fitted)」反映了因變量和自變量線性相關性,從圖3左上看,兩者存在一個比較清晰的線性關係。正態性:「正態Q-Q圖(Normal Q-Q)」反映了當因變量成正態分布,則殘差值也應該是一個均值為0的正態分布。正態Q-Q圖(圖3右上)是在正態分布對應值下,標準化殘差的概率圖,若滿足正態分布,那麼圖中的點應該落在呈45度角的直線上。同方差性:若滿足不變方差的假設,那麼在位置尺度圖(Scale-Location,圖3左下)中,圍繞曲線周圍的點應該隨機分布。獨立性:我們無法從圖3中分辨出因變量值是否相互獨立,只能從收集的數據進行驗證。你可能會注意到,「殘差與槓桿圖(Residuals vs Leverage,圖3右下)」會向我們傳達哪些信息呢?其實,它反映出樣本的離群點、高槓桿值點和強影響點。從圖3右下觀察,存在著這樣的離群點。相對plot(fit)方法,R中還有更好的R語言包去擬合和評價回歸模型的能力,如cat、gvlma等。

_____________________________

文末福利:點擊閱讀原文,下載樣本數據Excel。

一周熱文

數據呈現丨R畫樹狀圖:一種輕量級方法

因果推斷丨中國學者用雙重差分做了哪些工作?

數據呈現丨R語言相關關係可視化函數梳理

數據呈現丨R語言可視化學習筆記之gganimate包

統計計量丨工具變量法(四):GMM

軟體應用丨經濟學專業學習Python之數據存儲篇

軟體應用丨38個常用Python庫:數值計算、可視化、機器學習等8大領域都有了

相關焦點

  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 零基礎的同學如何用stata做多元線性回歸模型?
    上一期,我們分享了如何用stata做一元線性回歸模型,不知道同學們學的怎麼樣呢?有沒有自己動手操作一遍呢?這一期:我們將學習如何用stata做多元線性回歸模型!這些是小王(邀請者)最近學習計量時的一些心得和體會,希望能與大家一起分享。
  • 【線性回歸】多變量分析:多元回歸分析
    實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • r語言多元線性回歸相關性_多元線性回歸調整相關性 - CSDN
    多元線性回歸多元線性回歸的核心問題:應該選擇哪些變量???RSS(殘差平方和)與R2  (相關係數的平方)選擇法:遍歷所有可能的組合,選出使RSS最小,R2  最大的模型。
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    2、測試數據及代碼  見文末客服小姐姐二維碼。  這些R函數對應了回歸分析的各種變體(如Logistic回歸,泊松回歸等等),而這次的內容主要關於OLS(普通最小二乘)回歸法,包括了簡單線性回歸、多項式回歸和多元線性回歸,下次再介紹其它常用的回歸分析。
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量
  • 一文讀懂多元回歸分析
    一、多元回歸分析簡介用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear
  • SPSS大戰多元回歸分析
    使用多元回歸進行數據分析,分析軟體供選擇的比較多,主要有Eviews、Spss、Stata、Sas、Gretel等。
  • r語言 多元回歸模型_r語言多元回歸模型殘差分析 - CSDN
    上式表明,y是的線性函數加上隨機誤差項ε。隨機誤差項的解釋見:隨機誤差項。與一元線性回歸類似,在多元線性回歸模型中,對誤差項同樣有三個基本假設:誤差項期望為0;對於自變量的所有值,ε的值都相等;誤差項ε是一個服從正態分布的隨機變量,且相互獨立。
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 多元線性回歸與模型診斷
    多元線性回歸的基本表達式③聯合假設檢驗通常F檢驗被用於檢測多元線性回歸的解釋變量斜率是否同時等於0:Python案例分析:依舊使用以上案例,有2個解釋變量,所以應當有2^2=4個模型,我們排除解釋變量均為0的情況,來做3個模型的K折交叉檢驗:y=data.weightX1=data[['age','height']]from sklearn.linear_model
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • 學會用多元回歸分析武裝頭腦
    回歸分析是在體育博彩中應用最廣泛的統計方法,在影響比賽結果的因素和結果之間建立定量的聯繫。最常用的回歸方法是多元線性回歸和邏輯回歸,在不同的條件下,可以計算體育比賽某個結果的概率或者直接計算出結果。當因變量是線性的時候適合用線性回歸,比如計算球隊的積分、黃牌數等等;非線性時適合用邏輯回歸,非線性變量其實就是分類變量,比如輸或贏就2種狀態。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • 多元線性回歸spss結果分析_spss多元線性回歸分析結果分析 - CSDN
    通過查閱北京統計局出示的有關數據以及閱讀相關文獻,搜集北京市近15年的統計資料,基於SPSS多元線性回歸中的逐步回歸分析法,建立回歸模型。
  • spss多元線性回歸專題及常見問題 - CSDN
    得到的線性方程為:y=-4.517-0.000028X1+0.76X2+0.000074X3(記住這裡用的是直接進入法進行擬合方程的,所以即使X1和X3沒通過檢驗,也要放到方程中去)Q2:關於多元線性回歸用spss分析後結果該怎麼看多元回歸分析 你要先確定一下自變量間是否存在嚴重的共線性,如果沒有共線性,然後還要通過散點矩陣看看是否成線性關係,這些之後才可以做多元線性回歸
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    多重線性回歸分析簡單線性回歸模型只考慮單因素影響,事實上,影響因變量的因素往往不止一個,可能會有多個影響因素,這就需要用到多重線性回歸分析。多重線性回歸與多元線性回歸區別就看因變量或自變量的個數,多重線性回歸是指包含兩個或兩個以上自變量的線性回歸模型,而多元線性回歸是指包含兩個或兩個以上因變量的線性回歸模型。