還記得在上一篇(一篇帶你學會相關分析)文章中,我們向大家介紹了關於相關分析的內容總結。編寫的過程讓我想起曾見到過的一個問題「為什麼要同時使用相關分析和回歸分析?」
相信很多人也有這樣的疑問,既然都是研究變量間的關係方法,已經進行過相關分析為什麼還要使用回歸分析呢?
相關與回歸的區別
其實,相關分析與回歸分析的研究目的並不相同。相關分析用於描述變量之間是否存在關係,而回歸分析則是研究影響關係情況,反映一個X或者多個X對Y的影響程度。
相關分析只能研究變量之間相關的方向和程度,卻不能得到變量之間相互關係的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,而這些都可以通過回歸分析得出的。
因而分析時首先應該確定研究變量之間是否存在關係,即先進行相關分析。當兩個變量之間存在顯著的關聯時,再進行回歸分析。有了相關關係,才可能有回歸影響關係,如果沒有相關關係,那麼也不應該有影響關係。
清楚了相關與回歸的區別,我們開始對本文的主角「回歸分析」進行具體說明。
01 回歸分析概念
回歸分析用於研究變量之間的影響關係情況。比如,消費者對某產品購買意願的影響因素研究;或者員工敬業度與工作績效之間的關係研究等。同時回歸分析也可用於估計與預測。
02操作步驟
案例:為研究在線學習課程滿意度的影響因素,收集300份數據,將平臺交互性、教學資源、課程實施、課程設計共四個因素作為自變量,將學生滿意度作為因變量,利用回歸分析方法進行分析(涉及題目均採用李克特五級量表)。
首先,通過相關分析得出平臺交互性、教學資源、課程實施、課程設計共四個因素與滿意度均有著顯著的正相關關係
因此,將4個變量均納入模型分析。
這裡可以選擇是否保存殘差和預測值,可用於檢驗回歸模型構建情況和預測分析
如果X為定類數據,直接放入模型時,一般是不會對其進行分析,而僅僅是作為控制變量(可能對模型有幹擾因而放入的項)納入模型。
如果X為定類數據,且想分析X對Y的影響;比如相對於男性,女性有沒有滿意度更高。此時則需要進行虛擬變量設置。(操作路徑:數據處理→生成變量→虛擬變量)
03 結果分析
第一步:首先對模型情況進行分析
包括模型擬合情況(R),是否通過F檢驗。
由上圖可知,模型R值為0.402,意味著平臺交互性,教學資源,課程設計,課程實施可以解釋學生在線學習課程滿意度的40.2%變化原因。回歸模型通過F檢驗(F=49.628,P<0.05),說明至少一個變量會對滿意度產生影響關係。
第二步:分析X的顯著性
分析X的顯著性(P值),如果呈現出顯著性,則說明X對Y有影響關係。如果不顯著,則應剔除該變量。
可以看到,四個解釋變量對滿意度的顯著性分析P值均小於0.05。
第三步:判斷X對Y的影響關係方向及影響程度
結合回歸係數B值,對比分析X對Y的影響程度。B值為正數則說明X對Y有正向影響,為負則說明有負向影響。
通過回歸係數來看,模型中四個解釋變量的B值分別為0.110、0.150、0.271、0.079說明
平臺交互性,教學資源,課程設計,課程實施對滿意度均呈現出顯著的正向影響關係。
第四步:寫出模型公式
模型公式為:滿意度=1.600 + 0.110*平臺交互性 + 0.150*教學資源 + 0.271*課程設計 + 0.079*課程實施
04 其他指標說明
(1)VIF值:用於檢驗模型共線性問題,如果全部小於10(嚴格是5),則說明模型沒有多重共線性問題,模型構建良好;反之若VIF大於10說明模型構建較差。如果出現多重共線性問題,可使用使用逐步回歸分析或嶺回歸分析進行分析;或者進行相關分析,手工移出相關性非常高的分析項。
(2)D-W值:用於檢驗變量自相關性,一般在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好,反之若D-W值明顯偏離2,則說明具有自相關性,模型構建較差。
(3)殘差正態性分析:用於檢驗模型構建情況,使用「正態圖」檢測殘差正態性情況,如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。如果殘差正態性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。
(4)異方差性:將保存的殘差項,分別與模型的自變量X或者因變量Y,作散點圖,查看散點是否有明顯的規律性,比如自變量X值越大,殘差項越大/越小,這時此說明有規律性,模型具有異方差性,模型構建較差。
上圖是回歸分析保存的殘差值與自變量作散點圖,用於檢測異方差性,上圖可以看出,X變化時,Y並不會變大或者變小,因而說明無關聯性,也即說明沒有異方差性。
05 其他說明
如果回歸分析出現各類異常,可通過比如描述分析、箱線圖、散點圖等查看數據中是否有異常值,找出異常值,並且處理掉異常值。也或者使用穩健回歸。
在進行相關分析時,不需要特別區分自變量X(解釋變量)和因變量Y(被解釋變量)。但在做回歸分析時,首先要確定X和Y。有時由於問卷沒有設計對應的問卷題項(比如上面的滿意度對應題目),那麼建議可以將X所有題項概括計算平均值來表示Y。
怎麼樣,是不是讀完這篇文章,以後再也不怕做回歸分析了。