轉載自公眾號:青年智囊
SPSS多元線性回歸
在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
案例闡述
養分含量與產量的回歸分析
土壤和植被養分是作物產量的重要影響因素。為探討土壤和葉片養分元素含量對作物產量的影響,一項研究測定了某區域30個樣地的作物產量、土壤pH值、有機質含量(SOM)、鹼解氮含量(SAN)、速效磷含量(SAP)和葉片氮含量(STN)及磷含量(STP),部分數據如下:
註:表中數據均為隨機生成,不可他用。
該研究想建立變量(pH、SOM、SAN等)與產量之間的回歸方程,此時我們可以考慮採用多元線性回歸分析。
數據分析
值得注意的是,多元線性回歸分析需要數據滿足以下4個假設:
(1)需要至少2個自變量,且自變量之間互相獨立(本次6個);
(2)因變量為為連續變量(本案例產量為連續變量);
(3)數據具有方差齊性、無異常值和正態分布的特點(檢驗方法);
(4)自變量間不存在多重共線性。
前2個假設可根據試驗設計直接判斷;假設(3)的檢驗在之前的教程中已有呈現,點擊「檢驗方法」即可查看。
關於假設(4)的檢驗方法如下:
1. 點擊 分析 → 回歸 → 線性。
2.將pH等自變量選入自變量框,將產量選入因變量框,點擊統計。
3.在統計窗口選擇共線性診斷,點擊繼續,然後再主頁面點擊確定即可。
4.結果判斷:在結果中我們關注係數表即可,當VIF值大於等於10時,我們認為變量間存在嚴重的共線性,當VIF值小於10時,我們認為數據基本符合多元線性分析的假設(4),即不存在多重共線性問題。
因此,本案例數據均滿足以上4個假設,可以進行多元線性回歸的運算。
SPSS分析步驟
一、準備工作
SPSS軟體(我使用的是IBM SPSS Statistics 25 中文版,其實各個版本格局上都是相似的,如果大家需要我的版本可以直接點擊(安裝包)下載;Excel數據整理。
二、分析數據
1. 點擊 分析 → 回歸 → 線性
2.將pH等自變量選入自變量框,將產量選入因變量框,點擊統計。
3.在統計界面勾選如下選項,點擊繼續
4.點擊主頁面的保存,然後在新窗口中勾選如下選項,然後點擊繼續。
5.點擊主頁面中的「確定」即可得到分析結果。
結果闡述
一、描述性統計結果
這是對各變量數據的簡單指標的描述,SPSS分別對各指標的數據求了平均值和標準偏差,並統計了每個組的數據個數。
二、模型納入變量表
輸入/除去的變量:
我們可以從這個表中看到該研究的基本信息:(1) 輸入的變量欄顯示該研究納入的自變量包括LTP、PH、SOM、SAP、SAN和LTN;(2) 方法欄顯示納入方法為輸入(區別於逐步回歸分析);(3) 該回歸模型是模型1。
三、模型摘要
下表是本次回歸模型的模型摘要表
(1)下表中R為多重相關係數,主要用於判斷自變量和因變量的線性關係,同時也是回歸模型的擬合程度指標,可做模型優度的參考指標;
(2)R方和調整後R方是指回歸分析中因變量變異對自變量的解釋度,一般我們採用調整後R方來衡量。本案例中可以解釋為:土壤pH值等6項指標能解釋產量變化的90.7%(0.907),這表明本案例中測定的土壤和葉片養分指標能較好的解釋作物產量的變異,土壤和葉片養分含量對作物產量具有較高的影響強度。
四、ANOVA表
此表是模型顯著性的檢驗。
該表中F值=48.177,為F檢驗的結果;
P值<0.001,根據F值計算而來,P<0.05則表明提示因變量和自變量之間存在線性相關。
這個檢驗的零假設是多重相關係數R=0。如果P<0.05,就說明多重線性回歸模型中至少有一個自變量的係數不為零。同時,回歸模型有統計學意義也說明相較於空模型,納入自變量有助於預測因變量;或說明該模型優於空模型。
五、回歸係數表
(1)此表為回歸模型係數表:①為模型係數;②為標準化係數;③為變量在模型中的顯著性檢驗;④為之前提到的共線性檢驗結果VIF值。
(2)本案例中我們的回歸模型可以假設為:
產量 = B0(常量) + B1*PH + B2*SOM + B3*SAN + B4*SAP + B5*LTN +B6*LTP
(3)首先我們看各自變量在模型中的顯著性檢驗結果。當P>0.05時,該自變量在本模型中沒有統計學意義,應當在回歸模型中刪除相應變量;當P<0.05時該變量在模型中具有統計學意義,應當保留。
(4)本案例中僅SOM和LTP的顯著性檢驗結果小於0.05,因此本案例的回歸模型為:產量 = 27.188*SOM + 807.02*LTP
五、結果描述
本案例以土壤pH值、SOM、SAN、SAP含量和葉片LTN及LTP含量為自變量,筍產量為因變量進行多元線性回歸分析。結果表明,回歸模型具有顯著的統計學意義(F=48.177,P<0.001),自變量能解釋作物產量變化的90.7%,具有較高的解釋度。顯著性檢驗結果表明,SOM和LTP含量對作物產量的影響具有統計學意義(P<0.05,如下表)
當然,關於結果的論述大家還是要多看文獻啦!這只是一個參考,希望大家進步多多!
END
本次教程就到這裡,公眾號還會持續更新有關SPSS數據分析與Excel、Wrod和PPT小技巧的教程,大家想先學習什麼知識可以直接在公眾號回復哦。
點個關注吧!一起學習!