如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。如下表:
Logistic回歸分類
啞變量問題
有序logistics回歸中,自變量X可以為定量數據,也可以是定類數據。但如果定類數據納入模型,需要先將其設為啞變量。設置方法如下:
使用路徑:SPSSAU>數據處理>生成變量
平行性檢驗
即檢驗自變量各取值水平對因變量的影響在各個回歸方程中是否相同。平行性檢驗的原假設為模型滿足平行性,因而如果P值大於0.05則說明模型接受原假設,即符合平行性檢驗。反之如果P值小於0.05則說明模型拒絕原假設,模型不滿足平行性檢驗。平行性是有序Logit回歸的前提條件,如果不滿足平行性,SPSSAU建議使用多分類Logit回歸模型。
除此以外,連接函數也會對平行性檢驗起到影響,如果平行性檢驗無法通過時,可考慮選擇更準確的連接函數進行嘗試,按照因變量選項的分布情況劃分,各類連接函數的使用場景說明如下,SPSSAU提供了5中連接函數:
如果模型沒有特別的要求,應該首選使用logit連接函數,尤其是因變量的選項數量很少的時候。如果無論如何模型不滿足平行性檢驗, SPSSAU建議使用多分類Logit回歸分析。
案例應用
(1)背景
當前有一份研究數據是用來研究民眾幸福度影響因素,包括性別,年齡,學歷和年收入水平共4個潛在的影響因素對於幸福水平的影響情況。幸福水平共由三項表示,分別是「不幸福,比較幸福和十分幸福」,由於Y為定類數據且有序,因而適用於有序Logit回歸分析。
(2)操作步驟
由於性別為類別數據,首先將其設置為虛擬啞變量,並且以「男性」作為參照項,放置如下:
使用路徑:SPSSAU>進階方法>有序logit
(3)結果分析
針對有序logistics回歸分析SPSSAU共輸出5個表格,分別是:頻數分布表、平行性檢驗結果、似然比檢驗結果、有序Logistic回歸模型分析結果匯總,以及模型預測準確率表。
①頻數分布表
表1 頻數分布表
表1為頻數分布表,展示因變量各個類別的分布情況。如果因變量各類別分布非常分散,則需要對類別進行重新組合後再次進行分析。同時,如果因變量的類別個數非常多,也需要針對類別進行重新組合後才能進行分析。
從上表可知,總共有372個樣本參加分析,並且沒有缺失數據。認為處於不幸福狀態的人佔到45.16%,認為比較幸福的人的比例為20.7%,認為非常幸福的人比例為34.14%。數據分析比較均衡。
②平行性檢驗
表2 平行性檢驗
表2展示模型的平行性檢驗,檢驗的原假設為模型滿足平行性,因而如果P值大於0.05則說明模型接受原假設,即符合平行性檢驗。
上表中可見,平行性檢驗的原假設是各回歸方程互相平行,P=0.762>0.05接受原假設,說明模型通過平行性檢驗,可進一步進行分析。
③似然比檢驗
表3 似然比檢驗表
表3展示模型的似然比檢驗結果,用於分析模型整體有效性。其原假設是模型的回歸係數全部均為0,因此如果P值小於0.05,則說明拒絕原假設,即說明模型有效;反之如果P值大於0.05則說明接受原假設,即說明模型回歸係數全部均應該為0,模型無意義。
AIC和BIC值用於多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。
從上表可知,此處模型檢驗的原定假設為:是否放入自變量(性別_男, 年收入水平, 文化程度, 年齡)兩種情況時模型質量均一樣;分析顯示拒絕原假設(Chi=62.510,P=0.000<0.05),即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。
④ 回歸模型分析結果匯總
表4 有序Logistic回歸模型分析結果匯總
表4是模型結果分析匯總表,用於展示模型的結果,可以說是最為重要的結果,包括回歸係數的顯著性,模型R方值等。上表格中包括因變量閾值,其值基本無意義,僅從數學角度上看有此值輸出而已。同時輸出Cox and Snell,Nagelkerke和McFadden,三種常用的計算偽決定係數的方法,通常偽決定係數不會太高,不需要過多關注。
SPSSAU系統默認是以因變量的較高等級為參照,解釋時需要注意,本例中參考等級為「非常幸福」。
從上表可知,模型偽R平方值(McFadden R平方)為0.080,意味著性別, 年齡, 學歷, 年收入水平可以解釋幸福水平的8.0%變化原因。
具體分析,年收入水平,回歸係數值為0.508,並且呈現出0.01水平的顯著性(z=4.849,P=0.000<0.01),意味著年收入水平會對幸福水平產生顯著的正向影響關係。OR值為1.662,意味著年收入水平增加一個單位時,幸福水平的變化(增加)幅度為1.662倍。
年齡、文化程度同年收入水平均對幸福水平產生顯著性影響,這裡不再展開分析。
總結分析可知:學歷, 年收入水平會對幸福水平產生顯著的正向影響關係,以及年齡會對幸福水平產生顯著的負向影響關係。
⑤有序Logistic回歸模型預測準確率匯總
表5 有序Logistic回歸模型預測準確率
表5位模型預測準確率表格,用於展現預測準確率情況,包括各個類別和整體的預測準確率。如果模型用於預測分析,則預測準確率非常重要,如果模型用於研究影響關係,則不太關注預測準確率值。
通過模型預測準確率去判斷模型擬合質量,從上表可知:研究模型的整體預測準確率為55.65%,模型擬合情況較差。但本研究模型的重點在於找出對幸福水平有影響的因素,因此準確率的關注意義較小。
其他說明
有序Logit回歸的分析要求數據滿足平行性檢驗,如果不滿足,SPSSAU建議使用多分類Logti回歸分析即可;如果自變量個數非常多,建議用戶可先進行卡方檢驗,篩選出P值小於0.05的自變量放入模型中。