Logistic回歸分析(logit回歸)一般可分為3類,分別是二元logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。
logistic回歸
Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。
如果Y有兩個選項,如願意和不願意、是和否,那麼應該使用有序logistic回歸分析(SPSSAU進階方法->二元logit);
如果Y有多個選項,並且各個選項之間可以對比大小,例如,1代表「不願意」,2代表「無所謂」,3代表「願意」,這3個選項具有對比意義,數值越高,代表樣本的願意程度越高,那麼應該使用多元有序Logistic回歸分析(SPSSAU進階方法->有序logit);
如果Y有多個選項,並且各個選項之間不具有對比意義,例如,1代表「淘寶」,2代表「天貓」,3代表「京東」,4代表「亞馬遜中國」,數值僅代表不同類別,數值大小不具有對比意義,那麼應該使用多元無序Logistic回歸分析(SPSSAU進階方法->多分類logit)。
1、有序logistic回歸分析基本說明
進行有序logistic回歸時,通常需要有以下步驟,分別是連接函數選擇,平行性檢驗,模型似然比檢驗,參數估計分析,模型預測準確效果共5個步驟。
1)連接函數選擇
SPSSAU共提供五類連接函數,分別如下:
SPSSAU默認使用logit連接函數,如果模型沒有特別的要求,應該首選使用logit連接函數,尤其是因變量的選項數量很少的時候。連接函數可能會對平行性檢驗起到影響,如果平行性檢驗無法通過時,可考慮選擇更準確的連接函數進行嘗試。正常情況下使用默認的logit連接函數即可。
2)平行性檢驗
一般來說,模型最好通過平行性檢驗,但在研究中很可能出現無法通過的現象。此時有以下建議,如下:
改用多分類logistic回歸;換個方法,因為一般可使用有序logistic回歸的數據也可以使用多分類logistic回歸分析;
改用線性回歸;可考慮換成線性回歸分析嘗試;
改變連接函數;選擇更適合的連接函數;
將因變量的類別選項進行一些合併處理等,使用SPSSAU數據處理->數據編碼功能。
一般來說,有序logistic回歸有一定的穩健性,即平行性檢驗對應的P值接近於0.05時,可考慮直接接受有序logistic回歸分析的結果。
3)模型似然比檢驗
模型似然比檢驗用於對整個模型的有效性進行分析,一般對應的P值小於0.05即可。同時SPSSAU還提供AIC和BIC這兩個指標值,如果模型有多個,而且希望進行模型之間的優劣比較,可使用此兩個指標,此兩個指標是越小越好。具體可直接查看SPSSAU的智能分析和分析建議即可。
4)參數估計分析
參數估計分析其實就已經開始進入實質性的分析了。首先可分析R方,即模型的擬合水平情況,SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。
5)模型預測效果分析
有序logistic回歸建模時,還可以對模型的預測效果進行分析,SPSSAU也會默認輸出結果,當然一般情況下我們關注於影響關係,因而對於預測效果等不那麼看重。即模型預測質量的關注乎相對較低,多數時候直接忽略它。
2、如何使用SPSSAU進行有序logistic回歸操作
關於有序logistic回歸的操作上,SPSSAU操作如下:
至於分析結果如下:
首先對模型整體有效性進行分析(模型似然比檢驗),從上表可知:此處模型檢驗的原定假設為:是否放入自變量(性別_女, 年齡, 年收入水平, 文化程度)兩種情況時模型質量均一樣;分析顯示拒絕原假設(chi=62.510,p=0.000<0.05),即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。
首先可針對任意一個R方值進行描述,一般是McFadden R 方為0.08,意味著自變量僅解釋幸福度8%的原因,logistic回歸時R方值一般都比較小,一般不用過多理會。
具體分析影響關係時,可直接參考SPSSAU的智能分析即可,而上表格還列出因變量閾值對應的信息,該數據對數據分析並無過多意義,僅為數學上的指標值而已。
性別_女的回歸係數值為0.072,但是並沒有呈現出顯著性(z=0.352,p=0.725>0.05),意味著性別並不會對幸福水平產生影響關係。
年齡的回歸係數值為-0.027,並且呈現出0.01水平的顯著性(z=-2.921,p=0.003<0.01),意味著年齡會對幸福水平產生顯著的負向影響關係。年齡越大的人幸福水平反而越低。
年收入水平的回歸係數值為0.508,並且呈現出0.01水平的顯著性(z=4.849,p=0.000<0.01),意味著年收入水平會對幸福水平產生顯著的正向影響關係。收入水平越高的群體,幸福度會越高。
文化程度的回歸係數值為0.311,並且呈現出0.01水平的顯著性(z=3.502,p=0.000<0.01),意味著文化程度會對幸福水平產生顯著的正向影響關係。文化水平越高的群體,他們的幸福度會越高。
3、有序logistic相關問題
在使用SPSSSAU進行有序logistic回歸時,可能會出現一些問題,比如提示奇異矩陣,質量異常,Y值只能為0或1等,接下來一一說明。
第1點:出現奇異矩陣或質量異常
如果做有序logsitic回歸時提示奇異矩陣,通常有兩個原因,一是虛擬啞變量設置後,本應該少放1項作為參考項但是並沒有,而是把所有的啞變量項都放入框中,這會導致絕對的共線性問題即會出現奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性回歸查看下VIF值),此時也可能導致模型無法擬合等。先找出原因,然後把有問題的項移出模型中即可。
同時,如果因變量Y的分布極其不均勻,SPSSAU建議可先對類別進行組合,可使用數據處理裡面的數據編碼完成。
第2點:無法通過平行性檢驗?
有序Logit回歸的分析要求數據滿足平行性檢驗,如果不滿足,SPSSAU建議使用多分類Logti回歸分析即可,當然也可以改用線性回歸,改變連接函數,對因變量Y的選項進行組合等多種方式,嘗試並在最終選擇出最優方案即可。
第3點:OR值的意義
OR值=exp(b)值,即回歸係數的指數次方,該值在醫學研究裡面使用較多,實際意義是X增加1個單位時,Y的增加幅度。如果僅僅是研究影響關係,該值意義較小。
第4點: wald值或z值
z 值=回歸係數/標準誤,該值為中間過程值無意義,只需要看p 值即可。有的軟體會提供wald值(但不提供z 值,該值也無實際意義),wald值= z 值的平方。
第5點: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關問題?
Logit回歸時會提供此3個R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。