Logistic回歸之有序logistic回歸分析

2020-12-05 SPSSAU

Logistic回歸分析(logit回歸)一般可分為3類,分別是二元logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。

logistic回歸

Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。

如果Y有兩個選項,如願意和不願意、是和否,那麼應該使用有序logistic回歸分析(SPSSAU進階方法->二元logit);

如果Y有多個選項,並且各個選項之間可以對比大小,例如,1代表「不願意」,2代表「無所謂」,3代表「願意」,這3個選項具有對比意義,數值越高,代表樣本的願意程度越高,那麼應該使用多元有序Logistic回歸分析(SPSSAU進階方法->有序logit);

如果Y有多個選項,並且各個選項之間不具有對比意義,例如,1代表「淘寶」,2代表「天貓」,3代表「京東」,4代表「亞馬遜中國」,數值僅代表不同類別,數值大小不具有對比意義,那麼應該使用多元無序Logistic回歸分析(SPSSAU進階方法->多分類logit)。

1、有序logistic回歸分析基本說明

進行有序logistic回歸時,通常需要有以下步驟,分別是連接函數選擇,平行性檢驗,模型似然比檢驗,參數估計分析,模型預測準確效果共5個步驟。

1)連接函數選擇

SPSSAU共提供五類連接函數,分別如下:

SPSSAU默認使用logit連接函數,如果模型沒有特別的要求,應該首選使用logit連接函數,尤其是因變量的選項數量很少的時候。連接函數可能會對平行性檢驗起到影響,如果平行性檢驗無法通過時,可考慮選擇更準確的連接函數進行嘗試。正常情況下使用默認的logit連接函數即可。

2)平行性檢驗

一般來說,模型最好通過平行性檢驗,但在研究中很可能出現無法通過的現象。此時有以下建議,如下:

改用多分類logistic回歸;換個方法,因為一般可使用有序logistic回歸的數據也可以使用多分類logistic回歸分析;

改用線性回歸;可考慮換成線性回歸分析嘗試;

改變連接函數;選擇更適合的連接函數;

將因變量的類別選項進行一些合併處理等,使用SPSSAU數據處理->數據編碼功能。

一般來說,有序logistic回歸有一定的穩健性,即平行性檢驗對應的P值接近於0.05時,可考慮直接接受有序logistic回歸分析的結果。

3)模型似然比檢驗

模型似然比檢驗用於對整個模型的有效性進行分析,一般對應的P值小於0.05即可。同時SPSSAU還提供AIC和BIC這兩個指標值,如果模型有多個,而且希望進行模型之間的優劣比較,可使用此兩個指標,此兩個指標是越小越好。具體可直接查看SPSSAU的智能分析和分析建議即可。

4)參數估計分析

參數估計分析其實就已經開始進入實質性的分析了。首先可分析R方,即模型的擬合水平情況,SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。

5)模型預測效果分析

有序logistic回歸建模時,還可以對模型的預測效果進行分析,SPSSAU也會默認輸出結果,當然一般情況下我們關注於影響關係,因而對於預測效果等不那麼看重。即模型預測質量的關注乎相對較低,多數時候直接忽略它。

2、如何使用SPSSAU進行有序logistic回歸操作

關於有序logistic回歸的操作上,SPSSAU操作如下:

至於分析結果如下:

首先對模型整體有效性進行分析(模型似然比檢驗),從上表可知:此處模型檢驗的原定假設為:是否放入自變量(性別_女, 年齡, 年收入水平, 文化程度)兩種情況時模型質量均一樣;分析顯示拒絕原假設(chi=62.510,p=0.000<0.05),即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。

首先可針對任意一個R方值進行描述,一般是McFadden R 方為0.08,意味著自變量僅解釋幸福度8%的原因,logistic回歸時R方值一般都比較小,一般不用過多理會。

具體分析影響關係時,可直接參考SPSSAU的智能分析即可,而上表格還列出因變量閾值對應的信息,該數據對數據分析並無過多意義,僅為數學上的指標值而已。

性別_女的回歸係數值為0.072,但是並沒有呈現出顯著性(z=0.352,p=0.725>0.05),意味著性別並不會對幸福水平產生影響關係。

年齡的回歸係數值為-0.027,並且呈現出0.01水平的顯著性(z=-2.921,p=0.003<0.01),意味著年齡會對幸福水平產生顯著的負向影響關係。年齡越大的人幸福水平反而越低。

年收入水平的回歸係數值為0.508,並且呈現出0.01水平的顯著性(z=4.849,p=0.000<0.01),意味著年收入水平會對幸福水平產生顯著的正向影響關係。收入水平越高的群體,幸福度會越高。

文化程度的回歸係數值為0.311,並且呈現出0.01水平的顯著性(z=3.502,p=0.000<0.01),意味著文化程度會對幸福水平產生顯著的正向影響關係。文化水平越高的群體,他們的幸福度會越高。

3、有序logistic相關問題

在使用SPSSSAU進行有序logistic回歸時,可能會出現一些問題,比如提示奇異矩陣,質量異常,Y值只能為0或1等,接下來一一說明。

第1點:出現奇異矩陣或質量異常

如果做有序logsitic回歸時提示奇異矩陣,通常有兩個原因,一是虛擬啞變量設置後,本應該少放1項作為參考項但是並沒有,而是把所有的啞變量項都放入框中,這會導致絕對的共線性問題即會出現奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性回歸查看下VIF值),此時也可能導致模型無法擬合等。先找出原因,然後把有問題的項移出模型中即可。

同時,如果因變量Y的分布極其不均勻,SPSSAU建議可先對類別進行組合,可使用數據處理裡面的數據編碼完成。

第2點:無法通過平行性檢驗?

有序Logit回歸的分析要求數據滿足平行性檢驗,如果不滿足,SPSSAU建議使用多分類Logti回歸分析即可,當然也可以改用線性回歸,改變連接函數,對因變量Y的選項進行組合等多種方式,嘗試並在最終選擇出最優方案即可。

第3點:OR值的意義

OR值=exp(b)值,即回歸係數的指數次方,該值在醫學研究裡面使用較多,實際意義是X增加1個單位時,Y的增加幅度。如果僅僅是研究影響關係,該值意義較小。

第4點: wald值或z值

z 值=回歸係數/標準誤,該值為中間過程值無意義,只需要看p 值即可。有的軟體會提供wald值(但不提供z 值,該值也無實際意義),wald值= z 值的平方。

第5點: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關問題?

Logit回歸時會提供此3個R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。

相關焦點

  • Logistic回歸分析之二元Logistic回歸
    結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。 本次內容將針對二元logistic(logit)回歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。
  • 多元有序logistic回歸分析 - CSDN
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。如果無論如何模型不滿足平行性檢驗, SPSSAU建議使用多分類Logit回歸分析。案例應用(1)背景當前有一份研究數據是用來研究民眾幸福度影響因素,包括性別,年齡,學歷和年收入水平共4個潛在的影響因素對於幸福水平的影響情況。幸福水平共由三項表示,分別是「不幸福,比較幸福和十分幸福」,由於Y為定類數據且有序,因而適用於有序Logit回歸分析。
  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小
  • Logistic回歸—初步了解10個問題
    此外,根據多分類因變量是否有序,又可以分為多分類有序logistic回歸模型和多分類無序logistic回歸模型。   在設計階段之初,可以通過分層、匹配和隨機設計等手段避免混雜因素。在數據統計分析階段,可以通過傾向性匹配得分、工具變量和交互效應分析,達到控制混雜的目的。   採用logistic回歸分析,將研究因素、混雜因素及其交互作用均體現於模型中,基於效應估計值改變量的方法,可在校正混雜因素的作用下,研究結局變量與主要因素間的聯繫。
  • 有序Logistic回歸實例分析(Ordinal Regression)
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?什麼是logistic回歸什麼是logistic回歸?
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。1、案例背景某北方城市研究喉癌發病的危險因素,使用1:2匹配的病例對照研究方法進行調查。共有25對配對數據(每對3個,即25*3=75行數據)。
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    本文內容來自《中華流行病學雜誌》2019年第40卷第8期,作者為馮國雙教授,原題目為《觀察性研究中的logistic回歸分析思路》。將這篇文章分享給醫咖會的夥伴們,希望大家能從領域大咖的見解中有所收穫,指導醫學研究之路。
  • 快速數據分析教程:無序多分類Logistic回歸
    如果是二元Logistic回歸,默認以數字0作為參考項(通常用數字0表示不願意,不喜歡,不會等)如果是多分類logistic回歸,SPSSAU默認以數字最小的一項作為參考項。如果想更換參考項,可在【數據處理->數據編碼】裡進行設置,把參考項的數值設為最小的數值即可。
  • Logistic回歸得出是校正的OR?那校正的RR咋整?
    如要計算校正的OR就很方便(多因素Logistic回歸),但如果想獲得校正的RR,恐怕並非易事。那麼,現在問題來了。大家都容易理解的是,如果我把病例對照研究資料用Logistic回歸來分析,得到是校正的OR, 但是如果用的是隊列研究資料,得到的是校正的RR嗎?
  • 機器學習算法系列(一):logistic回歸
    七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數曲線在中心附近增長速度較快,並且γ值越小,曲線在中心附近的增長速度越快。特別的,當μ=0,γ=1的時候就是sigmoid函數。
  • 從頭開始:用Python實現帶隨機梯度下降的Logistic回歸
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。logistic 回歸是一種著名的二元分類問題的線性分類算法。它容易實現、易於理解,並在各類問題上有不錯的效果,即使該方法的原假設與數據有違背時。在本教程中,你將了解如何在 Python 中實現隨機梯度下降的 logistic 回歸算法。
  • spss多變量回歸分析 - CSDN
    回歸分析的棘手問題--非線性關係1回歸分析要求自變量與應變量存在著線性關係回歸分析主要探討自變量x與研究結局變量y的關係,無論線性回歸,logistic回歸或者1logistic回歸分析SPSS操作過程logistic回歸SPSS分析的界面,選擇「分類」
  • 16種常用的數據分析方法-回歸分析
    3、Logistic回歸分析 線性回歸模型要求因變量是連續的正態分布變裡,且自變量和因變量呈線性關係,而Logistic回歸模型對因變量的分布沒有要求,一般用於因變量是離散時的情況 Logistic回歸模型有條件與非條件之分:
  • logistic回歸Hosmer-Lemeshow擬合優度檢驗
    docsetId=statug&docsetTarget=statug_logistic_details32.htm&docsetVersion=14.3&locale=enhttps://www.medcalc.org/manual/logistic_regression.php
  • 回歸分析兩個因變量 - CSDN
    OR=odds1/odds2=ad/bc在logistic回歸中,各自變量的回歸係數βi表示自變量Xi每改變一個單位,比值比的自然對數值該變量,而exp(βi)即OR,表示自變量Xi每改變一個單位,陽性結果出現概率與不出現概率之比是變化前相應比值的倍數,即優勢比。
  • 機器學習之詳解Logistic回歸
    而本文旨在從源頭上解釋一下Logistic回歸的原理到底是什麼。 英文單詞Regression翻譯成中文「回歸」,那什麼是回歸呢?事實上,在Logistic回歸出現以前,人們最先引入的是線性回歸。了解二者之間的來龍去脈將幫助你更深刻地認識Logistic回歸。
  • 醫學統計與R語言:Rare Events Logistic Regression
    比如要探索研究該疾病的影響因素,通常的做法是對病例和非病例的兩類人群建立logistic回歸模型,然而由於資料中的病例所佔的比例遠遠低於非病例的比重,這就給稀有事件的統計分析帶來一系列問題,在這種情況下仍採用常規的logistic回歸方法就不適合了。
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    本例中則報告「納入分析的觀測中有一項觀測學生化殘差為3.349」。  根據SPSS分析結果,有兩種情況:①如果沒有離群點,則直接進入第五部分結果解讀;②如果有離群點,研究者決定是否剔除這些觀測或者對數據進行轉換。如果剔除離群點,則需要對剔除後的數據重新進行回歸分析。如果進行數據轉換,則需要從線性假設重新開始分析。