多元有序logistic回歸 - CSDN

2021-02-08 CSDN技術社區

如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。如下表:

Logistic回歸分類

啞變量問題

有序logistics回歸中,自變量X可以為定量數據,也可以是定類數據。但如果定類數據納入模型,需要先將其設為啞變量。設置方法如下:

使用路徑:SPSSAU>數據處理>生成變量

平行性檢驗

即檢驗自變量各取值水平對因變量的影響在各個回歸方程中是否相同。平行性檢驗的原假設為模型滿足平行性,因而如果P值大於0.05則說明模型接受原假設,即符合平行性檢驗。反之如果P值小於0.05則說明模型拒絕原假設,模型不滿足平行性檢驗。平行性是有序Logit回歸的前提條件,如果不滿足平行性,SPSSAU建議使用多分類Logit回歸模型。

除此以外,連接函數也會對平行性檢驗起到影響,如果平行性檢驗無法通過時,可考慮選擇更準確的連接函數進行嘗試,按照因變量選項的分布情況劃分,各類連接函數的使用場景說明如下,SPSSAU提供了5中連接函數:

如果模型沒有特別的要求,應該首選使用logit連接函數,尤其是因變量的選項數量很少的時候。如果無論如何模型不滿足平行性檢驗, SPSSAU建議使用多分類Logit回歸分析。

案例應用

(1)背景

當前有一份研究數據是用來研究民眾幸福度影響因素,包括性別,年齡,學歷和年收入水平共4個潛在的影響因素對於幸福水平的影響情況。幸福水平共由三項表示,分別是「不幸福,比較幸福和十分幸福」,由於Y為定類數據且有序,因而適用於有序Logit回歸分析。

(2)操作步驟

由於性別為類別數據,首先將其設置為虛擬啞變量,並且以「男性」作為參照項,放置如下:

使用路徑:SPSSAU>進階方法>有序logit

(3)結果分析

針對有序logistics回歸分析SPSSAU共輸出5個表格,分別是:頻數分布表、平行性檢驗結果、似然比檢驗結果、有序Logistic回歸模型分析結果匯總,以及模型預測準確率表。

①頻數分布表

表1 頻數分布表

表1為頻數分布表,展示因變量各個類別的分布情況。如果因變量各類別分布非常分散,則需要對類別進行重新組合後再次進行分析。同時,如果因變量的類別個數非常多,也需要針對類別進行重新組合後才能進行分析。

從上表可知,總共有372個樣本參加分析,並且沒有缺失數據。認為處於不幸福狀態的人佔到45.16%,認為比較幸福的人的比例為20.7%,認為非常幸福的人比例為34.14%。數據分析比較均衡。

②平行性檢驗

表2 平行性檢驗

表2展示模型的平行性檢驗,檢驗的原假設為模型滿足平行性,因而如果P值大於0.05則說明模型接受原假設,即符合平行性檢驗。

上表中可見,平行性檢驗的原假設是各回歸方程互相平行,P=0.762>0.05接受原假設,說明模型通過平行性檢驗,可進一步進行分析。

③似然比檢驗

表3 似然比檢驗表

表3展示模型的似然比檢驗結果,用於分析模型整體有效性。其原假設是模型的回歸係數全部均為0,因此如果P值小於0.05,則說明拒絕原假設,即說明模型有效;反之如果P值大於0.05則說明接受原假設,即說明模型回歸係數全部均應該為0,模型無意義。

AIC和BIC值用於多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。

從上表可知,此處模型檢驗的原定假設為:是否放入自變量(性別_男, 年收入水平, 文化程度, 年齡)兩種情況時模型質量均一樣;分析顯示拒絕原假設(Chi=62.510,P=0.000<0.05),即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。

④ 回歸模型分析結果匯總

表4 有序Logistic回歸模型分析結果匯總

表4是模型結果分析匯總表,用於展示模型的結果,可以說是最為重要的結果,包括回歸係數的顯著性,模型R方值等。上表格中包括因變量閾值,其值基本無意義,僅從數學角度上看有此值輸出而已。同時輸出Cox and Snell,Nagelkerke和McFadden,三種常用的計算偽決定係數的方法,通常偽決定係數不會太高,不需要過多關注。

SPSSAU系統默認是以因變量的較高等級為參照,解釋時需要注意,本例中參考等級為「非常幸福」。

從上表可知,模型偽R平方值(McFadden R平方)為0.080,意味著性別, 年齡, 學歷, 年收入水平可以解釋幸福水平的8.0%變化原因。

具體分析,年收入水平,回歸係數值為0.508,並且呈現出0.01水平的顯著性(z=4.849,P=0.000<0.01),意味著年收入水平會對幸福水平產生顯著的正向影響關係。OR值為1.662,意味著年收入水平增加一個單位時,幸福水平的變化(增加)幅度為1.662倍。

年齡、文化程度同年收入水平均對幸福水平產生顯著性影響,這裡不再展開分析。

總結分析可知:學歷, 年收入水平會對幸福水平產生顯著的正向影響關係,以及年齡會對幸福水平產生顯著的負向影響關係。

⑤有序Logistic回歸模型預測準確率匯總

表5 有序Logistic回歸模型預測準確率

表5位模型預測準確率表格,用於展現預測準確率情況,包括各個類別和整體的預測準確率。如果模型用於預測分析,則預測準確率非常重要,如果模型用於研究影響關係,則不太關注預測準確率值。

通過模型預測準確率去判斷模型擬合質量,從上表可知:研究模型的整體預測準確率為55.65%,模型擬合情況較差。但本研究模型的重點在於找出對幸福水平有影響的因素,因此準確率的關注意義較小。

其他說明

有序Logit回歸的分析要求數據滿足平行性檢驗,如果不滿足,SPSSAU建議使用多分類Logti回歸分析即可;如果自變量個數非常多,建議用戶可先進行卡方檢驗,篩選出P值小於0.05的自變量放入模型中。

相關焦點

  • Logistic回歸分析之二元Logistic回歸
    在研究X對於Y的影響時,如果Y為定量數據,那麼使用多元線性回歸分析(SPSSAU通用方法裡面的線性回歸);如果Y為定類數據,那麼使用Logistic回歸分析。結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。
  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。· 如果Y有兩個選項,如願意和不願意、是和否,那麼應該使用二元Logistic回歸分析(SPSSAU【進階方法->二元logit】);· 如果Y有多個選項,並且各個選項之間可以對比大小,例如,1代表「不願意」,2代表「無所謂」,3代表「願意」,這3個選項具有對比意義,數值越高,代表樣本的願意程度越高,那麼應該使用多元有序Logistic回歸分析(SPSSAU【進階方法
  • 統計·logistic回歸
    Logistic回歸一般用於用於分類問題,比如判斷事件成功/失敗的概率。使用logistic回歸的前提假設:因變量是二分類變量。順序 Logit模型要求因變量是序數。觀測值彼此獨立。換句話說,觀察結果不應來自重複的測量或匹配的數據。
  • 有序Logistic回歸實例分析(Ordinal Regression)
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • Logistic回歸—多重共線性
    多重共線性作為常見問題,存在於線性或者廣義線性模型估計中,包括logistic回歸和Cox回歸。當預測變量間存在高度相關時會出現多重共線性,導致回歸係數估計值不穩定和不可靠。所以,存在多重共線性時,普通的logistic回歸變量篩選中,就有可能將兩個具有相關關係或廣義上具有相關關係的致病因素其中之一被排除在外,導致錯誤的判斷。對參數估計值的影響: 多重共線性常常會增大logistic回歸模型估計參數的均方誤差和標準誤,變大的方差容易使區間預測值變寬,使預測失去意義。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?前面兩期我們已經分享了一元線性回歸模型、多元線性回歸模型的操作方法,今天我們將分享logistic回歸的學習心得,希望大家都能有所收穫哦。
  • Logistic回歸—初步了解10個問題
    >研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。   依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。
  • Logistic 回歸101
    Logistc 回歸    今天,我們首先聊一聊最簡單的分類問題——二分類問題。二分類問題並不是要看看誰比較「二」, 純粹只是把數據分為兩類。    既然我們上個系列詳細地聊了聊線性回歸模型,我們首先來聊一聊最重要的線性二分類器之一—— logistic 回歸模型。
  • R語言實現logistic回歸
    引言:前面我們已經掌握了logistic回歸的知識點,今天就來看看如何用R語言實現logistic回歸。今天用到的數據來源於機器學習倉庫,基於患者的一些信息以判定該患者是否患有心臟病(heart disease, hd),連結如下:http://archive.ics.uci.edu/ml/datasets/Heart+Disease1.
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • 【重溫經典】吳恩達機器學習課程學習筆記七:Logistic回歸
    所以接下來將說明一些關於logistic回歸算法的知識,它可以將輸出值(預測值)的範圍限制在0到1之間。注意:雖然這裡提到了回歸,但是logistic是一個分類算法。這裡的函數g()稱為Sigmoid函數或logistic函數,這也是名字——logistic回歸的原來。其中
  • Logistic和Softmax回歸實戰(附代碼)
    上面我們用的數據集是有三個類別,然而我們的logistic卻只能處理二分類的問題,對多分類情況,logistic該如何處理呢?Softmax回歸在機器學習尤其是深度學習中,softmax是個非常常用而且比較重要的函數,尤其在多分類的場景中使用廣泛。他把一些輸入映射為0-1之間的實數,並且歸一化保證和為1,因此多分類的概率之和也剛好為1。
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • SAS系列36:Logistic回歸實戰(一)
    上一期Logistic回歸的數學模型、基本原理、分析步驟。今天就開始介紹Logistic回歸的SAS實現。
  • spss多元線性回歸模型 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:毫無疑問,多元線性回歸方程應該為:上圖中的 x1,  x2, xp分別代表「自變量」Xp截止,代表有P個自變量
  • 機器學習算法系列(一):logistic回歸
    七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數定義二項logistic回歸模型的條件分布如下:其中x∈Rn是輸入,Y∈{0,1}是輸出,W∈Rn和b∈R是參數,w稱為權重,b稱為偏置。
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    本文內容來自《中華流行病學雜誌》2019年第40卷第8期,作者為馮國雙教授,原題目為《觀察性研究中的logistic回歸分析思路》。將這篇文章分享給醫咖會的夥伴們,希望大家能從領域大咖的見解中有所收穫,指導醫學研究之路。
  • 乾貨 | 對數線性模型之 Logistic 回歸、SoftMax 回歸和最大熵模型
    首先以概率的方式解釋了logistic回歸為什麼使用sigmoid函數和對數損失,然後將二分類擴展到多分類,導出sigmoid函數的高維形式softmax函數對應softmax回歸,最後最大熵模型可以看作是softmax回歸的離散型版本,logistic回歸和softmax回歸處理數值型分類問題,最大熵模型對應處理離散型分類問題。
  • Logistic 回歸的交互作用
    在多元統計分析中,交互作用是指某一因素的作用隨其他因素水平變化而變化, 兩因素共同作用不等於兩因素單獨作用之和 (相加交互作用) 或之積 (相乘交互作用)時,稱為有交互作用。在因素分析中,通常將因素的乘積項納入,以分析交互作用的影響。本文以Logistic回歸為例,介紹相加交互作用的分析方法。在Logistic回歸中,因素的乘積項常用來反映因素間是否有相乘的交互作用。
  • Logistic邏輯回歸原理及實現
    我們用一條直線對這些點進行擬合,該線陳偉最佳擬合直線,這個擬合過程成為回歸。利用logistic回歸進行分類的主要思想是根據現有數據對分類邊界線建立回歸公式,依次進行分類。邏輯回歸的一般流程1.收集數據:採用任何方法收集數據2.準備數據:由於需要進行距離計算,因此需要數據類型為數值型,另外結構化的數據格式則最佳3.分析數據:採用任一方法對數據進行分析