一文讀懂條件Logistic回歸

2020-12-17 SPSSAU

在醫學研究中,為了控制一些重要的混雜因素,經常會把病例和對照按年齡,性別等條件進行配對,形成多個匹配組。各匹配組的病例數和對照人數是任意的,比如一個病例和若干個對照匹配即1:1,在醫學上稱作「1:1病歷對照研究」,常見還有1:M(M <=3),即1個病例和1或2或3個對照匹配。

病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。

1、案例背景

某北方城市研究喉癌發病的危險因素,使用1:2匹配的病例對照研究方法進行調查。共有25對配對數據(每對3個,即25*3=75行數據)。現研究兩個影響因素分別是:是否吸菸和是否有癌症家族史。數據格式(部分)如下表:

提示:

條件logistic回歸時,數據中一定需要記錄配對編號,比如1:2的配對(1個病例配對2個對照,且共有20個組,組別編號從1到20,那麼同時會有3個1,3個2,3個3,類似下去),而且在分析時將配對編號放入對應框中。

配對編號ID:共有25對配對,編號從1~25,每個數字會重複3次(分別對應病例或對照組);

Y是否患喉癌:數字1表示病例組即患喉癌,數字0表示對照組即沒有患喉癌;

X1是否吸菸:數字1表示吸菸,數字0表示不吸菸;

X2癌症家族史:數字1表示有家族患喉癌史,數字0表示沒有家族患喉癌史。

在做條件logistic回歸時,因變量只能為0和1二分類數據。數字中只能包括0和1,如果不是,可使用[數據處理]->[數據編碼]進行設置。

2、操作

本例子操作截圖如下:

3、結果分析

SPSSAU共輸出三個表格,分別是:「條件logit回歸模型似然比檢驗結果」,「條件logit回歸模型分析結果匯總」,「條件logit回歸模型分析結果匯總」。

第一個表格:條件logit回歸模型似然比檢驗結果

模型似然比檢驗,用於分析模型是否有效;

在分析上,首先需要模型通過似然比檢驗,其原定假設為不加入X和加入X模型無明顯差異,如果對應的p值小於0.05,意味著拒絕原假設,也即說明模型有意義。

從上表可知:此處模型檢驗的原定假設為:是否放入自變量(X1是否吸菸, X2癌症家族史)兩種情況時模型質量均一樣;從上表可知,模型拒絕原定假設(chi=6.319,p=0.042 <0.05),即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。

第二個表格:條件logit回歸模型分析結果匯總

包括模型的回歸係數,R方值等數據;

從上表可知:模型McFadden R方值為0.115,意味著是否吸菸, 癌症家族史共2項可解釋是否患喉癌的11.5%原因。

具體來看:X1是否吸菸的回歸係數值為1.243,並且呈現出0.05水平的顯著性(z=2.322,p=0.020 <0.05),意味著X1是否吸菸會對Y是否患喉癌產生顯著的正向影響關係。以及 (RR值,exp(b)值)為3.465(95% CI:1.214~9.892),意味著相對不吸菸群體,吸菸群體患喉癌的風險倍數會加大3.465倍。

X2癌症家族史的回歸係數值為-0.184,但是並沒有呈現出顯著性(z=-0.365,p=0.715>0.05),意味著是否有癌症家族史並不會對患喉癌產生影響。

4、總結

分析過程涉及以下幾個關鍵點:

(1)條件logistic回歸時,數據中一定需要記錄下配對編號,比如1:2的配對(1個病例配對2個對照,且共有20個組,組別編號從1到20,那麼同時會有3個1,3個2,3個3,類似下去),而且在分析時將配對編號放入對應框中。

(2)條件logistic回歸時,因變量只能為0和1二分類數據,數字中只能包括0和1,如果不是,可使用數據處理->數據編碼進行設置。

相關焦點

  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,
  • Logistic 回歸101
    下面是正文=================================================== 今天,我們將開始聊一聊機器學習的一類重要問題——分類。    我們今天將聊一聊其中最簡單,也是在實際中應用地最廣的二分類算法:Logistic 回歸。
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    logistic回歸 假定有m個自變量X1,X2,…,Xm,logistic回歸模型的基本形式可表達為: 只從數據本身考慮的話,logistic回歸模型都是包括一個分類因變量及若干自變量(可以是分類變量,也可以是連續變量),
  • Logistic回歸分析之二元Logistic回歸
    Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。本次內容將針對二元logistic(logit)回歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。
  • Logistic回歸—多重共線性
    多重共線性作為常見問題,存在於線性或者廣義線性模型估計中,包括logistic回歸和Cox回歸。當預測變量間存在高度相關時會出現多重共線性,導致回歸係數估計值不穩定和不可靠。對篩選變量的影響: 在病因學研究分析中 , logistic回歸的建模一般採用逐個篩選自變量的方法,這種方法得出的納入回歸子集內的解釋變量存在多重共線性即解釋變量非正交的條件下可以看成是影響因素,但未包含在回歸子集內的解釋變量卻不能說不具有統計學意義。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?前面兩期我們已經分享了一元線性回歸模型、多元線性回歸模型的操作方法,今天我們將分享logistic回歸的學習心得,希望大家都能有所收穫哦。
  • 統計·logistic回歸
    Logistic回歸一般用於用於分類問題,比如判斷事件成功/失敗的概率。使用logistic回歸的前提假設:因變量是二分類變量。順序 Logit模型要求因變量是序數。觀測值彼此獨立。換句話說,觀察結果不應來自重複的測量或匹配的數據。
  • Logistic回歸—初步了解10個問題
    >研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。   依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。
  • 機器學習算法系列(一):logistic回歸
    七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數二、二項Logistic回歸原理二項Logistic回歸模型時一種分類模型,由條件概率分布P(Y|X)表示,隨機變量Y取0或1。
  • 廣義線性回歸分析模型Logistic,一文讀懂它!
    作者:丁點helper來源:丁點幫你前文我們已經講解了相關與回歸的基礎知識,並且重點討論了多重線性回歸的應用與診斷分析。今天的文章,我們來看看日常學習和科研中應用同樣廣泛的另一類回歸分析——Logistic回歸。
  • Logistic和Softmax回歸實戰(附代碼)
    Logistic回歸是一種常用的處理二分類問題的模型,Softmax回歸常用於處理多分類問題。本文主要實戰Logistic回歸和softmax回歸在iris數據集上的應用,通過該文章,希望我們能一起掌握該方面的知識。歡迎文末查看下載關鍵字,公眾號回復即可免費下載實戰代碼。
  • R語言實現logistic回歸
    引言:前面我們已經掌握了logistic回歸的知識點,今天就來看看如何用R語言實現logistic回歸。今天用到的數據來源於機器學習倉庫,基於患者的一些信息以判定該患者是否患有心臟病(heart disease, hd),連結如下:http://archive.ics.uci.edu/ml/datasets/Heart+Disease1.
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • 乾貨 | 對數線性模型之 Logistic 回歸、SoftMax 回歸和最大熵模型
    首先以概率的方式解釋了logistic回歸為什麼使用sigmoid函數和對數損失,然後將二分類擴展到多分類,導出sigmoid函數的高維形式softmax函數對應softmax回歸,最後最大熵模型可以看作是softmax回歸的離散型版本,logistic回歸和softmax回歸處理數值型分類問題,最大熵模型對應處理離散型分類問題。
  • SAS系列36:Logistic回歸實戰(一)
    上一期Logistic回歸的數學模型、基本原理、分析步驟。今天就開始介紹Logistic回歸的SAS實現。
  • 【獨家】一文讀懂回歸分析
    「回歸」一詞的由來我們不必在「回歸」一詞上費太多腦筋。英國著名統計學家弗朗西斯·高爾頓(Francis Galton,1822—1911)是最先應用統計方法研究兩個變量之間關係問題的人。「回歸」一詞就是由他引入的。他對父母身高與兒女身高之間的關係很感興趣,並致力於此方面的研究。
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    一、重要概念一)基本表達式 當因變量為分類變量時,最常用且首先考慮的回歸分析方法應為logistics回歸,也稱為logit回歸,因logistic回歸模型表達式為,由表達式可知logit P與變量間存在線性關係,P/(1-P)稱為發生比(odds)即觀測事件發生的概率與未發生的概率的比值。
  • 利用R語言進行logistic回歸分析 | 30 天學會R DAY 26
    join函數把兩個資料庫進行合併tt<-inner_join(t1,t2,by="ID")str(tt)二、數據整理工作和線性回歸分析一樣,logistic回歸分析之前也需要對數據進行整理、轉換。
  • 邏輯回歸(Logistic Regression) 模型簡介
    本文作為美團機器學習InAction系列中的一篇,主要關注邏輯回歸算法的數學模型和參數求解方法,最後也會簡單討論下邏輯回歸和貝葉斯分類的關係,以及在多分類問題上的推廣。決策函數一個機器學習的模型,實際上是把決策函數限定在某一組條件下,這組限定條件就決定了模型的假設空間。當然,我們還希望這組限定條件簡單而合理。而邏輯回歸模型所做的假設是:
  • Logistic邏輯回歸原理及實現
    我們用一條直線對這些點進行擬合,該線陳偉最佳擬合直線,這個擬合過程成為回歸。利用logistic回歸進行分類的主要思想是根據現有數據對分類邊界線建立回歸公式,依次進行分類。邏輯回歸的一般流程1.收集數據:採用任何方法收集數據2.準備數據:由於需要進行距離計算,因此需要數據類型為數值型,另外結構化的數據格式則最佳3.分析數據:採用任一方法對數據進行分析