Logistic回歸—初步了解10個問題

2020-12-05 騰訊網

  本文6070字〡12圖〡預計閱讀25分鐘

  在醫學科研領域,經常需要分析二分類變量(如:生存與死亡、陽性與陰性、發病與未發病、感染與未感染、暴露於未暴露)或者多分類變量(如:疾病轉歸,治癒、無效、死亡;體重情況,偏瘦、正常、肥胖;根據損傷程度分級的結局指標,如結核性胸腔積液胸膜粘連程度、視網膜出血程度、早產兒腦室缺血程度;以及一些可進行多水平分類的生理生化、免疫指標等,如血壓值、血鎂值、血脂和膽固醇等)與一組自變量之間的關係,此時,因變量為分類變量,已經不滿足前面學習的多重線性回歸的使用條件,可以考慮Logistic回歸模型。

  學習目錄

  Logistic回歸模型概念

  Logistic回歸模型類型

  Logistic回歸模型用途

  Logistic回歸模型應用條件

  Logistic回歸模型檢驗假設

  Logistic回歸模型自變量篩選

  Logistic回歸模型參數

  Logistic回歸模型自變量形式

  Logistic回歸模型診斷、擬合效果和優度

  Logistic回歸時單因素分析

  1

  Logistic回歸模型

  能否參照多重線性回歸模型,建立分析上述分類資料分析的模型?如果可以,需要解決兩個問題:(1)模型左側取值區間問題; (2)曲線關聯問題。

  以二分類因變量為例,無論出現陰性結果或者陽性結果的概率都在0≤P≤1之間,而從下面的多重線性回歸方程可以看出,右側取值在(-∞,+∞),如果左側為分類因變量的出現某種結果的概率,那麼左右取值範圍就不相符。另外,分類因變量和自變量的關係也不呈線性關係,而是S型曲線關係,無法滿足線性回歸前提假設。

  為了解決上述兩個問題,統計學家提出了logit變換,取出現陽性結果和陰性結果的概率比值(Odds)的對數,In(Odds)。

  以Logit(P)為因變量,建立與P個自變量的logistic回歸模型,如下所示:

  上面公式也可變換為以下兩種形式:

  2

  Logistic回歸模型類型

  依據研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。

  依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。

  此外,根據多分類因變量是否有序,又可以分為多分類有序logistic回歸模型和多分類無序logistic回歸模型。

  Logistic回歸模型分類

  3

  Logistic回歸用途

  1)校正混雜因素,在生物醫學研究領域,觀察對象的某一結局(如生存與死亡、陽性與陰性等)會受到多種因素綜合作用的影響,包括研究因素與混雜因素,混雜因素的存在會扭曲疾病和暴露之間的關聯性或扭曲某研究因素效應大小,可能帶來偏倚,甚至得出錯誤結論。

  在設計階段之初,可以通過分層、匹配和隨機設計等手段避免混雜因素。在數據統計分析階段,可以通過傾向性匹配得分、工具變量和交互效應分析,達到控制混雜的目的。

  採用logistic回歸分析,將研究因素、混雜因素及其交互作用均體現於模型中,基於效應估計值改變量的方法,可在校正混雜因素的作用下,研究結局變量與主要因素間的聯繫。

  2)篩選危險(或保護)因素,與校正混雜因素相比,篩選因素要複雜一些,比如某醫生要研究宮頸癌患者臨床病理因素對其預後的影響、冠狀動脈狹窄程度與冠心病發病之間的關係研究,這裡可以明確研究因素分別為病理因素、冠狀動脈狹窄程度,混雜因素可能有年齡、性別、生活方式以及治療因素等,如果要真實反映研究因素與結局指標的關係,就需要對混雜因素進行校正。

  如果某醫生要研究宮頸癌患者預後的影響因素、冠心病發病的影響因素,收集的自變量都屬於探索性因素,在設計階段,根據理論基礎和專業知識、文獻回顧可以將對結局可能有影響的變量納入方程,在統計分析時可以採用logistic回歸分析,按照事先設定的自變量篩選策略,剔除無統計學意義的變量。

  3)預測與判別,非條件logistic回歸在臨床預測與判別分析中應用比較廣泛,對於隊列研究和現況調查研究,如果通過假設檢驗,確定所建立的回歸方程能很好地解釋變量間的關係,且結果具有較好的擬合優度,則給定自變量數值時,可通過非條件logistic回歸方計算出相應的概率預測值,從而對個體的結局類別作出概率性的判斷。

  對於病例對照究,雖然也可利用非條件 logistic回歸建立概率模型,但是,需對常數項進行校正方能用於預測與判別;對於條件logistic回歸,由於回歸模型不能估計常數項β,其結果只能幫助分析變量的效應,不能用於預測與判別。logistic回歸模型用於預測和判別文獻如下:

  Logistic回歸模型預測文獻(可左右滑動查看)

  4

  Logistic回歸應用條件

  logistic回歸模型應用條件如下所示(以二分類為例):

  Logistic回歸模型應用條件(以二分類因變量為例)

  各觀測值是否獨立在設計方案時就可以判斷,但是容易忽視一些現象,比如:某縣CDC要在某高中調查學生菸草使用行為,採用多階段整群隨機抽樣方法調查,嘗試篩選高中學生使用菸草的危險因素,由於學生之間相互影響,個體觀測互不獨立,因此還不能採用logistic回歸模型,除了此類情況,還有某些傳染病的發病因素研究。

  除了上述五個條件,我們還有關注的有樣本含量問題;將連續型變量納入自變量時,注意這些自變量是否存在離群點強影響點高槓桿值

  5

  Logistic回歸檢驗假設

  與多重線性回歸一樣,logistic回歸分析有關假設檢驗也包括兩部分:(1)模型檢驗,即檢驗因變量與自變量之間的關係能否用所建立的回歸方程來表示;(2)單個回歸係數檢驗,即檢驗單個自變量對因變量的影響是否存在。

  與多重線性回歸不同的是,多重線性回歸模型檢驗用的F檢驗,偏回歸係數則用的t檢驗。在logistic回歸分析中,常見的三種檢驗方法Wald檢驗似然比檢驗得分檢驗,Wald檢驗(Wald test)用於單個回歸係數β的檢驗,似然比檢驗(Likelihood ration test)對整個模型進行檢驗,比分檢驗(Score test)通常用於篩選變量。

  在大樣本情況下,三者結果一致,小樣本時,似然比結果更可靠,Wald檢驗結果最差。

  6

  Logistic回歸自變量篩選

  在進行多因素logistic回歸分析時,目前國內常用方法是先進性單因素分析,將有統計學意義的自變量納入多因素分析,有經驗的研究者會將P值放大到0.2或者0.25;或者將單因素分析無統計學意義,但根據臨床專業判斷有意義的自變量納入。

  在logistic回歸分析中,SPSS軟體提供了7種方法用於篩選自變量,都是基於某種算法,按照事先設定的檢驗水準將有統計學意義的自變量納入模型,而將無統計學意義的自變量剔除模型之外,具體方法如下:

  Logistic回歸模型自變量篩選方法(SPSS)

  進一步了解logistic回歸自變量篩選可以參考,許汝福發表在《中國循證醫學》上的"Logistic回歸變量篩選及回歸方法選擇實例分析"。

  7

  Logistic回歸模型參數

  logistic回歸模型重要參數有:優勢比(Odds ratio,OR)、自變量回歸係數βi,也是很多研究者關注的。

  1)回歸係數βi,表示在控制其他自變量不變的情況下,自變量Xi每增加一個單位引起的In(Odds)改變量,如下圖所示,以總膽固醇為例In(3.769)≈1.327,即等於β總膽固醇。

  2)優勢比(Odds ratio,OR),某事件出現與不出現概率的比值,如下圖所示,與年齡0(>40歲)相比,年齡1(30≤年齡<40)生存率是年齡0組的7.207倍。若Xi的βi>0,則ORi>1,表明Xi為結局指標的危險因素;Xi的βi<0,則ORi<1,表明Xi為結局指標的保護因素;Xi的βi=0,則ORi=1,表明Xi對結局指標無影響。

  中華疾病控制雜誌, 2014, 18(6):537-540.

  8

  Logistic回歸自變量形式

  logistic回歸分析的自變量既可以是連續型變量,也可為分類變量。總體原則是儘量從實際或專業角度考慮採取何種形式更好。比如年齡,可以取為連續變量,也可以5歲、10歲作為一組,甚至分為老年人和年輕人兩組。不同的劃分方式決定了結果解讀時的差異,比如,在做出胃癌與年齡的關係,如果把年齡作為連續變量分析,得到危險度為 1.02,其解釋為年齡每增加1歲,患胃癌的風險就會多出1.02倍,這個數據會顯得沒有太大的臨床意義。但如果以 10歲一組,可能得到的危險度就是1.60,即年齡每增10歲、患胃癌的風險就增加60%,這樣幅度的相對風險更具有臨床實際意義。

  如何將連續變量進行劃分並沒有固定的標準,按照統計學的分位數或具有臨床意義的界值劃分都是常用的方法。建議在分析時先進行趨勢的描述,觀察特定的自變量和因變量是何種關係,再結合臨床專業角度與統計學考慮,以獲得最合理的劃分方式。

  9

  Logistic回歸模型診斷、擬合效果和優度

  logistic回歸模型診斷包括兩部分:殘差分析多重共線,殘差分析有助於發現異常點,特別注意多重共線問題。

  1)對參數估計的影響,可能會把對模型有顯著影響的自變量排除在外; 回歸係數不穩定,解釋問題時往往會得出荒謬的結論,不能給予合理的醫學方面的解釋。同時,多重共線性常常會增大logistic 回歸模型估計參數的均方誤差和標準誤。變大的方差容易使區間預測值變寬,使預測失去意義。比如,多因素分析與單因素分析結果相互矛盾,在單因素分析中某因素為危險因素,而在多因素分析中則變為保護因素等。

  2)對篩選變量的影響,病因學研究分析中,logistic 回歸的建模一般採用逐個篩選自變量的方法。這種方法得出的納入回歸子集內的解釋變量在存在多重共線性即解釋變量非正交的條件下可以看成是影響因素,但未包含在回歸子集內的解釋變量卻不能說不具有統計意義。所以, 存在多重共線性時,普通的 logistic 回歸變量篩選中, 就有可能將 2個具有相關關係( 或廣義上具有相關關係) 的致病因素其中之一被排除在外,導致錯誤的判斷。

  關於logistic回歸多重共線問題可參考,周菲發表在《甘肅中醫學院學報》的「Logistic回歸模型多重共線性診斷及在醫學中的應用」和碩士學位論文《Logistic回歸多重共線性的診斷與改進及其在醫學中的應用》;於曉牧的碩士學位論文《Logistic回歸多重共線性診斷方法的研究》。

  logistic回歸模型擬合效果常用判斷指標有:對數似然值與偽決定係數預測模型正確率ROC曲線,在醫學研究領域,部分研究先將模型預測概率保存為新變量然後繪製ROC曲線,尋找曲線下面積(AUC)和最優判斷界值Cut off值。

  SPSS提供了Hosemer-Lemeshow擬合優度檢驗,通過該檢驗可以發現目前模型和飽和模型預測效果的差異是否有統計學意義,現有模型是否達到最優,是否還有改善空間?

  Hosemer-Lemeshow擬合優度檢驗(SPSS)

  10

  Logistic回歸時單因素分析

  在進行logistic多因素回歸分析之前,是否必須先進行單因素分析,然後再進行多因素分析?

  由於樣本量多少對P值影響較大,理論上講,如果樣本足夠大,且所有的因素之間沒有關聯,最好把所有的因素都納入進方程中,通過全模型法對所有可能的混雜因素同時進行分析,在此基礎上進一步通過逐步回歸的方法對有顯著意義的變量進行篩選,此種情況下可以不做單因素分析。

  如果樣本例數有限,比如,僅有100例患者,但是有20個因素,這種情況下,以0.05作為檢驗水準,先進行單因素分析,剔除無統計學意義,只分析有意義的變量,很容易將對結局指標有影響的變量排除。因此,單因素分析時最好將P值放寬,比如 0.10或 0.15(甚至0.25)等,避免漏掉一些重要因素(變量間的相互作用可能導致多因素的結果不同於單因素分析)。

  當然,也要注意仔細檢查各因素間的關聯程度,對於高度相關的自變量一般不同時帶入模型,例如:收縮壓和舒張壓。一旦發現因素之間有較強的相關性,建議首先進行篩選,選擇最具代表性的變量帶入模型。

  參考文獻:

  [1]方積乾.衛生統計.第七版.北京:人民衛生出版社,2018.

  [2]張文彤,董偉.SPSS統計分析高級教程.第2版.北京:高等教育出版社,2013.

  [3]許汝福. Logistic回歸變量篩選及回歸方法選擇實例分析 [J]. 中國循證醫學雜誌, 2016(11):1360-1364.

  [4]周菲. Logistic回歸多重共線性的診斷與改進及其在醫學中的應用[D]. 蘭州大學, 2011.

  [5]於曉牧. logistic回歸多重共線性診斷方法的研究[D]. 大連醫科大學, 2010.

  [6]吳振強, 王楊, 李衛. 採用Logistic回歸分析時需注意的問題[J]. 中國循環雜誌, 2014, 29(3):230-231.

  [7]施紅英, 陳常中, 毛廣運, 等. 基於EmpowerStats的混雜因素篩選及其校正方法[J]. 溫州醫科大學學報, 2017(5):361-365.

  —END—

相關焦點

  • Logistic回歸分析之二元Logistic回歸
    1、二元logistic分析思路說明 在進行二元Logistic回歸分析時,通常會涉及3個步驟,分別是數據處理、卡方分析和影響關係研究,如下圖。 分析完成X與Y的差異關係之後,篩選出有差異的X,然後再放入模型中,進行二元logistic回歸;這樣做的目的有兩個,一是簡化模型,越簡單的模型越容易擬合且效果越好;二是做到心裡有數,提前了解到數據之間的大致關係情況。
  • Logistic回歸之有序logistic回歸分析
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、有序logistic回歸分析基本說明進行有序logistic回歸時,通常需要有以下步驟,分別是連接函數選擇,平行性檢驗,模型似然比檢驗,參數估計分析,模型預測準確效果共5個步驟。
  • 一文掌握多分類logistic回歸
    1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    logistic回歸 假定有m個自變量X1,X2,…,Xm,logistic回歸模型的基本形式可表達為: 只從數據本身考慮的話,logistic回歸模型都是包括一個分類因變量及若干自變量(可以是分類變量,也可以是連續變量),
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?什麼是logistic回歸什麼是logistic回歸?
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • 一文讀懂條件Logistic回歸
    各匹配組的病例數和對照人數是任意的,比如一個病例和若干個對照匹配即1:1,在醫學上稱作「1:1病歷對照研究」,常見還有1:M(M <=3),即1個病例和1或2或3個對照匹配。病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • 機器學習算法系列(一):logistic回歸
    二、二項Logistic回歸原理二項Logistic回歸模型時一種分類模型,由條件概率分布P(Y|X)表示,隨機變量Y取0或1。定義二項logistic回歸模型的條件分布如下:其中x∈Rn是輸入,Y∈{0,1}是輸出,W∈Rn和b∈R是參數,w稱為權重,b稱為偏置。
  • 從頭開始:用Python實現帶隨機梯度下降的Logistic回歸
    logistic 回歸是一種著名的二元分類問題的線性分類算法。它容易實現、易於理解,並在各類問題上有不錯的效果,即使該方法的原假設與數據有違背時。在本教程中,你將了解如何在 Python 中實現隨機梯度下降的 logistic 回歸算法。
  • Logistic回歸得出是校正的OR?那校正的RR咋整?
    如要計算校正的OR就很方便(多因素Logistic回歸),但如果想獲得校正的RR,恐怕並非易事。那麼,現在問題來了。大家都容易理解的是,如果我把病例對照研究資料用Logistic回歸來分析,得到是校正的OR, 但是如果用的是隊列研究資料,得到的是校正的RR嗎?
  • 快速數據分析教程:無序多分類Logistic回歸
    如果是二元Logistic回歸,默認以數字0作為參考項(通常用數字0表示不願意,不喜歡,不會等)如果是多分類logistic回歸,SPSSAU默認以數字最小的一項作為參考項。如果想更換參考項,可在【數據處理->數據編碼】裡進行設置,把參考項的數值設為最小的數值即可。
  • 多元有序logistic回歸分析 - CSDN
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • 有序Logistic回歸實例分析(Ordinal Regression)
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • logistic回歸Hosmer-Lemeshow擬合優度檢驗
    首先將數據按照預測概率分成g組,通常g取10,然後計算每組中總的事件觀測數、期望數、還有這組的樣本量,最後按照參考連結中的公式進行計算,衡量期望值和觀測值之間的差距,得到卡方統計量,最後按自由度為g – 2 得到P值,P值越大越好。
  • 醫學統計與R語言:Rare Events Logistic Regression
    比如要探索研究該疾病的影響因素,通常的做法是對病例和非病例的兩類人群建立logistic回歸模型,然而由於資料中的病例所佔的比例遠遠低於非病例的比重,這就給稀有事件的統計分析帶來一系列問題,在這種情況下仍採用常規的logistic回歸方法就不適合了。
  • spss多變量回歸分析 - CSDN
    回歸分析的棘手問題--非線性關係1回歸分析要求自變量與應變量存在著線性關係回歸分析主要探討自變量x與研究結局變量y的關係,無論線性回歸,logistic回歸或者從而解決了無序分類變量回歸係數b值無法進行取平均值的尷尬局面。logistic回歸啞變量設置logistic回歸啞變量設置的十分簡單,SPSS軟體通過簡單、菜單式的操作既可以完成。
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    二、對問題的分析  使用Logistic模型前,研究者需判斷是否滿足以下七個研究假設:     假設1  後3個假設則依賴於二分類Logistic回歸是否適用於數據。  假設5: 連續的自變量與因變量的對數間存在線性關係。  在本例中,要求連續的自變量即年齡(age)、體重(weight)、最大攝氧量(VO2max)與因變量即心臟病的logit轉換值之間存在線性關係。
  • 2013.10:居民主觀幸福感序次Logistic模型分析結果
    本文利用中國綜合社會調查(CGSS)2010年調查數據,了解我國居民的主觀幸福感,並通過序次logistic回歸模型分析其影響因素,得出結論:我國居民的主觀幸福感整體上比較高;性別、年齡、信仰、婚姻、居住地、社會地位自評、健康狀況、家庭收入、家庭經濟地位自評
  • 機器學習之詳解Logistic回歸
    而本文旨在從源頭上解釋一下Logistic回歸的原理到底是什麼。 英文單詞Regression翻譯成中文「回歸」,那什麼是回歸呢?事實上,在Logistic回歸出現以前,人們最先引入的是線性回歸。了解二者之間的來龍去脈將幫助你更深刻地認識Logistic回歸。
  • 主成分Logistic回歸模型在國債期貨跨品種套利中的應用
    當利差明顯高於(低於)利差中樞時,收益率曲線過於陡峭(平緩),此時10年期國債價值相對5年期國債被低估(高估)。由於預期過於陡峭(平緩),收益率曲線會出現自我修復,從而帶動利差中樞修復。然而,在實際操作中,經常會面臨利差突破軌道後繼續上漲(下跌)並沒有回歸的情況。