本文6070字〡12圖〡預計閱讀25分鐘
在醫學科研領域,經常需要分析二分類變量(如:生存與死亡、陽性與陰性、發病與未發病、感染與未感染、暴露於未暴露)或者多分類變量(如:疾病轉歸,治癒、無效、死亡;體重情況,偏瘦、正常、肥胖;根據損傷程度分級的結局指標,如結核性胸腔積液胸膜粘連程度、視網膜出血程度、早產兒腦室缺血程度;以及一些可進行多水平分類的生理生化、免疫指標等,如血壓值、血鎂值、血脂和膽固醇等)與一組自變量之間的關係,此時,因變量為分類變量,已經不滿足前面學習的多重線性回歸的使用條件,可以考慮Logistic回歸模型。
學習目錄
Logistic回歸模型概念
Logistic回歸模型類型
Logistic回歸模型用途
Logistic回歸模型應用條件
Logistic回歸模型檢驗假設
Logistic回歸模型自變量篩選
Logistic回歸模型參數
Logistic回歸模型自變量形式
Logistic回歸模型診斷、擬合效果和優度
Logistic回歸時單因素分析
1
Logistic回歸模型
能否參照多重線性回歸模型,建立分析上述分類資料分析的模型?如果可以,需要解決兩個問題:(1)模型左側取值區間問題; (2)曲線關聯問題。
以二分類因變量為例,無論出現陰性結果或者陽性結果的概率都在0≤P≤1之間,而從下面的多重線性回歸方程可以看出,右側取值在(-∞,+∞),如果左側為分類因變量的出現某種結果的概率,那麼左右取值範圍就不相符。另外,分類因變量和自變量的關係也不呈線性關係,而是S型曲線關係,無法滿足線性回歸前提假設。
為了解決上述兩個問題,統計學家提出了logit變換,取出現陽性結果和陰性結果的概率比值(Odds)的對數,In(Odds)。
以Logit(P)為因變量,建立與P個自變量的logistic回歸模型,如下所示:
上面公式也可變換為以下兩種形式:
2
Logistic回歸模型類型
依據研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。
依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。
此外,根據多分類因變量是否有序,又可以分為多分類有序logistic回歸模型和多分類無序logistic回歸模型。
Logistic回歸模型分類
3
Logistic回歸用途
1)校正混雜因素,在生物醫學研究領域,觀察對象的某一結局(如生存與死亡、陽性與陰性等)會受到多種因素綜合作用的影響,包括研究因素與混雜因素,混雜因素的存在會扭曲疾病和暴露之間的關聯性或扭曲某研究因素效應大小,可能帶來偏倚,甚至得出錯誤結論。
在設計階段之初,可以通過分層、匹配和隨機設計等手段避免混雜因素。在數據統計分析階段,可以通過傾向性匹配得分、工具變量和交互效應分析,達到控制混雜的目的。
採用logistic回歸分析,將研究因素、混雜因素及其交互作用均體現於模型中,基於效應估計值改變量的方法,可在校正混雜因素的作用下,研究結局變量與主要因素間的聯繫。
2)篩選危險(或保護)因素,與校正混雜因素相比,篩選因素要複雜一些,比如某醫生要研究宮頸癌患者臨床病理因素對其預後的影響、冠狀動脈狹窄程度與冠心病發病之間的關係研究,這裡可以明確研究因素分別為病理因素、冠狀動脈狹窄程度,混雜因素可能有年齡、性別、生活方式以及治療因素等,如果要真實反映研究因素與結局指標的關係,就需要對混雜因素進行校正。
如果某醫生要研究宮頸癌患者預後的影響因素、冠心病發病的影響因素,收集的自變量都屬於探索性因素,在設計階段,根據理論基礎和專業知識、文獻回顧可以將對結局可能有影響的變量納入方程,在統計分析時可以採用logistic回歸分析,按照事先設定的自變量篩選策略,剔除無統計學意義的變量。
3)預測與判別,非條件logistic回歸在臨床預測與判別分析中應用比較廣泛,對於隊列研究和現況調查研究,如果通過假設檢驗,確定所建立的回歸方程能很好地解釋變量間的關係,且結果具有較好的擬合優度,則給定自變量數值時,可通過非條件logistic回歸方計算出相應的概率預測值,從而對個體的結局類別作出概率性的判斷。
對於病例對照究,雖然也可利用非條件 logistic回歸建立概率模型,但是,需對常數項進行校正方能用於預測與判別;對於條件logistic回歸,由於回歸模型不能估計常數項β,其結果只能幫助分析變量的效應,不能用於預測與判別。logistic回歸模型用於預測和判別文獻如下:
Logistic回歸模型預測文獻(可左右滑動查看)
4
Logistic回歸應用條件
logistic回歸模型應用條件如下所示(以二分類為例):
Logistic回歸模型應用條件(以二分類因變量為例)
各觀測值是否獨立在設計方案時就可以判斷,但是容易忽視一些現象,比如:某縣CDC要在某高中調查學生菸草使用行為,採用多階段整群隨機抽樣方法調查,嘗試篩選高中學生使用菸草的危險因素,由於學生之間相互影響,個體觀測互不獨立,因此還不能採用logistic回歸模型,除了此類情況,還有某些傳染病的發病因素研究。
除了上述五個條件,我們還有關注的有樣本含量問題;將連續型變量納入自變量時,注意這些自變量是否存在離群點、強影響點、高槓桿值。
5
Logistic回歸檢驗假設
與多重線性回歸一樣,logistic回歸分析有關假設檢驗也包括兩部分:(1)模型檢驗,即檢驗因變量與自變量之間的關係能否用所建立的回歸方程來表示;(2)單個回歸係數檢驗,即檢驗單個自變量對因變量的影響是否存在。
與多重線性回歸不同的是,多重線性回歸模型檢驗用的F檢驗,偏回歸係數則用的t檢驗。在logistic回歸分析中,常見的三種檢驗方法Wald檢驗、似然比檢驗、得分檢驗,Wald檢驗(Wald test)用於單個回歸係數β的檢驗,似然比檢驗(Likelihood ration test)對整個模型進行檢驗,比分檢驗(Score test)通常用於篩選變量。
在大樣本情況下,三者結果一致,小樣本時,似然比結果更可靠,Wald檢驗結果最差。
6
Logistic回歸自變量篩選
在進行多因素logistic回歸分析時,目前國內常用方法是先進性單因素分析,將有統計學意義的自變量納入多因素分析,有經驗的研究者會將P值放大到0.2或者0.25;或者將單因素分析無統計學意義,但根據臨床專業判斷有意義的自變量納入。
在logistic回歸分析中,SPSS軟體提供了7種方法用於篩選自變量,都是基於某種算法,按照事先設定的檢驗水準將有統計學意義的自變量納入模型,而將無統計學意義的自變量剔除模型之外,具體方法如下:
Logistic回歸模型自變量篩選方法(SPSS)
進一步了解logistic回歸自變量篩選可以參考,許汝福發表在《中國循證醫學》上的"Logistic回歸變量篩選及回歸方法選擇實例分析"。
7
Logistic回歸模型參數
logistic回歸模型重要參數有:優勢比(Odds ratio,OR)、自變量回歸係數βi,也是很多研究者關注的。
1)回歸係數βi,表示在控制其他自變量不變的情況下,自變量Xi每增加一個單位引起的In(Odds)改變量,如下圖所示,以總膽固醇為例In(3.769)≈1.327,即等於β總膽固醇。
2)優勢比(Odds ratio,OR),某事件出現與不出現概率的比值,如下圖所示,與年齡0(>40歲)相比,年齡1(30≤年齡<40)生存率是年齡0組的7.207倍。若Xi的βi>0,則ORi>1,表明Xi為結局指標的危險因素;Xi的βi<0,則ORi<1,表明Xi為結局指標的保護因素;Xi的βi=0,則ORi=1,表明Xi對結局指標無影響。
中華疾病控制雜誌, 2014, 18(6):537-540.
8
Logistic回歸自變量形式
logistic回歸分析的自變量既可以是連續型變量,也可為分類變量。總體原則是儘量從實際或專業角度考慮採取何種形式更好。比如年齡,可以取為連續變量,也可以5歲、10歲作為一組,甚至分為老年人和年輕人兩組。不同的劃分方式決定了結果解讀時的差異,比如,在做出胃癌與年齡的關係,如果把年齡作為連續變量分析,得到危險度為 1.02,其解釋為年齡每增加1歲,患胃癌的風險就會多出1.02倍,這個數據會顯得沒有太大的臨床意義。但如果以 10歲一組,可能得到的危險度就是1.60,即年齡每增10歲、患胃癌的風險就增加60%,這樣幅度的相對風險更具有臨床實際意義。
如何將連續變量進行劃分並沒有固定的標準,按照統計學的分位數或具有臨床意義的界值劃分都是常用的方法。建議在分析時先進行趨勢的描述,觀察特定的自變量和因變量是何種關係,再結合臨床專業角度與統計學考慮,以獲得最合理的劃分方式。
9
Logistic回歸模型診斷、擬合效果和優度
logistic回歸模型診斷包括兩部分:殘差分析和多重共線,殘差分析有助於發現異常點,特別注意多重共線問題。
1)對參數估計的影響,可能會把對模型有顯著影響的自變量排除在外; 回歸係數不穩定,解釋問題時往往會得出荒謬的結論,不能給予合理的醫學方面的解釋。同時,多重共線性常常會增大logistic 回歸模型估計參數的均方誤差和標準誤。變大的方差容易使區間預測值變寬,使預測失去意義。比如,多因素分析與單因素分析結果相互矛盾,在單因素分析中某因素為危險因素,而在多因素分析中則變為保護因素等。
2)對篩選變量的影響,病因學研究分析中,logistic 回歸的建模一般採用逐個篩選自變量的方法。這種方法得出的納入回歸子集內的解釋變量在存在多重共線性即解釋變量非正交的條件下可以看成是影響因素,但未包含在回歸子集內的解釋變量卻不能說不具有統計意義。所以, 存在多重共線性時,普通的 logistic 回歸變量篩選中, 就有可能將 2個具有相關關係( 或廣義上具有相關關係) 的致病因素其中之一被排除在外,導致錯誤的判斷。
關於logistic回歸多重共線問題可參考,周菲發表在《甘肅中醫學院學報》的「Logistic回歸模型多重共線性診斷及在醫學中的應用」和碩士學位論文《Logistic回歸多重共線性的診斷與改進及其在醫學中的應用》;於曉牧的碩士學位論文《Logistic回歸多重共線性診斷方法的研究》。
logistic回歸模型擬合效果常用判斷指標有:對數似然值與偽決定係數、預測模型正確率、ROC曲線,在醫學研究領域,部分研究先將模型預測概率保存為新變量然後繪製ROC曲線,尋找曲線下面積(AUC)和最優判斷界值Cut off值。
SPSS提供了Hosemer-Lemeshow擬合優度檢驗,通過該檢驗可以發現目前模型和飽和模型預測效果的差異是否有統計學意義,現有模型是否達到最優,是否還有改善空間?
Hosemer-Lemeshow擬合優度檢驗(SPSS)
10
Logistic回歸時單因素分析
在進行logistic多因素回歸分析之前,是否必須先進行單因素分析,然後再進行多因素分析?
由於樣本量多少對P值影響較大,理論上講,如果樣本足夠大,且所有的因素之間沒有關聯,最好把所有的因素都納入進方程中,通過全模型法對所有可能的混雜因素同時進行分析,在此基礎上進一步通過逐步回歸的方法對有顯著意義的變量進行篩選,此種情況下可以不做單因素分析。
如果樣本例數有限,比如,僅有100例患者,但是有20個因素,這種情況下,以0.05作為檢驗水準,先進行單因素分析,剔除無統計學意義,只分析有意義的變量,很容易將對結局指標有影響的變量排除。因此,單因素分析時最好將P值放寬,比如 0.10或 0.15(甚至0.25)等,避免漏掉一些重要因素(變量間的相互作用可能導致多因素的結果不同於單因素分析)。
當然,也要注意仔細檢查各因素間的關聯程度,對於高度相關的自變量一般不同時帶入模型,例如:收縮壓和舒張壓。一旦發現因素之間有較強的相關性,建議首先進行篩選,選擇最具代表性的變量帶入模型。
參考文獻:
[1]方積乾.衛生統計.第七版.北京:人民衛生出版社,2018.
[2]張文彤,董偉.SPSS統計分析高級教程.第2版.北京:高等教育出版社,2013.
[3]許汝福. Logistic回歸變量篩選及回歸方法選擇實例分析 [J]. 中國循證醫學雜誌, 2016(11):1360-1364.
[4]周菲. Logistic回歸多重共線性的診斷與改進及其在醫學中的應用[D]. 蘭州大學, 2011.
[5]於曉牧. logistic回歸多重共線性診斷方法的研究[D]. 大連醫科大學, 2010.
[6]吳振強, 王楊, 李衛. 採用Logistic回歸分析時需注意的問題[J]. 中國循環雜誌, 2014, 29(3):230-231.
[7]施紅英, 陳常中, 毛廣運, 等. 基於EmpowerStats的混雜因素篩選及其校正方法[J]. 溫州醫科大學學報, 2017(5):361-365.
—END—