邏輯回歸(Logistic Regression)是在臨床研究中應用最為廣泛的統計方法之一,很多研究會在單因素分析的基礎上,進行一定的多因素分析(如線性回歸或邏輯回歸)。在本微信公眾號中已經有邏輯回歸的SPSS操作介紹了,詳見第33期,(加入微信公眾號"bysyrcce",回復"33"可查看)這裡我僅對其作一補充。
邏輯回歸是分類資料統計分析的一種重要方法,是一種研究多水平(包括兩水平)的反應變量與其影響因子(又稱自變量)間關係的回歸分析。
這裡簡單解釋一下幾個概念:1、分類資料是指所得數據是分類的,不完全連續的;可分為有序分類和無序分類,有序分類如疾病的預後(未改善、改善和痊癒),無序分類如研究對象的職業(工人、農民、知識分子等)。2、反應變量就是我們常說的因變量,顧名思義就是因別人的變化而變化的量,比如研究某病預後的影響因素,這裡的預後就是因變量。3、自變量(影響因子),通俗地說就是不因別人變化而自己變化的量,比如上例中某病預後的影響因素就是自變量,如病人的年齡,疾病分期分型,處理方式等等。下面我們針對邏輯回歸的常見問題作一討論。
1、為什麼會有非條件和條件邏輯回歸?
按照研究設計的不同,可將邏輯回歸分為成組資料的非條件邏輯回歸和配對資料的條件邏輯回歸兩類。成組資料是指組與組之間是相互獨立的,沒有針對每一個病例去尋找他特定的對照,它是相對於配對資料而言的。配對資料是指研究設計之初,根據潛在的影響因素如性別、年齡等將病例與對照配成對子,可以是一個病例配一個對照,也可以是一個病例配n個對照。對於成組資料,採用的是非條件邏輯回歸;對與配對資料,採用的是條件邏輯回歸,兩者之間有著明顯的區別。
按照因變量分類數的多少,可將非條件邏輯回歸分為二分類邏輯回歸和多分類邏輯回歸兩類,二分類是指因變量只有兩個分類(如是否發生出血),多分類是指因變量有三個及以上分類(如按照出血量的不同,分為輕度、中度和重度出血)。
在實際工作中我們最為常用的還是「二分類非條件邏輯回歸」,即因變量是兩個分類的,研究設計不是病例與對照配對設計的,而是常規的成組設計。
2、邏輯回歸需要多大的樣本量?
在實際工作中,經常遇到僅有20-30個病人的資料去做邏輯回歸的,這樣回歸結果可能存在樣本量不足的問題。那麼在邏輯回歸的計算中到底需要多少樣本量呢?
對於邏輯回歸樣本量的確定,有一些計算公式和工具表可供參考。一般認為非條件邏輯回歸樣本容量應為自變量個數的5-10倍,即如果你納入5個自變量那麼樣本的總例數應該大於25-50人。較為嚴格的要求是,在因變量的各個水平中,例數最少的水平的樣本數也應該是自變量個數的5-10倍。比如有200個研究對象,其中患病40個,未患病160個,想研究患病的影響因素,那麼邏輯回歸可納入的自變量個數為40/10=4個。也有教材指出,經驗上非條件邏輯回歸中各組的人數應該至少有30-50例(摘自《醫學統計學》第三版p293,人民衛生出版社,主編孫振球)。
對於條件邏輯回歸而言,配對組數不應<50組,且總體的樣本量應該大於納入方程的自變量個數的20倍以上。
邏輯回歸的所有統計推斷都是建立在大樣本基礎之上的,因此要求有足夠的樣本量來支持其回歸結果的可信度。
3、如何判斷邏輯回歸模型擬合的好壞?
通常我們在分析自己的數據時,會遇到不同的分析方法會跑出不同的邏輯回歸結果,那麼哪個結果更好呢?或者是在多大的程度上,我們能夠說明自己在邏輯回歸中尋找出的影響因素是對的呢?這就需要我們對邏輯回歸模型擬合的效果進行一定的判斷。
常見的邏輯回歸模型效果判斷指標有對數似然值、偽決定係數、模型預測的正確率和ROC曲線。具體如下:(1)對數似然值,邏輯回歸是通過極大似然法求解的,極大似然取值在0-1之間,可利用-2倍的對數似然值來表示模型的擬合好壞,其值越小越接近於0,說明模型擬合效果越好;(2)偽決定係數,跟線性回歸一樣,邏輯回歸也存在決定係數,稱為偽決定係數。它是由似然函數計算而來的,它的值越接近於1說明回歸擬合的越好。在SPSS的結果中存在兩種偽決定係數,分別是1989年Cox和Snell提出的偽決定係數(取值範圍為0≤R2<1)和1991年Nagelkerke提出的最大調整決定係數(取值範圍為0≤R2≤1),兩者選一即可。(3)模型預測的正確率,顯然對因變量結局預測的準確程度也可以反應模型的效果。SPSS在Logistic回歸過程中會給出模型預測的列聯表,這也是模型擬合好壞的判斷依據之一。同時在SPSS中用戶還可以自定義模型預測的概率標準(默認是0.5)。(4)ROC曲線,在獲得每一個研究對象的預測概率之後,我們可以通過製作ROC曲線來判斷一下,取不同的預測概率值時,預測的準確率會有何種變化。
4、用SPSS做邏輯回歸分析的注意事項
(1)自變量和因變量的變量名最好都是英文的。在做邏輯回歸時,如果自變量或因變量的變量名中含有中文字符或括號可能會導致邏輯回歸結果非常迥異,而且錯誤的莫名其妙,且不同版本的SPSS出錯的形式還不盡相同。建議在所有的統計分析中,變量名均需要修改為英文格式。
(2)當自變量中有多分類名義變量時,應該將其設為啞變量進行處理。
(3) 如果某連續性自變量可以將因變量的兩組完全分開時(如某自變量在病例組中的的最小值大於該自變量在對照組中的最大值時),該自變量不應該被納入回歸方程。
(4)如果某分類自變量在因變量的某一組中取值完全一致時(如在病例組中某自變量取值均為1,而在對照組中自變量的取值有0也有1),該自變量不應該被納入回歸方程,否則該自變量的p值特別大,且不會被剔出方程,OR值接近0或無窮大。