之前的文章中我們介紹過最常用的——線性回歸;數據不滿足線性關係時可以使用的——曲線回歸;當Y為定類數據時使用的——Logistic回歸等。還有一些專門用來解決回歸分析中出現的種種問題的回歸方法,如解決多重共線性問題的嶺回歸、自動篩選變量的逐步回歸、中介調節效應中用於對模型比較的分層回歸等。
除了上述提及的,事實上還有很多回歸分析方法,它們適用於不同類型的數據以及不同應用場景,正是這些分析方法組成了我們熟知的回歸分析大軍。
接下來,本文將要介紹的這個回歸模型是專門針對計數數據的泊松回歸模型。
泊松分布
說到泊松回歸,首先要了解,什麼是泊松分布?
試想一下,你現在就站在一個人流密集的馬路旁,打算收集闖紅燈的人群情況(?)。首先,利用秒表和計數器,一分鐘過去了,有5個人闖紅燈;第二分鐘有4個人;而下一分鐘有4個人。持續記錄下去,你就可以得到一個模型,這便是「泊松分布」的原型。
除此以外,現實生活中還有很多情況是服從泊松分布的:
10分鐘內從ATM中取錢的人數一天中發生車禍的次數每100萬人中患癌症的人數單位面積土地內昆蟲的數目……
Poisson模型(泊松回歸模型)是用於描述單位時間、單位面積或者單位容積內某事件發現的頻數分布情況,通常用於描述稀有事件(即小概率)事件發生數的分布。
上述例子中都明顯的一個特點:低概率性,以及單位時間(或面積、體積)內的數量。通常情況下,滿足以下三個條件時,可認為數據滿足Poisson分布:
(1) 平穩性:發生頻數的大小,只與單位大小有關係(比如1萬為單位,或者100萬為單位時患癌症人數不同);
(2) 獨立性:發生頻數的大小,各個數之間沒有影響關係,即頻數數值彼此獨立沒有關聯關係;比如前1小時闖紅燈的人多了,第2小時闖紅燈人數並不會受影響;
(3) 普通性:發生頻數足夠小,即低概率性。
如果數據符合這類特徵時,而又想研究X對於Y的影響(Y呈現出Poisson分布);此時則需要使用Poisson回歸,而不是使用常規的線性回歸等。
判斷是否符合Poisson分布的方法
檢驗數據是否符合Poisson分布,共有兩種方法:一種是通過特徵判斷;另外一種是通過Poisson檢驗。
特徵判斷即是要數據符合上面提到的三個條件;而如果用Poisson檢驗可在SPSSAU【醫學研究→Poisson檢驗】裡進行檢驗。
在現實研究中,可能更多會通過特徵進行判斷是否基本符合Poisson分布。
案例應用
(1)背景
當前有一份數據是用來研究影響患皮膚癌的影響因素,共有兩個研究因素,分別是性別和年齡;以及被影響項為『是否皮膚肺癌』。由於Y為『是否皮膚肺癌』,而且明顯的,『是否皮膚肺癌』這個數據滿足平穩性、獨立性和普通性這三個特徵;因而使用Poisson回歸進行研究。
(2)操作步驟
性別為定類數據,分析前需要先進行啞變量處理再納入模型,本例以「男性」為參照項,因此放入「性別_女」。
並且由於每個城市的人口基數不一樣,分析時還有考慮人口基數這一數據,最終放置如下:
(3)結果分析
針對Poisson回歸分析,SPSSAU共輸出2個表格,分別是:似然比檢驗結果表以及Poisson回歸分析結果匯總表。
①Poisson回歸模型似然比檢驗表
上表用於模型檢驗,模型檢驗的原定假設為「是否放入X模型質量均一樣」。
根據上表可知,此處放入2個X分別是性別_女,年齡。而且P值為0.000 <0.05,意味著放入2個自變量後,模型質量有明顯的提升,因而拒絕原定假設,本次模型構建有意義。卡方值和df值均為中間過程值可忽略。
AIC和BIC這兩個指標值,可用於多個模型對比(AIC和BIC越小越好),當前放入2個自變量可記錄下AIC和BIC值,如果多放一個自變量(即3個時),AIC和BIC值有著明顯的下降,則可以選擇3個自變量時的模型作為最終模型。
②Poisson回歸分析結果匯總表
上表用於研究X對於Y的影響關係情況,表格中有意義的指標信息包括:P值,回歸係數和R Pseudo R。其它指標包括標準誤,Z值,95%CI值意義相對較小。
從上表可知,模型偽R平方值(Pseudo R平方)為0. 900,意味著性別, 性別和年齡可以解釋皮膚癌患病的90.0%變化原因。
模型公式為:log(u)=log(人口基數) -9.952-0.035*性別_女 + 0.643*年齡(其中u代表期望均數)。
具體分析可知,年齡一項回歸係數為0.643,P值(P=0.000<0.01),說明年齡對患皮膚癌有著正向的影響,隨著年齡的增長,患皮膚的可能性也提高。而性別對皮膚癌沒有產生影響。
其他說明
Poisson分布是指單位時間/面積/體積內的發生數,因而如果基數不一致時,spssau分析時,一定要放入基數這個數據。