本文基於MT5757 統計建模複習筆記
謝絕任何形式的轉載
如有問題請聯繫422892137@qq.com
在數據中,有一類叫做計數數據(count data),這類數據的分布的正態分布通常是嚴重向右偏移(heavily right skewed)的,使用泊松分布來進行建模效果不錯。
計數數據 count data
統計學中,計數數據是一類統計數據。觀測值只能為非負整數並且觀測值不具有排位性(ranking)
泊松分布 Poisson Distribution
在實際示例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等,以固定的平均瞬時速率(或稱為密度)隨機且獨立的出現時,那麼這個時間在單位時間面積或體積內出現的次數或個數就近似服從泊松分布。
——摘自百度百科《泊松分布》【1】
泊松分布表達式為:
泊松分布的期望與方差相等,均為λ.
對於簡單的一元模型,我們可以直接用泊松模型建模,但是如果要引入多個自變量,我們還是需要線性模型。但是線性模型有以下問題:
(1)count data值為非負,單純的線性模型無法滿足這一點。當然,我們可以通過開方再平方響應變量解決;
(2)count data的數據往往是非線性的;
(3)無法確保模型殘差符合同方差。
因此,我們需要藉助廣義線性模型將泊松分布結合進來。
第一部分 廣義線性模型
廣義線性模型GLM是一種廣泛應用的線性回歸模式,此模式假設實驗者所量測的隨機變數的分布函數與實驗系統中系統性效應(即非隨機的效應)可經由一連結函數(link function)建立起可資解釋其相關性的函數。
GLM是OLS(廣義最小二乘回歸)的擴展,在廣義模式中,假設每個資料的觀察值Y來自某個指數族分布,該分部的平均數μ可由與該點獨立的X解釋:
E(y)是響應變量y的期望;Xβ為由未知待估計參數β與一直變量X構成的線性估計式;g為link function.
——摘自麥好CSDN博客【2】
GLM允許響應變量遵從指數家族 exponential family的任意一種分布正態分布Normal、泊松分布Poisson、二項分布Binomial和伽馬分布Gamma. 指數族能夠幫助我們對連續性、離散型、分數型、計數型和二進位數據建模。
簡單來說,我們有兩個函數,響應變量y對應的函數f(η)和內置link function η(x)。
下面用一個實例來理解。
第二部分 GLM(泊松分布)
1. 建立模型
如下圖所示,在響應變量和link function之間是非線性關係,而link function和解釋變量是線性關係。除了指數,我們還可以用平方根來建立連接(η(x=根號下y))。泊松分布的GLM我們用log link比較多。
對於泊松分布的GLM,
在GLM中,我們可以加入一個offset選項。offset是對採樣不平均的控制。因為條件限制,採樣有時候是很難做到均勻的。比如對鳥類的豐富度進行採樣,第一個階段氣候比較好,我們採樣豐富;第二階段氣候惡劣,過久停留會有危險,採樣時間就可能大大縮短。那麼就無法確定是本身兩個階段有變化還是認為導致的,這個時候就需要設置offset來衡量採樣投入的精力。
我們想把變量area面積的log值作為offset,下式為對area作為offset的推導。
那麼對於泊松分布的GLM,我們採用多元線性模型和最大似然估計來建模:
在這個模型之下,有一個特性:均值和方差相等。
R代碼:
model1 <-glm(y~x, data= dat, family = poisson, offset = log (area))
// 默認為log link, 也可以使用平方 link:
family = poisson(link = "sqrt")
lm會自動挑選family。
對於泊松分布和伯努利分布的GLM, 我們用z乘積因子構造估計參數置信區間。
2. 模型選擇
可以使用AIC或log-likelihood等來選擇。但是AIC不能用來選擇有無offset的模型。因為AIC依賴於似然性likelihood,而似然性依賴於因變量是否是一類。
3. 模型評估
在建模後的擬合上,對於GLM,預測時要加type="response"。本身的predict()出來的是link function的預測,會存在負值,加了response才是GLM響應變量的預測值。
R代碼:
predict(model1,type="response")
對於GLM,我們不再使用原始殘差raw residuals或是標準化殘差standardlised residuals,而是使用皮爾遜殘差 Pearson residuals.
R代碼:
residual(model1,type = "pearson")
對於一個好的模型,擬合值 vs pearson residuals 或 解釋變量 vs pearson residuals應該是沒有對稱趨勢的。如果有規則,可能是mean-variance relationship出了問題。
偏大離差 overdispersion會在響應變量是離散值的模型中出現。當響應變量的方差大於模型得到的方差時,即為偏大離差。overdispersion會導致估計參數的標準差小於真值標準差,從而使得估計參數的顯著性失真。
偏大離差 overdispersion
在計數型的數據count data中,泊松模型是重點之一。它的特徵就是均值等與方差,但是這一點在現實中是很難滿足的。當估算均值小於方差時,稱為偏大離差。【3】
偏大離差分為兩種:
(1)真實偏大離差 true overdispersion
顧名思義,它是本質存在的,需要特定方法才能被修復。對於基於泊松/伯努利分布的GLM都應該檢查偏大離差。下為計算式,代碼就一個單詞 family改為quasipoisson就可以。對於quasipoisson, AIC是不可用的,可以用QAIC;stepwise也不可用。我們可以用向後消除backwards elimation 來進行模型選擇。
當樣本容量n十分大時,AIC=AICc.
沒有偏大離差值的話,上式參數會等於1。對於過大的偏大離差,我們需要找它的置信區間,如果有1還好,如果置信區間的下限就很大,說它說明這個模型是不可用的。一般上百就算是大了。這時就需要重新調節rescale模型標準差。
(2)顯著偏大離差 apparent overdipersion
顯著偏大離差出現的原因可能是模型忽略了重要協變量或interaction terms;數據中有outliers;線性假設不適合該模型;某個協變量需要被轉化——總之,它是可以被修復的。
對於該模型,回顧線性模型需要遵守的四個假設:線性;殘差獨立;殘差同方差;殘差正態分布。通過OLS,我們不再需要殘差同方差;GLM解決了線性問題——前提是y的分布應該屬於指數族;指數族和正態分布密切相關——我們不再需要強調正態分布;所以我們依然驗證的就是殘差的獨立性,可以用ACF圖來觀察。
當擬合值出現大量0時,我們需要使用其他泊松模型或者負值伯努利模型(negative binomial models)。
對於殘差獨立性,GEEs(之後會另說)也可以用於解決這個問題。GEEs理念和GLM十分相似,但是允許殘差相關性出現。
R代碼:
QAIC在 MuMln包裡
參考資料
【1】https://baike.baidu.com/item/%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83
【2】https://www.baidu.com/link?url=9STaMuWNo0egOC_w5KCP1o30byvTpwnV6LbJS3navzGjMH8oCm3QMzIHoz7jsKi0N6_1yrazl_-J9cBT2AHkAa&wd=&eqid=829d7ef4000300a2000000065aed8b8f
【3】https://max.book118.com/html/2017/0214/91477151.shtm