廣義線性模型GLM(泊松分布)

2021-02-23 李皮皮窩

本文基於MT5757 統計建模複習筆記

謝絕任何形式的轉載

如有問題請聯繫422892137@qq.com

在數據中,有一類叫做計數數據(count data),這類數據的分布的正態分布通常是嚴重向右偏移(heavily right skewed)的,使用泊松分布來進行建模效果不錯。

計數數據 count data

統計學中,計數數據是一類統計數據。觀測值只能為非負整數並且觀測值不具有排位性(ranking)

泊松分布 Poisson Distribution

在實際示例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等,以固定的平均瞬時速率(或稱為密度)隨機且獨立的出現時,那麼這個時間在單位時間面積或體積內出現的次數或個數就近似服從泊松分布。

——摘自百度百科《泊松分布》【1】

泊松分布表達式為:

泊松分布的期望與方差相等,均為λ.

對於簡單的一元模型,我們可以直接用泊松模型建模,但是如果要引入多個自變量,我們還是需要線性模型。但是線性模型有以下問題:

(1)count data值為非負,單純的線性模型無法滿足這一點。當然,我們可以通過開方再平方響應變量解決;

(2)count data的數據往往是非線性的;

(3)無法確保模型殘差符合同方差。

因此,我們需要藉助廣義線性模型將泊松分布結合進來。

第一部分 廣義線性模型

廣義線性模型GLM是一種廣泛應用的線性回歸模式,此模式假設實驗者所量測的隨機變數的分布函數與實驗系統中系統性效應(即非隨機的效應)可經由一連結函數(link function)建立起可資解釋其相關性的函數。

GLM是OLS(廣義最小二乘回歸)的擴展,在廣義模式中,假設每個資料的觀察值Y來自某個指數族分布,該分部的平均數μ可由與該點獨立的X解釋:

E(y)是響應變量y的期望;Xβ為由未知待估計參數β與一直變量X構成的線性估計式;g為link function.

——摘自麥好CSDN博客【2】

GLM允許響應變量遵從指數家族 exponential family的任意一種分布正態分布Normal、泊松分布Poisson、二項分布Binomial和伽馬分布Gamma. 指數族能夠幫助我們對連續性、離散型、分數型、計數型和二進位數據建模。

簡單來說,我們有兩個函數,響應變量y對應的函數f(η)和內置link function η(x)。

下面用一個實例來理解。

第二部分 GLM(泊松分布)

1. 建立模型

如下圖所示,在響應變量和link function之間是非線性關係,而link function和解釋變量是線性關係。除了指數,我們還可以用平方根來建立連接(η(x=根號下y))。泊松分布的GLM我們用log link比較多。

對於泊松分布的GLM,

在GLM中,我們可以加入一個offset選項。offset是對採樣不平均的控制。因為條件限制,採樣有時候是很難做到均勻的。比如對鳥類的豐富度進行採樣,第一個階段氣候比較好,我們採樣豐富;第二階段氣候惡劣,過久停留會有危險,採樣時間就可能大大縮短。那麼就無法確定是本身兩個階段有變化還是認為導致的,這個時候就需要設置offset來衡量採樣投入的精力。

我們想把變量area面積的log值作為offset,下式為對area作為offset的推導。

那麼對於泊松分布的GLM,我們採用多元線性模型和最大似然估計來建模:

在這個模型之下,有一個特性:均值和方差相等。

R代碼:

model1 <-glm(y~x, data= dat, family = poisson, offset = log (area))

// 默認為log link, 也可以使用平方 link:

family = poisson(link = "sqrt")

lm會自動挑選family。

對於泊松分布和伯努利分布的GLM, 我們用z乘積因子構造估計參數置信區間。

2. 模型選擇

可以使用AIC或log-likelihood等來選擇。但是AIC不能用來選擇有無offset的模型。因為AIC依賴於似然性likelihood,而似然性依賴於因變量是否是一類。

3. 模型評估

在建模後的擬合上,對於GLM,預測時要加type="response"。本身的predict()出來的是link function的預測,會存在負值,加了response才是GLM響應變量的預測值。

R代碼:

predict(model1,type="response")

對於GLM,我們不再使用原始殘差raw residuals或是標準化殘差standardlised residuals,而是使用皮爾遜殘差 Pearson residuals. 

R代碼:

residual(model1,type = "pearson")

對於一個好的模型,擬合值 vs pearson residuals 或 解釋變量 vs pearson residuals應該是沒有對稱趨勢的。如果有規則,可能是mean-variance relationship出了問題。

偏大離差 overdispersion會在響應變量是離散值的模型中出現。當響應變量的方差大於模型得到的方差時,即為偏大離差。overdispersion會導致估計參數的標準差小於真值標準差,從而使得估計參數的顯著性失真。

偏大離差 overdispersion

在計數型的數據count data中,泊松模型是重點之一。它的特徵就是均值等與方差,但是這一點在現實中是很難滿足的。當估算均值小於方差時,稱為偏大離差。【3】

偏大離差分為兩種:

(1)真實偏大離差 true overdispersion

顧名思義,它是本質存在的,需要特定方法才能被修復。對於基於泊松/伯努利分布的GLM都應該檢查偏大離差。下為計算式,代碼就一個單詞 family改為quasipoisson就可以。對於quasipoisson, AIC是不可用的,可以用QAIC;stepwise也不可用。我們可以用向後消除backwards elimation 來進行模型選擇。

當樣本容量n十分大時,AIC=AICc.

沒有偏大離差值的話,上式參數會等於1。對於過大的偏大離差,我們需要找它的置信區間,如果有1還好,如果置信區間的下限就很大,說它說明這個模型是不可用的。一般上百就算是大了。這時就需要重新調節rescale模型標準差。

(2)顯著偏大離差 apparent overdipersion

顯著偏大離差出現的原因可能是模型忽略了重要協變量或interaction terms;數據中有outliers;線性假設不適合該模型;某個協變量需要被轉化——總之,它是可以被修復的。

對於該模型,回顧線性模型需要遵守的四個假設:線性;殘差獨立;殘差同方差;殘差正態分布。通過OLS,我們不再需要殘差同方差;GLM解決了線性問題——前提是y的分布應該屬於指數族;指數族和正態分布密切相關——我們不再需要強調正態分布;所以我們依然驗證的就是殘差的獨立性,可以用ACF圖來觀察。

當擬合值出現大量0時,我們需要使用其他泊松模型或者負值伯努利模型(negative binomial models)。

對於殘差獨立性,GEEs(之後會另說)也可以用於解決這個問題。GEEs理念和GLM十分相似,但是允許殘差相關性出現。

R代碼:

QAIC在 MuMln包裡

參考資料

【1】https://baike.baidu.com/item/%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83

【2】https://www.baidu.com/link?url=9STaMuWNo0egOC_w5KCP1o30byvTpwnV6LbJS3navzGjMH8oCm3QMzIHoz7jsKi0N6_1yrazl_-J9cBT2AHkAa&wd=&eqid=829d7ef4000300a2000000065aed8b8f

【3】https://max.book118.com/html/2017/0214/91477151.shtm

相關焦點

  • 廣義線性模型到底是個什麼鬼?| 協和八
    畢竟光是理解線性模型的各種用法就已經夠頭疼的了,再加個廣義更繞不清楚了。普通線性模型對數據有著諸多限制,真實數據並不總能滿足。而廣義線性模型正是克服了很多普通線性模型的限制。在筆者的心裡,廣義模型能解決的問題種類比普通線性模型多很多,用圖來表示,大概就是這樣的:圖一:定性對比廣義線性模型和普通線性模型的能解決的問題多少我們前面通過討論邏輯回歸、定序回歸以及泊松回歸模型,已經帶著讀者們在廣義線性模型的世界裡面轉了一大圈。
  • 線性模型(一)普通線性回歸到廣義線性模型
    前者是傳統意義上的線性模型,後者則具有一定非線性的解決能力,尤其是當結合一定的特徵工程(如交叉衍生)後,所謂的線性模型同樣能處理非線性問題。廣義線性模型是普通線性回歸模型的推廣,有多種變體或衍生,以處理更廣泛的現實問題。
  • 廣義線性模型與邏輯回歸
    所以我們無法直接採用線性回歸模型進行建模。對於這一類問題,可以用邏輯回歸來處理。在講邏輯回歸之前,先簡單介紹下指數族分布、廣義線性模型,因為邏輯回歸是廣義線性模型的一種,所以我們需要了解如何從廣義線性模型得到邏輯回歸。二、指數族分布之所以先介紹指數族分布,因為指數族分布是所有廣義線性模型的假設條件之一。
  • 大話腦影像之十九:GLM(上)
    因此,掌握GLM模型在腦影像統計分析中至關重要(魯迅先生說的)。本文將深入淺出講解GLM在磁共振影像統計中的應用,適合磁共振影像研究的初學者入門及從業者溫故。(覺得有用給個打call,老鐵雙擊666)一、廣義線性模型與一般線性模型(前言)在文章開始前,先說一說題外話,糾正一個常見的翻譯錯誤(translation mistake)。
  • 一般線性模型與廣義線性模型
    當然可以,請看廣義線性模型。 (二)廣義線性模型廣義線性模型是一般線性模型的推廣,一般線性模型中的因變量只能是定量變量,而廣義線性模型的因變量不再局限於定量變量,還可以是諸如二項分布、泊松分布、負二項分布等分布類型的定性變量。
  • R語言實戰:廣義線性模型
    本文內容來自《R 語言實戰》(R in Action, 2nd),有部分修改廣義線性模型和 glm() 函數標準線性模型:假設 Y
  • 廣義線性模型在生命表死亡率修勻中的應用
    關鍵詞:死亡率 廣義線性模型 負二項回歸 泊松回歸 B-樣條修勻  死亡率揭示了人類面臨的死亡風險,而生命表則是用來描述某人口群體死亡規律的概率分布表。本文將在系統介紹廣義線性模型(Generalized Linear Models,GLM)的基礎上研究GLM在我國國民生命表死亡率修勻中的應用,這些研究將為我國經驗生命表的編制工作提供指導,也為我國保監會的死亡率經驗分析工作提供理論支持和實踐參考,以更加有利於我國壽險費率市場化和壽險業的科學經營。
  • 廣義XX分布概述
    另外有一些分布比較有意思,號稱自己是廣義分布(Generalized),並且部分廣義分布是統計學最新進展的成果。 廣義正態分布(generalized Normal distribution, GND):  是對對稱的,關注均值和尾部分布變化的一類的分布。有三個典型參數,均值(alpha),縮放(scale),和外形(shape)。
  • 廣義線性模型學習
    設置正則化參數:廣義交叉驗證RidgeCV 通過內置的 Alpha 參數的交叉驗證來實現嶺回歸。 一般是服從 gamma 分布 , 這個分布與高斯成共軛先驗關係。得到的模型一般稱為 貝葉斯嶺回歸, 並且這個與傳統的 Ridge 非常相似。參數
  • 一文教你掌握廣義估計方程
    廣義估計方程是一種研究縱向數據(比如重複測量數據,面板數據)的方法。同一測量對象的多次測量數據結果之間很可能有著相關關係,如果不考慮數據之間的相關性會造成信息損失。常見的研究模型(比如線性回歸)都要求數據之間獨立,此時可使用廣義估計方程進行研究。
  • 什麼是松泊分布?泊松回歸可以用來做什麼?
    之前的文章中我們介紹過最常用的——線性回歸;數據不滿足線性關係時可以使用的——曲線回歸;當Y為定類數據時使用的——Logistic回歸等。還有一些專門用來解決回歸分析中出現的種種問題的回歸方法,如解決多重共線性問題的嶺回歸、自動篩選變量的逐步回歸、中介調節效應中用於對模型比較的分層回歸等。
  • 泊松分布、指數分布、gamma分布
    本文主要包含以下內容:1 泊松分布2 泊松分布近似二項分布3 指數分布4 gamma分布1 泊松分布泊松分布(poisson distribution),以Simeon結合均值):2 泊松分布近似二項分布泊松分布是二項分布在下列假設下的極限情況:從
  • 如何深刻理解泊松分布?
    在本文中,我們將介紹兩個重要的概率概念:泊松過程和泊松分布。在僅強調相關理論之後,我們將通過一個真實的示例進行展示,將方程式和圖形的思想置於上下文中.泊松過程泊松過程是一系列離散事件的模型,其中:平均時間:事件之間的間隔時間是已知的,但是事件的確切時間是隨機的。事件的到達與之前的事件無關(事件之間的等待時間是無記憶的)。
  • R語言泊松Poisson回歸模型分析案例
    我們將首先擬合僅具有一個自變量:寬度(W)的泊松回歸模型從上面的輸出中,我們可以看到預測計數(「擬合」)和線性預測變量的值,即預期計數的對數值。我們也可以看到,儘管預測是有意義的,但模型並不適合。在這個模型中,隨機分量在響應具有相同均值和方差的情況下不再具有泊松分布。根據給定的估計值(例如Pearson X 2 = 3.1822),隨機分量的變化(響應)大約是平均值的三倍。
  • 泊松分布及其實際應用場景
    基礎準備前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
  • 泊松分布與二項分布
    如果我們學習的意義是為了通過考試,那麼我們大可停留在「只會做題」的階段,因為試卷上不會出現「請發表一下你對泊松公式的看法」這樣的題目,因為那樣一來卷子就變得不容易批改。所以現在的大部分考試都會出一些客觀題。而如果我們學習的目的是為了理解一樣東西,那麼我們就有必要停下來去思考一下諸如「為什麼要有泊松分布?」、「泊松分布的物理意義是什麼?」這樣的「哲學」問題。
  • 深入廣義線性模型:分類和回歸
    【導讀】本文來自AI科學家Semih Akbayrak的一篇博文,文章主要討論了廣義的線性模型,包括:監督學習中的分類和回歸兩類問題。
  • 指數族分布
    指數族分布(exponential family)是指一類分布,包括高斯分布、伯努利分布、二項分布、泊松分布、伽馬分布、貝塔分布等。很多數學模型都是建立在某種或某幾種分布上的,比如風控金融判斷好人壞人的伯努利分布,線性回歸模型的高斯分布等。我們這一篇就詳細介紹其特點與性質。
  • :泊松回歸與負二項回歸.
    而且每個個體/每條記錄的事件發生也可能不止1次,比如泊松回歸[一般對數線性分析過程]一文中每個個體的冠心病死亡最多是1次,但1個月內哮喘發作次數可能就不止1次,這個時候用對數線性分析中的Poisson模型處理起來就比較困難,可以換用廣義線性模型來擬合。任何一個模型都有適用條件,泊松回歸要求(1)單元格數據滿足泊松分布。