什麼是松泊分布?泊松回歸可以用來做什麼?

2020-12-13 SPSSAU

之前的文章中我們介紹過最常用的——線性回歸;數據不滿足線性關係時可以使用的——曲線回歸;當Y為定類數據時使用的——Logistic回歸等。還有一些專門用來解決回歸分析中出現的種種問題的回歸方法,如解決多重共線性問題的嶺回歸、自動篩選變量的逐步回歸、中介調節效應中用於對模型比較的分層回歸等。

除了上述提及的,事實上還有很多回歸分析方法,它們適用於不同類型的數據以及不同應用場景,正是這些分析方法組成了我們熟知的回歸分析大軍。

接下來,本文將要介紹的這個回歸模型是專門針對計數數據的泊松回歸模型

泊松分布

說到泊松回歸,首先要了解,什麼是泊松分布?

試想一下,你現在就站在一個人流密集的馬路旁,打算收集闖紅燈的人群情況(?)。首先,利用秒表和計數器,一分鐘過去了,有5個人闖紅燈;第二分鐘有4個人;而下一分鐘有4個人。持續記錄下去,你就可以得到一個模型,這便是「泊松分布」的原型。

除此以外,現實生活中還有很多情況是服從泊松分布的:

10分鐘內從ATM中取錢的人數一天中發生車禍的次數每100萬人中患癌症的人數單位面積土地內昆蟲的數目……

Poisson模型(泊松回歸模型)是用於描述單位時間、單位面積或者單位容積內某事件發現的頻數分布情況,通常用於描述稀有事件(即小概率)事件發生數的分布。

上述例子中都明顯的一個特點:低概率性,以及單位時間(或面積、體積)內的數量。通常情況下,滿足以下三個條件時,可認為數據滿足Poisson分布:

(1) 平穩性:發生頻數的大小,只與單位大小有關係(比如1萬為單位,或者100萬為單位時患癌症人數不同);

(2) 獨立性:發生頻數的大小,各個數之間沒有影響關係,即頻數數值彼此獨立沒有關聯關係;比如前1小時闖紅燈的人多了,第2小時闖紅燈人數並不會受影響;

(3) 普通性:發生頻數足夠小,即低概率性。

如果數據符合這類特徵時,而又想研究X對於Y的影響(Y呈現出Poisson分布);此時則需要使用Poisson回歸,而不是使用常規的線性回歸等。

判斷是否符合Poisson分布的方法

檢驗數據是否符合Poisson分布,共有兩種方法:一種是通過特徵判斷;另外一種是通過Poisson檢驗。

特徵判斷即是要數據符合上面提到的三個條件;而如果用Poisson檢驗可在SPSSAU【醫學研究→Poisson檢驗】裡進行檢驗。

在現實研究中,可能更多會通過特徵進行判斷是否基本符合Poisson分布。

案例應用

(1)背景

當前有一份數據是用來研究影響患皮膚癌的影響因素,共有兩個研究因素,分別是性別和年齡;以及被影響項為『是否皮膚肺癌』。由於Y為『是否皮膚肺癌』,而且明顯的,『是否皮膚肺癌』這個數據滿足平穩性、獨立性和普通性這三個特徵;因而使用Poisson回歸進行研究。

(2)操作步驟

使用途徑:SPSSAU→醫學研究→泊松回歸

性別為定類數據,分析前需要先進行啞變量處理再納入模型,本例以「男性」為參照項,因此放入「性別_女」。

SPSSAU-啞變量設置

並且由於每個城市的人口基數不一樣,分析時還有考慮人口基數這一數據,最終放置如下:

Poisson分析界面

(3)結果分析

針對Poisson回歸分析,SPSSAU共輸出2個表格,分別是:似然比檢驗結果表以及Poisson回歸分析結果匯總表。

①Poisson回歸模型似然比檢驗表

Poisson回歸模型似然比檢驗表

上表用於模型檢驗,模型檢驗的原定假設為「是否放入X模型質量均一樣」。

根據上表可知,此處放入2個X分別是性別_女,年齡。而且P值為0.000 <0.05,意味著放入2個自變量後,模型質量有明顯的提升,因而拒絕原定假設,本次模型構建有意義。卡方值和df值均為中間過程值可忽略。

AIC和BIC這兩個指標值,可用於多個模型對比(AIC和BIC越小越好),當前放入2個自變量可記錄下AIC和BIC值,如果多放一個自變量(即3個時),AIC和BIC值有著明顯的下降,則可以選擇3個自變量時的模型作為最終模型。

②Poisson回歸分析結果匯總表

poisson回歸分析結果匯總表

上表用於研究X對於Y的影響關係情況,表格中有意義的指標信息包括:P值,回歸係數和R Pseudo R。其它指標包括標準誤,Z值,95%CI值意義相對較小。

從上表可知,模型偽R平方值(Pseudo R平方)為0. 900,意味著性別, 性別和年齡可以解釋皮膚癌患病的90.0%變化原因。

模型公式為:log(u)=log(人口基數) -9.952-0.035*性別_女 + 0.643*年齡(其中u代表期望均數)。

具體分析可知,年齡一項回歸係數為0.643,P值(P=0.000<0.01),說明年齡對患皮膚癌有著正向的影響,隨著年齡的增長,患皮膚的可能性也提高。而性別對皮膚癌沒有產生影響。

其他說明

Poisson分布是指單位時間/面積/體積內的發生數,因而如果基數不一致時,spssau分析時,一定要放入基數這個數據。

相關焦點

  • 「發生次數」用什麼方法搞定?:泊松回歸與負二項回歸.
    而且每個個體/每條記錄的事件發生也可能不止1次,比如泊松回歸[一般對數線性分析過程]一文中每個個體的冠心病死亡最多是1次,但1個月內哮喘發作次數可能就不止1次,這個時候用對數線性分析中的Poisson模型處理起來就比較困難,可以換用廣義線性模型來擬合。任何一個模型都有適用條件,泊松回歸要求(1)單元格數據滿足泊松分布。
  • 泊松分布與二項分布
    如果我們學習的意義是為了通過考試,那麼我們大可停留在「只會做題」的階段,因為試卷上不會出現「請發表一下你對泊松公式的看法」這樣的題目,因為那樣一來卷子就變得不容易批改。所以現在的大部分考試都會出一些客觀題。而如果我們學習的目的是為了理解一樣東西,那麼我們就有必要停下來去思考一下諸如「為什麼要有泊松分布?」、「泊松分布的物理意義是什麼?」這樣的「哲學」問題。
  • 廣義線性模型GLM(泊松分布)
    ——摘自百度百科《泊松分布》【1】泊松分布表達式為:泊松分布的期望與方差相等,均為λ.對於簡單的一元模型,我們可以直接用泊松模型建模,但是如果要引入多個自變量,我們還是需要線性模型。但是線性模型有以下問題:(1)count data值為非負,單純的線性模型無法滿足這一點。
  • 泊松分布、指數分布、gamma分布
    本文主要包含以下內容:1 泊松分布2 泊松分布近似二項分布3 指數分布4 gamma分布1 泊松分布泊松分布(poisson distribution),以Simeon結合均值):2 泊松分布近似二項分布泊松分布是二項分布在下列假設下的極限情況:從
  • 幾何分布、二項分布及泊松分布:堅持離散
    方差:Var(X)=q/p^2方差特點:隨著x變大,方差越來越接近特定值3、優缺點4、實例應用科學:數學以及相關領域適用領域範圍:自然數學,應用數學,高等數學,概率論射擊比賽等3.二項分布1、概念什麼是二項分布?
  • 如何深刻理解泊松分布?
    泊松分布泊松過程:我們使用在隨機發生的事件,但這沒有多大用處。我們需要泊松分布來做一些有趣的事情,例如,查找某個時間段內多個事件的概率或查找直到下一個事件等待一段時間的概率。泊松分布概率質量函數給出了在給定時間段的長度和每個時間的平均事件的情況下,在一個時間段內觀察k個事件的概率:
  • 10分鐘讓你理解泊松分布、指數分布
    我舉一個例子,什麼是泊松分布和指數分布?恐怕大多數人都說不清楚。我可以在10分鐘內,讓你毫不費力地理解這兩個概念。日常生活中,大量事件是有固定頻率的。上面就是泊松分布的公式。泊松分布的圖形大概是下面的樣子。
  • 泊松分布和指數分布:10分鐘教程
    我舉一個例子,什麼是泊松分布和指數分布?恐怕大多數人都說不清楚。我可以在10分鐘內,讓你毫不費力地理解這兩個概念。一、泊松分布日常生活中,大量事件是有固定頻率的。上面就是泊松分布的公式。泊松分布的圖形大概是下面的樣子。
  • R語言泊松Poisson回歸模型分析案例
    我們將首先擬合僅具有一個自變量:寬度(W)的泊松回歸模型在這個模型中,隨機分量在響應具有相同均值和方差的情況下不再具有泊松分布。根據給定的估計值(例如Pearson X 2 = 3.1822),隨機分量的變化(響應)大約是平均值的三倍。
  • R統計學(05): 泊松分布
    泊松分布的推導泊松分布的概率質量函數可以由二項分布的概率質量函數推導而來,下面是推導過程。二項分布的概率質量函數為:由上可知,在二項分布的伯努利試驗中,如果試驗次數n很大,成功概率p很小,且乘積λ= np比較適中,則事件出現的次數的概率可以用泊松分布來逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應物。3.
  • 原創 | 一文讀懂泊松分布,指數分布和伽馬分布
    我們可以如此如此,這般這般……於是劉姥姥就聽從了大耳兒的建議,從此之後,生意更加興隆,至於王縣令後來入夥加盟,生意不斷做大,後來更是推陳出新創立了十三香舉世聞名,當然這都是後話了。那麼當時劉大耳的方案是什麼呢?接下來將一一道來。
  • 泊松分布及其實際應用場景
    基礎準備前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
  • 從零開始學統計(五)——泊松分布
    上一篇我們介紹了二項分布,本篇泊松分布是二項分布的一種特例,我們可以看作,在B(n,π)中,當n很大,π很小時,令,此時,根據泊松定理,P(X)
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • Excel的統計方法:泊松分布的計算過程圖文
    二、定義: Poisson分布,是一種統計與概率學裡常見到的離散概率分布,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。 二項分布中,當n趨於無窮大時,p趨於0,此時事件發生的概率是服從泊松分布的。
  • 比特幣論文中泊松分布期望公式問題|火星技術帖
    一個攻擊者能做的,最多是更改他自己的交易信息,並試圖拿回他剛剛付給別人的錢。誠實鏈條和攻擊者鏈條之間的競賽,可以用二叉樹隨機漫步(Binomial Random Walk)來描述。成功事件定義為誠實鏈條延長了一個區塊,使其領先性+1,而失敗事件則是攻擊者的鏈條被延長了一個區塊,使得差距-1。
  • 從泊松方程的解法,聊到泊松圖像融合
    這篇文章的實現,無關目前算法領域大火的神經網絡,而是基於泊松方程推導得出。泊松方程是什麼?很多朋友比較熟悉概率論裡面的泊松分布。這裡記住拉普拉斯卷積核,我們後面會用到。泊松方程求解這個時候,想想我們學會了什麼?泊松方程的形式,以及拉普拉斯卷積核。再想想,在圖像場景下,什麼是泊松方程的核心問題?已知圖像點二階微分值(直角坐標系下即散度 div)的情況下,求解各個圖像點的像素值。
  • 基礎方法 | Logit回歸和Probit回歸有區別嗎?
    常見的針對分類變量的回歸模型其實主要有三類:第一類,Logit回歸(包括:二分類、多分類和序次Logit回歸);第二類,Probit回歸;第三類,泊松回歸(又稱為普哇松回歸)。泊松回歸不是很常用,因為他要求的變量類型是離散變量,典型的離散變量就是孩子個數,從0~10,是很分散的,又不符合正態分布,服從泊松分布。
  • 幾何分布和二項分布有什麼區別?
    ,二項分布和幾何分布經常同時出現,在前面講泊松分布的時候也簡單提到了二項分布。那麼,幾何分布是什麼分布?和二項分布有什麼區別?講泊松分布的時候提到,二項分布的概率公式如下: 大家知道,拋硬幣實驗是最經典的二項分布實驗,一般是求n次拋硬幣實驗中有k(k ≤ n)次正面朝上的概率。而幾何分布和二項分布很像,所適用的條件和二項分布也一樣,不過其計算更為簡單。
  • 線性回歸中標準化回歸係數是做什麼用的?
    同時,在SPSS線性回歸分析的結果中有標準化回歸係數這一列,這一列又是用來做什麼的呢?本文就跟大家一起來討論這一問題。首先我們來看一下數據,在這個例子中有5個變量,其中y是因變量,x1至x4是自變量。想探索x1-x4對y的影響大小,同時比較不同自變量x對y的作用誰大誰小。 這時候我們往往會做多因素線性回歸,其結果如下: