R統計學(05): 泊松分布

2021-02-08 R語言和Python學堂

前面我們介紹了多種離散型概率分布,大家可以點擊下方連結來回顧:

今天要給大家介紹另一個常見的離散型概率分布:泊松分布(Poisson distribution)。它由法國數學家西莫恩·德尼·泊松 (1781–1840) 於1837年發表,在實際生活中有著非常廣泛的應用。

1. 定義和現實應用

泊松概率分布描述的是在某段時間或某個空間內發生隨機事件次數的概率,簡而言之就是:根據過去某個隨機事件在某段時間或某個空間內發生的平均次數,預測該隨機事件在未來同樣長的時間或同樣大的空間內發生k次的概率。其概率質量函數為:

其中:

由於泊松分布適用於描述某段時間(或某個空間)內隨機事件發生的次數,因此它常用於預測某些事件的發生。例如:某家醫院在一定時間內到達的人數;超市收銀臺在某段時間內的結帳人數;某段時間內發生自然災害的次數;某段時間內DNA序列的變異數;放射性原子核在一段時間內的衰變數等等。

2. 泊松分布的推導

泊松分布的概率質量函數可以由二項分布的概率質量函數推導而來,下面是推導過程。

二項分布的概率質量函數為:

其中n代表伯努利試驗的次數;p代表試驗成功的概率,則1-p為試驗失敗的概率;k代表n次試驗中成功的次數,則失敗次數為n-k。

假定在過去的歷史中,某個隨機事件在固定長度時間段發生的平均次數為λ,那麼就可以將固定長度的時間分成n等份;在每等份的時間內,隨機事件發生的概率可以表示為λ/n。若n趨於無窮大,也就是這段時間被分成無數的小段,那麼λ/n的值將趨近於0,也就是在每個等份的時間內,該隨機事件發生兩次或兩次以上是不可能的。根據以上假設條件,在固定長度時間內,隨機事件發生k次的概率服從二項概率分布,可以表示為:

由上可知,在二項分布的伯努利試驗中,如果試驗次數n很大,成功概率p很小,且乘積λ= np比較適中,則事件出現的次數的概率可以用泊松分布來逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應物。

3. 泊松分布的性質

從泊松分布的概率質量函數可以看出,λ是泊松分布所依賴的唯一參數,隨著歷史平均次數λ的不同,泊松分布的概率分布形態也將隨之改變。如下圖,隨著λ的增大,泊松分布的形態也由右偏分布 (尾巴在右邊) 逐漸變為對稱分布。

在實際情況中,當λ很大時,可以用正態分布近似地處理泊松分布問題

泊松分布的期望值與方差相等,同為參數λ,即:E(X)=Var(X)=λ (具體推導過程可參考泊松分布的中文維基百科詞條)。對於這個性質,也可通過二項分布的期望值和方差進行推導,我們知道二項分布的期望值和方差分別為np和npq,則泊松分布的期望值和方差為:

上式推導利用了λ/n的值趨近於0的這個性質

4. R中的相關函數

R中也有四個函數可用於泊松分布,分別是:

dpois(x,lambda):返回發生x次隨機事件的概率

ppois(q,lambda):返回累積概率

qpois(p,lambda):返回相應分位點x,詳情見下面的例子

rpois(n,lambda):返回每組發生隨機事件的次數

這四個函數都有 lambda,對應於隨機事件發生的平均次數λ。下面通過一個例子來了解如何使用它們:

根據歷史數據,某條河(比如:長江)100年平均要發生一次洪水,那麼接下來的100年發生0次,1次和2次洪水的概率分別是多少呢?

分析:由於是過去很長時間的數據總結,因此可以認為這條河發生洪水的概率是穩定的,因此這條河發生洪水次數的概率服從泊松分布,且λ=1。

結果

下表給出了在未來100年內,這條河發生0到6次洪水的概率:

從表格結果可以看出,未來100年內這條河發生洪水的概率高達63.2% (= 1-P(k=0)),因此對於這條河要不斷加強和完善防洪工程措施。

下面我們利用R中的函數來計算相關量:

第一個問題:未來100年內,發生0次,1次和2次洪水的概率分別是多少?此時要用到 dpois(x,lambda)函數,其中 x參數指定發生的次數,函數返回相應概率,結果為:

> dpois(0:2, 1)

[1] 0.3678794 0.3678794 0.1839397

第二個問題:至多發生1次洪水的概率是多少?此時要用到 ppois(q,lambda)函數,其中 q參數指定至多發生的次數(這裡為1),函數返回相應累積概率,結果為:

> ppois(1, 1)

[1] 0.7357589

第三個問題:90%概率下這條河至多能發生幾次洪水?此時要用到 qpois(p,lambda)函數,其中 p參數指定概率(這裡是0.9),函數返回相應分位點x(即F(x)≥0.9對應的最小x值),結果為:

> qpois(0.9, 1)

[1] 2

結果表明,90%概率下至多發生2次洪水

最後一個問題:重複10000組模擬,每組發生洪水的次數是多少?這時就要用到 rpois(n,lambda)函數,其中 n參數指定模擬的組數(這裡為10000),函數返回每組發生的次數,結果為:

> set.seed(123)

> ns <- rpois(10000, 1)

> table(ns)

ns

  0    1    2    3    4    5    6    7

3652 3757 1831  580  145   26    8    1


> mean(ns)   ##發生次數的平均值

[1] 0.9924

> var(ns)    ##發生次數的方差

[1] 0.9760398

模擬1萬組,3652組沒有發生洪水,與理論上36.78%不發生洪水很接近。此外均值和方差也與理論值 (λ=1)很接近。

泊松分布的介紹就到此結束,希望對大家的學習有所幫助。如果覺得文章不錯,動手轉發支持一下哦!

感謝您的閱讀!想了解更多有關技巧,請關注我的微信公眾號「R語言和Python學堂」,我將定期更新相關文章。同時也歡迎大家積極投稿,促進交流。

文章也同步更新到我的專欄:

相關焦點

  • 幾何分布、二項分布及泊松分布:堅持離散
    在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變。【課本】在相互獨立事件中,每道題答對概率為p,答錯概率為q。在n個問題中答對r個問題的概率為:
  • 泊松分布和指數分布:10分鐘教程
    工作以後才發現,難的不是統計學,而是我們的教材寫得不好。比起高等數學,統計概念其實容易理解多了。我舉一個例子,什麼是泊松分布和指數分布?恐怕大多數人都說不清楚。我可以在10分鐘內,讓你毫不費力地理解這兩個概念。一、泊松分布日常生活中,大量事件是有固定頻率的。
  • 泊松分布、指數分布、gamma分布
    本文主要包含以下內容:1 泊松分布2 泊松分布近似二項分布3 指數分布4 gamma分布1 泊松分布泊松分布(poisson distribution),以Simeon結合均值):2 泊松分布近似二項分布泊松分布是二項分布在下列假設下的極限情況:從
  • 10分鐘讓你理解泊松分布、指數分布
    大學時,我一直覺得統計學很難,還差點掛科。工作以後才發現,難的不是統計學,而是我們的教材寫得不好。
  • 泊松分布及其實際應用場景
    基礎準備前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
  • 原創 | 一文讀懂泊松分布,指數分布和伽馬分布
    本文以簡單直白的方式讓大家能夠理解泊松分布,指數分布和伽馬分布的實際含義和作用,並且由此推導其概率密度函數。
  • 廣義線性模型GLM(泊松分布)
    (heavily right skewed)的,使用泊松分布來進行建模效果不錯。計數數據 count data統計學中,計數數據是一類統計數據。——摘自百度百科《泊松分布》【1】泊松分布表達式為:泊松分布的期望與方差相等,均為λ.對於簡單的一元模型,我們可以直接用泊松模型建模,但是如果要引入多個自變量,我們還是需要線性模型。但是線性模型有以下問題:(1)count data值為非負,單純的線性模型無法滿足這一點。
  • 如何深刻理解泊松分布?
    大多數學校的統計學悲劇在於它是多麼愚蠢。
  • 泊松分布與二項分布
    如果我們學習的意義是為了通過考試,那麼我們大可停留在「只會做題」的階段,因為試卷上不會出現「請發表一下你對泊松公式的看法」這樣的題目,因為那樣一來卷子就變得不容易批改。所以現在的大部分考試都會出一些客觀題。而如果我們學習的目的是為了理解一樣東西,那麼我們就有必要停下來去思考一下諸如「為什麼要有泊松分布?」、「泊松分布的物理意義是什麼?」這樣的「哲學」問題。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恆定的,實驗持續到r次成功,r為正整數。3.泊松分布適合於描述單位時間內隨機事件發生的次數。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。事實上,泊松分布正是由二項分布推導而來的,具體推導過程參見本詞條相關部分。7.
  • Excel的統計方法:泊松分布的計算過程圖文
    一、 目標: 本節主要通過體例講解泊松分布的計算過程。 二、定義: Poisson分布,是一種統計與概率學裡常見到的離散概率分布,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。 二項分布中,當n趨於無窮大時,p趨於0,此時事件發生的概率是服從泊松分布的。
  • 數據挖掘學習小組之(概率分布)
    伯努利分布與二項分布一樣泊松分布Poisson分布,是一種統計與概率學裡常見到的離散概率分布,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。連續變量概率分布均勻分布在概率論和統計學中,均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。
  • R語言的各種統計分布函數
    分位數:若概率0<p<1,隨機變量X或它的概率分布的分位數Za。是指滿足條件p(X>Za)=α的實數。如t分布的分位數表,自由度f=20和α=0.05時的分位數為1.7247。概率函數為f(k;r,p)=choose(k+r-1,r-1)*p^r*(1-p)^k, 當r=1時這個特例分布是幾何分布rnbinom(n,size,prob,mu) 其中n是需要產生的隨機數個數,size是概率函數中的r,即連續成功的次數,prob是單詞成功的概率,mu未知..
  • 從零開始學統計(五)——泊松分布
    。嗯,泊松分布既然是從二項分布推導出來的,那麼泊松分布的應用前提與二項分布一樣(回想一下!),外加一條:n很大且π很小,屬於稀有發生事件。泊松分布具有以下特性:1)總體的均數與方差相等,均為;2)具備「可加性」卻不具備「可乘性」;3)當
  • 二代測序數據統計分析中為什麼是負二項分布?
    轉錄組數據統計推斷的難題在RNA-seq中進行兩組間的差異分析是最正常不過的了我們在其它實驗中同樣會遇到類似的分析,通常,我們可以用方差分析判定兩組「分布」數據間是否存在顯著差異。原理是:當組間方差大於組內方差(誤差效應),並且統計學顯著時,則認為組間處理是可以引起差異的。那這不就是咱們學過的統計學裡普普通通的假設檢驗問題嗎?
  • 什麼是松泊分布?泊松回歸可以用來做什麼?
    接下來,本文將要介紹的這個回歸模型是專門針對計數數據的泊松回歸模型。泊松分布說到泊松回歸,首先要了解,什麼是泊松分布?持續記錄下去,你就可以得到一個模型,這便是「泊松分布」的原型。除此以外,現實生活中還有很多情況是服從泊松分布的:10分鐘內從ATM中取錢的人數一天中發生車禍的次數每100萬人中患癌症的人數單位面積土地內昆蟲的數目
  • R統計學(12): 卡方分布
    推斷性統計學就是通過樣本的描述性統計指標,來推斷出總體的描述性統計指標,從而掌握數據總體的特徵,並對總體做出其他分析和預測等操作。在這裡,描述性統計指標也被簡稱為參數。連接樣本參數和總體參數的橋梁就是抽樣分布。
  • R語言泊松Poisson回歸模型分析案例
    我們將首先擬合僅具有一個自變量:寬度(W)的泊松回歸模型估計的模型是:$ log(\ hat {\ mu_i})$ = -3.30476 + 0.16405W ilog(μi^) = - 3.30476 + 0.16405W估計的β= 0.164的ASE為0.01997,這是小的,並且該斜率在z值為8.216及其低p值的情況下在統計學上是顯著的
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 醫學統計學考前複習提綱
    答:1)制定醫學參考值範圍;2)質量控制;3)統計學的重要基礎理論之一,正態分布作為統計學中的一種重要分布,時許多統計方法如t檢驗、方差分析、回歸分析等的適用條件,且很多統計方法的基礎理論分布如t分布、F分布、χ²分布等都是在正態分布的基礎上推演出來的。5、變異係數與標準差有何異同?