如何深刻理解泊松分布?

2021-02-08 數據分析學習與實踐

大多數學校的統計學悲劇在於它是多麼愚蠢。老師們花費數小時來研究導數,方程式和定理,當您最終達到最佳效果時(將概念應用於實際數字),就會出現一些無關緊要,沒有想像力的示例,例如:擲骰子。遺憾的是,如果您跳過推導(您可能永遠不需要),而專注於使用這些想法來解決有趣的問題,那麼統計數據就很有趣。

在本文中,我們將介紹兩個重要的概率概念:泊松過程和泊松分布。在僅強調相關理論之後,我們將通過一個真實的示例進行展示,將方程式和圖形的思想置於上下文中.

泊松過程

泊松過程是一系列離散事件的模型,其中:

平均時間:事件之間的間隔時間是已知的,但是事件的確切時間是隨機的。

事件的到達與之前的事件無關(事件之間的等待時間是無記憶的)。例如,假設我們擁有一個網站,我們的內容交付網絡(CDN)告訴我們該網站平均每60天出現一次故障,但一個故障不會影響下一個故障的可能性。我們所知道的是兩次故障之間的平均時間。這是一個泊松過程,如下所示:

重要的一點是我們知道事件之間的平均時間,但是它們是隨機間隔的(隨機的)。我們可能會遇到不相關的故障,但是由於過程的隨機性,我們之間也可能會間隔數年(小概率)。

一個泊松過程符合以下標準(在現實中建模為泊松過程不符合這些正是許多現象):

事件彼此獨立:一個事件的發生不影響另一事件發生的可能性。

平均速率(每個時間段的事件)是恆定的(任何時間段內)。

兩個事件不能同時發生。

最後一點事件不是同時發生的意味著我們可以將泊松過程的每個子間隔都視為伯努利試驗,即成功或失敗。對於我們的網站,整個時間間隔可能為600天,但是每個子間隔(一天)都會使我們的網站出現故障或沒有中斷。

泊松過程的常見示例是客戶呼叫中心,訪問網站的訪客,原子的放射性衰變,到達太空望遠鏡的光子以及股價的變動。泊松過程通常與時間相關,但不一定如此。關於股價,我們可能知道每天的平均移動量(每次事件),同時我們也可以對一英畝的樹木數量(每個區域事件)進行泊松過程。

(通常會為Poisson Process提供一個實例,例如公交車到站(或火車或現在的Uber)。但是,這並不是真正的Poisson過程,因為到站之間並不是相互獨立的。即使對於未按時運行的公交系統,一輛公交車是否晚會影響下一趟公交車的到達時間。JakeVanderPlas撰寫了一篇很棒的文章,介紹了將Poisson流程應用於公交車的到站時間,這種方法對虛假數據比實際數據進行校準更有效。)

泊松分布

泊松過程:我們使用在隨機發生的事件,但這

沒有多大用處。我們需要泊松分布來做一些有趣的事情,例如,查找某個時間段內多個事件的概率或查找直到下一個事件等待一段時間的概率。泊松分布概率質量函數給出了在給定時間段的長度和每個時間的平均事件的情況下,在一個時間段內觀察k個事件的概率:

這有點令人費解,事件/時間*時間段通常簡化為單個參數λ, λ,速率參數。通過這種替換,泊松分布概率函數現在具有一個參數:

可以將Lambda視為間隔中預期的事件數。(我們將切換為時間間隔,因為請記住,我們不必使用時間段,我們可以根據泊松過程使用面積或體積)。我喜歡寫出lambda來提醒自己,rate參數是每個時間的平均事件和時間段長度的函數,但是最常見的是上面的參數。

當我們更改速率參數λ時,我們更改了在一個時間間隔內看到不同事件數量的概率。下圖是泊松分布的概率質量函數,顯示了在具有不同速率參數的時間間隔內發生多個事件的概率。

每條曲線的間隔中最可能發生的事件數是events = rate參數情況下。這是有道理的,因為rate參數是間隔中預期的事件數,因此,當它是整數時,rate參數時間數將是概率最大的事件數。

如果它不是整數,則事件的最高概率數將是與rate參數最接近的整數,因為泊松分布僅針對離散數量的事件進行定義。泊松分布的離散性質也是為什麼這是概率質量函數而不是密度函數的原因。(rate參數也是分布的均值和方差,不必為整數。)

我們可以使用泊松分布質量函數來找到在泊松過程生成的時間間隔內觀察多個事件的概率。質量函數方程式的另一種用法(我們將在後面看到)是找到事件之間等待一段時間的概率。

一個具體的例子

對於我們將通過Poisson分布解決的問題,我們可以繼續處理網站故障,但我提出了更宏大的建議。在我的童年時期,父親經常帶我去院子裡觀察(或嘗試觀察)流星雨。我們不是太空極客,但是即使在最冷的月份似乎總是發生流星雨,看著外太空燃燒的物體足以將我們吸引到室外。

由於流星是獨立的,每小時平均流星數是恆定的(短期內),而且流星的數目不是恆定的,因此流星的數目可以建模為泊松分布。為了表徵泊松分布,我們所需要的只是速率參數,它是事件數/間隔*間隔長度。從我記得,我們被告知要期待每小時5顆流星或1個流星/每12分鐘。由於幼兒的耐心有限(尤其是在寒冷的夜晚),我們從來沒有停留超過60分鐘,因此我們將其作為時間段。將兩者放在一起,我們得到:

「預期5顆流星」到底是什麼意思?好吧,根據父親最保守考慮,這意味著我們在一小時內會看到3個流星,不能再多了了。當時,我沒有數據科學技能,並且相信他的判斷。現在我已經年紀大了,對權威人士也持懷疑態度,現在該對他的陳述進行檢驗了。我們可以使用泊松分布找到在一小時的觀測中恰好看到3個流星的概率:

下圖顯示了一個小時內流星數的概率質量函數,平均流星之間的時間為12分鐘(這與一個小時內預期流星數為5相同)

這就是「 5個預期事件」的含義!流星最可能的數目是5,即分布的速率參數。(由於數字的怪異,4和5的概率相同,為18%)。與任何分布一樣,有一個最可能的值,但也有很多種可能的值。例如,我們可以出去看0個流星,或者一小時內可以看到10個以上。為了找到這些事件的總概率,我們使用相同的方程式,但是,這次是計算離散概率的總和。

我們已經計算出看到3個流星的機會約為14%。一小時內看到3個或更少的流星的機率是27%,這意味著多於3 個的流星的機率是73%。同樣,超過5個流星的概率為38.4%,而我們可以期望在61.6%的觀測小時內看到5個或更少的流星。雖然很小,但有1.4%的機會在一小時內觀測10個以上的流星!

為了可視化這些可能的情況,我們可以通過讓姐姐記錄她在10,000小時內每小時看到的流星數來進行實驗。結果顯示在下面的直方圖中:

(這顯然是一種模擬)觀察可能的結果會進一步證明這是一種分布,並且預期結果並不總是會發生。在幾個幸運的夜晚,儘管一個小時通常會看到4或5個流星,但我們在一小時內目睹過10個或更多的流星(小概率)。

理解實驗Rate參數

速率參數λ是定義泊松分布所需的唯一數字。但是,由於它是兩個部分(事件/間隔*間隔長度)的乘積,因此有兩種更改方法:我們可以增加或減少事件/間隔,也可以增加或減少間隔長度。

首先,讓我們通過增加或減少每小時流星的數量來更改速率參數,以查看分布如何受到影響。對於此圖,我們將時間段保持恆定為60分鐘(1小時)。

在每種情況下,一小時中最可能出現的流星數是預期的流星數,即泊松分布的速率參數。例如,在每小時12個流星(MPH)的情況下,我們的速率參數為12,並且有11%的機會在1小時內精確觀測12個流星。如果我們的速率參數增加,我們應該期望每小時看到更多的流星。

另一種選擇是增加或減少間隔長度。以下是同一圖,但是這次我們將每小時的流星數量保持恆定為5,並更改了觀察到的時間長度。

期望我們待更長的時間看到更多的流星也就不足為奇了!誰說「猶豫的人迷路了」,顯然誰也不會站在周圍觀看流星雨。

等待的時間

泊松過程中一個引人入勝的部分涉及弄清楚我們要等到下一個事件才等待多長時間(有時稱為到達間隔時間)。考慮一下情況:流星平均每12分鐘出現一次。如果我們是隨機到達的,那麼我們期望等待多久才能看到下一顆流星?我父親總是(樂觀地)聲稱我們只需要等待6分鐘,第一顆流星就符合我們的直覺。但是,如果我們學到了什麼,那就是我們的直覺並不擅長在概率上。

我將不進行推導(它來自概率質量函數方程式),但是我們可以期望在事件之間等待的時間是一個衰減的指數。隨著時間的增加,連續事件之間等待給定時間量的概率呈指數下降。以下等式顯示了等待時間超過指定時間的概率。

在我們的示例中,我們每12分鐘有1個事件,如果插入數字,我們有60.65%的機會等待> 6分鐘。我父親的猜想真是太多了!為了說明另一種情況,我們可以期待大約8.2%的時間等待30分鐘以上。(我們需要注意,這是在每個連續的事件對之間。事件之間的等待時間是無記憶的,因此,兩個事件之間的時間對任何其他事件之間的時間都沒有影響。這種無記憶性也稱為Markov屬性)。

圖表可以幫助我們直觀地觀察等待時間的指數衰減:

等待超過0分鐘的機會為100%,等待超過80分鐘的機會為0%。同樣,由於這是分布,因此可能的到達時間範圍很廣。

相反,我們可以使用以下等式找到等待時間小於或等於時間的概率:

我們可以等待6分鐘或更短的時間才能看到39.4%的流星。我們還可以找到等待一段時間的概率:等待5到30分鐘才能看到下一顆流星的概率為57.72%。

為了可視化等待時間的分布,我們可以再次運行(模擬)實驗。我們模擬觀看100,000分鐘,平均速度為1流星/ 12分鐘。然後,我們找到看到的每個流星之間的等待時間,並繪製分布圖。

最可能的等待時間是1分鐘,但這不是平均等待時間。讓我們回到最初的問題:如果我們隨機到達,我們平均要等多久才能看到第一顆流星?

為了回答平均等待時間問題,我們將進行10,000次單獨的試用,每次觀看天空100,000分鐘。下圖顯示了這些試驗中流星之間平均等待時間的分布:

10,000個平均值的平均值為12.003分鐘。即使我們到達的時間是隨機的,我們可以期待的等待第一顆流星的平均時間就是兩次出現之間的平均時間。一開始,這可能很難理解:如果事件平均每12分鐘發生一次,那麼為什麼我們必須等待整個12分鐘才能看到一個事件?答案是這是平均等待時間,考慮了所有可能的情況。

如果流星正好來到每隔12分鐘,那麼我們就必須在平均時間等待,看看第一個是6分鐘。但是,由於這是指數分布,因此有時我們會出現並且必須等待一個小時,而等待少於12分鐘的次數超過了很多次。這稱為「 等待時間悖論」,值得一讀。

作為最終的可視化,讓我們對1小時的觀察進行隨機模擬

好吧,這次我們得到了我們所期望的:5顆流星。第一場比賽我們不得不等待15分鐘,但隨後又有很多流星。至少在這種情況下,值得出門進行天體觀察!

關於泊松分布和二項分布的注釋

二項分布用於對我們可以從概率為p的n次試驗中期望的成功次數的概率進行建模。泊松分布是二項分布的特例,因為n達到無窮大,而預期的成功次數保持固定。如果n大而p小,則將Poisson用作二項式的近似值。

與統計中的許多想法一樣,「大」和「小」取決於解釋。經驗法則是,如果n> 20並且np <10,則Poisson分布是二項式的體面近似。因此,即使n次= 50,即使對於100次試驗,硬幣翻轉也應建模為二項式。呼叫中心在120分鐘內每30分鐘獲得1個呼叫的呼叫中心可以建模為泊松分布,np =4。一個重要的區別是,對於一組固定的試驗(域是離散的),發生了二項式,而在理論上無數次試驗(連續域)。這只是一個近似值;記住,所有模型都是錯誤的,但是有些有用!

有關此主題的更多信息,請參閱Wikipedia上的「 相關分發」部分中的Poisson分發。這裡還有一個很好的Stack Exchange答案。

關於流星/隕石/類隕石/小行星的注意事項

流星是您在天空中看到的光斑,是由稱為流星體的碎片在大氣中燃燒引起的。甲流星可以來自小行星,彗星,或者是一塊行星並且通常在直徑毫米,但可以高達一公裡。如果流星體在穿越大氣層中倖存下來並撞擊地球,則稱其為隕石。小行星是小行星帶中繞太陽公轉的大塊巖石。破裂的小行星碎片變成流星體。你知道的越多!

結論

總而言之,泊松分布給出了由泊松過程產生的時間間隔內許多事件的概率。泊松分布由速率參數λ定義,該參數是間隔中的預期事件數(事件/間隔*間隔長度)和事件的最高概率數。我們還可以使用泊松分布來找到事件之間的等待時間。即使我們到達隨機時間,平均等待時間也始終是事件之間的平均時間。

下次您發現自己對統計失去關注時,您已獲我同意不再關注老師。相反,找到相關的方程式並將其應用於一個有趣的問題。您可以學習這些材料,並對統計數據如何幫助我們了解世界感到讚賞。首先,請保持好奇:世界上有許多驚人的現象,我們可以使用數據科學來探索它們,


相關焦點

  • 10分鐘讓你理解泊松分布、指數分布
    比起高等數學,統計概念其實容易理解多了。我舉一個例子,什麼是泊松分布和指數分布?恐怕大多數人都說不清楚。我可以在10分鐘內,讓你毫不費力地理解這兩個概念。日常生活中,大量事件是有固定頻率的。上面就是泊松分布的公式。
  • 泊松分布與二項分布
    」,大部分的教科書上也都會給出這個收斂過程的數學推導,但是看懂它和真正理解還有很大距離。如果我們學習的意義是為了通過考試,那麼我們大可停留在「只會做題」的階段,因為試卷上不會出現「請發表一下你對泊松公式的看法」這樣的題目,因為那樣一來卷子就變得不容易批改。所以現在的大部分考試都會出一些客觀題。而如果我們學習的目的是為了理解一樣東西,那麼我們就有必要停下來去思考一下諸如「為什麼要有泊松分布?」、「泊松分布的物理意義是什麼?」這樣的「哲學」問題。
  • 泊松分布、指數分布、gamma分布
    本文主要包含以下內容:1 泊松分布2 泊松分布近似二項分布3 指數分布4 gamma分布1 泊松分布泊松分布(poisson distribution),以Simeon結合均值):2 泊松分布近似二項分布泊松分布是二項分布在下列假設下的極限情況:從
  • 泊松分布和指數分布:10分鐘教程
    比起高等數學,統計概念其實容易理解多了。我舉一個例子,什麼是泊松分布和指數分布?恐怕大多數人都說不清楚。我可以在10分鐘內,讓你毫不費力地理解這兩個概念。一、泊松分布日常生活中,大量事件是有固定頻率的。
  • R統計學(05): 泊松分布
    泊松分布的推導泊松分布的概率質量函數可以由二項分布的概率質量函數推導而來,下面是推導過程。二項分布的概率質量函數為:由上可知,在二項分布的伯努利試驗中,如果試驗次數n很大,成功概率p很小,且乘積λ= np比較適中,則事件出現的次數的概率可以用泊松分布來逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應物。3.
  • 泊松分布及其實際應用場景
    基礎準備前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
  • 從零開始學統計(五)——泊松分布
    。嗯,泊松分布既然是從二項分布推導出來的,那麼泊松分布的應用前提與二項分布一樣(回想一下!),外加一條:n很大且π很小,屬於稀有發生事件。泊松分布具有以下特性:1)總體的均數與方差相等,均為;2)具備「可加性」卻不具備「可乘性」;3)當
  • 廣義線性模型GLM(泊松分布)
    (heavily right skewed)的,使用泊松分布來進行建模效果不錯。觀測值只能為非負整數並且觀測值不具有排位性(ranking)泊松分布 Poisson Distribution在實際示例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等,以固定的平均瞬時速率(或稱為密度)隨機且獨立的出現時,那麼這個時間在單位時間面積或體積內出現的次數或個數就近似服從泊松分布。
  • 幾何分布、二項分布及泊松分布:堅持離散
    ,不成功概率0.6(q).則成功選擇一次是(0.4^2)*(0.6^(4-2)),隨機組合C_r_n(補)3、優缺點優點:在試驗次數一定,求成功次數時,幾何分布顯示不適合的情況下,給予這類問題二項分布能更好的解決。
  • 原創 | 一文讀懂泊松分布,指數分布和伽馬分布
    本文以簡單直白的方式讓大家能夠理解泊松分布,指數分布和伽馬分布的實際含義和作用,並且由此推導其概率密度函數。
  • Excel的統計方法:泊松分布的計算過程圖文
    一、 目標: 本節主要通過體例講解泊松分布的計算過程。 二、定義: Poisson分布,是一種統計與概率學裡常見到的離散概率分布,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。 二項分布中,當n趨於無窮大時,p趨於0,此時事件發生的概率是服從泊松分布的。
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 什麼是松泊分布?泊松回歸可以用來做什麼?
    接下來,本文將要介紹的這個回歸模型是專門針對計數數據的泊松回歸模型。泊松分布說到泊松回歸,首先要了解,什麼是泊松分布?持續記錄下去,你就可以得到一個模型,這便是「泊松分布」的原型。除此以外,現實生活中還有很多情況是服從泊松分布的:10分鐘內從ATM中取錢的人數一天中發生車禍的次數每100萬人中患癌症的人數單位面積土地內昆蟲的數目
  • 比特幣論文中泊松分布期望公式問題|火星技術帖
    小編:記得關注哦來源:CSDN在比特幣創始論文的第11章中存在這樣一個問題,就是為什麼這個分布的期望為lamda=z*(q/p)?11. 計算設想如下場景:一個攻擊者試圖比誠實節點產生鏈條更快地製造替代性區塊鏈。
  • 概率每天一問:如何確定問題中應該選用泊松分布幾何分布和指數分布
    概率每天一問:如何確定問題中應該選用泊松分布幾何分布和指數分布 http://kaoyan.eol.cn      2005-11-23  大 中 小   臨考概率統計30問(每天一問)――源於清華版的「2006
  • 從泊松方程的解法,聊到泊松圖像融合
    這篇文章的實現,無關目前算法領域大火的神經網絡,而是基於泊松方程推導得出。泊松方程是什麼?很多朋友比較熟悉概率論裡面的泊松分布。這裡至此,不難理解,離散數據(例如圖像)上的微分操作完全可以轉換為卷積操作。當數組維度更高,變成二維數組呢?也就是處理圖像的拉普拉斯算子:
  • 泊松分布告訴你,四六級不能裸考!
    泊松分布告訴你英語四六級不能裸考!「我們用概率論中經典的泊松分布分析一下心存僥倖的同志們裸考(假設全部靠蒙,沒有任何準備)通過大學英語四六級考試的概率,此處以四級為例。設隨機變量X表示你答對的題數,則X~B(85,0.25),其分布律為:若只要求及格,X≥51可見,即使是在理想化除寫作都是四選一的情況下,若毫不準備又無基礎,及格的概率將是低的,四級如此,六級亦是。
  • 透徹理解高斯分布
    概率分布函數與概率密度函數的關係:連續型隨機變量X的概率分布函數F(x),如果存在非負可積函數f(x),使得對任意實數x,有f(x)為X的概率密度高斯分布通過概率密度函數來定義高斯分布:高斯分布的概率密度函數是:均值為μ,標準差為σ 高斯分布的概率分布函數是:高斯分布標準差在概率密度分布的數據意義
  • 【Alex生信基礎課】——離散概率分布
    拓展應用:Poisson分布常用來描述RNA-seq的read count數的分布。更準確的可以用Gamma-Poisson分布(負二項分布在實數集上的擴充)來描述。粗略的理解是這樣的:首先,不考慮RNA-seq,假設從基因組上隨機選一個位置來產生一個read,這是一個泊松過程,如果畫出基因組各位置的產生reads的深度,這會是一個泊松分布。當然實際的過程不是完全的Poisson分布,因為基因組的構成的不均一性的原因。在RNA-seq中是類似的,只不過你是從所有的轉錄組中選取read而不是從基因組。
  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    在泊松分布中定義的符號有:λ是事件的發生率;t 是事件間隔的長度;X 是在一個時間間隔內的事件發生次數。設 X 是一個泊松隨機變量,那麼 X 的概率分布稱為泊松分布。以表示一個時間間隔 t 內平均事件發生的次數,則 =λ*t;X 的概率分布函數為:泊松分布的概率分布圖示如下,其中為泊松分布的參數:下圖展示了均值增加時的分布曲線的變化情況:如上所示,當均值增加時,曲線向右移動。