大多數學校的統計學悲劇在於它是多麼愚蠢。老師們花費數小時來研究導數,方程式和定理,當您最終達到最佳效果時(將概念應用於實際數字),就會出現一些無關緊要,沒有想像力的示例,例如:擲骰子。遺憾的是,如果您跳過推導(您可能永遠不需要),而專注於使用這些想法來解決有趣的問題,那麼統計數據就很有趣。
在本文中,我們將介紹兩個重要的概率概念:泊松過程和泊松分布。在僅強調相關理論之後,我們將通過一個真實的示例進行展示,將方程式和圖形的思想置於上下文中.
泊松過程泊松過程是一系列離散事件的模型,其中:
平均時間:事件之間的間隔時間是已知的,但是事件的確切時間是隨機的。
事件的到達與之前的事件無關(事件之間的等待時間是無記憶的)。例如,假設我們擁有一個網站,我們的內容交付網絡(CDN)告訴我們該網站平均每60天出現一次故障,但一個故障不會影響下一個故障的可能性。我們所知道的是兩次故障之間的平均時間。這是一個泊松過程,如下所示:
重要的一點是我們知道事件之間的平均時間,但是它們是隨機間隔的(隨機的)。我們可能會遇到不相關的故障,但是由於過程的隨機性,我們之間也可能會間隔數年(小概率)。
一個泊松過程符合以下標準(在現實中建模為泊松過程不符合這些正是許多現象):
事件彼此獨立:一個事件的發生不影響另一事件發生的可能性。
平均速率(每個時間段的事件)是恆定的(任何時間段內)。
兩個事件不能同時發生。
最後一點事件不是同時發生的意味著我們可以將泊松過程的每個子間隔都視為伯努利試驗,即成功或失敗。對於我們的網站,整個時間間隔可能為600天,但是每個子間隔(一天)都會使我們的網站出現故障或沒有中斷。
泊松過程的常見示例是客戶呼叫中心,訪問網站的訪客,原子的放射性衰變,到達太空望遠鏡的光子以及股價的變動。泊松過程通常與時間相關,但不一定如此。關於股價,我們可能知道每天的平均移動量(每次事件),同時我們也可以對一英畝的樹木數量(每個區域事件)進行泊松過程。
(通常會為Poisson Process提供一個實例,例如公交車到站(或火車或現在的Uber)。但是,這並不是真正的Poisson過程,因為到站之間並不是相互獨立的。即使對於未按時運行的公交系統,一輛公交車是否晚會影響下一趟公交車的到達時間。JakeVanderPlas撰寫了一篇很棒的文章,介紹了將Poisson流程應用於公交車的到站時間,這種方法對虛假數據比實際數據進行校準更有效。)
泊松分布泊松過程:我們使用在隨機發生的事件,但這
沒有多大用處。我們需要泊松分布來做一些有趣的事情,例如,查找某個時間段內多個事件的概率或查找直到下一個事件等待一段時間的概率。泊松分布概率質量函數給出了在給定時間段的長度和每個時間的平均事件的情況下,在一個時間段內觀察k個事件的概率:
這有點令人費解,事件/時間*時間段通常簡化為單個參數λ, λ,速率參數。通過這種替換,泊松分布概率函數現在具有一個參數:
可以將Lambda視為間隔中預期的事件數。(我們將切換為時間間隔,因為請記住,我們不必使用時間段,我們可以根據泊松過程使用面積或體積)。我喜歡寫出lambda來提醒自己,rate參數是每個時間的平均事件和時間段長度的函數,但是最常見的是上面的參數。
當我們更改速率參數λ時,我們更改了在一個時間間隔內看到不同事件數量的概率。下圖是泊松分布的概率質量函數,顯示了在具有不同速率參數的時間間隔內發生多個事件的概率。
每條曲線的間隔中最可能發生的事件數是events = rate參數情況下。這是有道理的,因為rate參數是間隔中預期的事件數,因此,當它是整數時,rate參數時間數將是概率最大的事件數。
如果它不是整數,則事件的最高概率數將是與rate參數最接近的整數,因為泊松分布僅針對離散數量的事件進行定義。泊松分布的離散性質也是為什麼這是概率質量函數而不是密度函數的原因。(rate參數也是分布的均值和方差,不必為整數。)
我們可以使用泊松分布質量函數來找到在泊松過程生成的時間間隔內觀察多個事件的概率。質量函數方程式的另一種用法(我們將在後面看到)是找到事件之間等待一段時間的概率。
一個具體的例子對於我們將通過Poisson分布解決的問題,我們可以繼續處理網站故障,但我提出了更宏大的建議。在我的童年時期,父親經常帶我去院子裡觀察(或嘗試觀察)流星雨。我們不是太空極客,但是即使在最冷的月份似乎總是發生流星雨,看著外太空燃燒的物體足以將我們吸引到室外。
由於流星是獨立的,每小時平均流星數是恆定的(短期內),而且流星的數目不是恆定的,因此流星的數目可以建模為泊松分布。為了表徵泊松分布,我們所需要的只是速率參數,它是事件數/間隔*間隔長度。從我記得,我們被告知要期待每小時5顆流星或1個流星/每12分鐘。由於幼兒的耐心有限(尤其是在寒冷的夜晚),我們從來沒有停留超過60分鐘,因此我們將其作為時間段。將兩者放在一起,我們得到:
「預期5顆流星」到底是什麼意思?好吧,根據父親最保守考慮,這意味著我們在一小時內會看到3個流星,不能再多了了。當時,我沒有數據科學技能,並且相信他的判斷。現在我已經年紀大了,對權威人士也持懷疑態度,現在該對他的陳述進行檢驗了。我們可以使用泊松分布找到在一小時的觀測中恰好看到3個流星的概率:
下圖顯示了一個小時內流星數的概率質量函數,平均流星之間的時間為12分鐘(這與一個小時內預期流星數為5相同)
這就是「 5個預期事件」的含義!流星最可能的數目是5,即分布的速率參數。(由於數字的怪異,4和5的概率相同,為18%)。與任何分布一樣,有一個最可能的值,但也有很多種可能的值。例如,我們可以出去看0個流星,或者一小時內可以看到10個以上。為了找到這些事件的總概率,我們使用相同的方程式,但是,這次是計算離散概率的總和。
我們已經計算出看到3個流星的機會約為14%。一小時內看到3個或更少的流星的機率是27%,這意味著多於3 個的流星的機率是73%。同樣,超過5個流星的概率為38.4%,而我們可以期望在61.6%的觀測小時內看到5個或更少的流星。雖然很小,但有1.4%的機會在一小時內觀測10個以上的流星!
為了可視化這些可能的情況,我們可以通過讓姐姐記錄她在10,000小時內每小時看到的流星數來進行實驗。結果顯示在下面的直方圖中:
(這顯然是一種模擬)觀察可能的結果會進一步證明這是一種分布,並且預期結果並不總是會發生。在幾個幸運的夜晚,儘管一個小時通常會看到4或5個流星,但我們在一小時內目睹過10個或更多的流星(小概率)。
理解實驗Rate參數速率參數λ是定義泊松分布所需的唯一數字。但是,由於它是兩個部分(事件/間隔*間隔長度)的乘積,因此有兩種更改方法:我們可以增加或減少事件/間隔,也可以增加或減少間隔長度。
首先,讓我們通過增加或減少每小時流星的數量來更改速率參數,以查看分布如何受到影響。對於此圖,我們將時間段保持恆定為60分鐘(1小時)。
在每種情況下,一小時中最可能出現的流星數是預期的流星數,即泊松分布的速率參數。例如,在每小時12個流星(MPH)的情況下,我們的速率參數為12,並且有11%的機會在1小時內精確觀測12個流星。如果我們的速率參數增加,我們應該期望每小時看到更多的流星。
另一種選擇是增加或減少間隔長度。以下是同一圖,但是這次我們將每小時的流星數量保持恆定為5,並更改了觀察到的時間長度。
期望我們待更長的時間看到更多的流星也就不足為奇了!誰說「猶豫的人迷路了」,顯然誰也不會站在周圍觀看流星雨。
等待的時間泊松過程中一個引人入勝的部分涉及弄清楚我們要等到下一個事件才等待多長時間(有時稱為到達間隔時間)。考慮一下情況:流星平均每12分鐘出現一次。如果我們是隨機到達的,那麼我們期望等待多久才能看到下一顆流星?我父親總是(樂觀地)聲稱我們只需要等待6分鐘,第一顆流星就符合我們的直覺。但是,如果我們學到了什麼,那就是我們的直覺並不擅長在概率上。
我將不進行推導(它來自概率質量函數方程式),但是我們可以期望在事件之間等待的時間是一個衰減的指數。隨著時間的增加,連續事件之間等待給定時間量的概率呈指數下降。以下等式顯示了等待時間超過指定時間的概率。
在我們的示例中,我們每12分鐘有1個事件,如果插入數字,我們有60.65%的機會等待> 6分鐘。我父親的猜想真是太多了!為了說明另一種情況,我們可以期待大約8.2%的時間等待30分鐘以上。(我們需要注意,這是在每個連續的事件對之間。事件之間的等待時間是無記憶的,因此,兩個事件之間的時間對任何其他事件之間的時間都沒有影響。這種無記憶性也稱為Markov屬性)。
圖表可以幫助我們直觀地觀察等待時間的指數衰減:
等待超過0分鐘的機會為100%,等待超過80分鐘的機會為0%。同樣,由於這是分布,因此可能的到達時間範圍很廣。
相反,我們可以使用以下等式找到等待時間小於或等於時間的概率:
我們可以等待6分鐘或更短的時間才能看到39.4%的流星。我們還可以找到等待一段時間的概率:等待5到30分鐘才能看到下一顆流星的概率為57.72%。
為了可視化等待時間的分布,我們可以再次運行(模擬)實驗。我們模擬觀看100,000分鐘,平均速度為1流星/ 12分鐘。然後,我們找到看到的每個流星之間的等待時間,並繪製分布圖。
最可能的等待時間是1分鐘,但這不是平均等待時間。讓我們回到最初的問題:如果我們隨機到達,我們平均要等多久才能看到第一顆流星?
為了回答平均等待時間問題,我們將進行10,000次單獨的試用,每次觀看天空100,000分鐘。下圖顯示了這些試驗中流星之間平均等待時間的分布:
10,000個平均值的平均值為12.003分鐘。即使我們到達的時間是隨機的,我們可以期待的等待第一顆流星的平均時間就是兩次出現之間的平均時間。一開始,這可能很難理解:如果事件平均每12分鐘發生一次,那麼為什麼我們必須等待整個12分鐘才能看到一個事件?答案是這是平均等待時間,考慮了所有可能的情況。
如果流星正好來到每隔12分鐘,那麼我們就必須在平均時間等待,看看第一個是6分鐘。但是,由於這是指數分布,因此有時我們會出現並且必須等待一個小時,而等待少於12分鐘的次數超過了很多次。這稱為「 等待時間悖論」,值得一讀。
作為最終的可視化,讓我們對1小時的觀察進行隨機模擬
好吧,這次我們得到了我們所期望的:5顆流星。第一場比賽我們不得不等待15分鐘,但隨後又有很多流星。至少在這種情況下,值得出門進行天體觀察!
關於泊松分布和二項分布的注釋二項分布用於對我們可以從概率為p的n次試驗中期望的成功次數的概率進行建模。泊松分布是二項分布的特例,因為n達到無窮大,而預期的成功次數保持固定。如果n大而p小,則將Poisson用作二項式的近似值。
與統計中的許多想法一樣,「大」和「小」取決於解釋。經驗法則是,如果n> 20並且np <10,則Poisson分布是二項式的體面近似。因此,即使n次= 50,即使對於100次試驗,硬幣翻轉也應建模為二項式。呼叫中心在120分鐘內每30分鐘獲得1個呼叫的呼叫中心可以建模為泊松分布,np =4。一個重要的區別是,對於一組固定的試驗(域是離散的),發生了二項式,而在理論上無數次試驗(連續域)。這只是一個近似值;記住,所有模型都是錯誤的,但是有些有用!
有關此主題的更多信息,請參閱Wikipedia上的「 相關分發」部分中的Poisson分發。這裡還有一個很好的Stack Exchange答案。
關於流星/隕石/類隕石/小行星的注意事項流星是您在天空中看到的光斑,是由稱為流星體的碎片在大氣中燃燒引起的。甲流星可以來自小行星,彗星,或者是一塊行星並且通常在直徑毫米,但可以高達一公裡。如果流星體在穿越大氣層中倖存下來並撞擊地球,則稱其為隕石。小行星是小行星帶中繞太陽公轉的大塊巖石。破裂的小行星碎片變成流星體。你知道的越多!
結論總而言之,泊松分布給出了由泊松過程產生的時間間隔內許多事件的概率。泊松分布由速率參數λ定義,該參數是間隔中的預期事件數(事件/間隔*間隔長度)和事件的最高概率數。我們還可以使用泊松分布來找到事件之間的等待時間。即使我們到達隨機時間,平均等待時間也始終是事件之間的平均時間。
下次您發現自己對統計失去關注時,您已獲我同意不再關注老師。相反,找到相關的方程式並將其應用於一個有趣的問題。您可以學習這些材料,並對統計數據如何幫助我們了解世界感到讚賞。首先,請保持好奇:世界上有許多驚人的現象,我們可以使用數據科學來探索它們,