以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容。
基礎準備
前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:
今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
泊松分布的現實應用
泊松概率分布考慮的是在連續時間或空間單位上發生隨機事件次數的概率,簡而言之就是:基於過去某個隨機事件在某段時間或某個空間內發生的平均次數,預測該隨機事件在未來同樣長的時間或同樣大的空間內發生n次的概率。由於泊松分布適用於描述單位時間(或空間)內隨機事件發生的次數,因此它常用於預測某些事件的發生,例如某家醫院在一定時間內到達的人數;超市收銀臺在某段時間內的結帳人數;公交車站在某個時間段的候車人數等。
泊松分布推導
泊松分布的概率質量函數可以由二項分布的概率質量函數推導而來,下面為大家列出推導過程。首先由前面我們介紹的二項分布的概率質量函數開始:
假定某個隨機事件在過去的歷史中,在固定長度時間段或固定大小空間內發生的平均次數為λ,那麼就可以將固定長度的時間或固定大小的空間分成n等份;在每等份的時間或空間內,隨機事件發生的概率可以表示為λ/n。若n趨向於無窮,也就是這段時間或空間被分成無數的小段,那麼λ/n的值將趨近於0,也就是在每個等份的時間或空間內,該隨機事件發生兩次或兩次以上是不可能的。根據以上假設條件,在固定長度時間或固定大小空間內,隨機事件發生k次的概率服從二項概率分布,可以表示為:
上面的變換過程,需要用到以下公式代換條件:
泊松分布性質
從泊松分布的概率質量函數可以看出,泊松分布是關於歷史平均次數λ的函數,隨著歷史平均次數λ的不同,泊松分布的概率分布形態也將隨之改變。如下圖,隨著λ從1變成5,泊松分布的形態也由右偏分布(尾巴在右)逐漸變為對稱分布。
泊松分布的均值和方差也可以通過二項分布的均值和方差進行推導。首先前面介紹了二項分布的均值和方差為:
在泊松分布中,隨機事件成功的概率p=λ/n,失敗的概率為q=1-λ/n;因為λ/n趨近於0,所以q=1-λ/n趨近於1。將以上已知條件帶入二項分布均值和方差公式,得到泊松分布的均值和方差:
正因為在泊松分布中的概率質量函數中只有一個參數,減少了對參數的確定與修改的工作量,構建模型比較簡單,因此具有很重要的實際意義。
泊松分布的特徵
泊松分布是一種描述和分析稀有事件的概率分布。要觀察到這類事件,樣本量n必須很大。
λ是泊松分布所依賴的唯一參數。λ值越小,分布越偏倚,隨著λ的增大,分布趨於對稱。
在實際工作中,當λ時,就可以用正態分布近似地處理泊松分布的問題。
生活案例
中國人口眾多,就業問題一直是政府重點需要解決的問題。在經濟發展較為落後的城鄉區域,夫妻老婆店很多時候是一家人賴以生存的謀生方式,商品庫存總是這類小店特別需要注意的地方,因為稍有不慎就會導致虧本,而泊松分布是用於這類小店庫存管理特別好的工具。下面運用泊松分布來解決夫妻老婆店商品庫存量的問題,已知某家小雜貨店,在過去很長一段時間裡,平均每周只會售出2包中華煙,試問店主應該如何確定中華煙的庫存量?
分析思路
假定不存在條件的影響,可近似認為:1、該店賣出中華煙是小概率事件;2、購買中華煙的行為是相互獨立的;3、由於是過去很長時間的數據總結,因此可以認為該店賣出中華煙的概率是穩定的;因此該店賣出中華煙的概率服從泊松分布。
根據泊松分布的概率質量函數:
將上面案例中的已知條件嗲如泊松分布的概率公式,可以得到下表結果。由結果可知,如果庫存4包中華煙,那麼有將近95%的概率不會賣斷貨;如果存貨5包中華煙,那麼不會賣斷貨的概率增加到98%以上。
從表格結果可以看出,庫存越多,賣斷貨的概率越小,但是庫存多,壓在貨物上的資金也越多。由此可見,店主應該根據自身的現金流情況,並結合考慮賣斷貨的風險選擇一個合理的中華煙庫存量為宜。
溫馨提示:
數據分析課程私人定製,一對一輔導,添加微信(possitive2)諮詢!目前推出的一對一課程:《問卷分析與分析思維培養》課程。
生活統計學QQ群:134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。
生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。
數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!
草堂君的統計基礎導航頁文章已經整理發表,可以前往任意電商網站購買