二項分布及其實際應用場景

2021-03-02 生活統計學


以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容

基礎準備

草堂君在前面介紹了概率和概率分布的概念,概率分布分類以及常見的概率分布類型,大家可以點擊下方文章連結回顧:

下面我們介紹第一種常見的離散型概率分布:二項分布。二項分布名稱中的「二項」指的是某次事件(試驗)的最終考察結果只有兩個,例如,貸款者在還款日到來之際,可能還款,也可能違約。很容易聯想到,另一種離散型概率分布:多項分布,其某次事件(試驗)的最終考察結果多於兩個。

二項分布定義

在現實生活中,許多事件或活動的結果往往只有兩個。例如:工廠質檢員檢查產品的質量,其結果只有兩個:合格或不合格;購買福利彩票,開獎以後,這張彩票的結果只有兩個:中獎或沒中獎;市場調研員詢問消費者對某種洗髮用品是否滿意,其結果也只有兩個:滿意或不滿意;撥打朋友手機的結果:接通與沒接通。如果某個事件或活動的結果多於兩個,但只關心其中一個,也可以視為只有兩個結果,例如,中國的傳統奧運會優勢項目桌球,中國隊可能獲得金牌、銀牌或銅牌,但是鑑於桌球在中國的國球地位,在國人心中,結果只有金牌和不是金牌。對於以上這些事件,在實際運用中,一般用「成功」表示我們感興趣的結果發生,用「失敗」表示我們不感興趣的結果發生,這一類事件或活動被稱為伯努利試驗,也被形象地稱為二項分布試驗。二項分布試驗對應的概率分布稱為二項分布。

 

假設根據過去數據總結或實際情況,某個試驗成功的概率用p表示,那麼失敗的概率為q=1-p。進行n次這樣的試驗,成功了x次,失敗的次數則為n-x,發生這種情況的概率可以用下面的公式表示:

我們稱上面的公式為二項分布的概率質量函數。從公式可知,概率由試驗次數n和「成功」概率p決定,因此二項分布的概率質量函數可以縮寫為X~B(n,p)。不同試驗次數n和「成功」概率p的組合,對應的二項分布不同,由此可見,二項分布是一個概率分布族,隨著試驗次數和成功概率的不同而不同,如下圖所示,二項分布的橫軸代表試驗「成功」次數,縱軸代表次數對應的概率。

上面的二項分布定義可以用一個具體例子來幫助大家理解:根據以往經驗,某款藥物對於小兒上呼吸道感染和支氣管炎的有效率為85%,當下有5名患者使用該藥物治療呼吸道疾病,那麼0人,1人,2人,……,5人有效果的概率可以用上面的二項分布概率質量函數確定,由這6個概率就組成了該研究的二項分布(二項概率分布)。

 

二項分布的性質

二項分布的均值和方差分別為np和npq。這個結論的推導,我們可以從最簡單的二項分布情況開始:假設某個試驗的「成功」概率為p,那麼只做一次試驗,其二項分布的組成概率只有兩個,分別是0次成功的概率和1次成功的概率,因此該二項分布的平均值和方差計算公式如下:

退而廣之,當進行n次試驗時,其二項分布的平均值和方差等於np和npq。當然這個推導過程不是嚴格意義上的公式推導,草堂君這樣做是為了方便大家的理解和記憶。

二項分布的第二個性質是可以轉換成「成功概率(成數)」的分布概率,也稱為二項成數分布,與二項分布不同的是,其橫軸不再是成功次數的取值軸,而是對應「成功概率」的取值軸。

二項成數分布的均值和方差分別為p和pq/n。推導過程大家可以參照上面二項分布的均值和方差推導過程進行。

二項分布的第三個性質是其圖形的變化規律。從二項分布概率密度函數可知,二項分布的概率只與試驗次數n和成功(失敗)概率p(q)有關,因此二項分布的圖形變化性質為:

「成功」的概率越接近0.5,即「成功」的概率與「失敗」概率越接近,二項分布將越對稱。保持二項分布試驗的次數n不變,隨著成功概率p越接近0.5,二項分布逐漸對稱,近似於均值為np、方差為npq的正態分布。

對於任意「成功」概率p,無論其距離0.5有多遠,隨著試驗次數n增加,二項分布與均值為np、方差為npq的正態分布越來越接近。當np>5且nq>5時,二項分布就可以近似等於均值為np,方差為npq的正態分布。

以上兩個二項分布圖形變化性質,可以由下圖明顯的觀察出來:

二項分布的應用

二項分布主要有兩個方面的應用:成功率(成數)的區間估計和成功率(成數)的假設檢驗。例如,淘寶店鋪有一項很重要的評價指標,轉換率,使用二項分布,可以計算出對淘寶店鋪轉換率的置信區間,這是區間估計的功能;又比如,已知某項疾病在全球的發病率,可以通過在某地區採樣來估計該地區的發病率是否顯著性的低於或高於該疾病在全球的發病率。

案例分析

根據全球數據統計,新生兒染色體異常率為0.01,現在隨機抽取某地400名新生兒進行檢測,發現有1名新生兒染色體異常,那麼是否可以說該地的新生兒染色體異常率低於全球水平呢?

 

分析思路

按照研究的背景信息,該地抽樣的結果,新生兒染色體異常率僅有1/400,貌似低於1/100的全球水平,結果如何呢?該案例是典型的二項分布試驗,試驗次數n等於400,假設該地染色體異常率與全球一致,也是0.01,然後通過二項分布概率質量函數計算400個新生兒中,0個異常和1個異常的概率之和,與顯著性水平0.05進行比較。

分析步驟

首先計算該地400個新生兒樣本中,異常新生兒數量為0人和1人的概率,假設新生兒染色體異常率與全球水平0.01相同,則概率之和等於:

可以發現,在假設發病率與全球水平0.01相同的情況下,發病人數少於1人的概率0.0905大於顯著性水平0.05,因此可以說在95%的置信度下,不能認為該地新生兒染色體異常率低於全球水平。

溫馨提示:

相關焦點

  • 超幾何分布及其實際應用場景
    基礎準備前面草堂君介紹了三種離散型概率分布及其實際應用場景的文章,大家會發現這些概率分布都是生活中常見情況的總結,大家可以點擊下方文章連結回顧:今天草堂君給大家再介紹一種常用的離散型概率分布:超幾何概率分布。
  • 泊松分布及其實際應用場景
    基礎準備前面為大家介紹了第一種常見的離散型概率分布:二項分布及其實際生活運用,大家可以點擊下方文章連結及進行回顧:今天要給大家介紹的是第二種常見的離散型概率分布:泊松分布。泊松分布是以18~19 世紀的法國數學家西莫恩·德尼·泊松的名字命名的,它作為一種常見的離散型變量的分布,在實際生活中有著非常廣泛的應用。
  • 指數分布及其實際應用場景
    基礎準備前面介紹介紹了常用的幾種離散型概率分布及其實際應用場景以及連續型概率分布--貝塔分布的內容,大家可以點擊下方文章連結回顧:指數分布介紹完常用的離散型概率分布以後,接下來將介紹常用的連續型概率分布,指數分布是第一個要介紹的連續型概率分布。
  • 談談「二項分布與超幾何分布的異同」
    二項分布與超幾何分布是兩個非常重要的、應用廣泛的概率模型,實際中的許多問題都可以利用這兩個概率模型來解決.在實際應用中,理解並區分兩個概率模型是至關重要的.下面結合概念並舉例進行對比辨析.超幾何分布和二項分布都是離散型分布.超幾何分布和二項分布的區別:超幾何分布需要知道總體的容量,而二項分布不需要;超幾何分布是不放回抽取,而二項分布是放回抽取(獨立重複)當總體的容量非常大時,超幾何分布近似於二項分布...
  • 幾何分布、二項分布及泊松分布:堅持離散
    在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變。【課本】在相互獨立事件中,每道題答對概率為p,答錯概率為q。在n個問題中答對r個問題的概率為: 這類問題稱之為二項分布。
  • 泊松分布與二項分布
    很多人在上概率論這門課的時候就沒搞明白過泊松分布到底是怎麼回事,雖然那個時候大家都會背「當試驗的次數趨於無窮大,而乘積np固定時,二項分布收斂於泊松分布
  • 高中數學中二項分布與正態分布知道是什麼嗎?會計算相關問題嗎?
    二、相互獨立事件的概率相互獨立的兩個事件互不影響,符合:三、二項分布及其應用二項分布的簡單應用是求n次獨立重複試驗中事件A恰好發生k次的概率;即其均值和方差的求解既可以利用定義,也可以直接代入上述公式.
  • 重回數學:統計與分布之伯努利分布與二項分布
    則可以稱伯努利隨機變量 X 服從參數為 p 的伯努利分布,其分布律為:對於伯努利分布來說,其離散型隨機變量期望為:E(x) = ∑x∗p(x) = 1∗p+0∗(1−p) = p方差為:D(x) = E(x^2)−(E^2)(x) = 12∗p−p2 = p(1−p)二項分布二項分布(
  • 幾何分布和二項分布有什麼區別?
    ,二項分布和幾何分布經常同時出現,在前面講泊松分布的時候也簡單提到了二項分布。那麼,幾何分布是什麼分布?和二項分布有什麼區別?講泊松分布的時候提到,二項分布的概率公式如下: 大家知道,拋硬幣實驗是最經典的二項分布實驗,一般是求n次拋硬幣實驗中有k(k ≤ n)次正面朝上的概率。而幾何分布和二項分布很像,所適用的條件和二項分布也一樣,不過其計算更為簡單。
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 二項分布在日常分析推理中的妙用
    二項分布在日常生活中有什麼用處?
  • 2021考研概率論與數理統計衝刺:隨機變量及其分布考試要求_北京...
    隨機變量及其分布考試要求1.理解隨機變量的概念,理解分布函數的概念及性質,會計算與隨機變量相聯繫的事件的概率。2.理解離散型隨機變量及其概率分布的概念,掌握0-1分布、二項分布、幾何分布、超幾何分布、泊松(Poisson)分布及其應用。
  • 概念辨析「二項分布與超幾何分布」的聯繫與區別
    本文來源於公眾號:品數學(ID:pinmaths)中學數學教與學(ID:zxsxjyx)選編(轉載請註明出處)經常有學生問二項分布與超幾何分布到底怎麼區分,是利用二項分布的公式去解決這道概率題目,本質區別:(1) 超幾何分布描述的是不放回抽樣問題,而二項分布描述的是放回抽樣問題.(2) 超幾何分布中的概率計算實質上是古典概型問題;二項分布中的概率計算實質上是相互獨立事件的概率問題.
  • CFA知識點——伯努利概型和二項分布
    二項分布實際上就是做n次獨立的伯努利試驗。注意二項分布在這裡不考慮結果出現的先後次序,也就是說前8次是正面朝上,後2次是反面朝上,與第1次是反面朝上,然後是8次是正面朝上,最後1次又是反面朝上的情況,我們認為是等價的,都是8次正面朝上,2次背面朝上。
  • 概念辨析丨二項分布與超幾何分布的聯繫與區別
    經常有學生問二項分布與超幾何分布到底怎麼區分,是利用二項分布的公式去解決這道概率題目,還是利用超幾何分布公式解決呢
  • 多模態人物識別技術及其在愛奇藝視頻場景中的應用|公開課筆記
    晚8點直播主題:可重構計算:能效比、通用性,一個都不能少嘉賓 | 愛奇藝編輯 | Jane出品 | AI科技大本營(ID:rgznai100)在本期 CSDN 技術公開課Plus:《多模態人物識別技術及其在視頻場景中的應用
  • 正態分布及其應用
    之後,如果我們想要知道男生身高數據的分布情況,比如1.7米至1.75米之間,有多少人,佔所有男生的比例是多少,我們應該怎麼做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區間等分成若干組,統計每一組男生的人數和頻率。然後,在平面直角坐標系中,用橫坐標代表身高,縱坐標是每個小組的頻率除以相應的組距,並繪製出相應的矩形,每個矩形的面積就是該小組的頻率。
  • 二代測序數據統計分析中為什麼是負二項分布?
    泊松分布 or 負二項分布?從統計學的角度出發,進行差異分析肯定會需要假設檢驗,通常對於分布已知的數據,運用參數檢驗結果的假陽性率會更低。轉錄組數據中,raw count值符合什麼樣的分布呢?count值本質是reads的數目,是一個非零整數,而且是離散的,其分布肯定也是離散型分布。
  • 二項分布型高分策略...
    2018年全國卷的次壓軸題,由傳統的圓錐曲線變成概率,下面將概率中的熱量題型——二項式概型答題高分策略、模板例析如下:二項分布的簡單應用是求n次獨立重複試驗中事件A恰好發生k次的概率.解題的一般思路是:根據題意設出隨機變量→分析出隨機變量服從二項分布→ 找到參數n,p→將k值代入求解概率→寫出二項分布的分布列.
  • 負二項分布在差異分析中的應用
    無論是DESeq還是edgeR, 在文章中都會提到是基於負二項分布進行差異分析的。為什麼要要基於負二項分布呢?從統計學的角度出發,進行差異分析肯定會需要假設檢驗,通常對於分布已知的數據,運用參數檢驗結果的假陽性率會更低。轉錄組數據中,raw count值符合什麼樣的分布呢?