以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容。
基礎準備
草堂君在前面介紹了概率和概率分布的概念,概率分布分類以及常見的概率分布類型,大家可以點擊下方文章連結回顧:
下面我們介紹第一種常見的離散型概率分布:二項分布。二項分布名稱中的「二項」指的是某次事件(試驗)的最終考察結果只有兩個,例如,貸款者在還款日到來之際,可能還款,也可能違約。很容易聯想到,另一種離散型概率分布:多項分布,其某次事件(試驗)的最終考察結果多於兩個。
二項分布定義
在現實生活中,許多事件或活動的結果往往只有兩個。例如:工廠質檢員檢查產品的質量,其結果只有兩個:合格或不合格;購買福利彩票,開獎以後,這張彩票的結果只有兩個:中獎或沒中獎;市場調研員詢問消費者對某種洗髮用品是否滿意,其結果也只有兩個:滿意或不滿意;撥打朋友手機的結果:接通與沒接通。如果某個事件或活動的結果多於兩個,但只關心其中一個,也可以視為只有兩個結果,例如,中國的傳統奧運會優勢項目桌球,中國隊可能獲得金牌、銀牌或銅牌,但是鑑於桌球在中國的國球地位,在國人心中,結果只有金牌和不是金牌。對於以上這些事件,在實際運用中,一般用「成功」表示我們感興趣的結果發生,用「失敗」表示我們不感興趣的結果發生,這一類事件或活動被稱為伯努利試驗,也被形象地稱為二項分布試驗。二項分布試驗對應的概率分布稱為二項分布。
假設根據過去數據總結或實際情況,某個試驗成功的概率用p表示,那麼失敗的概率為q=1-p。進行n次這樣的試驗,成功了x次,失敗的次數則為n-x,發生這種情況的概率可以用下面的公式表示:
我們稱上面的公式為二項分布的概率質量函數。從公式可知,概率由試驗次數n和「成功」概率p決定,因此二項分布的概率質量函數可以縮寫為X~B(n,p)。不同試驗次數n和「成功」概率p的組合,對應的二項分布不同,由此可見,二項分布是一個概率分布族,隨著試驗次數和成功概率的不同而不同,如下圖所示,二項分布的橫軸代表試驗「成功」次數,縱軸代表次數對應的概率。
上面的二項分布定義可以用一個具體例子來幫助大家理解:根據以往經驗,某款藥物對於小兒上呼吸道感染和支氣管炎的有效率為85%,當下有5名患者使用該藥物治療呼吸道疾病,那麼0人,1人,2人,……,5人有效果的概率可以用上面的二項分布概率質量函數確定,由這6個概率就組成了該研究的二項分布(二項概率分布)。
二項分布的性質
二項分布的均值和方差分別為np和npq。這個結論的推導,我們可以從最簡單的二項分布情況開始:假設某個試驗的「成功」概率為p,那麼只做一次試驗,其二項分布的組成概率只有兩個,分別是0次成功的概率和1次成功的概率,因此該二項分布的平均值和方差計算公式如下:
退而廣之,當進行n次試驗時,其二項分布的平均值和方差等於np和npq。當然這個推導過程不是嚴格意義上的公式推導,草堂君這樣做是為了方便大家的理解和記憶。
二項分布的第二個性質是可以轉換成「成功概率(成數)」的分布概率,也稱為二項成數分布,與二項分布不同的是,其橫軸不再是成功次數的取值軸,而是對應「成功概率」的取值軸。
二項成數分布的均值和方差分別為p和pq/n。推導過程大家可以參照上面二項分布的均值和方差推導過程進行。
二項分布的第三個性質是其圖形的變化規律。從二項分布概率密度函數可知,二項分布的概率只與試驗次數n和成功(失敗)概率p(q)有關,因此二項分布的圖形變化性質為:
「成功」的概率越接近0.5,即「成功」的概率與「失敗」概率越接近,二項分布將越對稱。保持二項分布試驗的次數n不變,隨著成功概率p越接近0.5,二項分布逐漸對稱,近似於均值為np、方差為npq的正態分布。
對於任意「成功」概率p,無論其距離0.5有多遠,隨著試驗次數n增加,二項分布與均值為np、方差為npq的正態分布越來越接近。當np>5且nq>5時,二項分布就可以近似等於均值為np,方差為npq的正態分布。
以上兩個二項分布圖形變化性質,可以由下圖明顯的觀察出來:
二項分布的應用
二項分布主要有兩個方面的應用:成功率(成數)的區間估計和成功率(成數)的假設檢驗。例如,淘寶店鋪有一項很重要的評價指標,轉換率,使用二項分布,可以計算出對淘寶店鋪轉換率的置信區間,這是區間估計的功能;又比如,已知某項疾病在全球的發病率,可以通過在某地區採樣來估計該地區的發病率是否顯著性的低於或高於該疾病在全球的發病率。
案例分析
根據全球數據統計,新生兒染色體異常率為0.01,現在隨機抽取某地400名新生兒進行檢測,發現有1名新生兒染色體異常,那麼是否可以說該地的新生兒染色體異常率低於全球水平呢?
分析思路
按照研究的背景信息,該地抽樣的結果,新生兒染色體異常率僅有1/400,貌似低於1/100的全球水平,結果如何呢?該案例是典型的二項分布試驗,試驗次數n等於400,假設該地染色體異常率與全球一致,也是0.01,然後通過二項分布概率質量函數計算400個新生兒中,0個異常和1個異常的概率之和,與顯著性水平0.05進行比較。
分析步驟
首先計算該地400個新生兒樣本中,異常新生兒數量為0人和1人的概率,假設新生兒染色體異常率與全球水平0.01相同,則概率之和等於:
可以發現,在假設發病率與全球水平0.01相同的情況下,發病人數少於1人的概率0.0905大於顯著性水平0.05,因此可以說在95%的置信度下,不能認為該地新生兒染色體異常率低於全球水平。
溫馨提示: