統計與概率論本身與數據分析的關聯度非常的高而且掌握的程度也可以很好的反映出從業者的投入程度。
接下來我們通過一些例子,來體驗概率論思維。
扔十次硬幣,真的會有五次朝上?
直覺上,我們知道拋硬幣正反兩面朝上的概率各一半,如果你真的現在去拋十次硬幣,真的有5次正面向上的情況出現麼?其實這種可能性只有1/4左右,顯然和大多數人的直覺完全不同了。
我們都知道,統計學的規律只有經過了大量隨機試驗才能得出,也才有意義。但是隨機試驗得到的結果,和我們用古典概率算出來的結論可能是兩回事。不僅你擲10次硬幣大部分時候不可能得到五次正面朝上的結果,你做其它隨機試驗也是如此。
再比如比如你擲12次骰子,大約只有30%的情況它正好有兩次六點朝上。這時你是否能講,有70%的可能性要否定六點朝上的概率是1/6這個結論呢?似乎也不是這樣的。
比如拋硬幣,每次正面朝上的概率是1/2,事件A是「正面朝上」,它出現的概率每次也是1/2。當然事件B就是反面朝上,每次的概率也是1/2。在一般情況下,出現A的概率是p,B的概率是1-p。這類試驗後來被稱為伯努利試驗。
好了,基本的設定講清楚了。我們來分析一下擲硬幣的問題。照理講,我們擲10次硬幣,正面朝上的次數應該是5次。但是如果你真的拿一個硬幣去試試,你會發現可能只有3次正面朝上,也可能4次正面朝上,甚至會出現沒有一次正面朝上的情況。
如果我們把從0次正面朝上,也就是說全部是背面朝上,到10次全是正面朝上的可能性都算出來,畫成一個折線圖,就是一個中間鼓起的曲線:
圖中可以看出,雖然5此正面向上的概率很大,但也僅有25%左右,造成試驗結果和理論值不一致的原因,是試驗十次數量太少,統計的規律性被試驗的隨機性掩蓋了。
對於這個現象我們來考慮兩家醫院,大醫院新生兒是45個,小醫院是15個,問哪一家意願新生男孩比例超過60%的天數多的可能性大?
答案是,小醫院的概率更大一些。
因為根據中心極限定理,大樣本的標準差比小樣本的低得多。
Y1~B(45,0.5),Y2~B(15,0.5),超過60%,也就是說Y1超過27,而Y2超過9,
我們用python來計算
即大醫院每日新生兒超過60%男孩的概率為6.7%,
即小醫院每日新生兒超過60%男孩的概率為15%。
大樣本比小樣本更加穩定,因為當基數足夠大的時候,每一個元素帶來的影響都會被稀釋掉,而當樣本量較小時,每個樣本的變化都會帶來較大的波動。
貝葉斯概率的理解
假設一種疾病的檢驗方法,如果被傳染,檢驗結果有99%為陽性,另一方面,未被傳染的患者有2%的可能也呈現陽性,問一名患者被監測陽性,患病的概率為多少。
事件A:患者得病
事件B:檢測結果呈陽性
P(A)=0.001,P(B|A)=0.99,P(B|~A)=0.02
P(A|B)=P(B|A)*P(A)/P(B)=P(B|A)*P(A)/(P(B|A)*P(B|~A)*P(~A))=0.99*0.001/(0.99*0.001+0.02*0.999)=4.72%
也就是說實際患病的概率5%.
Y以上,為學習所得,希望,對你有幫助。