條件概率與貝葉斯統計

2021-02-20 圖靈教育

迄今為止,我們使用的統計方法在統計學中都稱為頻率論方法。我們從樣本中得出的結論完全基於數據的頻率或比例。這是最常用的一種推理框架,已經發展成為一種非常成熟的理論,主要內容包括本書前面介紹過的假設檢驗和置信區間。從原則上說,這種方法的優點是無偏性,結論僅僅建立在觀測到的數據之上。但是,某些情況更適合使用另外一種統計方法:貝葉斯統計。

圖1 太陽爆炸了嗎?

圖 1 中畫的是什麼情況呢?頻率論統計學家很清楚,只有兩種可能:探測器擲出一對 6,表示它說了謊;或者擲出其他的數,表示它說的是真的。因為沒有擲出一對 6 的概率是 35/326(97.22%),所以頻率論統計學家得出結論,探測器可能說的是真話。因此,太陽真的可能爆炸了。

貝葉斯統計學家在建立概率模型時會加入額外的信息。他也認為探測器不太可能擲出一對 6,然而,他主張要將探測器說真話的概率與太陽沒有爆炸的先驗概率進行比較。這位貝葉斯統計學家最終認為,太陽沒有爆炸的概率比 97.22% 還要大,並決定賭一把「太陽明天照常升起」。

1.條件概率

構成貝葉斯推理基礎的核心思想就是條件概率。在以前對概率的討論中,我們依賴於一種前提假設,即事件都是獨立的。例如,我們會這樣假設,拋出一枚硬幣的結果是正面還是反面,與上一次拋擲的結果是正面還是反面無關。這種假設對於數學計算非常方便,但生活並不總是這樣。在很多實際情況中,獨立性是個糟糕的假設。

考慮一下隨機選擇出一個體重超過 180 磅的美國成年男性的概率。男性的概率為 0.5,體重超過 180 磅(美國人的平均體重)的概率也大約是 0.5。所以,如果這兩個事件是獨立的,那麼找出一個既是男性體重又超過 180 磅的人的概率就是 0.25。但是,這兩個事件不是獨立的,因為美國男性的平均體重要比女性多 30 磅。所以,這個問題應該是這樣的:(1)選擇一個男性的概率是多少;(2)如果選擇出來的人是男性,那麼這個人的體重超過 180 磅的概率是多少。使用條件概率的表示方法可以更容易地表述這個問題。

P(A|B) 表示當 B 為真時,A 為真的概率,它經常讀作「給定 B 時,A 的概率」。因此,公式:

P(male)*P(weight > 180 | male)

準確表達了我們要找出的概率。如果 P(A) 和 P(B) 是獨立的,那麼 P(A|B) = P(A)。對於前面的例子,B 表示男性,A 表示體重>180。一般地,如果 P(B) ≠ 0,則:

P(A|B) =P(A+B)/P(B)

與一般的概率一樣,條件概率也位於 0 和 1 之間。而且,如果 A 表示 not A,那麼 P(A|B) + P(|B) = 1。

人們經常錯誤地認為 P(A|B) 等於 P(B|A),但這種想法是完全站不住腳的。例如,P(male|Maltese)的值大約等於 0.5,但 P(Maltese|male) 只有大約 0.000064。

實際練習:估計一下隨機選擇一個體重大於 180 磅的美國男性的概率。假設美國人口的 50% 是男性,而且美國男性的體重服從均值為 210 磅、標準差為 30 磅的正態分布。(提示:可以考慮使用經驗法則。)

公式 P(A|B, C) 表示當 B 和 C 同時成立時,A 成立的概率。假設 B 和 C 是互不相關的,那麼通過條件概率的定義和獨立概率的乘法法則可知:

P(A | B, C)= P(A, B, C)/ P(B, C)

這裡的 P(A, B, C) 表示 A、B 和 C 同時為真的概率。同樣地,P(A, B|C) 表示當 C 為真時,A 和 B 同時為真的概率。假設 A 和 B 是互不相關的,那麼:

P(A, B | C)=P(A | C)*P(B| C)

2.貝葉斯定理

假設一個四十多歲的沒有臨床症狀的女性做了一次乳腺X光檢查,然後收到了一個壞消息:檢查結果是「陽性」。

患有乳腺癌的女性通過乳腺 X 光檢查確診的真陽性概率為 0.9。而沒有患乳腺癌的女性通過乳腺 X 光檢查誤診為乳腺癌的假陽性概率為 0.07。

我們可以使用條件概率表示以上的事實。令:

使用這些變量,我們可以得到如下條件概率:

知道了這些條件概率,那麼一個年過不惑的女性應該如何面對陽性的乳腺 X 光檢查結果呢?她確實罹患乳腺癌的概率是多少?因為假陽性率是 7%,所以概率應該是 0.93 嗎?還是應該比這個大,抑或比這個小?

這個問題很複雜:我們沒有提供足夠的信息可以使你給出一個合理的解答。要回答這個問題,你需要知道年過四十的女性罹患乳腺癌的先驗概率。對於四十多歲的女性來說,患有乳腺癌的比例是0.008(1000 個人中有 8 個)。因此,沒有乳腺癌的比例是 1-0.008 = 0.992。也就是說:

現在我們已經有了足夠的信息,可以解決年過四十的女性所擔心的問題了。要計算出她患有乳腺癌的概率,我們需要使用貝葉斯定理(通常稱為貝葉斯定律或貝葉斯法則):

在貝葉斯統計中,概率測量的是可信度。貝葉斯定理表明了不考慮證據的可信度和考慮了證據的可信度之間的關係。公式等號左邊的部分 P(A | B) 是後驗概率,即考慮了 B 之後的 A 的可信度。後驗概率定義為先驗概率 P(A) 與證據 B 對 A 的支持度的乘積。支持度是 A 成立的情況下 B 成立的概率與不考慮 A 時 B 成立的概率的比值,即:

P(B| A)/ P(B)。

如果使用貝葉斯定理來估計那位女性確實患有乳腺癌的概率,我們可以得到(Canc 即貝葉斯定理中的 A,Pos 則是 B):

檢查結果為陽性的概率為:

所以,

也就是說,大約 90% 的乳腺X光檢查陽性結果都是假陽性!在這裡,貝葉斯定理能夠起作用的原因就是,我們對四十歲以上的女性患乳腺癌的概率有一個準確的估計。

請一定記住,如果先驗概率是錯的,那麼估計後驗概率時,只能使估計結果更壞,而不是更好。舉例來說,如果開始時的先驗概率為:

那麼我們會得出假陽性率大約為 5%,也就是說,四十歲以上的女性在乳腺 X 光檢查結果為陽性的情況下,患有乳腺癌的概率是 0.95。

實際練習:你正在森林中漫步,突然發現一片看上去非常鮮美的蘑菇。你採了滿滿一籃蘑菇,準備回家為丈夫準備一頓豐盛的晚餐。但是,在烹製蘑菇之前,丈夫建議你找本關於本地蘑菇種類的書參考一下,看看它們是否有毒。這本書說,在本地的森林中,80% 的蘑菇都是有毒的。然而,你將你採的蘑菇與書中圖片裡的蘑菇對比了一下,確定有 95% 的把握可以認為你的蘑菇是安全的。那麼你是否應該將蘑菇做給丈夫吃(如果你不想成為寡婦的話)?

3.貝葉斯更新

通過應用貝葉斯定理,貝葉斯推理提供了一種理論方法,可以使用新的證據修正先前的可信度。貝葉斯定理可以迭代使用:觀測到一些新證據之後,可以將原來的後驗概率作為先驗概率,並根據新的證據計算出新的後驗概率。這使得貝葉斯定理可以應用在各種類型的證據上,無論是一下子同時出現的證據,還是隨著時間推移逐漸出現的證據。這個過程就稱作貝葉斯更新。

我們看一個例子。假設你有一個袋子,其中裝有相同數量的三種骰子,每種骰子擲出6的概率都不一樣。A 類型的骰子擲出 6 的概率是 1/5,B 類型的骰子擲出 6 的概率是 1/6,C 類型的骰子擲出 6 的概率是 1/7。把手伸進袋子,抓出 1 個骰子,並估計這個骰子是 A 類型的概率。甚至不需要很多概率知識你就可以知道,這個概率的最優估計值是 1/3。然後,擲兩次骰子,並根據結果修正你的估計。如果每次都擲出 6,那麼很明顯這個骰子是 A 類型的可能性要更大一些。那麼這個更大的可能性是多少呢?我們可以使用貝葉斯更新來回答這個問題。

根據貝葉斯定理,第一次擲出 6 後,這個骰子是 A 類型的概率為:

P(A | 6)=P(A)*P(6 | A)/ P(6)

其中:

圖2中的代碼實現了貝葉斯定理,並使用這個定理計算出骰子是 A 類型的概率。請注意,第二次調用 calcBayes 函數時,使用了第一次調用的結果作為 A 的的先驗概率。

圖2 貝葉斯更新

貝葉斯更新運行這段代碼,會輸出:

可以看出,這個概率估計的修正值是一直上升的。

那麼,如果兩次投擲都沒有擲出 6,會是什麼情況呢?將圖 2 中的最後 4 行代碼替換為以下代碼:

會輸出:

可以看出,這個概率估計的修正值在一直下降。假設有理由相信袋子中 90% 的骰子都是A類型,只需將原來代碼中的先驗概率 priorA 修改為 0.9 即可。這樣,如果模擬兩次投擲都沒有擲出 6 的情況,代碼會輸出:

可見,先驗概率有多麼重要!

我們再做一個實驗。仍然保持 priorA = 0.9,看看如果抓出的骰子實際上是 C 類型會發生什麼。圖 3 中的代碼模擬了擲 200 次 C 類型的骰子(它擲出 6 的概率是 1/7),然後在每 20 次投擲之後,對這個骰子是 A 類型的概率進行一次修正,並輸出修正後的估計值。

圖3 對較差先驗概率的貝葉斯更新

對較差先驗概率的貝葉斯更新運行這段代碼,會輸出:

好消息是,即使是在給定了一個有誤導性的先驗概率的情況下,當試驗次數逐漸增加時,後驗概率還是逐漸收斂於真相。順便提一句,我們還要注意,這個過程不是單調收斂的。120 次投擲之後的概率要高於 100 次投擲之後的概率,說明這 20 次投擲更符合骰子是A類型的情況,而不是 B 類型或 C 類型。

如果我們從一個更好的先驗概率開始,後驗概率會收斂得更快。如果回到 1/3 的初始先驗概率,那麼在 100 次投擲之後,後驗概率就收斂到了 0.0335;在 200 次投擲之後,則收斂到 0.0205。

本文內容摘自《Python編程導論(第2版)》,作者 John V. Guttag 是 MIT 最受歡迎的教授之一 。加塔教授的計算機科學課,MIT 6.00SC Introduction to Computer Science and Programming 第一堂在油管的觀看量已經接近 60 萬。本書以 Python 3 為示例,基於 MIT 熱門 MOOC 教程編寫,旨在培養讀者計算機思維,為其日後的 IT 生涯打下堅實的編程基礎。


掃一掃,京東購

作者:John V. Guttag

譯者:陳光欣

本書基於 MIT 知名計算機科學和 Python 編程入門課講義寫成,主要目標在於幫助讀者掌握並熟練使用各種計算技術,具備用計算思維解決現實問題的能力。人工智慧和大數據時代必備。

☟☟點擊【閱讀原文】查看Python書單

相關焦點

  • 貝葉斯及概率統計角度
    理解概念學習逆概問題所謂的貝葉斯方法源於他生前為解決一個「逆概」問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出來的。在貝葉斯寫這篇文章之前,人們已經能夠計算「正向概率」,如「假設袋子裡面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大」。
  • 條件概率和貝葉斯公式:機器翻譯
    講了這麼多條件概率的計算,關鍵要讓大家掌握一個公式:P(Y|X)=P(X,Y)/P(X)【註:一件事Y在條件X下發生的條件概率P(Y|X),等於條件X,和這件事Y一同發生的聯合概率P(X,Y),除以條件X的概率P(X)。】如何把式子變形就是貝葉斯公式?
  • 2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用
    2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用 2021考研已經進入緊張的備考強化階段,考生務必要重視,打好基礎,為將來做準備!
  • 機器學習 | 終於有人把條件概率和貝葉斯公式講明白了
    本文轉載自公眾號大數據DT(ID:hzdashuju)本文摘編自《機器學習中的概率統計 Python語言描述》這就是大名鼎鼎的貝葉斯公式。實際上,這個公式裡包含了全概率公式、條件概率、貝葉斯準則。我們來挖掘一下裡面所蘊藏的重要內涵。貝葉斯公式將條件概率P(A|B)和條件概率P(B|A)緊密地聯繫起來,其最根本的數學基礎就是P(A|B)P(B)=P(B|A)P(A),它們都等於P(AB)。那這裡面具體的深刻內涵是什麼呢?我們接著往下看。
  • 科普| 貝葉斯概率模型一覽
    雷鋒網按:本文出自美圖數據研究院什麼是貝葉斯概率模型?機器學習狹義上是指代統計機器學習,如圖 1 所示,統計學習根據任務類型可以分為監督學習、半監督學習、無監督學習、增強學習等。圖 1在每類任務中,又可以將各類模型歸結為概率模型和非概率模型,以下以監督學習為例說明。概率模型(生成模型)通過函數 F 來描述 X 和 Y 的聯合概率或者條件概率分布,如 P(X|Y);非概率模型(判別模型)通過函數 F 來直接描述 X 到 Y 的映射,如 Y=f(X)。
  • 傳說中的貝葉斯統計到底有什麼來頭?
    頻率統計有關頻率統計和貝葉斯統計的爭論以及持續了好幾個世紀,因此對於初學者來說理解這兩者的區別,以及如何劃分這兩者十分重要。它是統計領域中應用最為廣泛的推理技術。事實上,它是初學者進入統計學世界中的第一所學校。頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的)。
  • 貝葉斯、概率分布與機器學習
    貝葉斯定理的發現過程我沒有找到相應的資料,不過我相信託馬斯.貝葉斯(1702-1761)是通過生活中的一些小問題去發現這個對後世影響深遠的定理的,而且我相信貝葉斯發現這個定理的時候,還不知道它居然有這麼大的威力呢。
  • 貝葉斯系統學習之一:我是如何理解先驗概率和後驗概率的
    ,尤其是貝葉斯的應用,在終極算法一書中,提到了一個不可思議的觀點,貝葉斯有可能發展成終極算法,厲害吧。所以關於概率與統計的學習我是覺得越來越重要了,所以我之前在公眾號裡轉發了很多關於這方面的知識,最近也想系統的學習整理一下,在正式介紹貝葉斯相關應用的之前,先從最基本的概念開始吧,本文先介紹兩個你既熟悉,但又不能完全理解明白的概念,先驗概率和後驗概率。
  • 概率之本質—從主觀概率到量子貝葉斯 | 張天蓉專欄
    事實上,概率和統計中還有另一個極端的派別——貝葉斯學派。兩派的爭論焦點涉及到「什麼是概率?概率從何而來?」等本質問題。「先驗」和「後驗」是相對而言的,前一次算出的後驗概率,可作為下一次的先驗概率,與新的觀察數據相結合,再得到新的後驗概率。因此,運用貝葉斯公式,有可能對某種未知的不確定性逐次修正概率模型並得到最終結果,即解決逆概率問題。有關貝葉斯定理的論文,直到貝葉斯死後的1763年,才由朋友代為發表。
  • 貝葉斯和貝葉斯公式
    約1701年出生於倫敦,做過神甫。1742年成為英國皇家學會會員。1761年4月7日逝世。貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了貢獻。
  • 概率|全概率公式和貝葉斯公式
    註:有些條件概率不方便直接求,而用貝葉斯公式將其轉換後,每一項我們都可以求得,這種迂迴的方式很方便,但是剛開始使用大家可能在思路上轉不過來,覺得很亂,多做幾個題就會清晰許多,不信你試試    最後我想致謝白志惠老師,在這裡引用她之前寫的一篇文章——「狼來了」的貝葉斯公式解讀:    狼來了這個故事大家都聽過,那麼從心理角度分析,這個小孩是如何一步步喪失村民信任的呢?我們可以藉助貝葉斯公式來解讀。
  • 如何用貝葉斯概率思考未來?
    一枚硬幣,正反面各50%,一個袋子裡100個球,30個黑球,70個紅球 ,摸出一個紅球的概率是70%。那假設一個黑盒子,你事先不知道裡面多少黑球,多少紅球,怎麼辦呢?其實,現實世界裡,我們面臨的絕大多數情況都沒法計算,都是黑盒子卻需要去判斷概率的問題。頻率派和貝葉斯派傳統的方法叫頻率派。關於頻率和概率的區別,很多人不熟悉。
  • 貝葉斯與貝葉斯公式
    他非常想證明上帝的存在,於是希望藉助概率統計的知識。當時貝葉斯發現了古典統計學存在的一些缺點,從而提出了自己的一套貝葉斯統計學理論。貝葉斯的理論是基於條件概率的理論上的,所以讓我們來簡單看看條件概率是個什麼東西。
  • 全概率公式&貝葉斯公式
    該怎樣理解這兩個公式呢ԅ(¯ㅂ¯ԅ)?簡單來說,如果導致一個事件發生的原因有很多種,而且各種原因是互斥的,那麼這個事件發生的概率就是每種原因引起該事件發生的概率的總和,而求出這個概率,就是全概率公式要解決的問題而如果一個事件已經發生了,有很多原因都能導致這個事件發生。
  • 推薦 :一文帶你熟悉貝葉斯統計
    不管是否對它有充分的理解,貝葉斯統計已融入了我們的日常生活當中,為此,筆者想通過本文對貝葉斯統計做全面的解讀,通過一個詳盡的例子來展示這個術語的含義。一旦你理解了這個例子,那麼便基本上理解了貝葉斯統計。首先,在讀本文之前,假設讀者事先對Bayes定理有所熟悉,願意把公式當成一個黑匣子的讀者,也不成問題。
  • 生信小課堂 | 通俗理解貝葉斯統計
    貝葉斯統計(Bayesian statistics)可以通過結合這些因素來更準確地檢測體細胞突變。這裡我們需要先花些時間做一些背景介紹。本期我們先探討貝葉斯統計方法。貝葉斯學派的核心思想是在分析當下的數據時結合以往的經驗。
  • 大數據分析為什麼要學習R種的條件概率
    在大數據分析為什麼要學習R種的條件概率中,您將學習條件概率的基礎知識,然後深入研究更高級的概念,例如貝葉斯定理和樸素貝葉斯算法。當你學習,你會用你[R技能,把理論付諸實踐,並建立一個工作的這些關鍵統計的概念知識。
  • 概率論與數理統計
    概率論與數理統計初步主要考查考生對研究隨機現象規律性的基本概念、基本理論和基本方法的理解,以及運用概率統計方法分析和解決實際問題的能力。我們總結各個部分考察的主要內容及對考生的要求,最後總結此門科目經常考的題型及容易犯的錯誤,供大家參考。
  • 你真的理解【條件概率】嗎
    ,在事件A已經發生的條件下,事件B發生的概率。A聽了很高興,因為他認為B一定被處決,所以自己獲釋的概率就由1/3上升到了1/2。但W認為結果並沒有改變,A被處決的概率還是1/3,請問W和A誰想的有道理?要解決這個問題,除了知道條件概率外,還需要理解另外一個公式:貝葉斯公式。我們先來介紹。
  • 機器學習的統計方法 貝葉斯決策理論入門
    鑑於本文的目的是描述做出這些決策的統計方法,所以我只關注問題的第一部分:病人是否有腫瘤,是,還是否?貝葉斯定理在統計學和概率論領域,最著名的方程之一是貝葉斯定理(見下面的公式)。基本直覺是,給定某個特徵(即屬性)時,某個類或事件發生的概率是基於特徵值的可能性和有關該類或事件的任何先驗信息計算的。