貝葉斯定理的通俗理解

2021-02-24 Java大數據與數據倉庫

樸素貝葉斯是一種基於貝葉斯定理的簡單概率分類器(分類又被稱為監督式學習,所謂監督式學習即從已知樣本數據中的特徵信息去推測可能出現的輸出以完成分類,反之聚類問題被稱為非監督式學習),樸素貝葉斯在處理文本數據時可以得到較好的分類結果,所以它被廣泛應用於文本分類/垃圾郵件過濾/自然語言處理等場景。

了解貝葉斯定理前,我們需要先了解條件概率與全概率公式。

條件概率(Conditional Probability)是指在事件B發生的情況下,事件A發生的概率,用P(A|B)表示,讀作在B條件下的A的概率。

我們可以很清楚看到,在事件B發生的概率下,事件A發生的概率為:

同樣地,在事件A發生的條件下事件B發生的概率

將兩個式子合併,得到:

兩邊同時除以非0的P(B),得到貝葉斯定理

在貝葉斯定理中,每個名詞都有約定俗成的名稱:

P(A|B)是已知B發生後,A的條件概率,也由於得自B的取值而被稱作A的後驗概率。

P(A)是A的先驗概率(或邊緣概率)。之所以稱為"先驗"是因為它不考慮任何B方面的因素。

P(B|A)是已知A發生後,B的條件概率。也由於得自A的取值而被稱作B的後驗概率。

P(B)是B的先驗概率。

P(B|A) / P(B)也有時被稱作標準似然度(standardised likelihood),貝葉斯定理可表述為:

後驗概率 = 標準似然度*先驗概率

假定樣本空間S,是兩個事件A與A'的和。

藍色部分為A,綠色為A',即A的補集,他們共同構成了樣本空間S。

那麼,對於事件B,可以看成2部分,P(AB)與P(A'B)。

由條件概率可知,

那麼,有全概率公式。

一所學校裡面有 60% 的男生,40% 的女生。男生總是穿長褲,女生則一半穿長褲一半穿裙子。有了這些信息之後我們可以容易地計算「隨機選取一個學生,他(她)穿長褲的概率和穿裙子的概率是多大」,這個就是前面說的「正向概率」的計算。然而,假設你走在校園中,迎面走來一個穿長褲的學生(很不幸的是你高度近似,你只看得見他(她)穿的是否長褲,而無法確定他(她)的性別),你能夠推斷出他(她)是男生的概率是多大嗎?

記長褲為事件A,短褲為事件B,男生為事件M,女生為F,那麼我們需要求P(M | A),由貝葉斯公式有:

由全概率公式有:

那麼

可以看到,本來,男生都穿長褲,概率是0.6,在知道穿長褲的條件下,是男生的後驗概率就增加了為0.75。

吸毒者檢測

下面展示貝葉斯定理在檢測吸毒者時的應用。假設一個常規的檢測結果的靈敏度和特異度均為99%,即吸毒者每次檢測呈陽性(+)的概率為99%。而不吸毒者每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司對全體僱員進行吸毒檢測,已知0.5%的僱員吸毒。請問每位檢測結果呈陽性的僱員吸毒的概率有多高?

胰腺癌檢測

基於貝葉斯定理:即使100%的胰腺癌症患者都有某症狀,而某人有同樣的症狀,絕對不代表該人有100%的概率得胰腺癌,還需要考慮先驗概率,假設胰腺癌的發病率是十萬分之一,而全球有同樣症狀的人有萬分之一,則此人得胰腺癌的概率只有十分之一,90%的可能是是假陽性。

不良種子檢測

基於貝葉斯定理:假設100%的不良種子都表現A性狀,而種子表現A性狀,並不代表此種子100%是不良種子,還需要考慮先驗概率,假設一共有6萬顆不良種子,在種子中的比例是十萬分之一(假設總共有60億顆種子),假設所有種子中有1/3表現A性狀(即20億顆種子表現A性狀),則此種子為不良種子的概率只有十萬分之三。

猜你喜歡

相關焦點

  • 形象理解貝葉斯定理
    理解概率概念對於機器學習工程師或數據科學專業人員來說是必須的。許多數據科學挑戰性問題的解決方案本質上是從概率視角解決的。因此,更好地理解概率將有助於更有效地理解和實現這些算法。每當你閱讀任何概率書、博客或論文時,大多數時候你會發現這些書中的講解太過理論化。據研究,65%的人是視覺學習者。
  • 懂貝葉斯定理,學會理解生活
    我們在理解生活中一些問題時,經常會忘記一些事情的先決條件。除此之外,在更多的情況下,我們甚至根本不知道這些先決條件(信息),這不光會影響我們對事物的理解,還會影響我們做出任何決定。此時,你一定在想有沒有什麼方法,能讓我們更好地「摸著石頭過河」?沒錯,答案就是題目中的貝葉斯定理。高中的讀者在概率的部分應該會學習到它。
  • 貝葉斯定理
    此前有業內人士將期貨交易比喻為「賭博」,而貝葉斯定理或許是個提高獲勝率的好辦法。【貝葉斯定理】貝葉斯定理也稱貝葉斯公式,是關於隨機事件A和B的條件概率或邊緣概率的一則定理,指當分析樣本大到接近總體數時,樣本中事件發生的概率將接近於總體中事件發生的概率。
  • 透徹理解貝葉斯推理
    前邊在文章透徹理解最大似然估計,闡述如何理解最大似然進行參數估計,本文將討論使用貝葉斯推理進行參數估計。我還將展示如何將此方法視為最大似然的概括,以及在何種情況下這兩種方法是等價的。貝葉斯定理在介紹貝葉斯推理之前,有必要理解貝葉斯定理。貝葉斯定理真的很酷。
  • 貝葉斯定理:AI不只是個理科生
    從主觀猜測出發,這顯然不符合科學精神,所以貝葉斯定理為人詬病。1774年,法國的大數學家拉普拉斯也看到貝葉斯定理的價值。不過他知道人類的普遍毛病,總是用傳統來反對新思想。貝葉斯定理簡單優雅、深刻雋永。貝葉斯定理並不好懂,每一個因子背後都藏著深意。它到底是如何「為人民服務」的呢?對於貝葉斯定理,參照上面的公式,首先要了解各個概率所對應的事件。
  • 貝葉斯定理:AI 不只是個理科生 | 贈書
    通俗地講,就像一個迷信星座的HR,如果碰到一個處女座應聘者,HR會推斷那個人多半是一個追求完美的人。這就是說,當你不能準確知悉某個事物本質時,你可以依靠經驗去判斷其本質屬性。這個研究看起來平淡無奇,名不見經傳的貝葉斯也未引人注意。他寫的論文直到他死後的第二年,才由他的一位朋友在1763年發表。
  • 為什麼樸素貝葉斯定理會被叫做樸素的?
    樸素貝葉斯算法是一種基於著名貝葉斯定理的分類算法。那麼讓我們先了解一下Bayes定理是怎麼說的,並為樸素貝葉斯算法定理建立自己的理解,它是如何工作的,它為什麼被稱作樸素的?貝葉斯定理在深入研究貝葉斯定理之前,我們需要了解一些術語-獨立事件和從屬事件邊際概率聯合概率條件概率獨立事件和從屬事件考慮兩個事件A和B。
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    貝葉斯定理提供的是一種逆條件概率的方法,本文簡單總結了貝葉斯定理是什麼,貝葉斯定理應用的理解,以及貝葉斯定理在AI場景下的應用,目的是希望產品經理了解到這個定理的能力後,在設計相關推薦或是具有推理功能的應用場景,能通過貝葉斯定理來解決。
  • 貝葉斯定理為何能名滿天下?AI從此不再只是個理科生
    通俗地講,就像一個迷信星座的HR,如果碰到一個處女座應聘者,HR會推斷那個人多半是一個追求完美的人。 這就是說,當你不能準確知悉某個事物本質時,你可以依靠經驗去判斷其本質屬性。
  • 貝葉斯定理:多一點人生經驗還是有用的
    總覺得哪裡不對可能很多人對貝葉斯定理這個名詞還很陌生,但是大家在生活中都會不自覺地用到它,只是很多時候,我們用反了。這些直覺思維都是遵從了貝葉斯定理。簡單來說,所謂貝葉斯定理,指的就是我們的經驗可以修正我們的理論,相信理論與事實的偏差,相信事出反常必有妖,這就是貝葉斯定理的通俗描述。你有病嗎貝葉斯定理在生活中也有正向的用途。再給大家舉個例子。想像這麼一個場景:我開著車,經過筆直的大道,快速的往下一個路口駛去。我知道,到了下一個路口就要右轉了。
  • 極具震撼力的貝葉斯定理,作為數據科學人的您咋能錯過?
    作者 | KHYATI MAHENDRU編譯 | CDA數據分析師An Introduction to the Powerful Bayes' Theorem for Data Science Professionals概述貝葉斯定理是統計學中最強大的概念之一,而貝葉斯定理也是數據科學專業人員必須知道的定理熟悉貝葉斯定理,其工作原理及其多種多樣的應用本文中有許多直觀的例子來理解貝葉斯定理背後的思想介紹
  • 基於貝葉斯定理的算法——樸素貝葉斯分類
    不過今天我們介紹的樸素貝葉斯分類器通過獨立假設簡化了概率的計算,節省了內存,可以很好地用於數據量大的情況。下面我們首先來了解這一算法的數理背景——貝葉斯定理。這一算法是由我們在概率論中學到的貝葉斯定理延伸出來的。我們知道貝葉斯公式為:其中,
  • 「貝葉斯定理」在生活中很有用,它到底是如何算出來的?
    學生即使學了貝葉斯定理,也只把它當作一個數學公式,不知道它對學習統計學有什麼幫助,更不知道它具備生活實用性。其次,貝式定理的數學表示式難以背誦;即使一時背了,也容易忘記。 如果沒有充分理解機率運算的定義和法則,實在難以理解此公式背後的邏輯。許多學生因此強記上述公式以準備考試,只求能解題而不求理解;公式反而成為學習貝葉斯定理的主要障礙。
  • 條件概率,全概率,貝葉斯公式理解
    貝葉斯理論和貝葉斯概率以託馬斯·貝葉斯(1702-1761)命名,他證明了現在稱為貝葉斯定理的一個特例。術語貝葉斯卻是在1950年左右開始使用,很難說貝葉斯本人是否會支持這個以他命名的概率非常廣義的解釋。拉普拉斯證明了貝葉斯定理的一個更普遍的版本,並將之用於解決天體力學、醫學統計中的問題,在有些情況下,甚至用於法理學。但是拉普拉斯並不認為該定理對於概率論很重要。
  • 這個例子讓你精通貝葉斯定理
    全文共2450字,預計學習時長5分鐘貝葉斯定理可能是數理統計與概率論領域最重要的定理。因此,該定理經常應用於數據科學領域。本文將通過實際問題對貝葉斯定理進行直觀推導。簡介以18世紀英國數學家託馬斯貝葉斯命名的貝葉斯定理是確定條件概率的數學公式,其在數據科學領域具有重要意義。
  • 可怕的貝葉斯定理,看完後忍不住感慨數學太重要了
    學多點知識你好我也好今天,超模君來講講貝葉斯定理。眾所周知,貝葉斯定理是一種在已知其他概率的情況下求概率的方法:圖片來源:HackYourself既然開講了,那就不要停下來了。那我們怎麼去理解這個傳說中不黃但很暴力的貝葉斯定理呢,貝葉斯定理是如何暴力狂虐數學界的?
  • 二項式定理的通俗解釋
    二項式定理描述了二項式的冪的代數展開。根據該定理,可以將兩個數之和的整數次冪諸如(x+y)n展開為類似axbyc項之和的恆等式,其中b、c均為非負整數且b+c=n。係數a是依賴於n和b的正整數。當某項的指數為0時,通常略去不寫。二項式定理可以如下所示:這裡的係數正好是一個組合數。比如:
  • 貝葉斯定理是怎麼幫助我們計算出檢驗系統的可靠性和客戶PPM的?
    貝葉斯定理也稱貝葉斯推理,早在18世紀,英國學者貝葉斯(1702~1763)本職是一個牧師,業務愛好數學,他想通過數學概率統計的方式來證明上帝是存在的。在這個過程中,他發明了貝葉斯定理。貝葉斯定理是用來計算,在已知(或已有初步經驗)某件事A發生的概率的情況,當事件B發生時,A實際發生的條件概率。
  • 貝葉斯定理還能用來把妹......
    貝葉斯定理
  • 如何通俗地解釋貝葉斯線性回歸的基本原理?
    任何的一個基礎模型都可以演變成貝葉斯模型。