樸素貝葉斯是一種基於貝葉斯定理的簡單概率分類器(分類又被稱為監督式學習,所謂監督式學習即從已知樣本數據中的特徵信息去推測可能出現的輸出以完成分類,反之聚類問題被稱為非監督式學習),樸素貝葉斯在處理文本數據時可以得到較好的分類結果,所以它被廣泛應用於文本分類/垃圾郵件過濾/自然語言處理等場景。
了解貝葉斯定理前,我們需要先了解條件概率與全概率公式。
條件概率(Conditional Probability)是指在事件B發生的情況下,事件A發生的概率,用P(A|B)表示,讀作在B條件下的A的概率。
我們可以很清楚看到,在事件B發生的概率下,事件A發生的概率為:
同樣地,在事件A發生的條件下事件B發生的概率
將兩個式子合併,得到:
兩邊同時除以非0的P(B),得到貝葉斯定理
在貝葉斯定理中,每個名詞都有約定俗成的名稱:
P(A|B)是已知B發生後,A的條件概率,也由於得自B的取值而被稱作A的後驗概率。
P(A)是A的先驗概率(或邊緣概率)。之所以稱為"先驗"是因為它不考慮任何B方面的因素。
P(B|A)是已知A發生後,B的條件概率。也由於得自A的取值而被稱作B的後驗概率。
P(B)是B的先驗概率。
P(B|A) / P(B)也有時被稱作標準似然度(standardised likelihood),貝葉斯定理可表述為:
後驗概率 = 標準似然度*先驗概率
假定樣本空間S,是兩個事件A與A'的和。
藍色部分為A,綠色為A',即A的補集,他們共同構成了樣本空間S。
那麼,對於事件B,可以看成2部分,P(AB)與P(A'B)。
即
由條件概率可知,
那麼,有全概率公式。
一所學校裡面有 60% 的男生,40% 的女生。男生總是穿長褲,女生則一半穿長褲一半穿裙子。有了這些信息之後我們可以容易地計算「隨機選取一個學生,他(她)穿長褲的概率和穿裙子的概率是多大」,這個就是前面說的「正向概率」的計算。然而,假設你走在校園中,迎面走來一個穿長褲的學生(很不幸的是你高度近似,你只看得見他(她)穿的是否長褲,而無法確定他(她)的性別),你能夠推斷出他(她)是男生的概率是多大嗎?
記長褲為事件A,短褲為事件B,男生為事件M,女生為F,那麼我們需要求P(M | A),由貝葉斯公式有:
由全概率公式有:
那麼
可以看到,本來,男生都穿長褲,概率是0.6,在知道穿長褲的條件下,是男生的後驗概率就增加了為0.75。
吸毒者檢測
下面展示貝葉斯定理在檢測吸毒者時的應用。假設一個常規的檢測結果的靈敏度和特異度均為99%,即吸毒者每次檢測呈陽性(+)的概率為99%。而不吸毒者每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司對全體僱員進行吸毒檢測,已知0.5%的僱員吸毒。請問每位檢測結果呈陽性的僱員吸毒的概率有多高?
胰腺癌檢測
基於貝葉斯定理:即使100%的胰腺癌症患者都有某症狀,而某人有同樣的症狀,絕對不代表該人有100%的概率得胰腺癌,還需要考慮先驗概率,假設胰腺癌的發病率是十萬分之一,而全球有同樣症狀的人有萬分之一,則此人得胰腺癌的概率只有十分之一,90%的可能是是假陽性。
不良種子檢測
基於貝葉斯定理:假設100%的不良種子都表現A性狀,而種子表現A性狀,並不代表此種子100%是不良種子,還需要考慮先驗概率,假設一共有6萬顆不良種子,在種子中的比例是十萬分之一(假設總共有60億顆種子),假設所有種子中有1/3表現A性狀(即20億顆種子表現A性狀),則此種子為不良種子的概率只有十萬分之三。
猜你喜歡