一、貝葉斯定理
貝葉斯定理由英國數學家貝葉斯(Thomas Bayes 1702-1761)發展
用來描述兩個條件概率之間的關係
在B條件下A發生的概率: P(A∣B)=P(AB)/P(B)
在A條件下B發生的概率: P(B∣A)=P(AB)/P(A)
則:P(A∣B)P(B) = P(B∣A)P(A)
可導出:P(A∣B)=P(B∣A)P(A)/P(B) 或 P(A∣B) P(B) = P(B∣A)P(A)
二、貝葉斯定理舉例
現在有 A、B 兩個容器
容器 A 裡有 7 個紅球和 3 個黑球
容器 B 裡有 1 個紅球和 9 個黑球
從這兩個容器裡任意抽出了一個球,結果是紅球,問這個球來自容器 A 的概率是多少?
假設
抽出紅球的概率為B
選中容器A的概率為A
則有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10
按照公式,則有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875
故得出結論:這個球來自容器A的概率是0.875
三、樸素貝葉斯
貝葉斯公式: P(Y|X)=P(X|Y)P(Y) / P(X)
在機器學習中:
X:代表特徵向量 Y:代表類別
P(X):先驗概率,是指根據以往經驗和分析得到的概率。
P(Y|X):後驗概率,事情已經發生,這件事情發生的原因是由某個因素引起的可能性的大小
P(X|Y):條件概率,在已知某類別的特徵空間中,出現特徵值X的概率
樸素貝葉斯算法是假設各個特徵之間相互獨立,這就是「樸素」這詞的意思
那麼貝葉斯公式中P(X|Y)可寫成 : P(X|Y)=P(x1|Y)P(x2|Y)P(xn|Y)
由此得出,樸素貝葉斯公式:
P(Y|X)= P(x1|Y)P(x2|Y)P(xn|Y)P(Y) / P(X)
四、樸素貝葉斯的應用
樸素貝葉斯算法通常用來分類
根據研究對象的某些特徵,來推斷出該研究對象屬於哪個類別
如:
我們在大街上看到一個人,猜測他屬於哪個職業。這就是一種分類。
根據什麼來判斷?可能是根據這個人的穿著打扮,言行舉止。
穿著打扮:鬍子拉碴、頭髮亂七八糟,背著大的電腦包
言行舉止:雙眼無神(估計在想哪個bug的解決辦法),黑眼圈重,頭髮沒洗。
所以,我們大概能猜出這個人職業是程式設計師
其穿著打扮、言行舉止就是人的特徵屬性
五、樸素貝葉斯的實際場景
新聞的分類
如上圖中紅色框部分,樸素貝葉斯算法根據一篇新聞的內容,給新聞分到固定的類別