要理解樸素貝葉斯,我們首先需要了解貝葉斯推斷。貝葉斯推斷是一種用貝葉斯定理來迭代假設概率的方法。貝葉斯定理是在掌握與相關事件的先決信息下,計算該事件的概率。
假設你想計算星期天下午5點得到一個停車位的概率。那麼你如何計算這一事件的概率呢?是的,貝葉斯定理!
數學上貝葉斯定理寫為:
這裡"B"是一個條件,"A"是一個事件。在上面的例子"B"可以是"星期日"或"下午5點",因為這是影響結果「A」的兩個條件:您是否會得到停車位。但是,如果您想要同時考慮這兩個條件,那又會怎麼樣呢?這就是貝葉斯定理出現問題的地方。為了在同時考慮這兩個條件時利用貝葉斯定理,我們必須做出一個假設。
假設:我所有的條件都應該是"有條件的而且獨立的"。
我特別提到有條件的獨立而不是相互獨立一詞, 因為有區別。條件獨立性意味著結果值(無論您是否獲得停車位)應解釋條件之間的所有依賴性。例如:周日獲得停車位,下午5點獲得停車位並不是相互獨立的。一個情況可能導致其他情況。如果是星期天, 下午5點停車的機會可能會減少。但是,如果我檢查條件獨立性, 兩個功能依賴性是由結果屬性, 即獲得一個停車位解釋。因此,我可以說,兩者都是有條件的獨立的。
樸素貝葉斯用貝葉斯定理來預測結果值,該值同時依賴於多個要素,因此必須遵循上述假設。這就是為什麼它被稱為樸素!
01樸素貝葉斯的實際應用
在幾乎所有的現實世界中,大多數特徵都是相互依賴的。這將使樸素貝葉斯在現實生活中幾乎不可能實現。那麼它在哪裡使用呢?您可能聽說過文檔檢索系統、基於文本的情感分類器等任務是使用樸素貝葉斯算法的最佳應用場景。但為什麼?這是因為我們從文檔中提取的大多數單詞是相互獨立的。而且,樸素貝葉斯的工作很快,即使有很多功能和基於文本的分類器,你可以輕鬆獲得超過40000–50000個獨特的單詞,這意味著40k-50k的特徵!樸素貝葉斯如同閃電般快速的原因是它只計算概率,計算成本低廉。
02樸素貝葉斯的一些要點
分母的重要性:與其他模型(如線性回歸)相比,樸素貝葉斯對異常值的敏感度較低。這是分母的原因。
不要被這個公式嚇倒。我們基本上是將單獨計算的所有特徵的概率相乘(因為假設它們相互獨立),並將其代入Bayes公式。如果我們仔細觀察,這個公式的分母總是保持不變的。儘管分母不是影響該方程輸出的直接責任(因為它對所有特性都是相同的),但在計算過程中保留分母仍然被認為是一種良好的做法。分母基本上幫助離群值看起來更像非離群值。
樸素貝葉斯可生成模型:那裡基於邊界的模型可以分為生成型和判別型兩種。
判別模型只是在不同的結果之間劃出一條線。它不受功能的每個細節的影響。它只需要找到一系列的模式來幫助它區分這兩種結果。而生成模型有一個更詳細的方法。它研究每一個關於特性的細節來創建結果類。
零頻問題/拉普拉斯平滑處理:大多數樸素貝葉斯的常見問題是零頻率問題。讓我們舉個例子來理解這一點。假設我們的訓練數據總是表明,每當使用「review」這個詞時,它就是一封垃圾郵件。現在假設我收到一封來自Amazon的郵件,上面說「從另一個地方登錄,回查一下這個活動記錄」。現在根據我們的模式,這封郵件將被標記為垃圾郵件。這裡的問題是我的訓練數據沒有這樣的郵件「review」被標記為非垃圾郵件。這被稱為零頻率問題。由於不可能對每個特徵都有平衡的數據集,所以我們需要使用其他解決方案。一個解決方案是引入一個非常小的常數參數,稱為拉普拉斯平滑。拉普拉斯平滑從不允許0概率。它總是增加一個小的變量。這是scikit learn中名為alpha的超參數,可以調整。雖然這個問題的最佳解決方案是平衡我們的訓練數據。
樸素貝葉斯可以處理失蹤數據:在使用樸素貝葉斯時不用刪除丟失的值。樸素貝葉斯在處理丟失的數據時非常智慧。它不試圖預測缺失點的值,它只是跳過它!輸出類由特定數據點的特徵的剩餘值確定。這是樸素貝葉斯最獨特的一點。
03Scikit-Learn庫中樸素貝葉斯的類型
高斯樸素貝葉斯
計算概率時遵循數據的高斯分布。適用於一般的分類任務。
多項式樸素貝葉斯
概率是用多項式分布計算的。你可能聽說過二項分布。多項式只是二項式的延伸。它在基於文本的分類器(如文檔檢索)中運行良好。
互補樸素貝葉斯
與多項式相反。多項式樸素貝葉斯尤其是在基於文本的分類器中被認為能產生更好的效果。
伯努利樸素貝葉斯
所有輸入功能都應該是0或1。也就是說它只解釋二進位數據。如果使用普通數據,算法首先將其轉換為二進位數據。可用於基於文本的分類器,其中輸入特徵由0或1表示(即無論文檔中是否存在單詞)。
類樸素貝葉斯
所有的輸入特徵都應該按類別分布。如果給定連續特徵,則首先使用分位數或其他技術將其劃分為類別。適用於大多數分類特徵都存在的數據。
04結論
我希望這篇文章能夠為你提供一些你可能瞟一眼就漏掉的關於樸素貝葉斯的啟發。如果你喜歡這篇文章,我建議你多讀一些這方面的研究文獻。有許多研究論文,提供了一個全新的視角。樸素貝葉斯有時被證明是非常有效的,即使使用了相關聯的特性,這是非常令人驚訝的。