聚類算法簡析(一):樸素貝葉斯算法的場景案例

2021-01-11 人人都是產品經理

本文作者通過一些場景案例,帶領大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區分各類數組。

通過一組參數模型來區分互斥群組中的個體十分常見,我們可以使用樸素貝葉斯分析來應用於這種場景,取決於模型的相似矩陣算法常常運用在估算決策論框架的矩陣中。

一些已經存在的聚類分析技巧是從一些特定的有限制的場景中提取出來的,這些結論很好地應用於區分兩類不同數組之間的比較關係。

本文我們通過一些場景案例,來了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區分各類數組。

簡介

最近幾年,各種各樣的分類算法在統計學著作中被提出。

回溯近代理論中涉及的各類著作,1971年科馬克、1973年安德伯、1974年埃弗裡特、1975年哈迪更均有涉獵。然後,大部分的算法均有限制,因為這些算法只能在某些特定場景中才能應用。

烏爾夫(1970)提出假設,觀察到密度函數中具有一個有限的參數矩陣。然而,一旦參數矩陣中的組件數量不確定,則會出現問題。

沃爾夫認為這個矩陣很有可能存在一種概率,這種假說即為:當一個組件和另外兩個組件矩陣出現互斥時會產生分離。

由此我們可以將聚類分析重新構建一種模型,觀察對象的參數形成互斥群組,並且在樸素貝葉斯的場景中,我們是允許存在未定義組件的。

常用理論模型

定義X1……Xn為p維空間觀察物。

我們定義「真群組」向量,定義為:g=(g1……gn),gk=i表示係數k由係數i的群組產生。

這樣就會出現m種可能群組,並且m可能是未知數,主要的問題就是定義特殊值g。

如已知m,g和一個參數向量θ,我們假定X組是獨立於密度函數Xk,設為hg(xk|θ),這裡的x和θ是已知函數。這個模型在1971年由斯科特和西蒙斯提出。

我們採用先驗密度的模型來定義未知數量:

PM,G,θ(m,g,θ)=pM(m)pG|M(g|m)pθ|G.M(θ|g,m)

模型兩選一的特性,讓我們來引入一個參數向量λ

0<λ1……λm<1,Σλi=1。在某些應用中,針對這些參數我們需要估算g,於是演變為方程:

通過這類分析模型的演變,算法的遞推,我們採用概率論結合分布矩陣來區分數據聚類的不同分布中心。

技術應用

貝葉斯算法主要運用於兩個經典案例:由英國統計學家/生物學家Ronald Fisher在1936年所收集鳶尾花案例,以及鄧肯1955年提出的大麥數據。

Iris數據集是常用的分類實驗數據集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數據集,是一類多重變量分析的數據集。

數據集包含150個數據樣本,分為3類,每類50個數據,每個數據包含4個屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類。

數據集主要包括如下三個種類鳶尾花的數據,每種50條數據:

每條數據都從鳶尾花的如下四個特徵進行描述:

我們使用nij矩陣來作為實例,最小值min|W|。

當協方差不同,協方差矩陣的斜率就不同,這樣每個相似的節點就會形成一個聚類。

我們採用貝葉斯聚類方法進行繪圖:

混淆矩陣

散點圖

通過圖譜我們可以看出,利用樸素貝葉斯算法,可以將同類中的互斥數據分解出來,形成一種聚類,這些算法可以廣泛運用在生活中。例如,垃圾郵件問題中,做貝葉斯公式計算過濾方法識別出類似特性郵件並歸集。

所以,了解貝葉斯算法的概念和使用貝葉斯算法正在計算機領域逐步推廣成為一種應用領域。

本文由 @手心的太陽 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash,基於CC0協議

相關焦點

  • 機器學習算法之樸素貝葉斯
    一、貝葉斯定理貝葉斯定理由英國數學家貝葉斯(Thomas Bayes 1702-1761)發展用來描述兩個條件概率之間的關係在B條件下A發生的概率: P(A∣B)=P(AB)/P(B)在A條件下B發生的概率: P(B∣A)=P(AB)/P
  • 樸素貝葉斯算法及應用案例
    作者:陳千鶴 來源:人工智慧學習圈本篇主要介紹樸素貝葉斯算法及應用案例。以Tatinic數據集為例進行應用,同時介紹數據處理,數據集的劃分,算法效果評估等內容。一、簡介樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法 。
  • 基於貝葉斯定理的算法——樸素貝葉斯分類
    不過今天我們介紹的樸素貝葉斯分類器通過獨立假設簡化了概率的計算,節省了內存,可以很好地用於數據量大的情況。下面我們首先來了解這一算法的數理背景——貝葉斯定理。這一算法是由我們在概率論中學到的貝葉斯定理延伸出來的。我們知道貝葉斯公式為:其中,
  • 樸素貝葉斯算法及其應用
    在這篇文章中,我們將嘗試以簡單的方式理解什麼是樸素貝葉斯,它是如何工作的以及我們如何應用樸素貝葉斯分類器將文本或評論分類為「肯定」或「否定」,我們將通過電影評論案例進行研究。什麼是樸素貝葉斯?貝葉斯定理是由Reverend Bayes開發的最早的概率推理算法之一(他過去常常嘗試推斷上帝的存在)並且對於某些用例仍然表現得非常好。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    Python 實現:http://scikit-learn.org/stable/modules/svm.html#classificationR 實現:https://cran.r-project.org/web/packages/kernlab/index.html2.5 樸素貝葉斯樸素貝葉斯(NB)是一種基於貝葉斯定理和特徵條件獨立假設的分類方法。
  • 聚類算法 Hierarchical Clustering算法
    Hierarchical Clustering算法概述HC算法,又稱層次聚類算法,就是按照某種方法進行層次分類,直到滿足某種條件為止。簡單說它是將數據集中的每個樣本初始化為一個簇,然後找到距離最近的兩個簇,將他們合併,不斷重複這個過程,直達到到預設的聚類數目為止。
  • 機器學習算法集錦:從貝葉斯到深度學習及各自優缺點
    )深度學習(Deep Learning)支持向量機(Support Vector Machine)降維算法(Dimensionality Reduction Algorithms)聚類算法(Clustering Algorithms)基於實例的算法(Instance-based Algorithms)貝葉斯算法(Bayesian Algorithms)關聯規則學習算法(Association Rule
  • 模式識別與機器學習(教學大綱)|向量|貝葉斯|算法|神經網絡_網易訂閱
    首先介紹貝葉斯學習基礎、邏輯回歸、概率圖模型基礎、隱馬爾可夫模型和條件隨機場,接著介紹支持向量機、人工神經網絡與深度學習、高斯過程、聚類、主成分分析與相關的譜方法,最後介紹確定性近似推理、隨機近似推理和強化學習。附錄包括傳統的模式識別與機器學習方法,即近鄰法和決策樹,還有向量微積分和隨機變量的變換等與本學科強相關的重要知識點。
  • 數據科學家應該知道的頂級機器學習算法
    最受歡迎的貝葉斯算法是:樸素貝葉斯高斯樸素貝葉斯多項式樸素貝葉斯平均一依賴估計量(AODE)貝葉斯信仰網絡(BBN)貝葉斯網絡(BN)聚類算法像回歸一樣,聚類描述問題的類別和方法的類別。聚類方法是通過建模方法(例如基於質心和層次結構)組織的。所有方法都與使用數據中的固有結構有關。有必要將數據最好地組織成具有最大共性的組。
  • 17個機器學習的常用算法!
    常見的應用場景包括關聯規則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。3. 半監督式學習:貝葉斯方法算法是基於貝葉斯定理的一類算法,主要用來解決分類和回歸問題。常見算法包括:樸素貝葉斯算法,平均單依賴估計(Averaged One-Dependence Estimators, AODE),以及Bayesian Belief Network(BBN)。 11. 基於核的算法
  • 解讀實踐中最廣泛應用的分類模型:樸素貝葉斯算法
    貝葉斯模型在機器學習以及人工智慧中都有出現,cherry 分類器使用了樸素貝葉斯模型算法,經過簡單的優化,使用 1000 個訓練數據就能得到 97.5% 的準確率。雖然現在主流的框架都帶有樸素貝葉斯模型算法,大多數開發者只需要直接調用 api 就能使用。但是在實際業務中,面對不同的數據集,必須了解算法的原理,實現以及懂得對結果進行分析,才能達到高準確率。
  • 流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅
    該算法背後的思想是保持相關項目儘可能擴展到更大的集合,以創建更有用的關聯。該算法的應用包括突出顯示市場中的購買趨勢。此外,它更易於實現,並且可以用於大型數據集。樸素貝葉斯樸素貝葉斯分類器被歸類為高效的監督ML算法,並且是最簡單的貝葉斯網絡模型之一。
  • 樸素貝葉斯:幫助AI產品經理「小步快跑,快速迭代」
    貝葉斯定理相信不少人都接觸過,這個看似只屬於數學領域的定理,在AI產品經理看來有怎樣的魅力呢?我們常常遇到這樣的場景。與友人聊天時,一開始可能不知道他要說什麼,但是他說了一句話之後,你就能猜到接下來他要講什麼內容。友人給的信息越多,我們越能夠推斷出他想表達的含義,這也是貝葉斯定理所闡述的思考方式。
  • 常見的機器學習算法,你知道幾個?
    事實上,機器學習是一門多領域交叉學科,涉及概率論、統計學、算法複雜度理論等多門學科。專門研究計算機如何模擬或實現人類的學習行為,利用數據或以往的經驗,以此優化電腦程式的性能標準。根據學習任務的不同,我們可以將機器學習分為監督學習、非監督學習、強化學習三種類型,而每種類型又對應著一些算法。
  • 基於人工智慧的貝葉斯分類算法
    基於人工智慧的貝葉斯分類算法  貝爾斯算法的應用:  1.百度實時路況  2.騰訊新聞分類  3.數據清洗:數據補全  4.數據歸類  5.垃圾郵箱  什麼是貝爾斯算法  貝爾斯算法就是貝葉斯所研究的逆向概率: 給出一個條件
  • 科普丨樸素貝葉斯了解一下
    要理解樸素貝葉斯,我們首先需要了解貝葉斯推斷。貝葉斯推斷是一種用貝葉斯定理來迭代假設概率的方法。貝葉斯定理是在掌握與相關事件的先決信息下,計算該事件的概率。假設你想計算星期天下午5點得到一個停車位的概率。那麼你如何計算這一事件的概率呢?是的,貝葉斯定理!數學上貝葉斯定理寫為:這裡"B"是一個條件,"A"是一個事件。
  • 機器學習算法盤點:人工神經網絡、深度學習
    常見的應用場景包括關聯規則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。   半監督式學習:   常見的應用場景包括動態系統以及機器人控制等。常見算法包括Q-Learning以及時間差學習(Temporal difference learning)   在企業數據應用的場景下, 人們最常用的可能就是監督式學習和非監督式學習的模型。 在圖像識別等領域,由於存在大量的非標識的數據和少量的可標識數據, 目前半監督式學習是一個很熱的話題。
  • 8種常見機器學習算法比較
    常見算法優缺點1.樸素貝葉斯樸素貝葉斯屬於生成式模型(關於生成模型和判別式模型,主要還是在於是否是要求聯合分布),非常簡單,你只是做了一堆計數。如果注有條件獨立性假設(一個比較嚴格的條件),樸素貝葉斯分類器的收斂速度將快於判別模型,如邏輯回歸,所以你只需要較少的訓練數據即可。即使NB條件獨立假設不成立,NB分類器在實踐中仍然表現的很出色。它的主要缺點是它不能學習特徵間的相互作用,用mRMR中R來講,就是特徵冗餘。
  • 樸素貝葉斯與文本分類
    樸素貝葉斯 (Naive Bayesian algorithm) 是一種基於概率統計的分類方法,主要用到了貝葉斯定理和特徵條件獨立性假設。樸素貝葉斯具有悠久的歷史,其算法邏輯比較簡單,有健壯的性能,通常可以用於文本分類、信用評估等方面。
  • 機器學習算法基礎(使用Python代碼)
    簡單來說,樸素貝葉斯分類器假設類中某個特定特徵的存在與任何其他特徵的存在無關。例如,如果水果是紅色的,圓形的,直徑約3英寸,則可以認為它是蘋果。即使這些特徵相互依賴或依賴於其他特徵的存在,一個樸素的貝葉斯分類器會認為所有這些特性都獨立地促成了這種水果是蘋果的概率。樸素貝葉斯模型易於構建,特別適用於非常大的數據集。