十大經典數據挖掘算法—Apriori

2020-12-08 電子發燒友

十大經典數據挖掘算法—Apriori

發表於 2018-02-04 09:37:56

1. 關聯分析

關聯分析是一類非常有用的數據挖掘方法,能從數據中挖掘出潛在的關聯關係。比如,在著名的購物籃事務(market basket transactions)問題中,

 

關聯分析則被用來找出此類規則:顧客在買了某種商品時也會買另一種商品。在上述例子中,大部分都知道關聯規則:{Diapers} → {Beer};即顧客在買完尿布之後通常會買啤酒。後來通過調查分析,原來妻子囑咐丈夫給孩子買尿布時,丈夫在買完尿布後通常會買自己喜歡的啤酒。但是,如何衡量這種關聯規則是否靠譜呢?下面給出了度量標準。

支持度與置信度

 

對於靠譜的關聯規則,其支持度與置信度均應大於設定的閾值。那麼,關聯分析問題即等價於:對給定的支持度閾值min_sup、置信度閾值min_conf,找出所有的滿足下列條件的關聯規則:

支持度>=min_sup

置信度>=min_conf

把支持度大於閾值的項集稱為頻繁項集(frequent itemset)。因此,關聯規則分析可分為下列兩個步驟:

生成頻繁項集F=X∪Y;

在頻繁項集F中,找出所有置信度大於最小置信度的關聯規則X⟶Y。

暴力方法

若(對於所有事務集合)項的個數為d,則所有關聯規則的數量:

 

如果採用暴力方法,窮舉所有的關聯規則,找出符合要求的規則,其時間複雜度將達到指數級。因此,我們需要找出複雜度更低的算法用於關聯分析。

2. Apriori算法Agrawal與Srikant提出Apriori算法,用於做快速的關聯規則分析。

頻繁項集生成

根據支持度的定義,得到如下的先驗定理:

定理1:如果一個項集是頻繁的,那麼其所有的子集(subsets)也一定是頻繁的。

這個比較容易證明,因為某項集的子集的支持度一定不小於該項集。

定理2:如果一個項集是非頻繁的,那麼其所有的超集(supersets)也一定是非頻繁的。

定理2是上一條定理的逆反定理。根據定理2,可以對項集樹進行如下剪枝:

 

關聯規則生成

關聯規則是由頻繁項集生成的,即對於FkFk,找出項集hmhm,使得規則fk−hm⟶hmfk−hm⟶hm的置信度大於置信度閾值。同樣地,根據置信度定義得到如下定理:

定理3:如果規則X⟶Y−X不滿足置信度閾值,則對於X的子集X′,規則X′⟶Y−X′也不滿足置信度閾值。

根據定理3,可對規則樹進行如下剪枝:

 

關聯規則的生成算法如下:

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 數據挖掘之關聯規則算法(Apriori)
    1 關聯規則挖掘定義大多數關聯規則挖掘算法通常採用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:頻繁項集產生(Frequent Itemset Generation2 Apriori算法介紹Apriori算法的原理通過限制候選產生發現頻發項集由頻繁項集產生關聯規則
  • 吳信東:數據挖掘算法的經典與現代
    中科院計算所研究員沈華偉幾位特邀專家帶領了大家重溫經典,解讀他們心目中的經典機器學習與數據挖掘算法,並與大家分享了這些算法的起源、應用與影響。其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 關聯規則的挖掘與應用——Apriori和CBA算法
    文|光大科技大數據部 魏樂 盧格潤1 關聯規則1.1 關聯規則基本概念1.2 Apriori算法基本思路2 關聯分類2.1 CBA關聯分類算法思路這種利用頻繁項集挖掘潛在關係的技術對於貨架擺放、購物推薦、捆綁銷售和新聞推薦等都很有應用價值。但在實際應用中,人們可能更願意關注由關聯規則理論挖掘出的頻繁項集,常將其用作基礎數據處理,再集成其他算法從而解決實際問題,比如說數據挖掘中常見的分類問題。
  • 人工智慧之Apriori算法
    今天我們重點探討一下Apriori算法。^_^Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法,也是十大經典機器學習算法之一。Apriori算法使用頻繁項集的先驗性質來壓縮搜索空間。註:資料庫中的數據可以是結構化的,也可以是半結構化的,甚至還可以是分布在網絡上的異構型數據。
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 從五個方面讓你了解人工智慧算法中的Apriori
    從五個方面讓你了解人工智慧算法中的Apriori 工程師振邦 發表於 2018-07-05 14:25:00 Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法
  • 機器學習-頻繁模式挖掘DHP算法詳解
    前言數據挖掘領域的頻繁模式中,Apriori算法算是經典,然而該算法有如下的問題:對資料庫多次掃描候選集數量龐大為計算候選集支持度所需負載較重所以有了很多改進算法,DHP是其中一個基於散列優化的算法,主要用於縮小Ck的項集個數原理DHP算法生效於Apriori算法的剪枝步過程中。
  • 機器學習初學者必須知道的十大算法
    還在為不知道學什麼算法入門機器學習感到頭疼?本文作者通過自身的學習向初學者介紹十大機器學習(ML)算法,並附有數字和實例以便於理解。哈佛商業評論稱數據科學家是21世紀最性感的工作。所以,對於那些ML剛剛開始的人來說,這篇博客機器學習算法工程師需要知道的十大算法是非常有用的。ML算法是可以從數據中學習並從中改進的算法,無需人工幹預。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 最新出爐——數據科學家最常使用的十大算法
    導讀:本文來自於KDnuggets所做的十大算法調查,基於調查,KDnuggets總結出了數據科學家最常使用的十大算法,它們分別是:Text Mining 文本挖掘其中,受訪者表示平均使用了8.1個算法,相比2011年類似的調查大幅提高了。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    from=leiphonecolumn_res0602以下書籍介紹來自圖書商城內容簡介 · · · · · ·隨著數據規模和複雜度的持續上升,分析員必須利用更高級的軟體工具來執行間接的、自動的智能化數據分析。
  • 電子商務大數據挖掘常用算法
    關聯規則推薦算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算,再根據推薦度的大小,推薦未瀏覽的商品給當前客戶。電子商務中具有海量的交易數據和大量有趣的業務關係,在典型的購物籃分析中,它可以幫助許多商業決策。
  • 資料|《常用數據挖掘算法總結及 Python 實現》
    今日資料推薦《 常用數據挖掘算法總結及 Python 實現 》這份資源非常適合相關的從業人員或大數據愛好者,該文檔總結了常用的數據挖掘的算法原理以及 Python 實踐內容,為初學者提供良好的參考資料目錄:第一部分:數據挖掘與機器學習數學基礎第二部分:機器學習概述第三部分:監督學習--分類與回歸第四部分:非監督學習--聚類與關聯分析
  • SQL Server2008中的9種數據挖掘算法淺析
    【IT168 技術文檔】  在sql server2008中提供了9種常用的數據挖掘算法,這些算法用在不同數據挖掘的應用場景下,下面我們就各個算法逐個分析討論。  1.決策樹算法  決策樹,又稱判定樹,是一種類似二叉樹或多叉樹的樹結構。
  • 數據科學家應該知道的頂級機器學習算法
    最受歡迎的聚類算法是:k均值k中位數期望最大化(EM)層次聚類關聯規則學習算法關聯規則學習方法提取規則。最好地解釋了觀察到的數據變量之間的關係。這些規則可以在大型多維數據集中發現重要和有用的關聯。組織可以利用這一點。最受歡迎的關聯規則學習算法是:Apriori算法離散算法人工神經網絡算法這些模型受到生物神經網絡結構的啟發。它們是一類模式匹配。
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。 第二條路線K-means →EM → 樸素貝葉斯→貝葉斯網絡→隱馬爾科夫模型(基本模型、前向算法、維特比算法、前向-後向算法) →卡爾曼濾波這條線路所涉及的基本都是那些各種畫來畫去的圖模型,學術名詞稱為 PGM 。這條線的思路和第一條是截然不同的!
  • 史上最全十大機器學習算法,入門必看!
    1介紹關於機器學習算法的研究已經獲得了巨大的成功,哈佛商業評論甚至將數據科學家稱為二十一世紀最具誘惑力的工作。機器學習算法是在沒有人為幹涉的情況下,從大量的數據和歷史經驗中學習數據的結構並提升對某一目標的估計的算法。
  • 這一年來,數據科學家都用哪些算法?
    最近,著名的資料探勘信息網站KDnuggets策劃了十大算法調查,這次調查對數據科學家常用的算法進行排名,並發現最「產業」和最「學術」的算法,還對這些算法在過去5年間(2011~2016)的變化,做了一番詳細的介紹。這次調查結果,是基於844名受訪者投票整理出來。KDnuggets總結出十大算法及其投票份額如下:
  • 超全,110+數據挖掘面試題整理(附答案)
    面試哥數據挖掘工程師面試寶典雙手呈上,整理不易,快來收藏吧!頻繁模式挖掘 B. 分類和預測 C. 數據預處理 D. 數據流挖掘3.當不知道數據所帶標籤時,可以使用哪種技術促使帶同類標籤的數據與帶其他標籤的數據相分離?(B) A. 分類 B. 聚類 C. 關聯分析 D. 隱馬爾可夫鏈4.什麼是KDD? (A) A. 數據挖掘與知識發現 B. 領域知識發現 C.
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。