從五個方面讓你了解人工智慧算法中的Apriori

2020-12-08 電子發燒友

從五個方面讓你了解人工智慧算法中的Apriori

工程師振邦 發表於 2018-07-05 14:25:00

Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法,也是十大經典機器學習算法之一。

Agrawal和Srikant兩位博士在1994年提出了Apriori算法,主要用於做快速的關聯規則分析。

A priori在拉丁語中指"來自以前"。當定義問題時,通常會使用先驗知識或者假設,這被稱作"一個先驗"(a priori)。Apriori算法正是基於這樣的事實:算法使用頻繁項集性質的先驗性質,即頻繁項集的所有非空子集也一定是頻繁的。

1.Apriori算法概念:

Apriori算法使用一種稱為逐層搜索的迭代方法,其中k項集用於探索(k+1)項集。首先,通過掃描資料庫,累計每個項的計數,並收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然後,使用L1找出頻繁2項集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項集。每找出一個Lk需要一次資料庫的完整掃描。Apriori算法使用頻繁項集的先驗性質來壓縮搜索空間。

註:資料庫中的數據可以是結構化的,也可以是半結構化的,甚至還可以是分布在網絡上的異構型數據。

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基於兩階段頻集思想的遞推算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這裡,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。

2.Apriori算法中術語:

1、項集和K-項集

令I={i1,i2,i3……id}是數據中所有項的集合,而T={t1,t2,t3….tN}是所有事務的集合,每個事務ti包含的項集都是I的子集。在關聯分析中,包含0個或多個項的集合稱為項集。如果一個項集包含K個項,則稱它為K-項集。空集是指不包含任何項的項集。

2、支持度計數

項集的一個重要性質是它的支持度計數,即包含特定項集的事務個數,數學上,項集X的支持度計數σ(X)可以表示為 :

σ(X)=|{ti|X?ti,ti∈T}|
其中,符號|*|表示集合中元素的個數。

3、關聯規則

關聯規則是形如X→Y的蘊含表達式,其中X和Y是不相交的項集,即X∩Y=空。

關聯規則的強度可以用它的支持度(support)和置信度(confidence)來度量。

支持度確定規則可以用於給定數據集的頻繁程度,而置信度確定Y在包含X的事務中出現的頻繁程度。 
支持度(s)和置信度(c)這兩種度量的形式定義如下: 
s(X→Y)=σ(X∪Y)/N 
c(X→Y)=σ(X∪Y)/σ(X) 
其中, σ(X∪Y)是(X∪Y)的支持度計數,N為事務總數,σ(X)是X的支持度計數。

對於靠譜的關聯規則,其支持度與置信度均應大於設定的閾值。那麼,關聯分析問題即等價於:對給定的支持度閾值min_sup、置信度閾值min_conf,找出所有的滿足下列條件的關聯規則:

支持度>=min_sup

置信度>=min_conf

把支持度大於閾值的項集稱為頻繁項集(frequent itemset)。因此,關聯規則分析可分為下列兩個步驟:

1)生成頻繁項集F=X∪Y;

2)在頻繁項集F中,找出所有置信度大於最小置信度的關聯規則X->Y

Apriori算法思想:

1)找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。

2)由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。

3)使用第1)步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這裡採用的是中規則的定義。

4)一旦這些規則被生成,那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞歸的方法。

3.Apriori算法優點:

1)使用先驗性質,大大提高了頻繁項集逐層產生的效率;

2)簡單易理解;

3)數據集要求低;

4)擴展性較好,可以並行計算。

Apriori算法缺點:

1)    可能產生大量的候選集;

2)    可能需要重複掃描整個資料庫,非常耗時。

4.Apriori算法改進:

定理:如果規則X->Y?X 不滿足置信度閾值, 則對於X的子集X′->Y?X′也不滿足置信度閾值。

根據此定理,可對規則樹進行剪枝。

5.Apriori算法應用:

通過對數據的關聯性進行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價值。Apriori 算法被廣泛應用於各種領域:

1)應用於商業活動領域,應用於消費市場價格分析中,它能夠很快的求出各種產品之間的價格關係和它們之間的影響。

2)應用於網絡安全領域,通過模式的學習和訓練可以發現網絡用戶的異常行為模式,能夠快速的鎖定攻擊者,提高了基於關聯規則的入侵檢測系統的檢測性。

3)應用於高校管理中。隨著高校貧困生人數的不斷增加,學校管理部門資助工作難度也越加增大。針對這一現象,將關聯規則的Apriori算法應用到貧困助學體系中,挖掘出的規則也可以有效地輔助學校管理部門有針對性的開展貧困助學工作。

4)應用於移動通信領域。基於移動通信運營商正在建設的增值業務Web數據倉庫平臺,對來自移動增值業務方面的調查數據進行了相關的挖掘處理,從而獲得了關於用戶行為特徵和需求的間接反映市場動態的有用信息,這些信息在指導運營商的業務運營和輔助業務提供商的決策制定等方面具有十分重要的參考價值。

結語:

Apriori算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。主要用於做快速的關聯規則分析。Apriori算法在世界上廣為流傳,得到極大的關注。Apriori算法已經被廣泛的應用到商業、網絡安全、高校管理和移動通信等領域。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 人工智慧之Apriori算法
    人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。Apriori算法中術語:1、項集和K-項集令I={i1,i2,i3……id}是數據中所有項的集合,而T={t1,t2,t3….tN}是所有事務的集合,每個事務ti包含的項集都是I的子集。在關聯分析中,包含0個或多個項的集合稱為項集。
  • 關於人工智慧對人類社會的影響,這要從五個方面開始說起
    關於人工智慧對人類社會的影響,這要從五個方面開始說起許多人看過電影《終結者》。事實上,相似《終結者》的機器人現已出現在實踐中,但是它們沒有電影中的那麼殘忍。他們被稱為人工智慧。讓我向你介紹什麼是人工智慧機器人。人工智慧機器人的介紹。
  • 想了解機器學習?你需要知道的十個基礎算法
    ,你需要知道的十個基礎算法毫無疑問,作為人工智慧的子領域—機器學習在過去的幾年中越來越受歡迎。由於大數據是目前科技行業最熱門的趨勢,基於大量的數據機器學習在提前預測和做出建議方面有巨大的潛力。一些有關機器學習常見的例子有:Netflix基於你以前看過的電影再給你做出影片的推薦,或者亞馬遜根據你以前買過的書籍再給你進行圖書推薦。如果想了解更多有關機器學習的知識,要從哪裡開始呢?作者第一次入門是在哥本哈根海外交流時選了一門有關人工智慧的課程。
  • 人工智慧研學社 · 入門組 | 《終極算法》研習第二期
    可以說,機器學習所代表的人工智慧,已經不再是一個新鮮的概念,科技、醫療、金融、安防,甚至政治、社會研究,都逐漸將這類強大的算法整合到自己的架構中去,以發揮更大的效能。在這樣的浪潮之下,了解人工智慧與機器學習,是每一個關心科技與社會發展的人必做的功課。然而,這並不是一個低門檻的領域,人工智慧也有其漫長的歷史和複雜的發展結構,想要了解事情的全貌,無法一蹴而就。
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 楊元慶:聯想通過大數據、算法及高性能計算推動人工智慧的發展
    人工智慧三要素:數據、算法、超算人工智慧是未來的方向,人工智慧有三個關鍵的要素,數據,算法,超算。剛才談到AlphaGo,如果計算運算速度足夠快,如果一盤棋運算300億次方的話,他肯定知道,先走的肯定會贏,它不會走錯,但是正因為系統性能到不了。這樣的計算的結果實際上是一個天文數字,而用現在最快的計算機可能在我們有生之年也計算不出來所有的結果。那麼怎麼辦呢?
  • 院士說丨戴瓊海院士:人工智慧——算法·算力·交互
    >以下是戴瓊海院士演講實錄:人工智慧是一個很交叉的學科,要關注的問題很多。大家看,圖靈獎獲得者有研究心理學的,有研究認知的,有研究人工智慧的,還有做數學的。我聚焦算法、算力和交互這三個方面和大家討論。算力就需要有力量。說到力量,我們先回顧一下歷史。
  • 你只需要了解小貓吃魚,就能理解人工智慧的A*算法
    出品:科普中國製作:未來實驗室監製:中國科學院計算機網絡信息中心A*算法是人工智慧領域非常常用的一種搜索算法,在我們生活中也時常會接觸到,例如手機導航、無人車或無人機的路徑規劃等如果將A*算法比作小貓吃魚,A*貓會結合「雷達貓」的全路徑搜索本領和「貪心貓」少走彎路的特點,最快吃到小魚。電子地圖規劃路徑時用的就是這個原理。「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。本文由科普中國融合創作出品,轉載請註明出處。
  • 圖靈獎得主姚期智:人工智慧算法的有限性有哪些
    巔峰贅婿原標題:圖靈獎得主姚期智:人工智慧算法的有限性有哪些「人工智慧(AI)對我們人類的生活帶來的巨大影響,已經非常顯而易見,但實際上AI還有一些目前無能為力的領域。我們需要思考的是,現在AI算法的限制是什麼,它的有限性在哪裡?接下來在機器學習以及AI的發展之中,還有哪些需要實現突破的地方?」
  • 人工智慧中的11個悖論(誤區)預示了實現通用人工智慧的正確道路
    上述悖論就是認知上的錯誤,是對人工智慧認識上的誤區,這些誤區都是由於對人腦智能的無知造成的,所以,我們對人腦智能多一些了解,就能少一些悖論和誤區,這11個誤區就是人工智慧中的11個坑,明白了這11個悖論,就能避開它們,從而避免浪費不必要的時間、精力和財力,對於國家、企業和個人來說,都是如此。1,腦科學悖論。
  • 你喜歡人工智慧嗎?快來了解一下人工生命吧
    如果你專注於這個功能,不管 DNA 是由什麼組成的,也不管它是什麼形狀——你都可以用任何你喜歡的東西來編碼和傳輸信息,包括 8 個字母的 DNA 或計算機中的 0、1 字符串。某些基質在一定條件下優於其他基質,但其「傳遞信息」的功能並不依賴於 DNA 本身。從這個意義上說,ALife 是基質不可知論的。那麼,我們所謂的「生命」指的到底是什麼呢?這正是我們想要弄清楚的事情!
  • 人工智慧之ICA算法
    人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下ICA算法。與深度學習中的通常情況一樣,這個問題沒有簡單的解析解,因此需要使用梯度下降來求解,而由於標準正交性約束,又需要每次梯度下降迭代之後,將新的基映射回正交基空間中,以此保證正交性約束。  ICA優化參數:  針對ICA的目標函數和約束條件,可以使用梯度下降法,並在梯度下降的每一步中增加投影(projection )步驟,以滿足標準正交約束。
  • 圖靈獎得主姚期智:人工智慧算法的有限性有哪些
    「人工智慧(AI)對我們人類的生活帶來的巨大影響,已經非常顯而易見,但實際上AI還有一些目前無能為力的領域。我們需要思考的是,現在AI算法的限制是什麼,它的有限性在哪裡?接下來在機器學習以及AI的發展之中,還有哪些需要實現突破的地方?」
  • 圖靈獎得主姚期智:人工智慧算法還需突破兩個瓶頸
    人工智慧在最近幾年得到了迅猛的發展,最重要的幾個領域是:人臉識別、自動駕駛、語音識別,以及語義理解。在應用方面,安防、交通、醫療、教育、智能製造等都有了實際的應用落地。人工智慧從提出到現在發展了大半個世紀,看起來,現在已經欣欣向榮,但是,作為一項可能與人類大腦PK的技術,還遠遠談不上成熟,甚至還存在一些仍需努力突破的地方。
  • 人工智慧算法可以學習量子力學定律
    人工智慧可以用來預測分子的波函數和電子性質。華威大學、柏林技術大學和盧森堡大學的一個研究小組開發的這種創新人工智慧方法可以用來加速藥物分子或新材料的設計。人工智慧和機器學習算法通常被用來預測我們的購買行為和識別我們的臉或筆跡。
  • 人工智慧在金融方面的應用意義,將改變金融的5個隱患|極客雲算
    發展至今,人工智慧經歷了明顯的泡沫降溫,進入了技術成熟度曲線的低谷期,行業開始回歸理性,更多地關注人工智慧如何落地產業,推動企業的數位化轉型。 那麼,AI人工智慧在金融方面的應用意義主要體現在哪些方面?AI又如何幫助金融行業改善其隱患?
  • 算法已經能繪畫,能作曲,能寫詩,真正的人工智慧還有多遠?
    人工智慧的實現離不開算法和數學的支持。索託伊不僅在數學方面有深厚造詣,更對AI算法有獨到理解。《天才與算法》就是索託伊介紹人工智慧以及算法的一本優秀科普作品。通過索託伊的講解,我們不僅能了解歐美國家在人工智慧領域的前沿研究成果,更能對人工智慧的研究前景和需要解決的核心問題有深刻的認識。
  • 編程世界中的18個重要的算法
    不過了解一下也是好事。不過了解一下也是好事。也歡迎你留下你覺得有意義的算法。(註:本篇文章並非翻譯,其中的算法描述大部份摘自Wikipedia,因為維基百科描述的很專業了)A*搜尋算法俗稱A星算法。這是一種在圖形平面上,有多個節點的路徑,求出最低通過成本的算法。常用於遊戲中的NPC的移動計算,或線上遊戲的BOT的移動計算上。
  • 人工智慧足彩23連中賺20萬倍 逆天算法創競彩奇蹟!
    人工智慧足彩23連中賺20萬倍 逆天算法創競彩奇蹟!正如名字,澳彩五星指數是前澳彩員工根據多年數據和操盤經驗提供的模型,其原理是根據澳彩的賠率變化判斷澳彩操盤手的真實意圖,算法根據澳彩賠率變化自動推薦比賽盤口。澳彩五星指數依託於澳彩賠率,構建出一整套能夠用於足球賽事數據分析以及賽事概率預測的數學模型。眾所周知,足彩投注中,澳彩的賠率不能不參考。模型會根據澳彩賠率組合和賠率變化,指出澳彩目前看好的球隊,給出澳彩信心指數,五星最高,一星最低。
  • 人工智慧和算法已在象棋和圍棋等領域上擊敗人類
    這對科技和人工智慧來說,是個短暫而又難忘的裡程碑。 隨著圖靈機的發展,西洋棋被視作衡量計算機智能的基準,它幾乎包含了無數種排列組合的方式,西洋棋比賽比宇宙中肉眼可見的原子數量要多得多。計算機要想打敗人類,不僅需要計算能力,還需要能計算出每一步作用的重要算法。 然而,在不到二十年的時間裡,計算機就在西洋棋比賽中遠超人類。