電子商務大數據挖掘常用算法

2020-12-03 數字經濟探索

01關聯分析

關聯分析是進行數據挖掘技術的主要手段,其主要是針對數據信息中的各個範圍之間的聯繫,尋找多種不同領域之間的依存關係。運用關聯規則想要達到的主要目的就是找出每一個數據信息的內在關係,關聯規則是用在同類事件中不同項目的關聯性。

在數據挖掘中,關聯分析是其主要的功能之一,它可以在市場營銷的各個領域進行應用。其中,對消費者的購買行為進行關聯規則方面的分析是關聯分析的主要應用之一,其目的是為了對消費者購買商品時的行為模式進行探詢。通過採用關聯分析方法來對挖掘數據中的關聯性規則,能夠幫助企業採取適當的營銷方式對商品進行宣傳,從而有利於促進新產品的銷售。同時,這也有利於消費者發現新產品,從而進一步促進了新產品的宣傳與銷售。

在電子商務系統中,利用關聯規則分析並挖掘出各數據之間的相互關係。例如,採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦。關聯規則推薦算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算,再根據推薦度的大小,推薦未瀏覽的商品給當前客戶。

電子商務中具有海量的交易數據和大量有趣的業務關係,在典型的購物籃分析中,它可以幫助許多商業決策。例如對超市管理者而言,通過顧客對購物籃中商品的分類,得到不同產品之間的聯繫,並為決策制定典型的應用,以確定哪些產品將被放置在一個購物車或購物籃,顧客就會購買這些商品。同時,這些信息也可以幫助零售商選擇調節分配和貨架,行李箱出售。例如,將牛奶和麵包放在一起刺激顧客同時購買這些商品。在電子商務中,Web伺服器因為日誌文件記錄訪問用戶數據,通過這些數據,挖掘使用顧客購買產品的網上某些偏好和品牌忠誠的相關性,價格可以接受的範圍內和包裝要求等內容,從而幫助管理人員計劃,確定投資品,價格和新產品的類型。

但在對電子商務數據進行關聯規則分析時,需要注意兩個關鍵的問題:第一,從大型事務數據集中發現模式,在計算機的應用上可能要付出很高的代價;第二,所發現的模式有可能是虛假的,因為發現的模式可能是偶然發生的。

(圖1 採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦)

02聚類分析

聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的數據間的相似性儘可能大,不同類別中的數據間的相似性儘可能小。聚類分析的方法是數據挖掘領域最為常見的技術之一。常用的聚類分析方法有:分割聚類方法、層次聚類方法、基於密度的聚類方法和高維稀疏聚類算法等。在通過多次的刪除或添加變量影響的分類方式,可以從中得到我們想要的最佳結果。

電子商務中市場細分經常會用到聚類分析法,這樣就可以根據己知的客戶信息數據,將消費模式相似的客戶分為一類,從而有針對性的進行調整營銷策略,為客戶提供更加適合更加滿意的個性化服務。例如,根據現在擁有的客戶情況按照客戶的不同消費水平以及不同情況進行模式的分析,從而在進行產品營銷的過程中提供更加高質量、高品質的服務內容;針對不同的客戶可以進行銷售郵件的發送,通過聚類的分析進行客戶信息的提取,使得服務更加的周到和細緻。

03分類分析

分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型或分類函數,將資料庫中的數據項映射到某個給定的類別。分類的主要方法有基於決策樹模型的數據分類、支持向量機算法、貝葉斯分類算法、ID3算法和基於BP神經網絡算法等。

進行分類分析是數據挖掘技術主要的應用方向之一,並且使用起來更加的方便。進行產品的分類是將事件進行對象的劃分,同時也可以用這個技術進行數據的觀測和預測。對數據進行分類處理,整理出一個科學、完整的預測模型。例如電子商務企業預測出可能要發送的郵件,以及客戶的主要情況,然後針對不同的用戶展開不同的商業營銷,進而提供出個性化的服務內容。

在電子商務中經常對挖掘的數據進行分類處理,即將數據性質相近的歸在一類中,性質差別較大的歸入不同的類中。利用已知類別事物的數據性質建立相應的函數式,對未知類別的新事物進行判別將其歸入已知的類中。通過分析已知分類信息的歷史數據,建立一個預測模型,預測哪些人可能會對哪些商品感興趣,針對這類客戶的特點開展商務活動,提供針對性的服務。分類方法的特點是通過對示例資料庫中的數據進行分析,已經建立了一個分類模型,然後利用分類模型對資料庫中的其它記錄進行分類。

假定現在有一個描述顧客屬性的資料庫,包括他們的姓名、年齡、收入、職業等,企業可以按照他們是否購買某種商品(例如計算機)來進行分類。如果現在有新的顧客添加到資料庫中,並將新計算機的銷售信息通知顧客,若將促銷材料分發給資料庫中的每個新顧客,如此可能會導致耗費較多的精力和物力。而若我們只給那些可能購買新計算機的顧客分發材料,可以在較大的程度上節省成本。為此,可以構造和使用分類模型。

04時間序列模式分析

時間序列模式分析是指挖掘相對時間或其他模式出現頻率高的模式,電子商務活動中交易產生數據存放到相應事務資料庫的表中,每一條記錄包括用戶的用戶號、發生的時間和商品等項目信息。利用事務資料庫來挖掘出涉及事務間關聯的模式,分析用戶幾次購買行為間的聯繫,採取有針對性的營銷措施。

序列模式的數據挖掘是交易集的時間順序的主要模式與內容。數據挖掘主要針對的是找出數據之間的相互關係和內容。並且分析出逐個項目,從而對未來數據進行科學的觀測。這種序列模式以及關聯性的分析比較相似,目的就是為了找出每一個數據之間的關聯,但是序列模式的主要針對點是對數據間的前面以及後面進行關聯性的分析。它能發現資料庫中形如在某一段時間內,顧客購買商品A,接著購買商品B,而後購買商品C,即序列A-B-C出現的頻度較高的信息。序列模式分析的一個例子是「九個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU晶片」。

05偏差分析

偏差是數據集中的小比例對象,通常偏差對象也被稱為離群點。偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及隨機的變化等,它是對差異和極端特例的描述,用於揭示事物偏離常規的異常現象。其基本思想是對資料庫中的偏差數據進行檢測與分析,檢測出資料庫匯總的一些異常記錄,它們在某些特徵上與資料庫中的大部分數據有顯著不同。

通過發現異常,可以引起人們對特殊情況的格外關注。導致異常數據的原因主要包括:

(1)數據來源與異類,如欺詐、入侵、疾病爆發、不尋常的實驗結果等。

(2)由數據量固有變化引起的,是自然發生的,反映了數據集數據分布特徵,如氣候變化、顧客的新的購買模型、基因突變等。

(3)數據測量和收集誤差,主要是由於人為錯誤、測量設備故障或存在噪音。

異常數據(離群點)揭示了日常活動中的異常規律,具有顯著的商業價值。例如,應用到客戶異常信息的發現、分析、識別、評價和客戶流失預警等方面。離群點不可輕易丟棄,因為在一些特殊的數據挖掘應用中,通過罕見的事件更容易高效地發現問題,離群點分析已經是信用卡欺詐、網絡非法入侵等領域很有價值的安全監測手段,例如,一個顧客的帳單上突然出現一筆大額交易,該消費極有可能是信用卡的欺詐性使用。

此外,異常事件中還包括序列異常以及特定規則。異常序列分析是指在一系列行為或事件對應的序列中發現明顯不符合一般規律的特異型知識。特異規則雖然支持度低,但對其應用很有價值。通常,關聯規則挖掘把注意力集中在高支持度和高置信度的規則,對那些特異規則無法做出正確的評價。

06特異群組分析

特異群組分析是發現數據對象集中明顯不同於大部分數據對象(不具有相似性)的數據對象(稱為特異對象)的過程。一個數據集中大部分數據對象不相似,而每個特異群組中的對象是相似的。這是一種大數據環境下的新型大數據挖掘任務。

特異群組挖掘與聚類、偏差分析都屬於根據數據對象的相似性來劃分數據集的數據挖掘任務。但是,特異群組挖掘在問題定義、算法設計和應用效果方面不同於聚類和偏差分析等挖掘任務。

行為數據反映了人類的各種行為方式,這些行為通常是個體對象主動的行為(如股票交易、看病就醫、通勤出行、購物等)。一般情況下,行為對象具有個體性。因此,如果有兩個或兩個以上的對象長時間存在共同的行為,說明這些對象具有群體組織性,有別於通常大部分對象的個體性,這些群體是異常現象。特異群組挖掘就是在眾多行為對象中找到那些少數對象群體,這些行為對象具有一定數量的相同或相似行為模式,表現出相異於大多數對象而形成異常的群組。目前已有相當的應用,其在證券金融、醫療保險、智能交通、社會網絡和生命科學研究等領域具有重要應用價值。

例如,大多數在線交易平臺(如eBay和淘寶)都已建立交易雙方的信用評分系統。對賣家而言,更高的信用等級將帶來更多買家。然而,從低等級到高等級需要經過較長時間積累大量的交易。於是,一些賣家採用「刷信用」方式賺取高等級的信用評分。提供「刷信用」服務的嫌疑者(甚至是專門的「刷信用」公司)通常申請一批帳號與所服務賣家事先商定,在不進行實際交易的方式下給出好的信用評分。同時,這批帳號又可以幫助其他多個賣家「刷信用」。相比所有在線客戶,「刷信用」帳號數量是相對較少的。因此,如果一組帳戶總是給大量相同的賣家好的信用評分,那麼這組帳戶是可疑的,發現這些可疑帳戶將會為交易平臺信譽欺詐檢測提供幫助。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,轉發本文請標明出處)

相關焦點

  • 資料|《常用數據挖掘算法總結及 Python 實現》
    今日資料推薦《 常用數據挖掘算法總結及 Python 實現 》這份資源非常適合相關的從業人員或大數據愛好者,該文檔總結了常用的數據挖掘的算法原理以及 Python 實踐內容,為初學者提供良好的參考資料目錄:第一部分:數據挖掘與機器學習數學基礎第二部分:機器學習概述第三部分:監督學習--分類與回歸第四部分:非監督學習--聚類與關聯分析
  • 大數據挖掘在電子商務客戶關係管理中的應用
    然而隨著大數據時代的到來,不同於傳統方法,大數據分析、數據挖掘技術可以實現企業對潛在客戶的高效篩選。基於大數據分析和挖掘,電子商務企業除了了解關於消費者的年齡分段、性別比例之外,企業還想要進一步的了解更多能夠誘發消費者的購買行為的複雜的元素。如一家在線的英國零售商進行了一次有趣的網絡數據分析。他們發現,家庭主婦們往往是在她們的丈夫在玩球賽的時候進行網上購物。
  • 大數據挖掘常用的工具軟體有哪些
    導讀 對於數據挖掘來說,由於數據挖掘在大數據行業中的重要地位,所以使用的軟體工具更加強調機器學習,常用的軟體工具就是SPSS Modeler。
  • 數據挖掘中的關聯規則挖掘算法
    將關聯規則分為挖掘頻繁項集、閉頻繁項集、被約束頻繁項集、極大頻繁項集,是根據挖掘模式的完全性分類的;將關聯規則分為多層和單層關聯規則,以及單位和多維關聯規則是根據規則所涉及的數據進行分類的;將關聯規則分為量化關聯規則和挖掘布爾型規則是根據規則處理值類型分類的;將關聯規則分為序列模式挖掘、頻繁項集挖掘以及結構模式挖掘是根據俄關聯規則挖掘模式進行分類的;將關聯規則分為興趣度約束、知識類型約束、數據約束,
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 大數據_數據挖掘技術分類及應用
    這裡,數字挖掘技術功不可沒。一般來說,數據挖掘的應用有電信:流失;銀行:聚類(細分),交叉銷售;百貨公司/超市:購物籃分析(關聯規則);保險:細分,交叉銷售,流失(原因分析);信用卡: 欺詐探測,細分;電子商務:網站日誌分析;稅務部門:偷漏稅行為探測;警察機關:犯罪行為分析;醫學:醫療保健。
  • 大數據在電子商務中應用體現在哪些方面
    1、通過大數據進行市場營銷通過大數據進行市場營銷能夠有效的節約企業或是電子商務平臺的營銷成本,還能夠通過大數據來實現營銷的精準化,達成精準營銷。通過分析大數據對消費者的消費偏好進行分析,在消費者輸入關鍵詞之後,提供與消費者消費偏好匹配程度較高的產品,節約了消費者的尋找商品的時間成本,使交易雙方實現快速的對接。實現電子商務平臺或是企業營銷的高效化。在數據化時代,針對消費者進行針對性的營銷能夠實現精準營銷,提升產品的下單率,提升電子商務 的營銷效率。
  • 數據挖掘案例:啤酒尿布的關聯算法怎麼來的?
    故事背景:在一家超市中,通過大數據分析發現了一個特別有趣的現象:尿布與啤酒這兩種風馬牛不相及的商品的銷售數據曲線竟然初期的相似,於是就將尿布與啤酒擺在一起。沒想到這一舉措居然使尿布和啤酒的銷量大幅增加了。
  • 運營商大數據挖掘——缺失數據處理
    這些缺失數據通常會造成非常大的影響,比如缺失數據會在一定程度上影響抽取數據模式的正確性和導出規則的準確性,從而導致建立錯誤的數據挖掘模型,並且由於現階段的大多數數據分析的算法都沒有具備分析和處理缺失數據的能力,因而當數據集中含有缺失數據時這些已經被廣泛使用的數據分析算法或者系統往往是無能為力的。
  • 黑馬程式設計師:Python程式設計師必看:python 數據挖掘算法簡要
    數據挖掘是通過對大量數據的清理及處理以發現信息,並將這原理應用於分類,推薦系統,預測等方面的過程。本文基於《面向程式設計師數據挖掘指南》的理解,擴展學習後的總結。一、數據挖掘過程1.數據選擇在分析業務需求後,需要選擇應用於需求業務相關的數據。明確業務需求並選擇好業務針對性的數據是數據挖掘的先決條件。
  • 十大經典數據挖掘算法—Apriori
    打開APP 十大經典數據挖掘算法—Apriori 發表於 2018-02-04 09:37:56 1.
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)工程數據(如建築、集成電路的信息)文本和多媒體數據(如 文本、圖像、音頻、視頻數據)時間相關的數據(如歷史數據或股票交換數據
  • 大數據採集之大數據挖掘流程及方法總結
    二、數據挖掘流程 定義問題:清晰地定義出業務問題,確定數據挖掘的目的。 數據準備:數據準備包括:選擇數據–在大型資料庫和數據倉庫目標中 提取數據挖掘的目標數據集;數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。 數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。
  • 大咖說數據挖掘的方法
    數據挖掘是大數據時代必然的產物,是對數據進行利用的辦法,也是大數據時代最具有挑戰性的工作。我們在數據採集、存儲和傳輸領域已經具備了先進的技術,能夠採集和存儲大量的數據,可是在數據挖掘和應用領域還知之甚少,數據挖掘技術是未來企業重要的技術。
  • 數據挖掘:新的商業競爭力
    數據挖掘:新的商業競爭力  數據挖掘(Data Mining)正是將海量數據這一金礦銀礦轉變成金銀財寶的冶金煉銀之術!  運營商擁有用戶通信相關數據,從語音到簡訊再到位置,數量之大超過任何一個網際網路巨頭,但它們卻很難有效利用這些數據;與之類似的是政府部門和軟體企業,它們空有海量數據,卻只能任其「沉睡」。這是因為大數據利用的難點在於數據挖掘的技術。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • python:數據挖掘常用工具包
    Python進行數據挖掘的常用工具包主要有:➢ NumPy➢ Pandas➢ matplotlib➢ statsmodels➢ SciPy➢ scikit-learn➢ ……Python數據分析的絕大多數內容基於NumPy和在NumPy之上構建的庫。其提供眾多功能。除了NumPy在Python中添加的快速數組處理功能之外,它在數據分析方面的主要目的之一是作為數據在算法之間傳遞的主要容器。
  • 數據挖掘領域十大經典算法
    國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 早前評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN,
  • 十大數據挖掘算法及各自優勢
    國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    最近有很多人想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據分析與挖掘的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。