電子商務大數據挖掘常用算法

2020-12-04 數字經濟探索

01關聯分析

關聯分析是進行數據挖掘技術的主要手段,其主要是針對數據信息中的各個範圍之間的聯繫,尋找多種不同領域之間的依存關係。運用關聯規則想要達到的主要目的就是找出每一個數據信息的內在關係,關聯規則是用在同類事件中不同項目的關聯性。

在數據挖掘中,關聯分析是其主要的功能之一,它可以在市場營銷的各個領域進行應用。其中,對消費者的購買行為進行關聯規則方面的分析是關聯分析的主要應用之一,其目的是為了對消費者購買商品時的行為模式進行探詢。通過採用關聯分析方法來對挖掘數據中的關聯性規則,能夠幫助企業採取適當的營銷方式對商品進行宣傳,從而有利於促進新產品的銷售。同時,這也有利於消費者發現新產品,從而進一步促進了新產品的宣傳與銷售。

在電子商務系統中,利用關聯規則分析並挖掘出各數據之間的相互關係。例如,採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦。關聯規則推薦算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算,再根據推薦度的大小,推薦未瀏覽的商品給當前客戶。

電子商務中具有海量的交易數據和大量有趣的業務關係,在典型的購物籃分析中,它可以幫助許多商業決策。例如對超市管理者而言,通過顧客對購物籃中商品的分類,得到不同產品之間的聯繫,並為決策制定典型的應用,以確定哪些產品將被放置在一個購物車或購物籃,顧客就會購買這些商品。同時,這些信息也可以幫助零售商選擇調節分配和貨架,行李箱出售。例如,將牛奶和麵包放在一起刺激顧客同時購買這些商品。在電子商務中,Web伺服器因為日誌文件記錄訪問用戶數據,通過這些數據,挖掘使用顧客購買產品的網上某些偏好和品牌忠誠的相關性,價格可以接受的範圍內和包裝要求等內容,從而幫助管理人員計劃,確定投資品,價格和新產品的類型。

但在對電子商務數據進行關聯規則分析時,需要注意兩個關鍵的問題:第一,從大型事務數據集中發現模式,在計算機的應用上可能要付出很高的代價;第二,所發現的模式有可能是虛假的,因為發現的模式可能是偶然發生的。

(圖1 採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦)

02聚類分析

聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的數據間的相似性儘可能大,不同類別中的數據間的相似性儘可能小。聚類分析的方法是數據挖掘領域最為常見的技術之一。常用的聚類分析方法有:分割聚類方法、層次聚類方法、基於密度的聚類方法和高維稀疏聚類算法等。在通過多次的刪除或添加變量影響的分類方式,可以從中得到我們想要的最佳結果。

電子商務中市場細分經常會用到聚類分析法,這樣就可以根據己知的客戶信息數據,將消費模式相似的客戶分為一類,從而有針對性的進行調整營銷策略,為客戶提供更加適合更加滿意的個性化服務。例如,根據現在擁有的客戶情況按照客戶的不同消費水平以及不同情況進行模式的分析,從而在進行產品營銷的過程中提供更加高質量、高品質的服務內容;針對不同的客戶可以進行銷售郵件的發送,通過聚類的分析進行客戶信息的提取,使得服務更加的周到和細緻。

03分類分析

分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型或分類函數,將資料庫中的數據項映射到某個給定的類別。分類的主要方法有基於決策樹模型的數據分類、支持向量機算法、貝葉斯分類算法、ID3算法和基於BP神經網絡算法等。

進行分類分析是數據挖掘技術主要的應用方向之一,並且使用起來更加的方便。進行產品的分類是將事件進行對象的劃分,同時也可以用這個技術進行數據的觀測和預測。對數據進行分類處理,整理出一個科學、完整的預測模型。例如電子商務企業預測出可能要發送的郵件,以及客戶的主要情況,然後針對不同的用戶展開不同的商業營銷,進而提供出個性化的服務內容。

在電子商務中經常對挖掘的數據進行分類處理,即將數據性質相近的歸在一類中,性質差別較大的歸入不同的類中。利用已知類別事物的數據性質建立相應的函數式,對未知類別的新事物進行判別將其歸入已知的類中。通過分析已知分類信息的歷史數據,建立一個預測模型,預測哪些人可能會對哪些商品感興趣,針對這類客戶的特點開展商務活動,提供針對性的服務。分類方法的特點是通過對示例資料庫中的數據進行分析,已經建立了一個分類模型,然後利用分類模型對資料庫中的其它記錄進行分類。

假定現在有一個描述顧客屬性的資料庫,包括他們的姓名、年齡、收入、職業等,企業可以按照他們是否購買某種商品(例如計算機)來進行分類。如果現在有新的顧客添加到資料庫中,並將新計算機的銷售信息通知顧客,若將促銷材料分發給資料庫中的每個新顧客,如此可能會導致耗費較多的精力和物力。而若我們只給那些可能購買新計算機的顧客分發材料,可以在較大的程度上節省成本。為此,可以構造和使用分類模型。

04時間序列模式分析

時間序列模式分析是指挖掘相對時間或其他模式出現頻率高的模式,電子商務活動中交易產生數據存放到相應事務資料庫的表中,每一條記錄包括用戶的用戶號、發生的時間和商品等項目信息。利用事務資料庫來挖掘出涉及事務間關聯的模式,分析用戶幾次購買行為間的聯繫,採取有針對性的營銷措施。

序列模式的數據挖掘是交易集的時間順序的主要模式與內容。數據挖掘主要針對的是找出數據之間的相互關係和內容。並且分析出逐個項目,從而對未來數據進行科學的觀測。這種序列模式以及關聯性的分析比較相似,目的就是為了找出每一個數據之間的關聯,但是序列模式的主要針對點是對數據間的前面以及後面進行關聯性的分析。它能發現資料庫中形如在某一段時間內,顧客購買商品A,接著購買商品B,而後購買商品C,即序列A-B-C出現的頻度較高的信息。序列模式分析的一個例子是「九個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU晶片」。

05偏差分析

偏差是數據集中的小比例對象,通常偏差對象也被稱為離群點。偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及隨機的變化等,它是對差異和極端特例的描述,用於揭示事物偏離常規的異常現象。其基本思想是對資料庫中的偏差數據進行檢測與分析,檢測出資料庫匯總的一些異常記錄,它們在某些特徵上與資料庫中的大部分數據有顯著不同。

通過發現異常,可以引起人們對特殊情況的格外關注。導致異常數據的原因主要包括:

(1)數據來源與異類,如欺詐、入侵、疾病爆發、不尋常的實驗結果等。

(2)由數據量固有變化引起的,是自然發生的,反映了數據集數據分布特徵,如氣候變化、顧客的新的購買模型、基因突變等。

(3)數據測量和收集誤差,主要是由於人為錯誤、測量設備故障或存在噪音。

異常數據(離群點)揭示了日常活動中的異常規律,具有顯著的商業價值。例如,應用到客戶異常信息的發現、分析、識別、評價和客戶流失預警等方面。離群點不可輕易丟棄,因為在一些特殊的數據挖掘應用中,通過罕見的事件更容易高效地發現問題,離群點分析已經是信用卡欺詐、網絡非法入侵等領域很有價值的安全監測手段,例如,一個顧客的帳單上突然出現一筆大額交易,該消費極有可能是信用卡的欺詐性使用。

此外,異常事件中還包括序列異常以及特定規則。異常序列分析是指在一系列行為或事件對應的序列中發現明顯不符合一般規律的特異型知識。特異規則雖然支持度低,但對其應用很有價值。通常,關聯規則挖掘把注意力集中在高支持度和高置信度的規則,對那些特異規則無法做出正確的評價。

06特異群組分析

特異群組分析是發現數據對象集中明顯不同於大部分數據對象(不具有相似性)的數據對象(稱為特異對象)的過程。一個數據集中大部分數據對象不相似,而每個特異群組中的對象是相似的。這是一種大數據環境下的新型大數據挖掘任務。

特異群組挖掘與聚類、偏差分析都屬於根據數據對象的相似性來劃分數據集的數據挖掘任務。但是,特異群組挖掘在問題定義、算法設計和應用效果方面不同於聚類和偏差分析等挖掘任務。

行為數據反映了人類的各種行為方式,這些行為通常是個體對象主動的行為(如股票交易、看病就醫、通勤出行、購物等)。一般情況下,行為對象具有個體性。因此,如果有兩個或兩個以上的對象長時間存在共同的行為,說明這些對象具有群體組織性,有別於通常大部分對象的個體性,這些群體是異常現象。特異群組挖掘就是在眾多行為對象中找到那些少數對象群體,這些行為對象具有一定數量的相同或相似行為模式,表現出相異於大多數對象而形成異常的群組。目前已有相當的應用,其在證券金融、醫療保險、智能交通、社會網絡和生命科學研究等領域具有重要應用價值。

例如,大多數在線交易平臺(如eBay和淘寶)都已建立交易雙方的信用評分系統。對賣家而言,更高的信用等級將帶來更多買家。然而,從低等級到高等級需要經過較長時間積累大量的交易。於是,一些賣家採用「刷信用」方式賺取高等級的信用評分。提供「刷信用」服務的嫌疑者(甚至是專門的「刷信用」公司)通常申請一批帳號與所服務賣家事先商定,在不進行實際交易的方式下給出好的信用評分。同時,這批帳號又可以幫助其他多個賣家「刷信用」。相比所有在線客戶,「刷信用」帳號數量是相對較少的。因此,如果一組帳戶總是給大量相同的賣家好的信用評分,那麼這組帳戶是可疑的,發現這些可疑帳戶將會為交易平臺信譽欺詐檢測提供幫助。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,轉發本文請標明出處)

相關焦點

  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 資料|《常用數據挖掘算法總結及 Python 實現》
    今日資料推薦《 常用數據挖掘算法總結及 Python 實現 》這份資源非常適合相關的從業人員或大數據愛好者,該文檔總結了常用的數據挖掘的算法原理以及 Python 實踐內容,為初學者提供良好的參考資料目錄:第一部分:數據挖掘與機器學習數學基礎第二部分:機器學習概述第三部分:監督學習--分類與回歸第四部分:非監督學習--聚類與關聯分析
  • 大數據_數據挖掘技術分類及應用
    這裡,數字挖掘技術功不可沒。一般來說,數據挖掘的應用有電信:流失;銀行:聚類(細分),交叉銷售;百貨公司/超市:購物籃分析(關聯規則);保險:細分,交叉銷售,流失(原因分析);信用卡: 欺詐探測,細分;電子商務:網站日誌分析;稅務部門:偷漏稅行為探測;警察機關:犯罪行為分析;醫學:醫療保健。
  • SQL Server2008中的9種數據挖掘算法淺析
    【IT168 技術文檔】  在sql server2008中提供了9種常用的數據挖掘算法,這些算法用在不同數據挖掘的應用場景下,下面我們就各個算法逐個分析討論。  1.決策樹算法  決策樹,又稱判定樹,是一種類似二叉樹或多叉樹的樹結構。
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)
  • 十大經典數據挖掘算法—Apriori
    打開APP 十大經典數據挖掘算法—Apriori 發表於 2018-02-04 09:37:56 關聯分析 關聯分析是一類非常有用的數據挖掘方法,能從數據中挖掘出潛在的關聯關係。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。01 數據挖掘及高級數據分析技術的應用1.
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 一篇文章讓你知道什麼是大數據挖掘技術
    大數據如果想要產生價值,對它的處理過程無疑是非常重要的,其中大數據分析和大數據挖掘就是最重要的兩部分。  什麼是大數據挖掘?  數據準備:數據準備包括:選擇數據–在大型資料庫和數據倉庫目標中 提取數據挖掘的目標數據集;數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。  數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。
  • 騰訊孫國政:大數據挖掘和推薦算法最新進展
    騰訊首席科學家孫國政做了主題為「超大規模用戶數據挖掘和推薦算法最新進展」的主題演講。我們下面有請騰訊首席科學家孫國政給我們介紹超大規模用戶數據挖掘和推薦算法最新進展。孫國政:大家好,我來自騰訊公司,我今天演講的題目是超大規模用戶數據挖掘和推薦算法最新進展,並且從KDD—CUP2012談起。剛才講到國際會議好多高手都參加,現在這個世界是一個網際網路時代,也可以說是一個大數據時代。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 數據挖掘之關聯規則算法(Apriori)
    1 關聯規則挖掘定義大多數關聯規則挖掘算法通常採用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:頻繁項集產生(Frequent Itemset Generation2 Apriori算法介紹Apriori算法的原理通過限制候選產生發現頻發項集由頻繁項集產生關聯規則
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。
  • 常用數據無損壓縮算法分析
    而有損壓縮是重構使用壓縮後的數據,其重構數據與原來數據有所不同,但不影響原始資料表達信息,而壓縮率則要大得多。有損壓縮廣泛應用於語音、圖像和視頻的數據壓縮。常用的有損壓縮算法有PCM(脈衝編碼調製)、預測編碼、變換編碼(離散餘弦變換、小波變換等)、插值和外推(空域亞採樣、時域亞採樣、自適應)等。新一代的數據壓縮算法大多採用有損壓縮,例如矢量量化、子帶編碼、基於模型的壓縮、分形壓縮和小波壓縮等。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》開篇闡述數據挖掘原理,此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 4大數據分析算法,精準數據挖掘,解決你99%的運營需求
    學習數據分析的朋友們都知道,算法是不可或缺的,或者說算法在一定程度上可以更好地量化一個人的學習能力和水平,數據分析中常見的分析方法有對比法、分類法、拆分法、流程法,當然還有其他分析方法,不在本次文章討論範圍內。以下對這幾種分析方法進行理論詳解。
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。 第二條路線K-means →EM → 樸素貝葉斯→貝葉斯網絡→隱馬爾科夫模型(基本模型、前向算法、維特比算法、前向-後向算法) →卡爾曼濾波這條線路所涉及的基本都是那些各種畫來畫去的圖模型,學術名詞稱為 PGM 。這條線的思路和第一條是截然不同的!
  • 2011年1月自學考試電子商務網站設計原理試題
    全國2011年1月高等教育自學考試電子商務網站設計原理試題課程代碼:00906一、單項選擇題(本大題共20小題,每小題1分,共20分)在每小題列出的四個備選項中只有一個是符合題目要求的1.與政府部門有直接聯繫的電子商務模式是( )A.B2B B.B2CC.C2C D.B2G2.用公鑰進行加密,用私鑰進行解密的是( )A.傳統密鑰體制 B.公開密鑰體制C.公鑰體制 D.私鑰體制3.在下列功能中,屬於數據挖掘技術基本功能的是( )A.數據定義 B.數據操作C.