電子商務大數據挖掘常用算法

2020-12-04 數字經濟探索

01關聯分析

關聯分析是進行數據挖掘技術的主要手段，其主要是針對數據信息中的各個範圍之間的聯繫，尋找多種不同領域之間的依存關係。運用關聯規則想要達到的主要目的就是找出每一個數據信息的內在關係，關聯規則是用在同類事件中不同項目的關聯性。

在數據挖掘中，關聯分析是其主要的功能之一，它可以在市場營銷的各個領域進行應用。其中，對消費者的購買行為進行關聯規則方面的分析是關聯分析的主要應用之一，其目的是為了對消費者購買商品時的行為模式進行探詢。通過採用關聯分析方法來對挖掘數據中的關聯性規則，能夠幫助企業採取適當的營銷方式對商品進行宣傳，從而有利於促進新產品的銷售。同時，這也有利於消費者發現新產品，從而進一步促進了新產品的宣傳與銷售。

在電子商務系統中，利用關聯規則分析並挖掘出各數據之間的相互關係。例如，採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦。關聯規則推薦算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算，再根據推薦度的大小，推薦未瀏覽的商品給當前客戶。

電子商務中具有海量的交易數據和大量有趣的業務關係，在典型的購物籃分析中，它可以幫助許多商業決策。例如對超市管理者而言，通過顧客對購物籃中商品的分類，得到不同產品之間的聯繫，並為決策制定典型的應用，以確定哪些產品將被放置在一個購物車或購物籃，顧客就會購買這些商品。同時，這些信息也可以幫助零售商選擇調節分配和貨架，行李箱出售。例如，將牛奶和麵包放在一起刺激顧客同時購買這些商品。在電子商務中，Web伺服器因為日誌文件記錄訪問用戶數據，通過這些數據，挖掘使用顧客購買產品的網上某些偏好和品牌忠誠的相關性，價格可以接受的範圍內和包裝要求等內容，從而幫助管理人員計劃，確定投資品，價格和新產品的類型。

但在對電子商務數據進行關聯規則分析時，需要注意兩個關鍵的問題：第一，從大型事務數據集中發現模式，在計算機的應用上可能要付出很高的代價；第二，所發現的模式有可能是虛假的，因為發現的模式可能是偶然發生的。

（圖1 採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦）

02聚類分析

聚類分析是把一組數據按照相似性和差異性分為幾個類別，其目的是使得屬於同一類別的數據間的相似性儘可能大，不同類別中的數據間的相似性儘可能小。聚類分析的方法是數據挖掘領域最為常見的技術之一。常用的聚類分析方法有：分割聚類方法、層次聚類方法、基於密度的聚類方法和高維稀疏聚類算法等。在通過多次的刪除或添加變量影響的分類方式，可以從中得到我們想要的最佳結果。

電子商務中市場細分經常會用到聚類分析法，這樣就可以根據己知的客戶信息數據，將消費模式相似的客戶分為一類，從而有針對性的進行調整營銷策略，為客戶提供更加適合更加滿意的個性化服務。例如，根據現在擁有的客戶情況按照客戶的不同消費水平以及不同情況進行模式的分析，從而在進行產品營銷的過程中提供更加高質量、高品質的服務內容；針對不同的客戶可以進行銷售郵件的發送，通過聚類的分析進行客戶信息的提取，使得服務更加的周到和細緻。

03分類分析

分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型或分類函數，將資料庫中的數據項映射到某個給定的類別。分類的主要方法有基於決策樹模型的數據分類、支持向量機算法、貝葉斯分類算法、ID3算法和基於BP神經網絡算法等。

進行分類分析是數據挖掘技術主要的應用方向之一，並且使用起來更加的方便。進行產品的分類是將事件進行對象的劃分，同時也可以用這個技術進行數據的觀測和預測。對數據進行分類處理，整理出一個科學、完整的預測模型。例如電子商務企業預測出可能要發送的郵件，以及客戶的主要情況，然後針對不同的用戶展開不同的商業營銷，進而提供出個性化的服務內容。

在電子商務中經常對挖掘的數據進行分類處理，即將數據性質相近的歸在一類中，性質差別較大的歸入不同的類中。利用已知類別事物的數據性質建立相應的函數式，對未知類別的新事物進行判別將其歸入已知的類中。通過分析已知分類信息的歷史數據，建立一個預測模型，預測哪些人可能會對哪些商品感興趣，針對這類客戶的特點開展商務活動，提供針對性的服務。分類方法的特點是通過對示例資料庫中的數據進行分析，已經建立了一個分類模型，然後利用分類模型對資料庫中的其它記錄進行分類。

假定現在有一個描述顧客屬性的資料庫，包括他們的姓名、年齡、收入、職業等，企業可以按照他們是否購買某種商品（例如計算機）來進行分類。如果現在有新的顧客添加到資料庫中，並將新計算機的銷售信息通知顧客，若將促銷材料分發給資料庫中的每個新顧客，如此可能會導致耗費較多的精力和物力。而若我們只給那些可能購買新計算機的顧客分發材料，可以在較大的程度上節省成本。為此，可以構造和使用分類模型。

04時間序列模式分析

時間序列模式分析是指挖掘相對時間或其他模式出現頻率高的模式，電子商務活動中交易產生數據存放到相應事務資料庫的表中，每一條記錄包括用戶的用戶號、發生的時間和商品等項目信息。利用事務資料庫來挖掘出涉及事務間關聯的模式，分析用戶幾次購買行為間的聯繫，採取有針對性的營銷措施。

序列模式的數據挖掘是交易集的時間順序的主要模式與內容。數據挖掘主要針對的是找出數據之間的相互關係和內容。並且分析出逐個項目，從而對未來數據進行科學的觀測。這種序列模式以及關聯性的分析比較相似，目的就是為了找出每一個數據之間的關聯，但是序列模式的主要針對點是對數據間的前面以及後面進行關聯性的分析。它能發現資料庫中形如在某一段時間內，顧客購買商品A，接著購買商品B，而後購買商品C，即序列A-B-C出現的頻度較高的信息。序列模式分析的一個例子是「九個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU晶片」。

05偏差分析

偏差是數據集中的小比例對象，通常偏差對象也被稱為離群點。偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及隨機的變化等，它是對差異和極端特例的描述，用於揭示事物偏離常規的異常現象。其基本思想是對資料庫中的偏差數據進行檢測與分析，檢測出資料庫匯總的一些異常記錄，它們在某些特徵上與資料庫中的大部分數據有顯著不同。

通過發現異常，可以引起人們對特殊情況的格外關注。導致異常數據的原因主要包括：

（1）數據來源與異類，如欺詐、入侵、疾病爆發、不尋常的實驗結果等。

（2）由數據量固有變化引起的，是自然發生的，反映了數據集數據分布特徵，如氣候變化、顧客的新的購買模型、基因突變等。

（3）數據測量和收集誤差，主要是由於人為錯誤、測量設備故障或存在噪音。

異常數據（離群點）揭示了日常活動中的異常規律，具有顯著的商業價值。例如，應用到客戶異常信息的發現、分析、識別、評價和客戶流失預警等方面。離群點不可輕易丟棄，因為在一些特殊的數據挖掘應用中，通過罕見的事件更容易高效地發現問題，離群點分析已經是信用卡欺詐、網絡非法入侵等領域很有價值的安全監測手段，例如，一個顧客的帳單上突然出現一筆大額交易，該消費極有可能是信用卡的欺詐性使用。

此外，異常事件中還包括序列異常以及特定規則。異常序列分析是指在一系列行為或事件對應的序列中發現明顯不符合一般規律的特異型知識。特異規則雖然支持度低，但對其應用很有價值。通常，關聯規則挖掘把注意力集中在高支持度和高置信度的規則，對那些特異規則無法做出正確的評價。

06特異群組分析

特異群組分析是發現數據對象集中明顯不同於大部分數據對象（不具有相似性）的數據對象（稱為特異對象）的過程。一個數據集中大部分數據對象不相似，而每個特異群組中的對象是相似的。這是一種大數據環境下的新型大數據挖掘任務。

特異群組挖掘與聚類、偏差分析都屬於根據數據對象的相似性來劃分數據集的數據挖掘任務。但是，特異群組挖掘在問題定義、算法設計和應用效果方面不同於聚類和偏差分析等挖掘任務。

行為數據反映了人類的各種行為方式，這些行為通常是個體對象主動的行為（如股票交易、看病就醫、通勤出行、購物等）。一般情況下，行為對象具有個體性。因此，如果有兩個或兩個以上的對象長時間存在共同的行為，說明這些對象具有群體組織性，有別於通常大部分對象的個體性，這些群體是異常現象。特異群組挖掘就是在眾多行為對象中找到那些少數對象群體，這些行為對象具有一定數量的相同或相似行為模式，表現出相異於大多數對象而形成異常的群組。目前已有相當的應用，其在證券金融、醫療保險、智能交通、社會網絡和生命科學研究等領域具有重要應用價值。

例如，大多數在線交易平臺（如eBay和淘寶）都已建立交易雙方的信用評分系統。對賣家而言，更高的信用等級將帶來更多買家。然而，從低等級到高等級需要經過較長時間積累大量的交易。於是，一些賣家採用「刷信用」方式賺取高等級的信用評分。提供「刷信用」服務的嫌疑者（甚至是專門的「刷信用」公司）通常申請一批帳號與所服務賣家事先商定，在不進行實際交易的方式下給出好的信用評分。同時，這批帳號又可以幫助其他多個賣家「刷信用」。相比所有在線客戶，「刷信用」帳號數量是相對較少的。因此，如果一組帳戶總是給大量相同的賣家好的信用評分，那麼這組帳戶是可疑的，發現這些可疑帳戶將會為交易平臺信譽欺詐檢測提供幫助。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫，轉發本文請標明出處)

電子商務大數據挖掘常用算法

相關焦點

數據挖掘常用的算法

資料|《常用數據挖掘算法總結及 Python 實現》

大數據_數據挖掘技術分類及應用

SQL Server2008中的9種數據挖掘算法淺析

吳信東:數據挖掘算法的經典與現代

數據挖掘(DataMining)概述

十大經典數據挖掘算法—Apriori

從概念到應用,這一次終於把數據挖掘給講明白了

什麼叫數據挖掘_數據挖掘技術解析

一篇文章讓你知道什麼是大數據挖掘技術

騰訊孫國政:大數據挖掘和推薦算法最新進展

深入淺出:如何從0開始學習大數據挖掘分析?

數據挖掘之關聯規則算法(Apriori)

數據產品經理之數據分析與挖掘

常用數據無損壓縮算法分析

資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...

二十、數據挖掘之Eclat算法介紹

4大數據分析算法,精準數據挖掘,解決你99%的運營需求

【乾貨】數據挖掘中算法學習的2條進擊路線

2011年1月自學考試電子商務網站設計原理試題