數據挖掘主要解決的四類問題

2021-01-10 網際網路的那點事

數據挖掘主要解決的四類問題

數據挖掘非常清晰的界定了它所能解決的幾類問題。這是一個高度的歸納,數據挖掘的應用就是把這幾類問題演繹的一個過程。下面讓我們來看看它所解決的四類問題是如何界定的:

1、分類問題

分類問題屬於預測性的問題,但是它跟普通預測問題的區別在於其預測的結果是類別(如A、B、C三類)而不是一個具體的數值(如55、65、75……)。

舉個例子,你和朋友在路上走著,迎面走來一個人,你對朋友說:我猜這個人是個上海人,那麼這個問題就屬於分類問題;如果你對朋友說:我猜這個人的年齡在30歲左右,那麼這個問題就屬於後面要說到的預測問題。

商業案例中,分類問題可謂是最多的:給你一個客戶的相關信息,預測一下他未來一段時間是否會離網?信用度是好/一般/差?是否會使用你的某個產品?將來會成為你的高/中/低價值的客戶?是否會響應你的某個促銷活動?……。

有一種很特殊的分類問題,那就是「二分」問題,顯而易見,「二分」問題意味著預測的分類結果只有兩個類:如是/否;好/壞;高/低……。這類問題也稱為0/1問題。之所以說它很特殊,主要是因為解決這類問題時,我們只需關注預測屬於其中一類的概率即可,因為兩個類的概率可以互相推導。如預測X=1的概率為P(X=1),那麼X=0的概率P(X=0)=1-P(X=1)。這一點是非常重要的。

可能很多人已經在關心數據挖掘方法是怎麼預測P(X=1)這個問題的了,其實並不難。解決這類問題的一個大前提就是通過歷史數據的收集,已經明確知道了某些用戶的分類結果,如已經收集到了10000個用戶的分類結果,其中7000個是屬於「1」這類;3000個屬於「0」這類。伴隨著收集到分類結果的同時,還收集了這10000個用戶的若干特徵(指標、變量)。這樣的數據集一般在數據挖掘中被稱為訓練集,顧名思義,分類預測的規則就是通過這個數據集訓練出來的。訓練的大概思路是這樣的:對所有已經收集到的特徵/變量分別進行分析,尋找與目標0/1變量相關的特徵/變量,然後歸納出P(X=1)與篩選出來的相關特徵/變量之間的關係(不同方法歸納出來的關係的表達方式是各不相同的,如回歸的方法是通過函數關係式,決策樹方法是通過規則集)。

如需了解細節,請查閱:決策樹、Logistic回歸、判別分析、神經網絡、Inpurity 、Entropy、Chi-square、Gini、Odds、Odds Ratio……等相關知識。

2、聚類問題

聚類問題不屬於預測性的問題,它主要解決的是把一群對象劃分成若干個組的問題。劃分的依據是聚類問題的核心。所謂「物以類聚,人以群分」,故得名聚類。

聚類問題容易與分類問題混淆,主要是語言表達的原因,因為我們常說這樣的話:「根據客戶的消費行為,我們把客戶分成三個類,第一個類的主要特徵是……」,實際上這是一個聚類問題,但是在表達上容易讓我們誤解為這是個分類問題。分類問題與聚類問題是有本質區別的:分類問題是預測一個未知類別的用戶屬於哪個類別(相當於做單選題),而聚類問題是根據選定的指標,對一群用戶進行劃分(相當於做開放式的論述題),它不屬於預測問題。

聚類問題在商業案例中也是一個非常常見的,例如需要選擇若干個指標(如價值、成本、使用的產品等)對已有的用戶群進行劃分:特徵相似的用戶聚為一類,特徵不同的用戶分屬於不同的類。

聚類的方法層出不窮,基於用戶間彼此距離的長短來對用戶進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的:首先確定選擇哪些指標對用戶進行聚類;然後在選擇的指標上計算用戶彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、用戶在每個指標下都有相應的取值,可以看作多維空間中的一個點,用戶彼此間的距離就可理解為兩者之間的直線距離。);最後聚類方法把彼此距離比較短的用戶聚為一類,類與類之間的距離相對比較長。

如需了解細節,請查閱:聚類分析、系統聚類、K-means聚類、歐氏距離、閔氏距離、馬氏距離等知識。

3、關聯問題

說起關聯問題,可能要從「啤酒和尿布」說起了。有人說啤酒和尿布是沃爾瑪超市的一個經典案例,也有人說,是為了宣傳數據挖掘/數據倉庫而編造出來的虛構的「託」。不管如何,「啤酒和尿布」給了我們一個啟示:世界上的萬事萬物都有著千絲萬縷的聯繫,我們要善於發現這種關聯。

關聯分析要解決的主要問題是:一群用戶購買了很多產品之後,哪些產品同時購買的機率比較高?買了A產品的同時買哪個產品的機率比較高?可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫「購物籃分析」,英文簡稱為MBA,當然此MBA非彼MBA,意為Market Basket Analysis。

如果在研究的問題中,一個用戶購買的所有產品假定是同時一次性購買的,分析的重點就是所有用戶購買的產品之間關聯性;如果假定一個用戶購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之為序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。

關聯分析有三個非常重要的概念,那就是「三度」:支持度、可信度、提升度。假設有10000個人購買了產品,其中購買A產品的人是1000個,購買B產品的人是2000個,AB同時購買的人是800個。支持度指的是關聯的產品(假定A產品和B產品關聯)同時購買的人數佔總人數的比例,即800/10000=8%,有8%的用戶同時購買了A和B兩個產品;可信度指的是在購買了一個產品之後購買另外一個產品的可能性,例如購買了A產品之後購買B產品的可信度=800/1000=80%,即80%的用戶在購買了A產品之後會購買B產品;提升度就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品的可能性之比,沒有任何條件下購買B產品可能性=2000/10000=20%,那麼提升度=80%/20%=4。

如需了解細節,請查閱:關聯規則、apriror算法中等相關知識。

4、預測問題

此處說的預測問題指的是狹義的預測,並不包含前面闡述的分類問題,因為分類問題也屬於預測。一般來說我們談預測問題主要指預測變量的取值為連續數值型的情況。

例如天氣預報預測明天的氣溫、國家預測下一年度的GDP增長率、電信運營商預測下一年的收入、用戶數等?

預測問題的解決更多的是採用統計學的技術,例如回歸分析和時間序列分析。回歸分析是一種非常古典而且影響深遠的統計方法,最早是由達爾文的表弟高爾頓在研究生物統計中提出來的方法,它的主要目的是研究目標變量與影響它的若干相關變量之間的關係,通過擬和類似Y=aX1+bX2+……的關係式來揭示變量之間的關係。通過這個關係式,在給定一組X1、X2……的取值之後就可以預測未知的Y值。

相對來說,用於預測問題的回歸分析在商業中的應用要遠遠少於在醫學、心理學、自然科學中的應用。最主要的原因是後者是更偏向於自然科學的理論研究,需要有理論支持的實證分析,而在商業統計分析中,更多的使用描述性統計和報表去揭示過去發生了什麼,或者是應用性更強的分類、聚類問題。

如需了解細節,請查閱:一元線性回歸分析、多元線性回歸分析、最小二乘法等相關知識。

數據挖掘的應用領域

數據挖掘一開始就是面向應用而誕生的,前面說到數據挖掘主要解決四大類的問題,如果把這些問題演繹到不同的行業,我們將看到數據挖掘的應用是非常廣泛的。

以我們經常接觸的移動通信行業來說,結合前面提到的四大類問題,我們看看數據挖掘在通信行業都有哪些應用。

分類問題:

離網預測:預測用戶在未來一段時間內離網的風險。

信用申請評分:根據用戶資料評估用戶是否可以授信(如預付費用戶可以透支、後付費用戶可以延長帳期)。

信用行為評分:根據用戶過去的消費行為特徵評估信用得分高低,便於調整話費透支額度或者付費帳期。

定位產品(如彩鈴、WAP、增值數據業務等)目標用戶:構建模型篩選產品營銷的目標用戶群。

聚類問題:

用戶細分:選擇若干指標把用戶群聚為若干個組,組內特徵相似、組間特徵差異明顯。當然用戶細分的方法很多,不一定都是採用聚類方法。聚類的優點是可以綜合處理多維變量,缺點是隨之帶來的不易解釋性。一種便於解釋的細分方法是結合業務對用戶群進行人為的劃分,習慣上稱為Pre-Define的方法。這種方法的優點是便於解釋且應用性強,缺點是對業務要求比較高,劃分邊界比較難定,對多維變量處理有難度。

關聯問題:

交叉銷售:針對用戶已經使用的產品和業務,向其推薦他沒有使用的,但可能有興趣的產品。交叉銷售的問題從某種角度上來也可以理解為分類問題,與定位產品目標用戶這個問題比較相似。

預測問題:

比較成型的應用不多,一般多為用戶數預測、收入預測等。

原文來自:http://spss-market.r.blog.163.com/blog/static/731422682009103095222657/



相關焦點

  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 大數據中數據挖掘的基本步驟
    ,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。數據挖掘是一種決策支持過程,主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。   數據挖掘步驟。
  • 數據挖掘的知識類型
    三、分類分類是數據挖掘中一項非常重要的任務,利用分類可以從數據集中提取描述數據類的一個函數或模型(也常稱為分類器),並把數據集中的每個對象歸結到某個已知的對象類中。從機器學習的觀點,分類技術是一種有指導(我們通常稱之為有監督)的學習,即每個訓練樣本的數據對象已經有類的標識,通過學習可以形成表達數據對象與類標識間對應的知識。從這個意義上說,數據挖掘的目標就是根據樣本數據形成的類知識並對源數據進行分類,進而也可以預測未來數據的分類。(十一城註:這裡的分類和日常生活中的分類含義有些不一樣,它是將數據映射到預先定好的群組或者類中。
  • 大數據_數據挖掘技術分類及應用
    Mellon銀行使用數據挖掘軟體提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環者),另一類能夠保持較高的未清餘額(高循環者)。每一類都代表著銷售的挑戰。低循環者代表預設和支出註銷費用的危險性較低,但會帶來極少的淨收入或負收入,因為他們的服務費用幾乎與高循環者的相同。
  • 4大數據分析算法,精準數據挖掘,解決你99%的運營需求
    這種分析角度可拓寬分析角度,方便業務人員多角度對問題進行剖析,對分析很有用。 通過上面的介紹可以發現,分類法很好用,並且經常用到,當要分析一個業務目標時,可以從不同方面進行分析,並且在不同方面中進行細分成不同分類進行業務剖析,這樣可以有效定位到細節層面,幫助更好地發現問題,解決問題。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    在公司實際工作中,最好的大數據挖掘工程師一定是最熟悉和理解業務的人。對於大數據挖掘的學習心得,作者認為學習數據挖掘一定要結合實際業務背景、案例背景來學習,這樣才是以解決問題為導向的學習方法。大數據挖掘要做的就是把上述類似的商業運營問題轉化為數據挖掘問題。一、如何將商業運營問題轉化為大數據挖掘問題那麼,問題來了,我們該如何把上述的商業運營問題轉化為數據挖掘問題?可以對數據挖掘問題進行細分,分為四類問題:分類問題、聚類問題、關聯問題、預測問題。
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    家煒的主要研究方向是數據挖掘,他是 ACM Transactions on Knowledge Discovery from Data期刊的主編,並寫了一部非常暢銷的數據挖掘著作。他從威斯康星大學麥迪遜分校獲得博士學位。家煒,歡迎您。韓家煒:謝謝,謝謝您,瑪麗安。
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。另外,離散程度還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。離散程度主要有方差、標準差和四分位距等。3. 相關程度相關程度是研究隨機變量之間的相關關係的一種統計方法,相關程度顯示兩個隨機變量之間線性關係的強度和方向,主要研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關情況。
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 12款實用的數據挖掘工具
    >Rapid Miner,原名YALE又一個學習環境,是一個用於機器學習和數據挖掘實驗的環境,用於研究和實際的數據挖掘任務。Oracle Data Miner GUI使數據分析師、業務分析師和數據科學家能夠使用相當優雅的拖放解決方案處理資料庫內的數據。 它還可以為整個企業的自動化、調度和部署創建SQL和PL / SQL腳本。4.
  • 數據挖掘技術在中醫證候學中的應用
    周旭(1983-),女,碩士,講師,研究方向:數據挖掘。摘要:中醫證候的研究工作仍然存在一定的困難,證候的規範化和證候診斷的量化是中醫發展必須解決的問題。數據挖掘技術是一種高效的數據分析手段,其在中醫領域的研究也逐步走向熱門。
  • 科學網—韓家煒:數據挖掘第一人
    「他有『數據挖掘第一人』之稱,是伊利諾伊大學香檳分校具有國際影響力的著名科學家,我們很多學生都選了他的課。」 「我上個月去聽了韓家煒教授的講座,果然是學術大牛,分析問題一針見血,講述道理深入淺出,原先對數據挖掘領域許多一知半解的問題都豁然開朗。」一個園藝設計專業的中國留學生介紹。
  • 一篇文章讓你知道什麼是大數據挖掘技術
    數據挖掘對象  根據信息存儲格式,用於挖掘的對象有關係資料庫、面向對象資料庫、數據倉庫、文本數據源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等。  數據挖掘流程  定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
  • 電子商務大數據挖掘常用算法
    運用關聯規則想要達到的主要目的就是找出每一個數據信息的內在關係,關聯規則是用在同類事件中不同項目的關聯性。在數據挖掘中,關聯分析是其主要的功能之一,它可以在市場營銷的各個領域進行應用。其中,對消費者的購買行為進行關聯規則方面的分析是關聯分析的主要應用之一,其目的是為了對消費者購買商品時的行為模式進行探詢。
  • 乾貨 面向大數據的時空數據挖掘
    第 1 部分早期的數據挖掘研究主要針對字符、數值型的商業數據,隨著信息技術的不斷提高以及行動裝置和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業數據都包含有時間和空間信息,比如設備,建築,機構等的管理,能量的產生,分布及預測等。
  • 大數據時代,數據與信息安全主要分為幾類?
    在我們談信息安全的時候,筆者想先澄清一個概念,什麼叫做信息安全,簡單來說,主要有三個大類:信息層面的信息安全,可以對應學校中的信息安全專業,主要致力於通信加密,密碼加固等傳統的安全領域。用戶層面的信息安全,也就是說用戶把信息存儲到了你的伺服器上,你要怎麼樣保證用戶的隱私不受侵犯。
  • 數據挖掘與統計分析的區別
    最起碼它表明我們應該:在我們的雜誌上發表這類文章;在我們的本科課程中講授一些這方面的內容,在我們的研究生中講授一些相關的研究課題。我們的博士生專業課就有《多元統計》一課;給那些這方面較優秀的人提供一些獎勵(工作,職稱,獎品)。答案並不明顯,在統計學的歷史上就忽略了許多在其它數據處理相關領域發展的新方法。如下是一些相關領域的例子。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據科學和數據挖掘在許多人看來很相似,因此必須了解它們之間的一些主要的區別。如今,數據科學家通常被認為是最有前途和最有利可圖的工作之一。美國勞工統計局預計,到2029年,美國對於數據科學家的市場需求將增加到37700人。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    數據挖掘涉及知識面廣,技術點多。在面對複雜多樣的業務分析場景時,如何做出有效的數據挖掘分析方案其實是有一套可遵循的方法體系。針對不同的分析數據和業務場景,數據挖掘的方法可以分為監督學習、無監督學習、半監督學習、增強學習,每種方法都有其適應的分析場景和數據基礎。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    他就他們研究中的四個方面做了深入的解讀;4、如何構建 Text Cube。承接前一步,挖掘出結構後,韓家煒講解了如何構建多維 Text Cube;5、研究方向總結。但是現實世界中,我們所擁有的數據大多是無結構的 Text,如何將這些無結構的 Text 變成有結構的 Network/Text Cube 仍然是未解決的問題。