AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)

2020-12-05 美林數據Tempodata

大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!

數據挖掘(Data Mining)隸屬於知識發現(KDD)的範疇,是(劃重點)基於人工智慧、機器學習、模式識別、統計學和資料庫等交叉方法,在數據中特別是大數據及海量數據中發現規律的過程,是從一個數據中提取、融合、處理信息,並將其轉換成可理解的結構數據、可視化的分析圖表、可解釋的規律結論,以進一步響應業務分析的需求。它不是一個簡單的概念或者技術,而是一種解決問題的思路和方法,是一個知識綜合應用的技術集合。

數據挖掘涉及知識面廣,技術點多。在面對複雜多樣的業務分析場景時,如何做出有效的數據挖掘分析方案其實是有一套可遵循的方法體系。針對不同的分析數據和業務場景,數據挖掘的方法可以分為監督學習、無監督學習、半監督學習、增強學習,每種方法都有其適應的分析場景和數據基礎。

監督式學習是基於標籤化的訓練資料學習或建立一個映射模式, 依此模式推測新的實例;它包括:分類、回歸、估計等。 注意,定義強調『標籤化的訓練資料』,這就要求分析的樣本數據是有標註的。

半監督學習是指訓練集同時包含有標記樣本數據和未標記樣本數據,並且不需要人工幹預,讓學習器不依賴外界交互、自動利用少量的標註樣本和大量的未標註樣本進行訓練和分類。半監督學習對於減少標註代價,提高學習器性能具有非常重大的實際意義。

無監督學習是指沒有給定事先標記過的訓練示例,自動對輸入的數據進行分類或分群,包括:聚類、關聯規則分析、部分統計分析等。

增強學習(Reinforcement learning)即強化學習,強調基於環境而行動,以取得最大化的預期利益。它採用的是邊獲得樣例邊學習的方式,在獲得樣例之後更新自己的模型,利用當前模型來指導下一步行動,例如博弈論、控制論、仿真優化、群體智能。

明確了業務分析場景和數據挖掘的方法,接下來就要思考如何完成數據挖掘分析的目標。一般情況下,基於一定的業務場景和挖掘分析目標,數據挖掘的基本流程可以總結為以下幾個階段:數據探索、數據預處理、數據建模、模型評估和模型部署應用。

數據探索

數據探索是對建模分析數據進行先導性的洞察分析,利用繪製圖表、計算某些特徵量等手段,對樣本數據集的結構特徵和分布特性進行分析的過程。 該步驟有助於選擇合適的數據預處理和數據分析技術,它是數據建模的依據,比如:數據探索發現數據稀疏,建模時則選擇對稀疏數據支持相對較好的分析方案;如果數據包含文本數據,建模時則需要考慮基於自然語言處理相關技術等。

數據預處理

數據預處理是將不規整的業務數據整理為相對規整的建模數據(比如,數據缺失處理、異常值檢測處理等操作)。數據的質量決定了模型輸出的結果,即數據決定了模型的上限,所以我們需要花大量的時間來對數據進行處理。在數據預處理階段,如果數據存在缺失值情況而導致建模過程混亂甚至無法進行建模,則需要做缺失值處理,缺失值處理分為刪除存在缺失值的記錄、對可能值進行插補及不處理3種情況;如果建模數據存在數據不均衡情況,則需要考慮數據平衡處理,解決這一問題的基本思路是讓正負樣本在訓練過程中擁有相同的話語權,比如利用採樣和加權等方法;如果分析數據量較大,而建模分析又不強制全部數據參與建模分析(比如統計分析隨機選取部分數據作為分析對象),或者建模過程需要全量樣本的部分數據,則需要做數據抽樣,包括隨機抽樣、等距抽樣、分層抽樣等方法;如果建模分析數據存在量綱、數量級上的差別,則需要做數據規約處理消除量綱數量級的影響;如果異常數據會對分析結果影響巨大,則需要做異常值檢測處理排除影響。

特徵工程

理論上,數據和特徵決定了模型的上限,而算法只是逼近這個上限而已,這裡的數據指的是經過特徵工程得到的數據,因此特徵工程是我們進行機器學習必須重視的過程。特徵工程的目的是最大限度地從原始數據中提取特徵以供算法和模型使用。一般認為特徵工程包括特徵選擇、特徵規約、特徵生成三個部分。其中,特徵選擇在降低模型複雜度、提高模型訓練效率、增強模型的準確度方面影響較大;在建模欄位繁多的情形下,通過特徵規約降低建模數據維度,降低特徵共線特性對模型準確度的不利影響,從而提升模型的訓練效率;特徵生成是在特徵維度信息相對單一情況下為了提升模型準確性能而採取的維度信息擴充的方法體系。

數據建模

數據挖掘的核心階段是基於既定的數據和分析目標選擇適宜的算法模型進行建模訓練和迭代優化。數據建模涉及的技術包括:機器學習、統計分析、深度學習,相關技術之間沒有一個明顯的區分界限,且功能互補。如果建模業務數據涉及到文本非結構化數據,則需要藉助自然語言處理實現業務分析場景;面對一些調查數據分析統計意義給出決策結論時,則需要基於統計分析的相關技術;在機器學習領域,分類技術主要解決影響因素X和決策變量Y的問題,基於此目的我們所要做的就是尋找X和Y之間的函數關係。其中分類場景的實際應用Y是名詞型屬性,如用於故障預測、精準營銷等;回歸場景和分類場景類似,只是回歸場景中的決策變量Y是連續性的數值型數據,如用於設備壽命預測、收視率預測等;聚類分析是在沒有決策變量Y的情況下,基於一定的規則(比如基於距離相近、基於曲線相似等)將樣本數據進行分群進而找出共性群體,如客戶細分,市場細分等;時間序列數據是基於歷史數據挖掘內在的趨勢規律,進而實現對未來數據的預測分析,如銷量預測、產量預測等;關聯分析適用於挖掘多個事務項之間共現關聯關係,從而描述事物項中某些屬性同時出現的規律和模式,如產品關聯推薦、交叉故障等,關聯分析的一個典型例子是購物籃分析;綜合評價適用於在多因素、多層次複雜決策情況下對多個備選方案打分以輔助決策,如店鋪選址、客戶信用評分等;

深度學習領域涉及多種模型框架和操作使用技巧,其本身可以作為機器學習的特例, 同樣適用於機器學習多個應用場景。深度學習作為一種實現機器學習的技術,往往在數據量大、業務數據指標難以人工提取的情形下發揮著舉足輕重的作用, 它在圖像處理、語音識別、自然語言處理等領域具有其它機器學習算法無法企及的準確性能。

模型評估

模型評估是評估所構建的模型是否符合既定的業務目標,它有助於發現表達數據的最佳模型和所選模式將來工作的性能如何。模型評估秉承的準則是在滿足業務分析目標的前提下優先選擇簡單化的模型。每個分析場景可以基於多種算法構建多個模型,也可以依據模型優化的方法體系做模型訓練優化,而如何在訓練得到的多個模型中選擇最優模型,可以選擇性能度量作為指標體系,進而基於一定的評估方法進行擇優選擇。

模型部署及應用

模型部署及應用是將數據挖掘結果作用於業務過程,即將訓練得到的最優模型部署到實際應用中;模型部署後,可使用調度腳本控制數據挖掘模型實現流程化運行。在模型日常運行過程中,可根據實際需求檢查模型運行結果是否滿足前端業務的實際應用,跟蹤模型運行情況,定期進行模型結果分析,並適時進行模型優化。

以上內容對數據挖掘涉及的知識體系做了簡要介紹,上述的知識體系涵蓋了實際挖掘分析所用方法體系的絕大部分內容,希望讀者能夠通過本文對數據挖掘有個全局認識。在面對複雜的業務分析場景時,能夠有一個清晰嚴謹的挖掘分析思路,進步明確可以對樣本數據做哪些分析以及如何科學地做挖掘分析。另一方面來說,在實際挖掘分析過程中,一個特定的挖掘分析場景只是涉及上述知識體系的一部分,每個分析場景涉及的知識點也不盡相同,全面掌握和深入理解挖掘知識體系是一個逐漸學習與積累的過程;這就需要我們在每一個挖掘場景下對涉及的知識點進行深入理解和知識擴充,並且對多個實踐過程進行循環往復的知識總結和經驗積累。

相關焦點

  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘是一個多學科交叉領域,涉及神經網絡、遺傳算法、回歸、統計分析、機器學習、聚類分析、特異群分析等,開發挖掘大型海量和多維數據集的算法和系統,開發合適的隱私和安全模式,提高數據系統的使用簡便性。   數據挖掘與傳統意義上的統計學不同。統計學推斷是假設驅動的,即形成假設並在數據基礎上驗證他;數據挖掘是數據驅動的,即自動地從數據中提取模式和假設。
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。
  • 清華178頁深度報告:一文看懂AI數據挖掘
    在數據爆炸的時代裡,如何利用手中數據資源提高行業效率、提高行業質量,成為了眾多企業決策者所關注的問題,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、阿里、百度等科技巨頭的追捧。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。3、進行數據挖掘對得到的經過轉換的數據進行挖掘。4、結果分析解釋並評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。
  • 大數據_數據挖掘技術分類及應用
    依照國外電信市場的發展經驗和歷程,市場競爭中電信公司的成功經營之道是:(1) 以高質量的服務留住現有客戶;(2) 提高通話量和設備利用率,用比競爭者更低的成本爭取新客戶,擴大市場份額;(3)放棄無利潤和信用差的客戶,降低經營風險和成本。
  • 數據挖掘與統計分析的區別
    多元統計老師說:「數據挖掘是以統計分析為基礎的,多數在採用統計分析的方法」。我有不同的觀點,就寫點東西出來,大家可以自己評述。
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 數據挖掘常用的算法
    導讀 當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。
  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    韓家煒教授主要專注於數據挖掘、信息網絡和資料庫等方面的研究,先後在 KDD、VLDB、SIGMOD等發表高水平論文 400餘篇,並在 2002年 ICDE會議上被授予最傑出貢獻獎,獲得 2004年 ACM SIGKDD最佳創新獎,2005年 IEEE計算機學會技術成就獎, 2009年 IEEE計算機學會 Wallace McDowell獎。
  • 數據挖掘中的利器——XGBoost理論篇
    XGBoost是各種數據挖掘或機器學習算法類比賽中每個團隊都會使用且精度相對最好的算法之一(Deep Learning算法除外)。也就是說,對於剛轉向機器學習領域的同胞們,在掌握數據挖掘的基本常識概念之後,要想在比賽中有所收穫,掌握XGBoost算法也是當務之急。
  • FineBI:數據挖掘的車,開了
    我是帆軟數據挖掘的產品經理,在FineBI的新版本5.0中,你們將看到數據挖掘功能,這是我們第一次做數據挖掘功能,自然是要廣而告之了。市場部的同事來找我,希望我來寫一篇文章宣傳一下,作為產品經理,責無旁貸嘛。傳統宣傳三段論:功能業務價值好大->我們功能做得真好->客戶給我們的評價很棒。
  • 乾貨 面向大數據的時空數據挖掘
    第 1 部分早期的數據挖掘研究主要針對字符、數值型的商業數據,隨著信息技術的不斷提高以及行動裝置和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業數據都包含有時間和空間信息,比如設備,建築,機構等的管理,能量的產生,分布及預測等。
  • 12款實用的數據挖掘工具
    >Rapid Miner,原名YALE又一個學習環境,是一個用於機器學習和數據挖掘實驗的環境,用於研究和實際的數據挖掘任務。Oracle Data Miner GUI使數據分析師、業務分析師和數據科學家能夠使用相當優雅的拖放解決方案處理資料庫內的數據。 它還可以為整個企業的自動化、調度和部署創建SQL和PL / SQL腳本。4.
  • 數據挖掘的知識類型
    的人發表論文不少於三篇且主講課程不少於一門。三、分類分類是數據挖掘中一項非常重要的任務,利用分類可以從數據集中提取描述數據類的一個函數或模型(也常稱為分類器),並把數據集中的每個對象歸結到某個已知的對象類中。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據挖掘與數據科學的定義數據挖掘是一種基於大量信息分析的自動數據搜索。其目標是識別趨勢和模式,這是傳統分析技術無法做到的。複雜的數學算法用於分割數據並估計後續事件的可能性。而每個數據科學家都需要了解數據挖掘。在哪裡使用數據科學?
  • 深度解析數據挖掘在推薦系統中的應用
    在移動網際網路時代, 我們會接收到很多由推薦系統推薦過來的信息。比如在逛淘寶、京東時,你會看到「猜你喜歡」這樣的推薦商品; 刷今日頭條、抖音時會首選看推薦的新聞、短視頻,接收來自推薦系統的信息似乎已經成了一種習慣。實際上,在構建推薦系統的過程中會用到大量的數據挖掘算法。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 從公安大數據業務切入,挖掘更多數據價值:明略數據完成 2 億元 B...
    大數據概念在國內炒的過熱,落地大數據應用的產品並不多。原因一方面在於底層數據的非結構化存儲,數據挖掘技術難度大;另一方面在於數據挖掘多樣化模型建立的技術難度。從it時代到DT時代,大家都在談大數據概念而無法落地,而一旦系統應用到具體場景,完成大量非結構化的數據存儲和挖掘的工作,大數據領域可能是座金礦。
  • 單細胞數據挖掘與課題設計實戰課程
    低門檻:零基礎學R語言,學單細胞數據分析; 2. 零成本:快周期且零成本的實戰型數據挖掘課; 3. 新思路:最熱的技術,最新的挖掘方向,做第一批吃螃蟹的人; 4.
  • 華為雲獲DigSci科學數據挖掘大賽冠軍
    近日,華為雲在論文匹配檢索領域取得進展,基於自然語言處理領域的領先技術積累,華為雲語音語義創新Lab在DigSci科學數據挖掘大賽上奪冠,精準率超過第二名5個百分點。DigSci科學數據挖掘大賽比賽是清華AMiner、智源實驗室、微軟聯合舉辦的學術論文搜索匹配大賽,屬於語義匹配檢索領域,旨在從學術材料中挖掘知識。