所謂的數據挖掘是指從資料庫中的大量數據中揭示隱式、先前未知和潛在有價值信息的非平凡過程。數據挖掘是一種基於人工智慧、機器學習、模式識別、統計、資料庫、可視化等技術的決策支持過程。對企業數據進行自動分析,進行歸納推理,挖掘潛在模式,幫助決策者調整市場戰略,降低風險,做出正確的決策。
接下來,我們來大致學習一下數據挖掘的基本步驟。數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是儘可能以用戶可理解的方式(如可視化)將找出的規律表示出來。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
數據挖掘過程模型步驟主要包括定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
下面讓我們來具體看一下每個步驟的具體內容:
定義問題。在開始知識發現之前最先的也是最重要的要求就是了解數據和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想幹什麼。比如,想提高電子信箱的利用率時,想做的可能是「提高用戶使用率」,也可能是「提高一次用戶使用的價值」,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
建立數據挖掘庫。建立數據挖掘庫包括以下幾個步驟:數據收集,數據描述,選擇,數據質量評估和數據清理,合併與整合,構建元數據,加載數據挖掘庫,維護數據挖掘庫。
分析數據。分析的目的是找到對預測輸出影響最大的數據欄位,和決定是否需要定義導出欄位。如果數據集包含成百上千的欄位,那麼瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟體來協助你完成這些事情。
準備數據。這是建立模型之前的最後一步數據準備工作。可以把此步驟分為四個部分:選擇變量,選擇記錄,創建新變量,轉換變量。
建立模型。建立模型是一個反覆的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分數據建立模型,然後再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。訓練和測試數據挖掘模型需要把數據至少分成兩個部分,一個用於模型訓練,另一個用於模型測試。
評價模型。模型建立好之後,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用於建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證明,有效的模型並不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小範圍內應用,取得測試數據,覺得滿意之後再向大範圍推廣實施。模型建立並經驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。
之後,我們來了解下數據挖掘的五個基本特點。
基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器。
大數據平臺數據挖掘的作用是什麼.中琛魔方大數據平臺(www.zcmorefun.com)表示大數據(big data)是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。大數據有五大特點,即大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)、真實性(Veracity)。它並沒有統計學的抽樣方法,只是觀察和追蹤發生的事情。大數據的用法傾向於預測分析、用戶行為分析或某些其他高級數據分析方法的使用。