生活中有許多數據,那數據分析是做什麼的呢?面對浩繁數據的時候,僅僅依靠人類的大腦和雙手無法從這些龐大的數據中獲得寶貴的信息。即便可以,如果沒有任何科學依據。也不能從中找出有效信息。因此,融合了統計技術和IT技術的「數據挖掘」便應運而生。
起初,數據挖掘緊跟「One to One」或「CRM(Customer RelationshipManagement)」的潮流,主要用於分析顧客行為、開發新客戶、預測新產品和庫存管理等,尤其被期待能夠應用於市場營銷領域。因此,逐漸出現了把顧客數據和poS數據存儲到資料庫(Data Warehouse) (下圖)的方法:
通過搭配使用資料庫(Data warechouse)和數據挖掘,相關人員從市場營銷領域獲得了許多有效信息、知識、假設和課題。近年來,這種 方法還被廣泛地應用於財務、質量管理、醫療、科學研究等眾多領域。
在進行實際的數據挖掘時,首先應該做什麼準備?數據挖掘工具(道具)有S-PLUS、SAS、SPSS等各類軟體和專業應用軟體。在美國,把數據挖掘工具稱為Siftware,大約有兩百多種。在這些眾多軟體中,既包含具有綜合性功能的軟體。還包含具備強大單一功能的軟體。例如,IBM的Intelligence Mining,SAS公司的EnterpriseMiner,SPSS公司的Clementine,數理系統股份公司的VMS(Visual Mining Studio).都是具有綜合性功能的軟體,而SPSS公司的Answer Tree,則是採用決策樹預測理論的Siftware。
在簡單了解了數據分析是做什麼的之後,簡單給初學者說幾句重要的話,其實初學者完全沒必要掌握複雜的操作,也不需要具備高深的專業知識,更下需花費高額費用。日常使用的Excel就是一款卓越的數據挖掘工具。讓我們一起學習Excel吧!根據數據挖掘的目的、數據性質、規模和預算等情況,選擇適當的工具完成工作。
數據挖掘的目的是什麼呢?我們總結數據挖掘主要有以下三個目的:
(1)把握趨勢和模式;通過分析網購交易的記錄數據、呼叫中心內的投訴數據、顧客滿意度的調查數據、購物數據等,可以把把握顧客的購買意願和類型、投訴的種類等信息。數據挖掘工具(方法)中神經網絡、購物籃分析,粗糙(Rough)集、對應分析(雙尺度法)、主成分分析、聚類分析等。
(2)預測;利用數萬個數據進行預測,最有效的方法是神經網絡法,它是具有強大功能的工具,即使數據是非線性關係也無妨。伹缺點是,需要大量數據並且因子分析的功能弱。利用數十個、數百個數據進行預測(和因子分析)的方法有回歸分析、判別分析、邏輯回歸分析、數量化理論I、數量化理論II等,另外,預測時間序列數據的方祛有灰色理論、最近鄰法、霍爾特(Holt)法、指數平滑法、移動平均祛、博克斯-詹金斯(Box-Jenkins)法(ARIMA模型)、數量化理論I等。
(3)求最優解。在多種約束條什下,要實現利益最大化或者成本最小化,應該怎樣求解參數(未知參數)呢?使用Excel的規劃求解可以輕鬆地解決這個問題。
這三點就是數據挖掘的主要目的,希望對您對數據挖掘的認識有所幫助。
普遍認為Excel是一種「表格計算軟體」,實際上,它還兼具了數據挖掘工具和資料庫的功能,是非常實用的用excel學數據挖掘的軟體。接下來我們會循序漸進地介紹用excel挖掘數據的操作工具和分析方法.
Excel作為一種強大的數據挖掘工具,具備以下五大功能:①函數、②圖表、③數據分析、④數據透視表、⑤規劃求解。
為什麼說上述功能是「數據挖掘工具」呢? 下面分別介紹各自的功能並說明與數據挖掘之間的關係。
一、Excel中的函數
每人不斷地存儲在電腦中的數據,不能直接分析,需要進行「統計和分析處理」。數據挖掘之前,需要求出數據的平均值、總和、最大值、最小值。開始挖掘之後,為廠得到更深層的結果,還需要「統計」和「分析」。能夠有效地進行「統計和分析處理」的是「函數」.Excel大約有350種函數,根據統計和分析的目的以及數據的性質,靈活使用不同的函數.
二、Excel中的圖表
數據挖掘的重要方法之一是「數據可視化」。它不是把每一個數據都羅列出來,而是通過可視化,採取一目了然的表現形式。通常這樣可以得到新的、有價值的結果.將數據可視化,毋庸置疑,「圖表」是首選方法。做演講時,圖表更是不可或缺。Excel的「繪圖工具」支持許多功能,非常實用。
Excel有70多種圖表,常用的有:a、柱形圖 b、折線圖 c、散點圖 d、直方圖 e、帕雷託圖(如下圖):
想必許多讀者在日常工作中都使用過「函數」和「圖表」,但是有多少人知道下面的三種功能呢?特別是「 」和「規劃求解」,根據安裝Excel時的不同設置,很多情況下並不會自動顯示在菜單欄中。通過操作「加載宏(添加初始設置時未包含的功能)」,可以大幅提高數據挖掘和統訓分析的功能。
三、Excel中的數據分析
數據挖掘工具有S-PLUs、SAS、SPSS等多種軟體和專業應用程式。使用這些軟體吋,需要具備一定的專業技術,還要負擔一些費用。與此相反,Excel的「數據分析」對於數據挖掘的初學者而言,是一款操作簡單而且實用的 分析工具。
Excel小編不知道Excel具備「數據分析」功能時也使用其他軟體,但是,自從知道並了解它的便利性、實用性之後,為了普及數據挖掘和數據分析,在研究班課程或諮詢業務中都使用它。
四、Excel中的數據透視表
Excel可以將表格中的數據轉換成「數據透視表」。數據透視表又叫「交叉表」。交叉表是把數據「分層」的表。數據挖掘時「分層」也是非常重要的一環。例如,分析銷售數據時,從性別、年齡、星期、天氣等不同的角度進行分析,通常能夠得到非常有趣的結果。但是,每次改變角度時都需要修改表格數據,非常麻煩。使用菜單欄的「數據」→「數據透視表和數據透視圖」,就能方便地製作分層表。點擊滑鼠,可以方便地切換分析的角度。另外,雙擊交叉表內單元格中的數字,還可以顯示該數字詳細的數據(下表)。
五、Excel中的規劃求解
規劃求解(下圖),簡單地說就是「線性規劃法程序」,包括線性規劃法,非線性規劃法和整數規劃法.打開「線性規劃法』,讀者可能會覺得難以操作。「規劃求解」是在多種約束條件(公式化)下,為了使目標變量最大(最小)而求解未知數(也叫參數)的工具,使用範圍非常廣泛。
曾任職於日本東京理科大學的芳賀教授說:「Excel的『規劃求解』具有強大的功能。今後通過改進使用方法,估計統計學教程也需要大幅修改!」
以前,為了求解邏輯斯蒂曲線和龔伯茲曲線等生長曲線的參數,例如在邏輯曲線中求解y=a/[l+b exp(-cx)]的a、b、c時,Excel網小編曾經使用過S-PLUS。後來才知道可以用規劃求解計算。
最近,規劃求解也被應用於計算協方差分析等程序,其應用範圍不斷擴大。從趨勢上看,選擇用excel學數據挖掘是個明智之舉,使用規劃求解極有可能促進神經網絡早日實現。規劃求解是實現數據挖掘的目的求最優解的代表工具。