各位親愛的麥粉,今天小麥有重要的事情宣布:經過研發工程師的不懈努力,Smartbi終於解鎖「預測未來」秘笈了!從此,Smartbi又多了一項技能傍身,而且這項技能堪稱「必殺技」:助您神機妙算,未卜先知!聽著是不是覺得很神奇呢?究竟是怎麼回事?且聽小麥為您細細道來...
其實,預測未來,並不是靠什麼法術或天書,而是用科學的方法,去發現隱藏在大量數據裡面的規律,揭示數據之間的關係,從而對以後的趨勢進行判斷。問題的關鍵是:用什麼科學的方法?答案就是:數據挖掘!
小麥同時為大家準備了視頻講解:
什麼是數據挖掘
數據挖掘就是從大量的數據中去發現有用的信息,然後根據這些信息來輔助決策。聽起來是不是跟傳統的數據分析很像呢?實際上,數據挖掘就是智能化的數據分析,它們的目標都是一樣的。但是,又有很大的區別。
傳統的數據分析和數據挖掘最主要的區別就是在揭示數據之間的關係上。傳統的數據分析揭示的是已知的、過去的數據關係,數據挖掘揭示的是未知的、將來的數據關係。它們採用的技術也不一樣,傳統的數據分析採用計算機技術,而數據挖掘不僅採用計算機技術,還涉及到統計學、模型算法等技術,相對來說會複雜很多。因為數據挖掘發現的是將來的信息,所以最主要就是用來:預測!預測公司未來的銷量,預測產品未來的價格等等。
數據挖掘的流程
數據挖掘是如何做到預測的?因為數據挖掘有一套標準的流程,可以對數據進行各種科學的處理和測試,從而發現數據本身隱藏的規律。這套流程概括起來包括業務理解、數據準備、建立模型和評估模型 4 個步驟,我們以「預測銀行零售客戶流失」這個應用場景為例進行說明:
第 1 步:業務理解
確定目標,明確分析需求
預測哪些銀行零售客戶將會流失,提前做好營銷挽留。
第 2 步:數據準備
收集原始數據、檢驗數據質量、整合數據、格式化數據
初步判斷客戶可能會流失的情況,如銀行卡交易量逐月下降、客戶投訴持續不斷,對跟這些情況有關的數據進行採集、格式化。
第 3 步:建立模型
選擇建模技術、參數調優、生成測試計劃、構建模型
客戶是否會流失,是一個分類問題,所以選擇分類算法建立模型並進行訓練。
第 4 步:評估模型
對模型進行全面的評估,評估結果、重審過程
對建立好的模型進行評估,並且要根據預測結果不斷調整模型參數,實現模型的最優化。
整個流程最關鍵是模型的迭代優化過程,模型算法有分類算法、回歸算法、聚類算法等,每種算法類型又包含多種不同的算法,例如分類算法,就包含邏輯回歸、樸素貝葉斯、決策樹等,使用的程式語言有Java語言、Python,大家聽了是不是覺得很專業、很複雜?其實這些細節我們統統不用管,全部交給Smartbi幫我們實現就可以了!
Smartbi Mining實現數據挖掘
Smartbi在以前也有數據挖掘的功能,但是功能不是很完善。如今,Smartbi「數據挖掘」蝶變重生,推出獨立產品Smartbi Mining,旨在為個人、團隊和企業所做的決策提供預測性分析。
Smartbi Mining具有流程化、可視化的建模界面,內置實用的、經典的統計挖掘算法和深度學習算法,並支持Python擴展算法,基於分布式雲計算,可以將模型發送到Smartbi統一平臺,與BI平臺完美整合。還是以預測銀行零售客戶流失為例,我們看看Smartbi Mining是怎麼實現的吧。
1、設置數據源,把左邊對應的節點拖過來,再從右邊區域配置參數:
2、按照這種方式,可以不斷增加新的節點並連接起來:
3、這裡是關鍵的一步,選擇算法。我們選擇「邏輯回歸」算法,並對其進行配置:
4、加完「評估」節點,整個流程就配置完了,接下來就是運行,並不斷調優:
5、最後看一下預測的準確率,一般是看「加權F1 值」,這個值是綜合考慮結果的質量和完整性計算出來的,在這個例子中加權F1 值達到了84.62%,預測效果已經很不錯了:
大家現在可以看出來,通過Smartbi Mining實現「數據挖掘」是不是很簡單呢?
Smartbi Mining應用場景
Smartbi Mining可廣泛應用於各個領域,包括企業運營、生產控制、市場分析、工程設計、城市規劃和科學探索等,從大量的數據中挖掘出有用的信息和知識,以更好地指導我們的工作。在這裡小麥為大家列舉幾個企業運營領域的應用場景:
1、精準營銷
分析客戶的屬性和消費行為,為客戶推薦最合適的產品信息,提高營銷的效果。
2、客戶保留
分析客戶在購買產品方面的行為變化和滿意度情況,預測可能會流失的客戶,提前做好挽留工作。
3、銷量預測
分析產品的歷史銷售數據,預測未來一段時間的產品銷量,為生產、庫存提前做好準備。
4、價格預測
收集市場上影響產品價格的各種數據進行分析,預測產品價格的發展趨勢,搶佔市場先機。
5、信用評分
分析客戶的基本信息和消費、還貸等記錄,對客戶信用進行評分,防範信用風險,減少損失。
Smartbi Mining典型案例
廣州市城市規劃勘測設計研究院採用Smartbi Mining實現時空大數據云平臺的數據挖掘部分,主要研究地理信息數據與大數據、人工智慧技術結合的方法,用於城市功能區識別,分析城市各個區域的交通熱點、消費熱點、人流狀況,為城市的科學規劃提供依據。
1、 基於廣州POI數據,展示城市熱點區域
在Smartbi Mining裡面,主要將廣州POI數據進行處理,然後對建築的經緯度進行聚類,以找出建築最密集的多個區域,確定為廣州的建築熱點區域。整個流程處理完成後,可以點擊數據探索,查看數據聚類的結果(散點圖):
2、基於上海計程車數據,根據上下車點的位置,提取城市功能區(住宅區、商業區、辦公區等)
1)上車點
上海計程車數據,取7:30-9: 30 的數據做上車點的聚類上車點聚類。基本可以確定,該時間段出發的熱點區域,應該是住宅區。與上海地圖對照,圖示三個最大的熱點區是上海的老城區(主要集中在南京路、淮海路一帶):
2)下車點
上海計程車數據,取7:30-9: 30 的數據做下車點的聚類下車點聚類。基本可以確定,該時間段下車的熱點區域,應該是商業區和辦公區。與上海地圖對照,圖示幾個最大的熱點區除了南京路一帶外添加了上海南站、五角場、上海國際金融中心等地方) :
對大規模地理信息數據,使用聚類計算,可以得到用戶感興趣的熱點區域,真實的反映了城市運行中的熱點區域是否與規劃相同,對城市規劃設計,有一定的指導意義。
一直以來,市面上有很多的數據挖掘工具,但基本上都是國外廠商把持,操作複雜,要熟悉算法和程式語言,對數據分析者的要求很高,所以很難普及開來。如今,隨著Smartbi Mining的推出,必將開啟一個「數據挖掘」新時代!相信以其簡單易用、預測率高的產品優勢和專業的諮詢團隊,一定能夠在市場中迅速推廣,幫助各行各業的客戶挖掘數據價值,創造更多的效益,讓我們拭目以待吧!