編輯導讀:隨著「數智化」時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在「數智化」時代下一步一步得到運用與升華的;因內容頗多,筆者將分幾期為大家進行講解。
一、前言
上一期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示);並用了「洗菜、擇菜」的例子,為大家講解數據清洗的含義;而今天筆者主要給大家講解當淨菜備好後,如何對淨菜進行加工烹飪,讓它變成有價值、有意義的美味佳餚,即數據挖掘的過程。
二、數據挖掘(烹飪)
數據挖掘是對既定的「淨數據」進行加工利用的過程,我們可以把它看作是烹飪加工的過程。
而數據挖掘是有一定規則和相應模型的,這一點我們也可以通過一個類比進行理解。
清洗後的高質量數據就像是「淨菜」,而數據挖掘模型就像是各種「菜系」,我們知道,就算「淨菜」材料一致,但菜系(數據挖掘模型)不同,最終得到的成品也是截然不同的!
下面是數據挖掘中較為常見的幾個「菜系」(模型),下面我們配合模型對應的使用場景逐一闡述
總的來說,數據挖掘模型可以通過「監督模式」進行大致分類,分類為監督模型、非監督模型:
監督模型:簡單的說,就是讓機器學會舉一反三,它好比學生在學習時已知題目和答案,去學習分析如何解題一樣,下次遇到一樣的或者類似的題目就會做了;監督模型內的數據分為訓練集和測試集,常見模型有決策樹、LOGISTIC線性回歸等。
非監督模型:簡單的說,就是略去了監督模型中」舉一反三「的過程,輸入的僅僅是一堆數據,沒有標籤,也沒有訓練集和驗證集之分,讓算法根據數據本身的特徵去學習,常見模型一般有clustering。
了解了數據挖掘的基本類別,下面我們來切入場景,看一看這些具體的算法模型如何幫助我們在現實場景中進行數據挖掘。
聚類分析——其中以K-Means算法最為典型。
原理與步驟:
選取K個中心點,代表K個類別;
計算N個樣本點和K個中心點之間的歐氏距離;
將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;
計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;
重複234;
得到收斂後的K個中心點(中心點不再變化)——迭代4;
使用場景:商業領域,聚類分析常結合(RMF模型)被用來進行客戶細分;生科領域,聚類分析常被對動植物分類和基因進行分類,進行種群研究。
實操案例:運用K-Means算法對航空業客戶進行價值衡量和細分。
1. 參考RMF模型與數據集,自定義聚類類別
得到數據集後刪除不相關、弱相關或冗餘屬性,如會員卡號、性別等,可以得到與RMF模型相關的5個屬性分別是:C(平均折扣率較高、倉位等級較高)、F(乘坐次數)、M(總裡程),R(最近乘坐航班)低、L(入會時長),我們根據屬性更夠對客戶群進行分類,鑑別出重要挽留客戶、重要保持客戶、低價值客戶等。
2. 已確定5個聚類類別,套入代碼進行聚類即可(代碼如下)
3. 針對結果進行可視化分析,並對每一個customer進行標識
回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。
那麼,有同學就會問了,邏輯回歸和線性回歸究竟有什麼區別呢?
其實,兩者屬於同一個家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業…),線性回歸的因變量是連續型數字變量(如1000人的工資,單位元)。
實操演練:最小二乘法OLS回歸(屬於線性回歸的一種)——例如,下方,我們對工資與各項貸款餘額的關係進行研究。
STEP1. 導入數據後,畫出散點圖,觀察數據大致趨勢,並畫擬合曲線:
x=data[『各項貸款餘額』]
y=data[『工資』]
z1 = np.polyfit(x, y, 1) # 1表示用1次多項式擬合
p1 = np.poly1d(z1)#擬合方程
f=p1(x)
plt.scatter(data[『各項貸款餘額』],data[『工資』])
plot2=plt.plot(x, f, 『r』,label=』polyfit values』)#畫擬合線
STEP2. 導出相關回歸數據參考指標,如擬合R方(越接近1越好,一般來說0.7以上已經算相關性比較強,擬合效果較好)、P值(一般情況>
綜上,我們可以得到Y(工資)=0.0379X(各項貸款餘額)-0.8295。
三、結語
本期,筆者通過一個「烹飪和菜系」的例子,帶著大家了解了數據挖掘的常用模型,相信大家有所收穫!
下期,筆者將在數據挖掘的基礎上,講解數據可視化,看看我們如何簡單易懂的把數據故事講懂、講透!
持續更新…
本文由 @小陳同學ing. 原創發布於人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基於CC0協議。