這篇文章把數據講透了(四):數據挖掘

2020-12-16 騰訊網

編輯導讀:隨著「數智化」時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在「數智化」時代下一步一步得到運用與升華的;因內容頗多,筆者將分幾期為大家進行講解。

一、前言

上一期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示);並用了「洗菜、擇菜」的例子,為大家講解數據清洗的含義;而今天筆者主要給大家講解當淨菜備好後,如何對淨菜進行加工烹飪,讓它變成有價值、有意義的美味佳餚,即數據挖掘的過程。

二、數據挖掘(烹飪)

數據挖掘是對既定的「淨數據」進行加工利用的過程,我們可以把它看作是烹飪加工的過程。

而數據挖掘是有一定規則和相應模型的,這一點我們也可以通過一個類比進行理解。

清洗後的高質量數據就像是「淨菜」,而數據挖掘模型就像是各種「菜系」,我們知道,就算「淨菜」材料一致,但菜系(數據挖掘模型)不同,最終得到的成品也是截然不同的!

下面是數據挖掘中較為常見的幾個「菜系」(模型),下面我們配合模型對應的使用場景逐一闡述

總的來說,數據挖掘模型可以通過「監督模式」進行大致分類,分類為監督模型、非監督模型:

監督模型:簡單的說,就是讓機器學會舉一反三,它好比學生在學習時已知題目和答案,去學習分析如何解題一樣,下次遇到一樣的或者類似的題目就會做了;監督模型內的數據分為訓練集和測試集,常見模型有決策樹、LOGISTIC線性回歸等。

非監督模型:簡單的說,就是略去了監督模型中」舉一反三「的過程,輸入的僅僅是一堆數據,沒有標籤,也沒有訓練集和驗證集之分,讓算法根據數據本身的特徵去學習,常見模型一般有clustering。

了解了數據挖掘的基本類別,下面我們來切入場景,看一看這些具體的算法模型如何幫助我們在現實場景中進行數據挖掘。

聚類分析——其中以K-Means算法最為典型。

原理與步驟:

選取K個中心點,代表K個類別;

計算N個樣本點和K個中心點之間的歐氏距離;

將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;

計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;

重複234;

得到收斂後的K個中心點(中心點不再變化)——迭代4;

使用場景:商業領域,聚類分析常結合(RMF模型)被用來進行客戶細分;生科領域,聚類分析常被對動植物分類和基因進行分類,進行種群研究。

實操案例:運用K-Means算法對航空業客戶進行價值衡量和細分。

1. 參考RMF模型與數據集,自定義聚類類別

得到數據集後刪除不相關、弱相關或冗餘屬性,如會員卡號、性別等,可以得到與RMF模型相關的5個屬性分別是:C(平均折扣率較高、倉位等級較高)、F(乘坐次數)、M(總裡程),R(最近乘坐航班)低、L(入會時長),我們根據屬性更夠對客戶群進行分類,鑑別出重要挽留客戶、重要保持客戶、低價值客戶等。

2. 已確定5個聚類類別,套入代碼進行聚類即可(代碼如下)

3. 針對結果進行可視化分析,並對每一個customer進行標識

回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。

那麼,有同學就會問了,邏輯回歸和線性回歸究竟有什麼區別呢?

其實,兩者屬於同一個家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業…),線性回歸的因變量是連續型數字變量(如1000人的工資,單位元)。

實操演練:最小二乘法OLS回歸(屬於線性回歸的一種)——例如,下方,我們對工資與各項貸款餘額的關係進行研究。

STEP1. 導入數據後,畫出散點圖,觀察數據大致趨勢,並畫擬合曲線:

x=data[『各項貸款餘額』]

y=data[『工資』]

z1 = np.polyfit(x, y, 1) # 1表示用1次多項式擬合

p1 = np.poly1d(z1)#擬合方程

f=p1(x)

plt.scatter(data[『各項貸款餘額』],data[『工資』])

plot2=plt.plot(x, f, 『r』,label=』polyfit values』)#畫擬合線

STEP2. 導出相關回歸數據參考指標,如擬合R方(越接近1越好,一般來說0.7以上已經算相關性比較強,擬合效果較好)、P值(一般情況>

綜上,我們可以得到Y(工資)=0.0379X(各項貸款餘額)-0.8295。

三、結語

本期,筆者通過一個「烹飪和菜系」的例子,帶著大家了解了數據挖掘的常用模型,相信大家有所收穫!

下期,筆者將在數據挖掘的基礎上,講解數據可視化,看看我們如何簡單易懂的把數據故事講懂、講透!

持續更新…

本文由 @小陳同學ing. 原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

相關焦點

  • 這篇文章把數據講透了(五):數據可視化(下)
    本文作者將為大家重新解讀數據的概念和價值,以及數據的價值是如何在「數智化」時代下一步一步得到運用與升華的,一起來看看~一、前言上幾期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示),並用了菜市場的例子,為大家講解數據來源的含義;用買菜的例子,為大家講解數據採集的步驟;用洗菜、擇菜的例子,為大家講解數據清洗的方法…
  • 這篇文章把數據講透了(一):數據來源
    所以,我們也不能把數據當作一個簡單的概念,但其實「數據」裡面還有很多學問。下面先給大家引出四個「數據」相關的名詞概念,後面我會分別闡述它們「價值變現」的方法論。你真的了解data、information、kownledge、insight是什麼嗎?
  • 數據挖掘如何建模?
    在先前的文章中,企通查為大家介紹了數據挖掘的概念、發展現狀,常用技術和應用(點此跳轉),本篇文章將為大家更加詳細地介紹數據挖掘的應用方向、如何建模等相關內容。
  • 如何利用數據可視化講好一個數據故事
    本篇文章,我們將探究數字時代下的講好數據故事能給我們帶來多大的力量,同時結合現代數據可視化平臺生成的強大的數據敘事案例。一、什麼是數據敘事?通過數據講故事是將數據驅動的分析轉換為可被廣泛訪問的數據可視化形式,以通過利用最終轉化為可操作見解的數據可視化分析來影響企業業務決策,戰略或行動的過程。
  • 這篇文章,講透「復盤」
    這也就是我在許多文章中,反覆多次強調「復盤」的原因所在。 不過,也經常有讀者問:老是說要復盤,但究竟怎麼該怎樣去復盤呢? 今天就來跟大家好好聊聊這個問題。希望能通過這篇文章,把「復盤」這個問題講清楚,給你一些啟發。
  • 數據挖掘Matlab零基礎自學學習路線圖
    matlab簡介:MATLAB是美國MathWorks公司出品的商業數學軟體,用於算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境,主要包括MATLAB和Simulink兩大部分。
  • Datafocus小學堂|什麼是數據挖掘
    簡單來說,數據挖掘,就是從數據中看透事物之間聯繫的真相,再為人類所用。為什麼要數據挖掘?概括起來就兩種情況。1.遇到問題了你想要解決問題。2.你發現某種現象想理解背後的原理再為人類所用。接下來,我們可以按以下兩條邏輯線來看數據挖掘。1.「問題」、「原因」、「解決」邏輯線「問題」,不管是企業還是個人,你總會遇到各種各樣的問題。企業問題,打個比方,今年產品賣不太出去啊,產品銷量直線下滑,企業快撐不下去了。
  • 真的有必要發一大堆meta分析或者純生信數據挖掘SCI嗎?
    記得四川大學華西臨床醫學有位博士在個人簡介寫上了以第一作者或者共同第一作者發表SCI論文46篇,很多外行人看著46篇SCI這個數字會覺得這個學生很優秀,科研能力特別牛。但是懂行的人不會只看這個數字,還會看文章裡面有多少篇是論著,有多少篇是meta分析、綜述、comments、letter等等,期刊影響因子,被引用的次數,通過這些就可以看出真正是否有料。
  • 數據挖掘:銀行評分卡製作——數據分箱、WOE、IV的意義
    數據挖掘非常清晰的界定了它所能解決的幾類問題。這是一個高度的歸納,數據挖掘的應用就是把這幾類問題演繹的一個過程。這類問題也稱為0/1問題。之所以說它很特殊,主要是因為解決這類問題時,我們只需關注預測屬於其中一類的概率即可,因為兩個類的概率可以互相推導。如預測X=1的概率為P(X=1),那麼X=0的概率P(X=0)=1-P(X=1)。這一點是非常重要的。可能很多人已經在關心數據挖掘方法是怎麼預測P(X=1)這個問題的了,其實並不難。
  • SEER數據挖掘如果用上這些圖會更好發
    ,所有利用SEER資料庫發表了文章的朋友,都應該好好感謝一下這個資料庫。我們在pubmed上可以發現SEER數據挖掘的文章也是多得不得了,可以說跟meta分析一個樣,能做東西都被做了,出現嚴重的濫發行為 ,也就是平時人們常說的「灌水」。
  • 數據挖掘實例:100美元挖來無價之寶
    本文作者講述了他們作為獨立工程師開展數據挖掘項目的過程,告訴我們運用各種免費或開源工具挖掘數據的成本很低,同時降低了我們想像中的難度,探索精神值得我們學習。今天各種強大的數據分析工具讓我們有能力分析以前想都不敢想的大企業或者大機構的數據。
  • 大數據究竟是什麼?一篇文章讓你認識並讀懂大數據
    在寫這篇文章之前,我發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什麼關係?估計很少能說出一二三來。
  • 超全,110+數據挖掘面試題整理(附答案)
    面試哥數據挖掘工程師面試寶典雙手呈上,整理不易,快來收藏吧!頻繁模式挖掘 B. 分類和預測 C. 數據預處理 D. 數據流挖掘3.當不知道數據所帶標籤時,可以使用哪種技術促使帶同類標籤的數據與帶其他標籤的數據相分離?(B) A. 分類 B. 聚類 C. 關聯分析 D. 隱馬爾可夫鏈4.什麼是KDD? (A) A. 數據挖掘與知識發現 B. 領域知識發現 C.
  • 《塞爾達無雙:災厄啟示錄》數據挖掘發現更多可用角色
    上周任天堂直面會結束之後,在eShop推出了Switch遊戲《塞爾達無雙:災厄啟示錄》的試玩版,就在我們這些普通玩家還在刷素材時,已經有國外的高手對試玩版進行數據深度挖掘了。通過數據挖掘,也發現了疑似在正式版中登場的全部可用角色們。
  • python數據挖掘常用工具有哪幾種?
    python數據挖掘常用工具有哪幾種? python有強大的第三方庫,廣泛用於數據分析,數據挖掘、機器學習等領域,下面小編整理了python數據挖掘的一些常用庫,希望對各位小夥伴學習python數據挖掘有所幫助。
  • 專業篇:數據科學與大數據技術——萬物分析的大數據
    那麼,究竟什麼是大數據?數據科學與大數據技術是一個什麼樣的專業?大數據分析與人工智慧時代有著怎樣的聯繫?希望本文能夠給各位家長及考生帶來一定的啟發。一、大數據 ≠ 大的數據談到大數據,我們往往想到的是海量的數據或者很大很複雜的數據,但其實大數據並不等於大的數據。
  • 這篇文章終於講透了
    目前市面上主流的牆面裝飾材料大致有乳膠漆和藝術漆,這兩者之間究竟有什麼區別?藝術漆和乳膠漆哪個好?這是很多人都很困惑的事情,接下來一篇文章講透藝術漆和乳膠漆這點事,為大家揭開兩者之間的「小秘密」。
  • 路透社文章的文本數據分析與可視化
    我將使用路透社的SGML格式的文章。為了便於分析,我將使用beauthoulsoup庫從數據文件中獲取日期、標題和文章正文。使用下面的代碼從所有數據文件中獲取數據,並將輸出存儲在單個CSV文件中。1.路透社文章篇幅我們知道所有文章的篇幅不一樣。因此,我們將考慮長度等於或超過一段的文章。根據研究,一個句子的平均長度是15-20個單詞。一個段落應該有四個句子。
  • 01數據產品經理從零到一:數據產品能力模型構建
    源於《阿里巴巴數據產品經理工作(總結篇)》數據產品經理本質是網際網路產品經理的一個細分領域,其產品的用戶是公司內部,外部客戶等,其目標是通過數據分析和挖掘,輔助其發現問題,提高決策準確性,而為了完成這類產品,我們不單要與傳統的開發,交互,設計,用研,客戶,測試同學打交道,還需要與數據分析師,數據科學家,AI工程師,數據倉庫管理員等同學溝通,為了可以保證溝通中的效率
  • 這篇文章講了!
    因而,剛開始閱讀時會對文章中的所有內容全盤接受,很難產生質疑的觀點出來,對看的任何內容都是「無可非議」。等看過十篇八篇的文獻之後,所了解的方法和觀點較多了,有些可能觀點相左,這是懷疑會跳出來,對所閱讀的論點進行挑剔,卻又不能憑藉一兩篇文章而確定某種方法完全勝過另一種方法。每種方法都各有千秋,從而達到「似是而非」的境界。