這篇文章把數據講透了(四):數據挖掘

2020-12-22 騰訊網

編輯導讀:隨著「數智化」時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在「數智化」時代下一步一步得到運用與升華的;因內容頗多,筆者將分幾期為大家進行講解。

一、前言

上一期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示);並用了「洗菜、擇菜」的例子,為大家講解數據清洗的含義;而今天筆者主要給大家講解當淨菜備好後,如何對淨菜進行加工烹飪,讓它變成有價值、有意義的美味佳餚,即數據挖掘的過程。

二、數據挖掘(烹飪)

數據挖掘是對既定的「淨數據」進行加工利用的過程,我們可以把它看作是烹飪加工的過程。

而數據挖掘是有一定規則和相應模型的,這一點我們也可以通過一個類比進行理解。

清洗後的高質量數據就像是「淨菜」,而數據挖掘模型就像是各種「菜系」,我們知道,就算「淨菜」材料一致,但菜系(數據挖掘模型)不同,最終得到的成品也是截然不同的!

下面是數據挖掘中較為常見的幾個「菜系」(模型),下面我們配合模型對應的使用場景逐一闡述

總的來說,數據挖掘模型可以通過「監督模式」進行大致分類,分類為監督模型、非監督模型:

監督模型:簡單的說,就是讓機器學會舉一反三,它好比學生在學習時已知題目和答案,去學習分析如何解題一樣,下次遇到一樣的或者類似的題目就會做了;監督模型內的數據分為訓練集和測試集,常見模型有決策樹、LOGISTIC線性回歸等。

非監督模型:簡單的說,就是略去了監督模型中」舉一反三「的過程,輸入的僅僅是一堆數據,沒有標籤,也沒有訓練集和驗證集之分,讓算法根據數據本身的特徵去學習,常見模型一般有clustering。

了解了數據挖掘的基本類別,下面我們來切入場景,看一看這些具體的算法模型如何幫助我們在現實場景中進行數據挖掘。

聚類分析——其中以K-Means算法最為典型。

原理與步驟:

選取K個中心點,代表K個類別;

計算N個樣本點和K個中心點之間的歐氏距離;

將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;

計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;

重複234;

得到收斂後的K個中心點(中心點不再變化)——迭代4;

使用場景:商業領域,聚類分析常結合(RMF模型)被用來進行客戶細分;生科領域,聚類分析常被對動植物分類和基因進行分類,進行種群研究。

實操案例:運用K-Means算法對航空業客戶進行價值衡量和細分。

1. 參考RMF模型與數據集,自定義聚類類別

得到數據集後刪除不相關、弱相關或冗餘屬性,如會員卡號、性別等,可以得到與RMF模型相關的5個屬性分別是:C(平均折扣率較高、倉位等級較高)、F(乘坐次數)、M(總裡程),R(最近乘坐航班)低、L(入會時長),我們根據屬性更夠對客戶群進行分類,鑑別出重要挽留客戶、重要保持客戶、低價值客戶等。

2. 已確定5個聚類類別,套入代碼進行聚類即可(代碼如下)

3. 針對結果進行可視化分析,並對每一個customer進行標識

回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。

那麼,有同學就會問了,邏輯回歸和線性回歸究竟有什麼區別呢?

其實,兩者屬於同一個家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業…),線性回歸的因變量是連續型數字變量(如1000人的工資,單位元)。

實操演練:最小二乘法OLS回歸(屬於線性回歸的一種)——例如,下方,我們對工資與各項貸款餘額的關係進行研究。

STEP1. 導入數據後,畫出散點圖,觀察數據大致趨勢,並畫擬合曲線:

x=data[『各項貸款餘額』]

y=data[『工資』]

z1 = np.polyfit(x, y, 1) # 1表示用1次多項式擬合

p1 = np.poly1d(z1)#擬合方程

f=p1(x)

plt.scatter(data[『各項貸款餘額』],data[『工資』])

plot2=plt.plot(x, f, 『r』,label=』polyfit values』)#畫擬合線

STEP2. 導出相關回歸數據參考指標,如擬合R方(越接近1越好,一般來說0.7以上已經算相關性比較強,擬合效果較好)、P值(一般情況>

綜上,我們可以得到Y(工資)=0.0379X(各項貸款餘額)-0.8295。

三、結語

本期,筆者通過一個「烹飪和菜系」的例子,帶著大家了解了數據挖掘的常用模型,相信大家有所收穫!

下期,筆者將在數據挖掘的基礎上,講解數據可視化,看看我們如何簡單易懂的把數據故事講懂、講透!

持續更新…

本文由 @小陳同學ing. 原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

相關焦點

  • 這篇文章把數據講透了(三):數據清洗
    一、前言上兩期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示);並用了菜市場的例子,為大家講解數據來源的含義,用買菜的例子,為大家講解數據採集的步驟;而今天小陳主要給講解,我們「買完菜」以後,怎樣進行擇菜、洗菜,即數據清洗的過程。
  • 臨床醫生如何規劃一篇數據挖掘文章?
    嚇得我立馬打開 pubmed,看看最近數據挖掘文章的發表情況:檢索第一個關鍵詞是:WGCNA,這是一種常用的數據挖掘分析方法,結果顯示,用 WGCNA 發論文,發文量呈現指數增長,2020 年剛過去一半,發文量都快追上 2019 年了。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、資料庫和信息網絡領域發表論文600餘篇。出版了數據挖掘專著《Data Mining: Concepts and Techniques》,成為數據挖掘國內外經典教材。
  • 數據挖掘有哪些誤區?
    誤區1:數據挖掘提供了即時的未來預測數據挖掘既不是水晶球也不是一按按鈕就能魔術般出現答案的技術。它是一個多步驟的處理過程,其中包括:定義業務問題,掃描並按條件搜索數據,開發模型,運用獲得的知識。典型情況是,企業花費大量時間預處理並且按照條件搜索數據,保證其乾淨、一致、良好整合,以便於應用他們所需要的商務智能。
  • 如何系統地學習數據挖掘?
    這其中他雖然不懂數據倉庫,但是簡單的Excel就足以勝任高打6萬個樣本的數據處理;他雖然不懂專業的展示展現技能,但是只要他自己看的懂就行了,這就無需什麼展示展現;前面說過,統計技能是應該掌握的,這對一個人的迷你項目很重要;他雖然不懂編程,但是專業挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業務能力的人就可以圓滿完成了,甚至在一個數據源中根據業務需求可以無窮無盡的挖掘不同的項目思路
  • 數據挖掘是怎樣動腦的?以一篇文獻為例
    大家好,這次白介素2同學分享一篇文獻,講一講一篇數據挖掘文獻是怎樣動腦的。
  • 科研必備:關於數據挖掘的基礎知識
    你辛辛苦苦採集數據,沒日沒夜進行文獻分析,最後好不容易自認做出了一點成果,小心翼翼把文章投給雜誌社,結果,還是慘遭拒絕!開始還沒搞清楚,後來才被告知,原因是我的研究方法老舊,數據呈現單薄,研究結論脆弱,文章除了做得辛苦,跟人家用數據挖掘做出來的論文比,並沒有什麼優勢!
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 數據挖掘系列篇之會員分析
    知乎專欄:https://zhuanlan.zhihu.com/dataman精彩回顧:數據挖掘系列篇之今日頭條的個性化推薦說到數據挖掘,就不得不說到會員分析。可參考閱讀: 數據挖掘系列篇(1):總結職業(https://ask.hellobi.com/blog/dataman/2334)會員分析老生常談的問題,包括會員分級、用戶畫像、會員個性化營銷、會員價值挖掘等等。
  • 小叮噹數據挖掘(一):初識數據挖掘
    值得一提的是,概括來說數據挖掘是指從海量數據中提取有價值的信息,而不是一些人們對數據挖掘的常見認知錯誤:「數據挖掘就是下載海量數據」,這是一種非常錯誤的認知!認識數據挖掘,小叮噹打算從認識數據、數據預處理、挖掘頻繁模式、關聯和相關、分類和預測的聚類分析、離群點檢測這幾部分為大家全面介紹。今天我們先來初識數據挖掘。1.為什麼要進行數據挖掘?
  • 沃林老師「數據挖掘」答疑 18 問
    有時候別人測序目的就是一個小問題,可能分析的時候附帶的結論和結果就沒有寫了,有時候結果多了,可能給自己的文章投稿帶來麻煩,不過正是這樣,數據挖掘才越來越有意義。回  答:重複的就去重好了,這是因為探針的技術問題,一個基因不止被一條探針捕獲經常會有多個探針,而計算差異基因的時候是從探針的維度計算的。所以算完之後你可能會發現多個探針對應的同一個基因都被計算出來了。問題 10:老師,您好,您在 HPA 那節課裡推薦的第一篇文章。
  • 一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係
    數理統計與數據挖掘的區別與聯繫四、大數據時代企業該如何布局,個人該如何選擇?                              基於大數據的數據分析方法的理論基礎是數據挖掘和分布式計算原理。大數據具有海量、快速、多樣化和有價值四個方面的重要特徵,其海量特性使得數據分析時不可能用單臺機器完成而是需要多臺機器同時運算,也就是所謂的分布式運算。
  • 數據挖掘入門:校園數據的分析與挖掘
    方案簡介:在學生數據量劇增以及教育目標日趨複雜的情況下,僅用人工來分析學生數據是不現實的,藉助SPSS統計分析和數據挖掘工具對大量學生數據進行深層次分析,可以挖掘出學生各項數據中隱藏的重要信息。比如,通過數據挖掘可以得出,高考數學成績為優良的學生中,有73%(示例)的學生數學分析成績也優良;高考數學成績為優良的學生中,有83%(示例)的學生C語言課程成績也優良;高考英語和數學成績同時為優良的學生中,有75%(示例)的學生數據結構課程成績也優良。根據發現的這些規律,可以在很大程度上判定哪些學生比較適合讀哪些專業,或者說更容易獲得後續學業上的成功。這將有助於學生的挑選,以及專業的調配。
  • 數據挖掘——淺析分類算法
    分類就是把一些新得數據項映射到給定類別的中的某一個類別,比如說當我們發表一篇文章的時候,就可以自動的把這篇文章劃分到某一個文章類別,一般的過程是根據樣本數據利用一定的分類算法得到分類規則,新的數據過來就依據該規則進行類別的劃分。
  • 《數據挖掘R語言實戰》圖書介紹,數據挖掘相關人員看過來!
    今天介紹一本書《數據挖掘R語言實戰》。數據挖掘技術是當下大數據時代最關鍵的技術,其應用領域及前景不可估量。R是一款極其優秀的統計分析和數據挖掘軟體,R語言的特點是入門容易,使用簡單。這本書側重使用R進行數據挖掘,重點進述了R的數據挖掘流程、算法包的使用及相關工具的應用,同時結合大量精選的數據挖掘實例對R軟體進行深入潛出和全面的介紹,以便讀者能深刻理解R的精髓並能快速、高效和靈活地掌握使用R進行數據挖掘的技巧。本書以數據預處理、基本算法及應用和高級算法及應用這三篇展示。
  • 數據挖掘的知識類型 | 網際網路數據資訊網-199IT | 中文網際網路數據...
    的人發表論文不少於三篇且主講課程不少於一門。例如:一個數據挖掘系統可以從一個商場的銷售(交易事務處理)記錄數據中,挖掘出如下所示的關聯規則: age(X,」20-29」)∧income(X,」20K-30K」) Þbuys(X,」mp3」)[support=2%,confidence=60%]上述關聯規則表示:該商場有的顧客年齡在20歲到29歲且收入在2 萬到3萬之間,這群顧客中有60%的人購買了MP3,或者說這群顧客購買MP3
  • 大數據之數據挖掘
    說道「大數據」這一詞,現在許多人都明白它的意思,但對於大數據專業未來要從事的相關工作可能就不是很清楚了,下面我們就為大家介紹一下大數據要從事的工作之一
  • 數據挖掘十大經典算法
    國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法
  • 大數據_數據挖掘技術分類及應用
    在對網站進行數據挖掘時,所需要的數據主要來自於兩個方面:一方面是客戶的背景信息,此部分信息主要來自於客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用於考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。
  • 數據挖掘系列主題(3)|那些年不能錯過的全轉錄組挖掘套路之lncRNA入手篇!
    所以今天就跟著小編一起走進全網最經典的全轉錄組數據挖掘思路之從lncRNA入手分析篇吧! 說起最近轉錄組分析思路什麼最火,那必然是全轉錄組了吧。近年來,大家也逐漸意識到單一的mRNA或ncRNA研究已無法完全滿足科研需求,需要結合多種RNA信息進行整合分析,進而探索潛在的調控網絡機制。