這篇文章把數據講透了(四):數據挖掘

2020-12-20 騰訊網

編輯導讀:隨著「數智化」時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在「數智化」時代下一步一步得到運用與升華的;因內容頗多,筆者將分幾期為大家進行講解。

一、前言

上一期文章中,我們已經了解到「數據」是一個龐大的體系(如下圖所示);並用了「洗菜、擇菜」的例子,為大家講解數據清洗的含義;而今天筆者主要給大家講解當淨菜備好後,如何對淨菜進行加工烹飪,讓它變成有價值、有意義的美味佳餚,即數據挖掘的過程。

二、數據挖掘(烹飪)

數據挖掘是對既定的「淨數據」進行加工利用的過程,我們可以把它看作是烹飪加工的過程。

而數據挖掘是有一定規則和相應模型的,這一點我們也可以通過一個類比進行理解。

清洗後的高質量數據就像是「淨菜」,而數據挖掘模型就像是各種「菜系」,我們知道,就算「淨菜」材料一致,但菜系(數據挖掘模型)不同,最終得到的成品也是截然不同的!

下面是數據挖掘中較為常見的幾個「菜系」(模型),下面我們配合模型對應的使用場景逐一闡述

總的來說,數據挖掘模型可以通過「監督模式」進行大致分類,分類為監督模型、非監督模型:

監督模型:簡單的說,就是讓機器學會舉一反三,它好比學生在學習時已知題目和答案,去學習分析如何解題一樣,下次遇到一樣的或者類似的題目就會做了;監督模型內的數據分為訓練集和測試集,常見模型有決策樹、LOGISTIC線性回歸等。

非監督模型:簡單的說,就是略去了監督模型中」舉一反三「的過程,輸入的僅僅是一堆數據,沒有標籤,也沒有訓練集和驗證集之分,讓算法根據數據本身的特徵去學習,常見模型一般有clustering。

了解了數據挖掘的基本類別,下面我們來切入場景,看一看這些具體的算法模型如何幫助我們在現實場景中進行數據挖掘。

聚類分析——其中以K-Means算法最為典型。

原理與步驟:

選取K個中心點,代表K個類別;

計算N個樣本點和K個中心點之間的歐氏距離;

將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;

計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;

重複234;

得到收斂後的K個中心點(中心點不再變化)——迭代4;

使用場景:商業領域,聚類分析常結合(RMF模型)被用來進行客戶細分;生科領域,聚類分析常被對動植物分類和基因進行分類,進行種群研究。

實操案例:運用K-Means算法對航空業客戶進行價值衡量和細分。

1. 參考RMF模型與數據集,自定義聚類類別

得到數據集後刪除不相關、弱相關或冗餘屬性,如會員卡號、性別等,可以得到與RMF模型相關的5個屬性分別是:C(平均折扣率較高、倉位等級較高)、F(乘坐次數)、M(總裡程),R(最近乘坐航班)低、L(入會時長),我們根據屬性更夠對客戶群進行分類,鑑別出重要挽留客戶、重要保持客戶、低價值客戶等。

2. 已確定5個聚類類別,套入代碼進行聚類即可(代碼如下)

3. 針對結果進行可視化分析,並對每一個customer進行標識

回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。

那麼,有同學就會問了,邏輯回歸和線性回歸究竟有什麼區別呢?

其實,兩者屬於同一個家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業…),線性回歸的因變量是連續型數字變量(如1000人的工資,單位元)。

實操演練:最小二乘法OLS回歸(屬於線性回歸的一種)——例如,下方,我們對工資與各項貸款餘額的關係進行研究。

STEP1. 導入數據後,畫出散點圖,觀察數據大致趨勢,並畫擬合曲線:

x=data[『各項貸款餘額』]

y=data[『工資』]

z1 = np.polyfit(x, y, 1) # 1表示用1次多項式擬合

p1 = np.poly1d(z1)#擬合方程

f=p1(x)

plt.scatter(data[『各項貸款餘額』],data[『工資』])

plot2=plt.plot(x, f, 『r』,label=』polyfit values』)#畫擬合線

STEP2. 導出相關回歸數據參考指標,如擬合R方(越接近1越好,一般來說0.7以上已經算相關性比較強,擬合效果較好)、P值(一般情況>

綜上,我們可以得到Y(工資)=0.0379X(各項貸款餘額)-0.8295。

三、結語

本期,筆者通過一個「烹飪和菜系」的例子,帶著大家了解了數據挖掘的常用模型,相信大家有所收穫!

下期,筆者將在數據挖掘的基礎上,講解數據可視化,看看我們如何簡單易懂的把數據故事講懂、講透!

持續更新…

本文由 @小陳同學ing. 原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

相關焦點

  • 大數據平臺數據挖掘的作用是什麼
    對企業數據進行自動分析,進行歸納推理,挖掘潛在模式,幫助決策者調整市場戰略,降低風險,做出正確的決策。   接下來,我們來大致學習一下數據挖掘的基本步驟。數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。
  • 大數據時代,數據挖掘技術的應用!
    社會各行各業在信息化的發展之中,會積累龐大的信息數據,而從龐大的數據之中篩選、提取出真正有價值的數據信息,成為各行業所需要面臨的主要問題。數據挖掘技術的運用和推廣,有效的解決了這類問題,數據挖掘技術的應用對於大數據時代的發展具有重要的意義。在大數據時代,市場營銷領域是應用數據挖掘技術最廣的領域。
  • 數據挖掘具備哪些功能
    隨著大數據發展越來越好,數據挖掘成為了未來發展的一大趨勢。數據挖掘主要是使用未來趨勢和行為作出前攝的、基礎知識的決策。下面小編為大家介紹數據挖掘具備的功能。一、自動預測趨勢和行為數據挖掘在大型資料庫中自動查詢預測信息,在很早之前,大量的手工分析問題都可以快速和直接的從數據本身得到結論。二、關聯分析 數據關聯是數據中能夠發現的一種重要知識。
  • 數據挖掘要用什麼軟體呢?商業數據挖掘案例
    所謂的數據挖掘其實就是在大量的的非結構化數據裡搜索可用的數據,並提取隱含在其中、人們事先不知道的、但又有潛在應用價值的過程。 Smartbi數據挖掘工具揭示的是未知的、將來的數據關係。數據挖掘的知識領域涵蓋了資料庫技術、統計學知識、機器學習、可視化等多學科知識的綜合應用。
  • 數據不夠?生信分析幫你湊!學會深度挖掘快速發文章
    優秀的數據能夠幫助臨床醫生更順利地發文章,但是臨床醫生常常沒時間做實驗,更多的是從病歷裡或者資料庫裡收集數據,導致數據單薄很難支撐文章內容。 這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • Datafocus小學堂|什麼是數據挖掘
    簡單來說,數據挖掘,就是從數據中看透事物之間聯繫的真相,再為人類所用。為什麼要數據挖掘?概括起來就兩種情況。1.遇到問題了你想要解決問題。2.你發現某種現象想理解背後的原理再為人類所用。接下來,我們可以按以下兩條邏輯線來看數據挖掘。1.「問題」、「原因」、「解決」邏輯線「問題」,不管是企業還是個人,你總會遇到各種各樣的問題。企業問題,打個比方,今年產品賣不太出去啊,產品銷量直線下滑,企業快撐不下去了。
  • 資料|世界著名計算機教材精選:數據挖掘十大算法(中文版)
    >《世界著名計算機教材精選:數據挖掘十大算法》詳細介紹了在實際中用途最廣、影響最大的十種數據挖掘算法,這十種算法是數據挖掘領域的頂級專家進行投票篩選的,覆蓋了分類、聚類、統計學習、關聯分析和連結分析等重要的數據挖掘研究和發展主題。
  • 如何全面解析數據並創造數據故事
    模型比較五、講故事的最佳實踐六、結尾語一、講故事的必要性講故事的藝術,既簡單又複雜。故事激發思考,並能提出以前沒有被理解或被解釋的見解。在數據驅動操作中,它經常被忽視,因為我們認為這只是一項微不足道的任務。
  • 今日頭條讓人上癮的數據挖掘
    它與KDD(Knowledge discovery in databases)的關係是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。事實上,在現今的文獻中,這兩個術語經常不加區分的使用。4. 本質數據挖掘本質上屬於機器學習的內容。
  • 一文了解數據挖掘的道法器術
    ,發現語言記憶和周遭環境相關性更大;調查局通過數據分析和挖掘發現改善公共環境有助於降低犯罪率,;今天我們將從以下幾個方面來揭開數據挖掘的神秘面紗。首先我們可以看出,數據分析與挖掘位於中間,也就是紅點的位置,而旁邊有很多交叉的學科。資料庫系統是現在比較普及的一種存儲數據信息的方式,也就是電子檔案的方式。統計學是一種傳統的數據分析方法,它的起源比較早。模式識別、機器學習和人工智慧與數據挖掘的交集點不多。
  • 如何挖掘沉睡的醫療大數據?
    大數據時代,「高精尖」臨床醫學研究離不開多家醫療機構數據的協同分析和有效利用。研究表明,目前被利用的臨床數據只佔醫療總數據的10-20%,各醫療機構中沉睡的海量數據有待挖掘並深度利用。但這並非易事,存在諸多需要破解的難題,例如如何平衡臨床數據需求和患者隱私問題,以及如何實現各醫院數據暢通共享等。
  • 全球「最強大腦」齊聚東軟,共議大數據挖掘前沿成果
    為期三天的會議日程中,上百位來自全球數據挖掘和人工智慧領域的專家學者在廣東東軟學院和「雲端」齊聚,圍繞數據挖掘和機器學習等技術的前沿課題和最新研究成果展開深入探討交流。他表示,過去學術界關於大數據和人工智慧的研究大多停留在理論層面,而ADMA會議更聚焦於應用層面,旨在為全球數據挖掘學者提供一個學術交流平臺和應用成果的交流展示平臺。據了解,ADMA會議2005年開始舉辦,由李雪教授在澳大利亞昆士蘭大學任職期間,和莫納什大學等其他國際著名大學的數據挖掘和人工智慧技術專家共同發起。
  • 這篇文章,講透「復盤」
    這也就是我在許多文章中,反覆多次強調「復盤」的原因所在。 不過,也經常有讀者問:老是說要復盤,但究竟怎麼該怎樣去復盤呢? 今天就來跟大家好好聊聊這個問題。希望能通過這篇文章,把「復盤」這個問題講清楚,給你一些啟發。
  • 這篇文章給你講透了!
    好好看,這篇文章給你講透了!如果你掌握這些套路,拍攝其它的題材也同樣有味道。為什麼大家都喜歡黑背景?攝影要做減法攝影是減法的藝術,在統一的背景前,除主體之外多餘的元素都去掉了,簡單就是美。使用點測光模式,拍出的效果,注意測光點是在最亮的地方▼
  • 新浪新聞充分挖掘數據價值 推動數據與內容深度融合
    作為新的生產要素,數據已經滲透到內容生產、分發、效果監測等各環節,為內容創新帶來更多可能。數據內容堅持科學的敘事方式,豐富報導內容,增強報導感染力,可視化技術連通抽象數據與具象意義,降低了用戶閱讀數據內容的門檻。此外,數據還成為內容產品價值實現的基礎配置,大數據與人工智慧推薦精準地將用戶、內容和場景匹配起來,滿足用戶個性化的閱讀需求。
  • 淺談數據挖掘的基本概念及其最常用算法
    淺談數據挖掘的基本概念及其最常用算法 淺談數據挖掘的基本概念及其最常用算法 2020-06-04 13:47:34  來源:今日頭條   數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。
  • 卡思數據:一文講透「抖音挑戰賽」
    早在2019年初,卡思數據曾對抖音挑戰賽進行了深入的研究。據卡思數據整理,2020年,抖音執行的挑戰賽數量是2018年挑戰賽數量的四倍以上,而復投率較2019也提升了一倍有餘。那麼,到底是哪些方面的調整,提升了挑戰賽這個產品的生命力?本文,來讓小編為你逐一分析。
  • 清華大學領銜《2020升級版:人工智慧之數據挖掘》重磅發布
    【導讀】近日,由清華大學人工智慧研究院、北京智源人工智慧研究院、清華 — 中國工程院知識智能聯合研究中心共同編寫的《人工智慧之數據挖掘》報告正式發布。報告針對數據挖掘的情況進行了深度剖析,從數據挖掘的概念內涵、關鍵技術、人才研究、應用場景、發展趨勢 5 個部分,介紹數據挖掘的最近研究進展,並展望了數據挖掘的未來發展趨勢。
  • 電影後期製作之:如何採集OnSet數據的清單(五)完結篇
    鼓掌~~本篇講的是OnSet數據的錄入與整理,算是填完這個系列最後一個坑的最後一鍬土。用我剛跟完的一部戲,分享一下我的經驗,歡迎有跟組需求的小夥伴收藏、轉發或是留言討論。整個分成三部分講:1、準備工作,到底採集哪些數據?2、建立資料庫,選擇什麼樣的工具?
  • 數據挖掘究竟在挖什麼?我們如何充分利用它?
    因此,檢查一個人是否可以從可用數據中為特定應用目標提取簡明而可行的見解是自然而然的。這就是數據挖掘任務的來源。原始數據可能是任意的、非結構化的,甚至是不適合自動處理的格式。例如,手動收集的數據可能來自不同格式的異構數據源,但不知何故需要通過自動化電腦程式進行處理以獲取見解。 為了解決這個問題,數據挖掘分析人員使用一系列處理流程,將原始數據收集,清理並轉換為標準格式。