數據產品經理之數據分析與挖掘

2021-01-10 人人都是產品經理

本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~

自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。

其中,作為數據產品經理必備的專業知識之一的數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,人們常常提到的數據分析是指狹義的數據分析,數據挖掘和數據分析都是從數據中提取一些有價值的信息,但互相的側重點又有所不同。

前面兩篇文章介紹了數據產品經理日常工作中必備的知識之常用的圖表設計(數據產品經理之圖表設計)和SQL語言(數據產品經理必備之SQL基礎 ),本篇文章講一講怎麼樣通過數據分析與挖掘從數據中獲取信息和發掘價值。

一、基本概念

(1)數據分析

數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。

(2)數據挖掘

數據挖掘是指從大量的、有噪聲的、不完全的、模糊的和隨機的數據中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、有價值的信息和知識的過程。

(3)統計分析方法

數據分析時需要選擇合適的統計分析方法進行數據的分析,常用統計分析方法有集中趨勢、離散程度、相關強度、參數估計、假設檢驗等,通過常用統計分析方法能夠描述數據的特徵。

(4)數據挖掘方法

數據挖掘時需要運用數據挖掘方法來從數據中挖掘價值,常用數據挖掘的方法有分類、回歸、關聯、聚類等,這些方法能夠從不同的角度對數據進行挖掘。

二、統計分析方法

統計分析方法,按不同的分類標準可劃分為不同的類別,而常用的分類標準是功能標準,依此標準進行劃分,統計分析可分為描述統計和推斷統計。

描述統計是將研究中所得的數據加以整理、歸類、簡化或繪製成圖表,以此描述和歸納數據的特徵及變量之間的關係的一種最基本的統計方法。描述統計主要涉及數據的集中趨勢、離散程度和相關強度,最常用的方法有平均數、標準差、相關係數等。

推斷統計指用概率形式來決斷數據之間是否存在某種關係及用樣本統計值來推測總體特徵的一種重要的統計方法。推斷統計包括總體參數估計和假設檢驗,最常用的方法有Z檢驗、T檢驗、卡方檢驗等。

描述統計和推斷統計是統計分析時需要用到的方法,二者彼此聯繫,相輔相成,描述統計是推斷統計的基礎,推斷統計是描述統計的升華。

1. 集中趨勢

集中趨勢又稱「數據的中心位置」、「集中量數」等,集中趨勢所反映的是一組資料中各種數據所具有的共同趨勢,即資料的各種數據所集聚的位置。因此,它是對變量數列進行分析的首要指標,它往往作為總體的代表水平同其他與之同質的總體進行比較。集中趨勢能夠對總體的某一特徵具有代表性,表明所研究的數據在一定時間和空間條件下的共同性質和一般水平。

集中趨勢分析時常用的有平均數、中位數和眾數等。

2. 離散程度

離散程度是指一個分布壓縮和拉伸的程度。離散程度可以反應個體特例的情況,可以說明集中趨勢的代表性如何,還可在統計推斷時用來計算誤差的大小。另外,離散程度還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。

離散程度主要有方差、標準差和四分位距等。

3. 相關程度

相關程度是研究隨機變量之間的相關關係的一種統計方法,相關程度顯示兩個隨機變量之間線性關係的強度和方向,主要研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關情況。

數據的相關程度分析時常見的相關係數有Pearson相關係數、Spearman等級相關係數、Kendall等級相關係數、淨相關、相關比等。

4. 參數估計

參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過程。在對數據進行統計分析時,對於知道其分布形式的總體,用若干未知參數來表示,研究總體分布,首先就要估計出參數的取值,這樣的問題就是參數估計問題。

參數估計從估計形式看,區分為點估計與區間估計;從構造估計量的方法講,有矩估計、最小二乘估計、似然估計、貝葉斯估計等。

5. 假設檢驗

假設檢驗是用於檢驗統計假設的一種方法。 而「統計假設」是可通過觀察一組隨機變量的模型進行檢驗的科學假說。 一旦能估計未知參數,就會希望根據結果對未知的真正參數值做出適當的推論。 統計上對參數的假設,就是對一個或多個參數的論述。

假設檢驗,又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。假設檢驗基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。

假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F檢驗等等。

三、數據挖掘方法

數據挖掘方法按照是否有目標變量可分為有監督學習的預測性方法和無監督學習的描述性方法。

預測性方法通過對所提供數據集應用特定方法分析所獲得的一個或一組數據模型,並將該模型用於預測未來新數據的有關性質,包括分類和回歸。

描述性方法以簡潔概述的方式表達數據中的存在一些有意義的性質,分為聚類和關聯。

1. 分類

分類是找出數據中的一組數據對象的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據中的數據項映射到某個給定的類別中。

分類的輸出變量為離散型,常見的分類方法包括(樸素)貝葉斯、決策樹、邏輯回歸、KNN、SVM、支持向量機、神經網絡、隨機森林和邏輯回歸等。

分類可以應用到涉及到應用分類、趨勢預測中,如用戶分層、用戶商品推薦、用戶流失率、促銷活動響應等。

2. 回歸

回歸分析反映了數據中數據的屬性值的特性,通過函數表達數據映射的關係來發現屬性值之間的依賴關係。它可以應用到對數據的預測及相關關係的研究中去。

回歸的輸出變量為連續型,常見的回歸方法有線性回歸、多項式回歸、嶺回歸、套索回歸、彈性網絡回歸等

回歸可以應用到銷量預測、備貨管理中,如通過回歸分析對電商商品的銷售趨勢作出預測。

3. 聚類

聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立抽象概念,發現數據的分布模式,探索可能的數據屬性之間的相互關係。

聚類類似於分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬於同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。

細分市場、細分客戶群體都屬於數據挖掘中的聚類問題,例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等。

聚類能夠實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。例如零售場景中對客戶的細分,然後針對不同類別的客戶進行對應營銷。

4. 關聯

關聯是隱藏在數據項之間的關聯或相互關係,即可以根據一個數據項的出現推導出其他數據項的出現。關聯規則的挖掘過程主要包括兩個階段:

第一階段為從海量原始數據中找出所有的高頻項目組;第二階段是從這些高頻項目組產生關聯規則。關聯指的是發現數據的各部分之間的聯繫和規則,常見的關聯分析算法包括Aprior算法、Carma算法,序列算法等。

關聯常用於預測客戶的需求,例如消費者常常會同時購買哪些產品,從而有助於商家的捆綁銷售。

本文由 @ Eric 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 產品經理必備之常用需求挖掘的7個方法
    作者對產品經理常用的需求挖掘的方法進行了梳理總結,並結合相關案例進一步加深了對需求分析的理解。為什麼我要說常用需求挖掘方法是產品經理必備的知識?在《俞軍產品方法論》一書中提到產品經理需要為用戶創造價值,在我看來產品經理只有通過解決用戶的問題進而滿足用戶的需求才能不斷為用戶創造價值。
  • 想成為數據產品經理,先掌握這些數據分析方法論(二)
    之前在《想成為數據產品經理,先掌握這些數據分析方法論》一文中,分享了一些基礎的數據分析方法,從業務分析、用戶分析和產品運營三個方面提供了一些分析的切入角度。接下來,進階一步,我們再來看看還有哪些實用的分析工具。一、業務分析:如何做診斷歸因?
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 數據分析師和產品經理的愛恨情仇
    要說跟產品經理關係最密切的人莫過於運營團隊了,但是今天我們來講一講大數據分析部門和產品經理之間那些事兒,且聽我一一道來。 首先,在一些公司,產品經理是產品經理,運營經理是運營經理,或者還有一些,索性結合到一起——「產品運營經理」。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 數據分析實戰|人人都是產品經理網站(上篇):平臺視角
    乾貨滿滿的上篇,不僅僅是一篇數據分析,相信你將對人人都是產品經理的網站和發展會有新認識,歡迎指導交流~所以出於好奇,就有了這次數據分析的探索之旅。內容安排學過數據分析的同學肯定在最開始都有這樣的體會,手中有了錘子,看什麼都像釘子。所以好久沒做數據分析,手癢一下子抓取並分析了一大堆數據,遠遠超過了最初的目的。所以開始構思如何寫這篇文章的時候,做了如下思考:人人是由哪些角色構成?這些角色都想知道些什麼?能否通過現有的數據給出這些答案?
  • 大數據_數據挖掘技術分類及應用
    據銀行官員稱:數據挖掘可幫助用戶增強其商業智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。該官員認為,該軟體可反饋用於分析和決策的高質量信息,然後將信息輸入產品的算法。數據挖掘還有可定製能力。   美國Firstar銀行使用數據挖掘工具,根據客戶的消費模式預測何時為客戶提供何種產品。
  • 定性研究數據的敏捷量化分析 - 人人都是產品經理
    用戶調研得來的數據該如何處理?筆者在本文給出了敏捷量化分析方法,可供同學們參考並交流。上一篇文章講了B端用戶調研的一些靈活方法,當收集到用戶調研的數據之後,接下來就是做問題的整理、分析和優化了。一、用戶調研數據分析思路數據收集整理→問題優先級排序→解決方案設計→解決方案的優先級排序二、步驟詳細說明第一步:數據收集整理關於用戶調研的數據收集、整理,每個企業、團隊、產品經理等都有自己的記錄分析的方法和規範體系,為了方便最後的敏捷量化分析,數據的收集整理請注意以下幾點:團隊內建立一個問題識別的規範體系,更加快捷地識別問題的嚴重性
  • FineBI:數據挖掘的車,開了
    我是帆軟數據挖掘的產品經理,在FineBI的新版本5.0中,你們將看到數據挖掘功能,這是我們第一次做數據挖掘功能,自然是要廣而告之了。市場部的同事來找我,希望我來寫一篇文章宣傳一下,作為產品經理,責無旁貸嘛。傳統宣傳三段論:功能業務價值好大->我們功能做得真好->客戶給我們的評價很棒。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    數據挖掘涉及知識面廣,技術點多。在面對複雜多樣的業務分析場景時,如何做出有效的數據挖掘分析方案其實是有一套可遵循的方法體系。針對不同的分析數據和業務場景,數據挖掘的方法可以分為監督學習、無監督學習、半監督學習、增強學習,每種方法都有其適應的分析場景和數據基礎。
  • 分析零距離 數據可視化產品選型指南
    【IT168 專稿】導讀:大數據的核心不是「大」,也不是「數據」,而是蘊含在其中的商業價值。作為挖掘數據背後潛在價值的重要手段,商業智能和分析平臺成為大數據部署中的關鍵環節。然而,獲取價值的難點並不在於數據分析應用的部署,而在於專業數據分析人才的缺乏。
  • 音頻行業數據產品經理的點、線、面思考
    編輯導語:在職場中,產品經理扮演者紐帶的職責,對於業務、團隊等都有著很大的作用;產品經理在企業中的定位也要清楚,是如何進行相互的賦能等;本文作者分享了關於音頻行業數據產品經理的點、線、面思考,我們一起來看一下。
  • 數據挖掘的知識類型
    這些關聯並不總是事先知道,而是通過資料庫中數據的關聯分析獲得的,其對商業決策具有重要的價值,因而關聯分析廣泛用於市場營銷,事物分析等領域。挖掘關聯知識的一個典型應用實例就是市場購物分析。根據被放到一個購物袋的(購物)內容記錄數據而發現的不同(被購買)商品之間所存在的關聯知識無疑將會幫助商家分析顧客的購買習慣。發現常在一起被購買的商品(關聯知識)將幫助商家指定有針對性的市場策略。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 四象限選拔法:從面試官角度,看數據產品經理的面試和選拔
    這是一個很難的問題,因為對數據產品經理能力、知識、技能的綜合要求,相比其他方向產品經理要高很多,相比分析師、開發等其他崗位又更全面。而通過看簡歷、加1-2小時的面試,選拔出優秀的數據產品經理或好苗子,更是難上加難。經過很多嘗試,我總結了一套四象限選拔方法,作為每次提問和評估的提綱,與候選人進行面試溝通。
  • 產品經理必備技能:定義數據指標
    數據分析是產品經理的一項基本技能,然而每次想好好學習下,資源不是7天精通Excel就是20天進階SQL,甚至於Python必知必會……工欲善其事必先利其器,確實沒錯,但工具需要思維來指揮。而數據指標的定義,是培養數據思維要闖的第一道關。作為一隻數據小白,分享一點定義數據指標的心得,有問題老鐵們請斧正。1、激活,如何定義一個激活?
  • 常見的7種數據分析手段
    數據分析在很多網際網路人的工作中越發顯得重要,而對於產品經理來說,更是如此。本文將為產品經理介紹數據分析的基本思路,並基於此,衍生出 2 個常見方法和 7 個應用手段,希望在數據分析的實際應用中能給大家帶來幫助。一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。
  • Python數據實戰分析之定量和定性數據分析
    數據分析中關於數據的部署數據分析的最後一步——部署,旨在展示結果,也就是給出數據分析的結論。若應用場景為商業,部署過程將分析結果轉換為對購買數據分析服務的客戶有益的方案。若應用場景為科技領域,則將成果轉換為設計方案或科技出版物。
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。3 數據挖掘的過程數據準備:收集數據數據集成:了解領域特點,確定用戶需求,處理數據中的遺漏和清洗髒數據;數據選擇:從原資料庫中選擇相關數據或樣本,從而辨別出需要需要分析的數據集合