數據分析究竟在分析什麼?

2021-02-08 俊紅的數據分析之路

前言

很多時候我們走的走的就會忘記當初為什麼而出發。就像數據分析一樣,現在被炒的很熱,但是數據分析究竟在分析些什麼呢?很多新人可能被唬住了,其實這些在我們以前的統計學中都學過。

不管是用Python還是R,其實和用Excel一樣,只不過現在之所以用Python、R是因為大數據時代麼,數據太多,Excel的處理能力跟不上,但是這些都只是一個工具而已,核心還是圍繞統計學不變的。

今天就來聊聊我們該從哪些方向去分析(描述)數據。

總體概覽指標:

總體概覽指標又稱統計絕對數,是反映某一數據指標的整體規模大小,總量多少的指標。

比如當日銷售額60萬,當日訂單量2萬,購買人數1.5萬,這些都是一些概覽指標,用來反映某個時間段內某項業務的某些指標的絕對量。

我們把經常關注的總體概覽指標稱為關鍵性指標,這些指標的數值將會直接決定公司的盈利情況。

對比性指標:

對比指標是說明現象之間數量對比關係的指標,常見的就是同比、環比、差這幾個指標。

同比是相鄰時間段內某一共同時間點內指標的對比,環比就是相鄰時間段內指標的對比;差就是兩個時間段內的指標直接做差即可,差的絕對值就是兩個時間段內指標的變化量。

比如說當日與昨天比較、本周與上周、本月與上月比較都是環比;當日與上周同期、本周與上月同期、本月與去年同月比較都是同比。

集中趨勢指標:

集中趨勢指標是用來反映某一現象在一定時間段內所達到的一般水平。用平均指標來表示,比如平均工資水平、平均年齡、平均房價等。平均指標分為數值平均和位置平均。

數值平均是統計數列中所有變量值平均的結果。有普通平均數和加權平均數兩種。

位置平均時基於某種特殊位置上或者是普遍出現的標誌值作為整體一般水平的代表值。有眾數、中位數兩種。

眾數是被研究總體中出現次數最多的變量值,他是總體中最普遍的值,因此可以用來代表一般水平。如果數據可以分為多組,則為每組找出一個眾數。注意:眾數只有在總體內單位充分多時才有意義。

中位數是將總體中各單位標誌值按大小順序排列,處於中間位置的變量值就是中位數。因為處於中間位置,有一半變量值大於該值,一半小於該值,所以可以用這樣的中等水平來表示整體的一般水平。

離散程度指標:

離散程度指標是用來表示總體分布的離散(波動)情況的指標,如果這個指標較大,說明數據波動比較大,反之則說明數據相對比較穩定。

全距(又稱極差)、方差、標準差等幾個指標是用來衡量數值的離散情況。

全距(極差):平均數讓我們知道了某一指標的集中趨勢,但是無法知道數據的變動情況。比如網上報導說XX公司員工的平均月薪為7萬,這個7萬是什麼意思呢?是大多數人的工資都是7萬左右還是少數幾個高管的工資特別高,導致均值特別高呢?如果單從均值是無法獲取更多信息的。所以引入了全距,全距的計算方法是用數據集中最大數(上界)減去數據集中最小數(下界)。

全距存在的問題:

全距只表示了數據的寬度,但是沒有描述清楚數據上下界之間的分布形態。

對於問題1我們引入四分位距的概念。四分位數將一些數值從小到大排列,然後一分為四,最小的四分位數為下四分位數,最大的四分位數為上四分位數,中間的四分位數為中位數。

對於問題2我們引入了方差和標準差兩個概念來度量數據的分散性。

方差是每個數值與均值距離的平方的平均值,方差越小說明各數值與均值之間的差距越小,數值越穩定。

X為變量,μ為總體均值,N為數據個數。

標準差是方差的開方。表示數值與均值距離的平均值。你可能會說有方差了為啥還要標準差呢?因為標準差與實際指標的單位是一致的。更具有實際意義。

相關性指標:

上面提到的幾個維度是對數據整體的情況進行描述,但是我們有的時候想看一下數據整體內的變量之間存在什麼關係,一個變化時會引起另一個怎麼樣的變化,我們把用來反映這種關係的指標叫做相關係數,常用r來表示。

其中,Cov(X,Y)為X與Y的協方差,Var[X]為X的方差,Var[Y]為Y的方差

關於相關係數需要注意幾點:

r的正負代表相關性方向,正代表正相關,負代表負相關。相關與因果

相關關係不等於因果關係,相關只能說明兩件事情有關聯,而因果關係的話,是說明一件事情導致了另一件事情的發生。不要把這兩個關係混淆使用。

比如啤酒和尿布是具有相關關係的,但是不具有因果關係。但是流感疾病和關鍵詞檢索量上漲是具有因果關係的。

喜歡文章的話,點個「在看」哦

相關焦點

  • 什麼是大數據分析?大數據分析的含義與目前形式
    打開APP 什麼是大數據分析?大數據分析的含義與目前形式 工程師之餘 發表於 2018-10-12 14:06:48 「很多人還沒搞清楚什麼是PC網際網路,移動網際網路來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」
  • 什麼是數據分析?3分鐘了解怎麼樣才能成為數據分析師
    大數據時代全面來襲隨著大數據時代的到來,數據分析行業急劇發展,越來越多的企業已經意識到大數據分析的重要性和發展潛力,同時越來越多的傳統行業公司開始轉型升級,開始引入並發展專屬自己的大數據分析部門及崗位。
  • 什麼是數據與數據分析
    除此之外,還有定性數據(如受訪者面對開放問卷的文字回復)和分類數據。科學研究中需要對這些數據進行分析以獲得有用的結論和見解。為了向讀者介紹關於數據的一般性知識(數據分析的定義與作用、定性數據與定量數據的定義與差異以及如何在研究中獲取與分析定性數據和定量數據),本文分享Questionpro網站的文章,原文題目為「研究中的數據分析:為什麼要數據、數據的類型、定性和定量研究中的數據分析」。
  • 商業分析與數據科學,究竟有什麼不同?
    概括的說,ba和ds的最大區別在於ba是通過數學統計和cs的技能去幫助進行商業決策的制定,這是一個緊密結合了商業知識的專業;而ds是數據科學,是cs下面的一個細分方向,多數專業在計算機學院,部分專業在數學學院。什麼是data science?
  • 大數據分析主要分析什麼內容
    導讀 我們有的時候在拿到數據以後不知道該怎麼進行分析,該去分析什麼,其實這些在我們以前的統計學中都學過
  • PowerBI數據分析實踐02 | 結構百分比分析法
    她的上一篇分享:PowerBI數據分析實踐01 | 水平分析法PowerBI數據分析02:結構百分比分析法作者:海豔(點擊查看大圖)結構百分比分析法,又稱縱向分析,是指同一期間財務報表中不同項目間的比較與分析,將財務報表中的某一重要項目
  • 商業分析OR 數據分析?你想清楚了麼?
    但是很多同學在求職初期,都會遇到這樣一個問題:商業分析和數據分析究竟該選哪個?不同崗位需要什麼技能?具體該如何準備呢?如果你對以上問題依舊覺得很迷茫,別擔心,我們請到了,清北學霸,紐約頂級基金數據分析師為你帶來2021最新數據求職趨勢與攻略。
  • 可視化數據分析的價值是什麼?
    一個完善的企業級數據分析平臺的價值是不可估量的,由於其數據來源於各個業務系統,所以其價值有時很容易和業務系統的價值混淆在一起,無法很好的量化。接下來小編給大家具體介紹一下datafocus可視化數據分析的價值是什麼?
  • 數據分析方法論是什麼?
    一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。1、明確思路明確數據分析的目的以及思路是確保數據分析過程有效進行的首要條件。它作用的是可以為數據的收集、處理及分析提供清晰的指引方向。可以說思路是整個分析流程的起點。首先目的不明確則會導致方向性的錯誤。當明確目的後,就要建分析框架,把分析目的分解成若干個不同的分析要點,即如何具體開展數據分析,需要從哪幾個角度進行分析,採用哪些分析指標。只有明確了分析目的,分析框架才能跟著確定下來,最後還要確保分析框架的體系化,使分析更具有說服力。
  • 都2020年了,數據分析的真相究竟是什麼?
    注意:關聯規則算法本身沒啥問題,這是一種發現關聯關係(注意:不是因果關係哦)的手段,並且它的算法原理非常簡單,需要的數據也非常少,因此適用範圍非常廣。只不過,我們需要用一些指標來衡量:到底什麼算高。這種方法最大的優勢就是簡單,計算方法、計算邏輯都簡單,且需要的數據很少,只要有訂單數據即可,數據採集永遠是算法的頭號大敵,一個需要數據少的方法,自然會被極其廣泛的運用。特別是應用於購物籃分析。然而,運用歸運用,你真在哪個超市見過啤酒與尿布堆在一起的嗎。很快講故事的人便發現了這個bug,於是改口說:國外的超市……欺負大家出國少呀。
  • 我用Excel發現了數據分析的本質:回歸分析
    最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。
  • 大數據分析的含義與形式
    然而隨著時代潮流的大邁步,市場上對數據分析人才的缺口已經很大,據調查,目前近60%企業已成立數據分析相關部門,超過1/3的企業已經將大數據分析應用於其日常運營和銷售中。那麼究竟什麼是大數據分析呢?   大數據分析是指對規模巨大的數據進行分析。
  • 當我們在做數據異常分析時,我們在分析什麼
    數據異常分析,是數據分析工作中最常見且重要的分析主題,本文總結了數據分析的一般過程和方法,希望後續的分析在此基礎上不斷優化。一、背景數據異常分析,是數據分析工作中最常見且重要的分析主題,通過一次次的異常分析來明確造成數據波動的原因,建立日常的的運營工作和數據波動之間的相關性以及貢獻程度的概念,從而找到促進數據增長的途徑,改變數據結果。
  • 能進Amazon數據分析崗的簡歷,究竟寫了什麼?
    ①Microsoft導師教你文商科如何轉型數據分析泛商科轉型數據分析,對Python、SQL、R等技能的掌握程度要求?微軟目前熱招的數據科學相關職位有哪些?北美網際網路大廠數據分析崗位入職門檻、高頻面試題、薪資待遇?
  • 「何為數據分析」-遊戲數據分析實踐
    何為數據分析?在如今這個大數據時代,大數據的應用越來越彰顯它的優勢,且佔領的領域也越來越大。那麼,如何對數據進行分析,以使其得到更好的應用呢?今天,我們藉助DataFocus系統開啟了解數據分析的裡程。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • 「女孩子學什麼數據分析」,「呵呵」!
    數據分析不應該是一項孤立的工作,因為未來的趨勢是「+數據分析」。什麼是「+數據分析」呢?就是數據分析越來越成為各個職業的基本技能,各個職業上的從業人員都會開始學習數據分析,從而有了:財務+數據分析,加分;運營+數據分析,加分;產品+數據分析,加分;甚至還有HR+數據分析。
  • 數據分析實戰:數據分析的5大關鍵環節
    數據如同人工智慧一樣,往往能表現出更為客觀、理性的一面,數據可以讓人更加直觀、清晰的認識世界,數據也可以指導人更加理智的做出決策。數據驅動的時代,無論你的工作內容是什麼,掌握一定的數據分析能力,可以幫助你更好的認識這個世界,更好的提升工作效率。
  • 張松聊數據分析_數據科學家常用的分析模型
    數據分析沒頭緒?推薦5個萬能分析模型 數據不吹牛 今天 提到數據分析,肯定要提到數據分析模型,在進行數據分析之前,先搭建數據分析模型,根據模型中的內容,具體細分到不同的數據指標進行細化分析,最終得到想要的分析結果或結論。
  • 我們常說的大數據分析,數據究竟是從哪來的?
    我們要去了解用戶想要的是什麼,能給用戶帶去的是什麼;但這些,在很多時候光靠著自己的臆想是不夠的,我們必須去調查、去了解,深入用戶的群體,去獲取實際的數據,用數據來說話。現在大數據已經非常被人們所看重,分析是一門學問,獲取也是一門學問。