深入淺出多維數據分析(一)核心概念之Cube、Dimension、Measure

2021-01-08 邦格科技

多維數據分析的概念非常容易引起疑惑,它常常讓人聯想到超越三維的更高維空間中的一些幾何概念。其實這是完全沒有必要的,多維數據分析概念本質上是極為簡單和容易理解的,今天小編就用深入淺出的方式介紹這幾個概念。

多維數據結構

概念一:Cube(又稱多維數據集或數據立方體)

舉個例子,您在超市結帳後會得到一個小票,上面有時間、店鋪、商品類別、商品單價、購買數量、消費金額等信息,如果把某個地區全部消費者的小票收集到一起,那麼這些購物小票中的數據就形成了一個關於消費者超市購物行為的數據集,這就是一個Cube。

Cube就是面向同一業務主題的數據集合,同理,一個港口的進出口數據集合、一個貿易公司的渠道銷售數據集合、近幾年各省份戶籍變動數據都可以視為一個個Cube。

概念二:Dimension(又稱維度)

超市小票的Cube裡隱含著很多信息,如:

哪些商品呈現出季節性消費規律?不同區域店鋪的顧客購買力如何?哪幾個店鋪的顧客平均購買力最強?不同年齡段消費者最愛購買的商品有沒有差別?哪些商品由於不受年輕消費者歡迎可能會被漸漸淘汰?由上可見,這個超市小票Cube可以由商品、時間、區域、店鋪、顧客等業務角度來描述,這些業務角度就是維度。

同理,貿易公司的渠道銷售Cube可以由時間、渠道、產品、分公司、客戶等業務角度所描述,那麼它所關聯的維度就是時間、渠道、產品、分公司、客戶。

我們還可以看到,小票Cube和渠道銷售Cube都關聯了時間這個維度,那麼這兩個Cube是可以聯合起來進行跨行業、跨領域數據分析的。

概念三:Measure(又稱度量)

在Cube中,除了維度所代表的業務角度信息外,還有度量這個能夠被精確量化的數值信息。

小票Cube中的商品購買數量、商品單價、消費總額就是度量。

今天講解了Cube、Dimension、Measure這三個多維數據分析中的核心概念,其他概念將會在後續文章中講解。

關注小編可以獲得更多數據分析知識分享。

相關焦點

  • 深入淺出多維數據分析(二)核心概念之Member、Level、Hierarchy
    此文接上一篇《深入淺出多維數據分析(一)核心概念之Cube、Dimension、Measure》今天介紹Member、Level、Hierarchy三個概念。Member(又稱維度成員或成員)在前一篇文章中已經講過維度的概念了,維度就是業務角度。
  • 大數據分析之多維數據分析入門
    實際情況中,企業進行數據分析時往往要參考更多的維度,而且提出的問題也會更加複雜,此時,已經不能將數據以經典的三維立方體結構進行呈現。雖然無法在三維空間中呈現更多維度的數據結構,但是面對更多維度時進行數據分析的思路卻完全不變,不同的角色只需要從自身所關注的維度出發並提出問題即可,他們即不需要了解十幾甚至幾十維的數據如何存儲,也無需考慮多維數據查詢的具體實現方式。
  • 豪斯多夫測度 Hausdorff measure
    Applying its mathematical formalisms provides that the Hausdorff dimension of a single point is zero, of a line is 1, and of a square is 2, of a cube is 3.
  • 騰訊看點的實時數據倉庫和多維數據分析系統
    導語當業務發展到一定規模,實時數據倉庫是一個必要的基礎服務。從數據驅動方面考慮,多維實時數據分析系統的重要性也不言而喻。但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。本文將介紹一下信息流場景下,騰訊看點的實時數據倉庫和多維實時數據分析系統的技術架構。
  • 每周一書《深入淺出數據科學》分享!
    霍普金斯大學和General Assembly公司舉辦多次數據科學講座。在此之後,他創立了旨在通過人工智慧技術和數據科學力量幫助企業銷售團隊的創業公司Legion Analytics。譯者簡介 張星辰,北京榮之聯科技股份有限公司BI 技術顧問,畢業於重慶郵電大學,具有5年數據相關工作經驗,熟悉商業智能和數據可視化,通過了微軟數據科學專業認證。
  • ​萬億數據 | 騰訊看點多維實時分析系統技術架構
    導語:當業務發展到一定規模,實時數據倉庫是一個必要的基礎服務。從數據驅動方面考慮,多維實時數據分析系統的重要性也不言而喻。但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。
  • 數據產品核心概念之元數據
    而元數據管理是數據治理的基礎,作為產品設計者,我就接觸到了元數據。二、初識元數據,我被概念繞暈接觸新概念,當然先看定義。但是官方解釋,看起來像個套娃:「元數據,是解釋數據的數據」。看完這一圈概念,很容易聯想到」道生一, 一生二,二生三,三生萬物」,很有哲學的味道。總的來說,初接觸元數據,非常抽象,有點懵。三、元數據是什麼?藉助例子理解一下:概念晦澀難懂,藉助例子理解是一個不錯的方式。網上很多文章也列舉了不少元數據的例子,比如奶茶上飲料上的營養成分表。
  • Python數據分析之NumPy(基礎篇)
    ​Numpy 是 Python 的一個科學計算包,包含了多維數組以及多維數組的操作更改ndarray的大小將創建一個新的數組並刪除原始數據。NumPy 數組中的元素都需要具有相同的數據類型,因此在存儲器中將具有相同的大小。數組的元素如果也是數組(可以是 Python 的原生array,也可以是 ndarray)的情況下,則構成了多維數組。
  • Python數據分析之NumPy庫
    NumPy庫簡介NumPy庫使用Python進行科學計算,尤其是數據分析時,所用到的一個基礎庫。它是大量Python數學和科學計算包的基礎,比如我們後面會講到的pandas庫就用到了NumPy。pandas庫專門用於數據分析,充分借鑑了Python標準庫NumPy的相關概念。
  • 深入淺出之數據分析四步曲
    數據分析四步驟確定開始分析之前需要拿到足夠的背景信息,更重要的是要和對方一起明確你們共同想要解決的問題/想要驗證的假設,更更重要的是確定交付的內容、形式、期限以及可用資源。1、明確確定自己的問題或目標就進行數據分析就如同為定下目的地就上路旅行一樣。
  • 深入淺出數據分析師
    深入淺出數據分析師 今天飛機回程途中,遇到位北海道銀行來中國出差的女生;途中聊起了各自的職業;一直聊到北京,全程讓我很苦惱的是數據分析、數據分析師這些玩意如何很容易的介紹給她; 作者:佚名來源:中國統計網|2015-08-06 14:02
  • 萬億數據下的多維實時分析系統,如何做到亞秒級響應
    導語當業務發展到一定規模,實時數據倉庫是一個必要的基礎服務。從數據驅動方面考慮,多維實時數據分析系統的重要性也不言而喻。但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。本文將介紹一下信息流場景下,騰訊看點的實時數據倉庫和多維實時數據分析系統的技術架構。一、可解決的痛點可以先看一下,多維實時數據分析系統可以解決哪些痛點。
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    最近有很多人想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據分析與挖掘的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 遊戲運營案例來深入淺出數據分析&挖掘
    運營們拿到每月的數據報表總是犯愁:用戶數又在那兒不上不下,KPI又堪憂了。比起抱怨結果不好,從用戶那頭開始嘗試或許是一個不錯的解決方法。無論什麼遊戲的長線運營,其核心無外乎兩點:用戶+營收。用戶陰晴不定的態度一直讓大家頭疼,但其所有行動都有其邏輯在其中,而數據分析就可以幫助運營和公司梳理清楚用戶的「小心思」。
  • 深入淺出Kubernetes 的核心概念
    可能是數據中心裏面的計算機,也可能是雲中的虛擬機,還可能是其他的東西。Node 就是一個抽象層,我們不必關注某臺機器的特性,只需要簡單的視為我們可以利用的 CPU 和 RAM 資源。(3)Persistent Volumes 持久型數據卷
  • 深度解讀Hadoop與數據倉庫概念 - 大數據_CIO時代網 - CIO時代—新...
    深度解讀Hadoop與數據倉庫概念 深度解讀Hadoop與數據倉庫概念 2013-05-21 11:28:46  來源:網際網路    我看到了對大數據幾個不同的定義,請問Forrester是如何理解時下這一流行概念的?    James Kobielus:大數據事實上是引用極限可擴展分析的概念,「極限可擴展分析」這個詞在我看來是人們所說大數據的核心。
  • 大數據開發:OLAP開源數據分析引擎簡介
    針對於不斷新增的海量數據資源,企業需要通過及時地數據分析處理,才能從中挖掘出價值線索,反哺業務,實現數據驅動業務發展。而企業級的數據分析場景,多是採用OLAP數據分析引擎。今天的大數據開發分享,我們就主要來講講主流的幾個OLAP開源數據分析引擎。
  • 從數據分析到數據運營,智能BI對於企業數據運營的新啟發
    數據分析對於一個公司來說就像航海中的指南針能指明未來航向,根據越精確的數據細度對應不同運營手段進而會呈現不同的效果。於是「數據運營」的概念應運而生,近年來越來越多的網際網路企業開設了「數據運營」這一工作崗位,與數據分析師這一崗位不同的是,數據運營更加側重於一線業務決策。
  • 何為大數據概念 大數據分析
    導讀 大數據裡面包含很多如大數據時代、大數據概念、大數據分析、大數據營銷與開發到底是什麼意思呢?所謂大數據,那到底什麼是大數據,他的來源在哪裡,定義究竟是什麼呢?