大數據分析之多維數據分析入門

2021-01-07 邦格科技

閱讀本文不需要技術背景。

總體介紹

首先模擬一個數據分析場景,某企業積累了如下表格所示的銷售數據:

產品銷售數據表

表格中每一行表示某個時間段內某種商品在某個地區的銷售情況。很明顯,這些數據涉及到了時間、地區、產品三個業務角度。

在對這樣的數據進行分析時,不同的角色都會基於自己所感興趣的業務角度提出問題

銷售經理關心各個地區的銷售情況,希望找出銷售增長率在平均水平之下的地區產品總監則希望了解近期內各種產品的銷量對比,以作為後期產品研發方向的參考CEO想要知道近六個月內整體銷售環比信息,用以評估是否達到公司運營目標

對於表格中的數據,可以將其轉換為另一種數據格式 - "三維空間立方體",如下圖所示:

圖 1 - 數據立方體

相對於表格,以三維立方體形式呈現的數據結構更加直觀。

在這個數據立方體中,每一個坐標軸都代表一個業務角度(時間、地區、產品),坐標軸上的坐標值則表示了某個業務角度的一個確定的值(如:北京市、3月份、手機),不同坐標軸坐標值的交叉點則表示一個具體的銷售額。

實際上,此數據立方體中表示業務角度的坐標軸就是維度,類似於三維立方體的數據結構則被稱為多維數據結構(也稱數據立方體)。

再次回顧前文中銷售經理、產品總監、CEO各自提出的問題,不難發現他們各自所關注的維度分別為:地區、產品、時間

圖 2 - 不同角色關注不同維度

目前我們所模擬的這個數據分析場景較為特殊,因為只有三個維度,所以可以直觀的將數據想像成一個三維立方體。

實際情況中,企業進行數據分析時往往要參考更多的維度,而且提出的問題也會更加複雜,此時,已經不能將數據以經典的三維立方體結構進行呈現。

雖然無法在三維空間中呈現更多維度的數據結構,但是面對更多維度時進行數據分析的思路卻完全不變,不同的角色只需要從自身所關注的維度出發並提出問題即可,他們即不需要了解十幾甚至幾十維的數據如何存儲,也無需考慮多維數據查詢的具體實現方式。

核心概念簡介

在多維數據分析領域中,有幾個非常重要的核心概念:

數據立方體(Cube)維度(Dimension)成員(Member),又稱維度成員(Dimension Member)度量(Measure)級別(Level)

圖 3 - 多維數據模型

維度(Dimension)

圖 4 - 維度

維度就是描述數據的業務角度。在不同的數據分析場景中,會存在若干個不同的維度。

以上圖為例,存在三個維度:時間、地區、產品。在這個數據分析場景中,「哪種產品銷量最好?」這樣的問題顯然主要關注的是產品這個維度,而「哪些地區連續六個月銷售額環比增長?」則同時關注了地區和日期兩個維度。

在一個多維數結構中,維度可以被抽象理解成一個坐標軸,圖1中所示的數據分析場景由三個維度組成,每個維度各自代表了三維空間中的一個坐標軸。

相對於三維空間,具有更多維度的空間結構顯然不易於被理解,實際上,您並不需要在頭腦中想像出一個更多維度的空間場景,下文中幾個簡單的步驟將幫助您快速理解多維空間結構:

【理解一維空間結構】

圖 5 - 一維空間圖

一維空間是一把尺子,只有一個坐標軸,坐標軸上的一個坐標值就能確定一個點

【理解二維空間結構】

圖 6 - 二維空間圖

二維空間是一個平面,具有兩個坐標軸,不同坐標軸上的兩個坐標值確定一個點

【理解三維空間結構】

圖 7 - 三維空間圖

三維空間具有長、寬、高三個坐標軸,三個坐標軸坐標值確定一個點

【理解四維空間結構】

四維空間比三維空間多出一個坐標軸,這裡我們稱這個新的坐標軸為「第四坐標軸」,現在如果需要確定一個點,除了長、寬、高三個軸上的坐標值外,還需要第四坐標軸上的一個坐標值

【理解N維空間結構】

N(N可以是大於零的任意整數)維空間中具有N個坐標軸,需要N個不同坐標軸上的坐標值才能確定一個點

維度成員(Dimension Member)

前文介紹維度概念時,講到可將維度理解成表示某種業務角度的坐標軸,而維度成員則非常類似於維度坐標軸上的坐標值。

以時間維度為例,「一季度」、「1月份」、「2月份」這三個維度成員同屬於時間維度,它們各自表示了時間維度下一個具體的時間段。

由下圖可以看出,同一個維度下的維度成員呈現出樹狀結構,我們將沒有子級成員的成員稱為明細成員(Leaf Member,又稱明細維度成員Leaf Dimension Member),其他成員稱為非明細成員。

圖 8 - 明細成員與非明細成員

數據立方體(Cube)

數據立方體表示由若干個維度所描述的一個數據集合,每個維度各自表示一個可對此數據集合進行觀察和分析的業務角度。

圖 9 - Cube(數據立方體)

之所以稱為「立方體」,是因為由三個維度所描述的一個數據集,能夠非常輕鬆的被想像成三維空間中的一個立方體結構。

需要注意的是,在多維數據分析體系中,一個數據立方體往往具有更多的維度,雖然更多維度形態並不像三維空間立方體那樣直觀,但維度表示某些業務角度的作用不會改變。

度量(Measure)

圖 10 - 度量值

在一個數據立方體中,從每個維度上都選取一個確定的維度成員,這些維度成員組合所確定的一個點就是度量值。

在圖 10示例中,日期維度:1月份、地區維度:河北省、產品維度:手機確定了一個最細粒度的數據方塊,這個小數據方塊(下文稱為Data Cell)就是銷售額6688這個度量值,顯然,這表示「河北地區1月份手機產品的銷售額是6688」。

如果仔細觀察圖 10,您可能會發現並沒有一個Data Cell能夠直接表示「北京市一季度手機產品的銷售額」。由於一季度與1、2、3三個月份是父子級的關係,所以「北京市一季度手機產品的銷售額」可以通過匯總計算得到,如下圖所示:

圖 11 - 度量值匯總

一般情況下,數據立方體中並不直接存儲非明細成員所描述的度量值,而是通過對其後代成員中的全部明細成員進行匯總計算而得出。

級別(Level)

級別表示維度成員所描述業務角度的細節程度,也可理解為通過維度成員觀察數據的粒度。例如日期維度中一季度、1月這兩個成員,分別屬於季度、月份兩個不同的級別,顯而易見,季度級別的維度成員描述數據的粒度較為寬泛,月級別則較為細緻。

圖 12 - Level(級別)

相關焦點

  • BI大數據分析入門掌握
    商業的發展越來依從數據進行運用,隨著網際網路的發展,企業今後的決策一定是基於數據的決策與管理,python作為一個商業智能的工具性語言,一定是作為業務分析的必備掌握工具。pandas包是數據分析的核心包,其構建數據結構主要series和DataFame兩種結構。
  • 騰訊看點的實時數據倉庫和多維數據分析系統
    但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。本文將介紹一下信息流場景下,騰訊看點的實時數據倉庫和多維實時數據分析系統的技術架構。
  • 深入淺出多維數據分析(一)核心概念之Cube、Dimension、Measure
    多維數據分析的概念非常容易引起疑惑,它常常讓人聯想到超越三維的更高維空間中的一些幾何概念。其實這是完全沒有必要的,多維數據分析概念本質上是極為簡單和容易理解的,今天小編就用深入淺出的方式介紹這幾個概念。
  • 深入淺出多維數據分析(二)核心概念之Member、Level、Hierarchy
    此文接上一篇《深入淺出多維數據分析(一)核心概念之Cube、Dimension、Measure》今天介紹Member、Level、Hierarchy三個概念。Member(又稱維度成員或成員)在前一篇文章中已經講過維度的概念了,維度就是業務角度。
  • 大數據時代,如何培養數據分析思維?
    大數據時代來臨,「數據」熱度飆升,衍生出的行業也受到追捧。據悉,中國大數據行業人才需求2020年將達210萬,未來5年需求量在2000萬人左右。可見,國內數據分析崗錢途與前景並存,想入門該朝陽產業,需要先明白數據分析究竟是什麼?
  • Python數據分析怎麼入門
    Python作為一門非常適用於大數據的語言,在進入大數據時代以來,成為備受歡迎的數據分析工具。Python數據分析的人才需求,也在不斷增加。今天我們就從自學python入門的角度,來聊聊Python數據分析怎麼入門?首先,想學Python來做數據分析,要對企業的用人需求和崗位技能要求有清晰的了解,針對性地去學習,才能更快實現入門入行。
  • 乾貨貼 | 大數據時代,如何培養數據分析思維?
    大數據時代來臨,「數據」熱度飆升,衍生出的行業亦受到追捧。據悉,中國大數據行業人才需求2020年將達210萬,未來5年需求量在2000萬人左右。可見,國內數據分析崗錢途與前景並存,想入門該朝陽產業,需要先明白數據分析究竟是什麼?
  • ​萬億數據 | 騰訊看點多維實時分析系統技術架構
    導語:當業務發展到一定規模,實時數據倉庫是一個必要的基礎服務。從數據驅動方面考慮,多維實時數據分析系統的重要性也不言而喻。但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。
  • 新手如何快速入門數據分析?
    CDA數據分析研究院原創作品, 轉載需授權隨著網際網路迅猛發展,各大公司沉澱了很多的數據,如何找出藏在這些數據背後的規律,利用這些數據來給公司創造價值,作為一個新手面對這些問題的時候,你是不是考慮怎麼快速學習數據分析呢?如果你的自學能力很強,那麼你可以參考網上的推薦書籍,自己拿起書本,找些案例開始學習。
  • 萬億數據下的多維實時分析系統,如何做到亞秒級響應
    但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。本文將介紹一下信息流場景下,騰訊看點的實時數據倉庫和多維實時數據分析系統的技術架構。一、可解決的痛點可以先看一下,多維實時數據分析系統可以解決哪些痛點。
  • 大數據分析的處理流程
    大數據   2.大數據分析   大數據分析是研究大型數據集的過程,其中包含各種各樣的數據類型大數據能夠揭示隱藏的信息模式、未知事物的相關性、市場趨勢、客戶偏好和其他有用的商業信息,其分析結果可用於更有效的市場營銷、得到新的收入機會、更好的客戶服務、提高運營效率、競爭優勢和其他商業利益。
  • 數據分析入門:14種常用的數據分析方法
    分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有:排列圖排列圖是一種找出影響產品質量主要因素的圖表方法。其結構是由兩個縱坐標和一個橫坐標,若干個直方形和一條折線構成。魚骨圖主要分為三種類型:整理問題型魚骨圖(各要素與特性值間不存在原因關係,而是結構構成關係,對問題進行結構化整理),原因型魚骨圖(魚頭在右,特性值通常以「為什麼……」來寫);對策型魚骨圖(魚頭在左,特性值通常以「如何提高/改善……」來寫)分層法將性質相同的、在同一條件下收集的數據歸納在一起,以便進行比較分析。
  • DOTA2數據分析入門(一):獲取數據源
    昊哥選發條劣單,我玩沉默走中,6級後發條勾上去、沉默開大穩定秒一個(智力+2),4000分的魚塘基本沒輸過。相處非常融洽。一旦有比賽,場面就沒有這麼和諧了,昊哥是B神粉絲,我是CTY粉絲。大部分比賽都是各看各的,毫無交流。偶爾B神對陣CTY,也是同屏異夢,各懷鬼胎。但是!誰也沒有想到!TI6前大地震一波操作,最後的結果居然是BCHRS合體組成VG戰隊,開啟了燃燒的遠徵。
  • SPSSAU數據分析思維培養之4:數據可視化篇
    本文章為SPSSAU數據分析思維培養的第4期文章。前3期內容分別講述數據思維,分析方法和分析思路。本文講述如何快速使用SPSSAU進行高質量作圖,以及如何選擇使用正確的圖形。第一部分 SPSSAU分析自動出圖在進行數據分析時,比如頻數分析,想了解男女的分布比例,此時直接進行分析SPSSAU默認會生成對應的圖,方差分析,T檢驗,交叉分析等也是如此。SPSSAU總是會默認提供最適合的圖,當然也可選擇使用。
  • 未明學院:入門數據分析,到底選Python還是R?
    ,由於是從科學計算的角度出發,R中的數據結構非常的簡單,主要包括向量(一維)、多維數組(二維時為矩陣)、列表(非結構化數據)、數據框(結構化數據)。而 Python 則包含更豐富的數據結構來實現數據更精準的訪問和內存控制,多維數組(可讀寫、有序)、元組(只讀、有序)、集合(唯一、無序)、字典(Key-Value)等等。5) Python與R相比速度要快。
  • Python入門學習之數據分析實戰獲取數據
    想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。
  • 數據分析軟體工具有哪些?
    Excel Excel作為入門級的工具,是最基礎也是最主要的數據分析工具,它可以進行各種數據的處理、統計分析和輔助決策操作,數據透視圖是Excel中最重要的工具,如果不考慮性能和數據量,它可以處理絕大部分的分析工作。正所謂初級學圖表,中級學函數透視表,高級學習VBA。
  • 數據分析入門4大軟體技能推薦,學會了月薪30K
    要想知道消費者畫像,就必須做好大數據分析。依賴經驗人為主觀判斷拍腦袋決策的工作方式終將被淘汰,用數據決策有據可依客觀高效。,積極培養數據分析團隊。現在入門應該學些什麼?數據分析思維與軟體技能缺一不可。數據分析思維需要長期刻意訓練,但軟體技能卻可以在較短時間內掌握。即便是還沒有入門的菜鳥,也可以將這些技能學起來!
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 什麼是大數據分析?大數據分析的含義與目前形式
    大數據分析的含義與目前形式 工程師之餘 發表於 2018-10-12 14:06:48 「很多人還沒搞清楚什麼是PC網際網路,移動網際網路來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」