數據可視化之旅(三):數據圖表的選擇(中)

2021-01-10 CDA數據分析師

作者 | Destiny 來源 | 木東居士

0x00 前言

數據圖表的選擇(上),分享了「時序數據」和「比例數據」的可視化圖表方案。

不同的數據類型、不同的闡述目的,決定了數據可視化展現形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。

「對比型數據」:對比兩組或兩組以上數據的差異。「分布型數據」:研究數據分布的集中趨勢、離散程度、偏態和峰度等。

0x01 對比型數據可視化

在實際工作中,我們經常需要對比多組數據之間的差異,而這些差異通常是通過不同的標記和視覺通道體現出來。

高度差異/寬度差異:柱狀圖、條形圖。面積差異:面積圖、氣泡圖。字號差異:單詞雲圖。形狀差異:星狀圖。1.柱狀圖

在《數據圖表的選擇(上)》有寫到,柱狀圖是離散時間數據可視化的方式之一,只不過這裡的系列值的數據類型是「時間」而已。

柱狀圖除了可以用於離散時間數據的可視化,更多的是用於比較不同分類數據的可視化,且柱狀圖的數據條數,最好不要超過12條。

以下根據數據類別的個數和可視化的目的,細化柱狀圖的圖表選擇:

單一柱狀圖:適合單一類別的數據比對,也適合表示離散型時序數據的趨勢。重疊型柱狀圖:適合兩個類別的數據對比,半透明柱形條,代表某項指標的「目標值」,內部偏窄且不透明的柱形條表示某項指標的「實際完成情況」。通常會搭配折線圖使用,折線圖則表示目標完成率。並列柱狀圖:適合兩個或三個數據類別的對比,若數據類別超出3個,不建議使用並列柱狀圖。堆疊柱狀圖:適合既要對比總體的數據,又要對比總體各構成項的數據,但是總體各構成項一般不要大於5個,若大於5個,可按佔總體的比例進行歸類,展示TOP5的分類,剩下則歸為「其他」。

2.條形圖

條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那麼在哪些情況下,條形圖能比柱狀圖更好的展示數據呢?

條形圖,相比柱狀圖而言,可以展示更多的數據條數,一般不要超過30條。若分類項的文本過長時,柱狀圖的文本需要進行旋轉才能不重疊,不利於閱讀,而條形圖就就沒有這個缺點。

3.面積圖

面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積。

按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」,兩者的區別如下。

重疊對比型:所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關係。堆砌對比型:只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數據上面。面積圖,一般也是用於趨勢分析中。

當需要分析各個系列,隨時間的變化趨勢時,此時使用「重疊對比型面積圖」比較合適;當既需要分析整體隨時間的變化趨勢,又要了解整體的各構成項隨時間的變化趨勢時,使用「堆砌對比型面積圖」比較合適。

4.氣泡圖

氣泡圖,和散點圖的區別是,氣泡圖一般是用於三維數據的可視化,而散點圖是用於二維數據的可視化。

在散點圖中,圓點的面積是相同的,主要是通過圓點在坐標軸中的坐標點(X,Y)確定的位置,來映射數據。

而氣泡圖,是通過氣泡的面積大小來對比數據的圖形方式,它除了可以反映散點圖中坐標點X、Y的相關關係,還有一個維度的數據可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數據。

如上圖所示,左側的氣泡圖,每個氣泡展示了三個屬性的信息,X-代表人均GDP,Y-代表對應國家的平均壽命,Z-即氣泡的大小,代表對應國家的人口數量。所以,相較於散點圖而言,氣泡圖除了可以展示X、Y兩個變量間的相關關係,同時還可以對比主體另一個維度的數據,並且這個數據是映射到氣泡的大小上的。

當只有一個系列時,只需要一種氣泡圖只需要一種顏色即可。當有多個系列時,不同系列之間可以用顏色來區別。

5.單詞雲圖

單詞雲圖,主要是用於網絡文本中詞頻數據的可視化,如關鍵詞搜索,文章高頻詞,熱點事件關鍵詞等。

單詞雲圖,是通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,為了達到貼合主體的特徵,以及視覺美觀的目的,用戶可以自定義單詞雲的配色方案、背景形狀等設計層面的個性化。

通過單詞雲圖,用戶可以快速找出網站搜索的高頻詞彙、了解文章的主旨、get到熱點事件的關鍵信息。但是要注意一點,單次雲圖只適合表示一組文本數據的對比,不適合多個類別的文本數據之間的比較。

6.雷達圖/星狀圖

當需要對比一個主體、或多個主體本身,在不同維度上的特徵時,雷達圖和星狀圖是不錯的選擇。

雷達圖和星狀圖的區別是:

雷達圖是一體多維的數據,即可視化的對象是一個主體,只是這個主體具有多個維度上的數據特徵。對比的是,同一個主體,在不同維度上的數值,可以看出主體在不同維度上的偏向。星狀圖是多體多維的數據,即可視化的對象是多個主體,且多個主體維度相同,且單個主體具有多個維度上的數據特徵。對比的是,多個主體,在同一維度上的數值,可以看出不同主體之間的差異和側重點。簡單理解就是,雷達圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會給予不同維度上的數值一定的權重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這麼來的。

0x02 分布型數據可視化

數據的分布特徵,是統計學中「描述性統計」模塊研究的內容。要對數據的分布情況進行可視化呈現,首先需要了解數據的描述性度量(集中趨勢、離散程度、偏態和峰度),通過這些反映數據分布特徵的關鍵指標,才能確定能夠使用哪些圖表來進行可視化展示。

描述性統計的相關內容,可以參考這篇文章《統計學第1篇 描述性統計》。

1.直方圖

我們常用的直方圖,主要有「頻數直方圖」和「頻率直方圖」,它們都是用於展示離散型分組數據的分布情況。

繪製直方圖,有如下幾步:

首先,要對數據進行分組,然後統計每個分組內數據元的頻數和頻率。其次,在平面直角坐標系中,橫軸標出每個組數據的下限和上限,即上圖中的a和b。最後,縱軸表示頻數或頻率,每個矩形的高代表對應的頻數或頻率,即上圖中的h。若縱軸表示的是頻數,則是「頻數直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。

「頻數分布直方圖」中,頻數乘以組距得出每個分組的數量,可以看出頻數分布直方圖是用面積來表示頻數的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數量是有本質性區別的。

2.莖葉圖

莖葉圖一般適合數據為整數的數據的可視化,就目前而言,我工作中用得比較少,簡單講下用法。

莖葉圖的原理是,將一組數據按照數據位數進行比較,將數據中的高位數作為樹莖,低位數作為樹葉。假設有如下一組數據:

3,7,9,14,15,16,25,26,29,36,41,43,45,46,49

數據範圍頻數0-9310-19320-29330-39140-495

對應的樹莖和樹葉可以表示為:

樹莖樹葉03791456256936413569

圖形化表示為:

3.箱線圖

在描述性統計中,有涉及到分位數相關的知識,其中比較常用的是四分位數,即一組數據中的下四分位數Q1、中位數、上四分位數Q3,關於分位數的概念不清楚的同學可以自行查閱相關資料。

一組數據中的四分位數,加上這組數據的最大值、最小值,這5個特徵值,就可以繪製一個箱線圖。

箱線圖釋義:

箱子的中間一條線,是數據的中位數,代表了樣本數據的平均水平。箱子的上下限,分別是數據的上四分位數Q3和下四分位數Q1,這代表箱體部分包含了數據集中50%的數據,因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數據的離散程度。在箱子的上方和下方,又各有一條線,有時候代表著最大最小值,有時候代表的是上下內限。如果有點位於內限之外,理解成「異常值」就好。箱線圖常用的場景有如下幾類:

(1)對比多組數據的分布情況。

(2)檢測數據中的異常值或離群點。

4.概率密度圖

若要描述連續型隨機變量其分布規律,概率密度圖是一種很直觀表現形式。

在數學中,連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數,簡單理解就是,連續型隨機變量取值某個確定數值的概率,即為縱切直線與概率密度函數交點的縱坐標的值。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分,也就是區間的上下限與概率密度曲線圍成的面積。

通過圖形化的方式,我們可以清楚的看到隨機變量分布的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態係數和峰度係數來度量,此處不深入闡釋。

5.散點圖/氣泡圖

可參照上述氣泡圖描述部分,不重複贅述。

但是需要記住散點圖和氣泡圖的區別:

散點圖,一般是用於研究兩個變量之間的相關關係,可以是一個類別數據,也可以是多類別數據,但是都是二維的數組(x,y)。氣泡圖,除了具體散點圖的功能以外,還可以用氣泡的面積來映射第三個維度的數據,對應的數據形式是(x,y,z),同樣可以用於多組或多類別數據的比較。6.熱力圖

熱力圖,是通過密度函數進行可視化,用於表示地圖中點的密度的熱圖。現階段,熱力圖在地圖、網頁分析、業務數據分析等其他領域也有較為廣泛的應用。

熱力地圖:比如我們日常使用的導航APP,通過熱力圖來表示各個路況的擁擠程度,顏色越深表示人員越多,對應路段也就越擁擠,有了熱力圖可以很直觀的看到區域內的人群流量,方便駕車人士進行路線規劃。網頁熱力分析:常見的網頁熱力圖,有按滑鼠點擊位置的熱力圖、按滑鼠移動軌跡的熱力圖、按內容點擊的熱力圖。還有一種是獲取用戶眼球在屏幕上的移動軌跡熱力圖,不過這種因為涉及到用戶隱私,獲取數據的難度很大。通過網頁熱力分析,可以直觀清楚地看到頁面上每一個區域的訪客興趣焦點,從而為營銷推廣、用戶體驗優化提供依據。業務數據分析:帶有地理信息屬性的數據、或者離散時間屬性的數據,也可以使用熱力圖來進行數據展示。

7.地圖

當數據帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數據空間劃分,地圖可以分為二維平面地圖和三維立體地圖。

比如我們常用的導航軟體、天氣預報、降水量、颱風移動路線等都和地理信息相掛鈎,這些數據一般也是在地圖上進行呈現,給人以直觀的視覺體驗。

0xFF 總結

無論是要對比數據,還是研究數據的分布情況,都需要根據數據的類型、數據的特徵來確定可視化的最佳方式。

根據數據之間的關係、分析目的、數據特徵,來選擇和確定相應的圖表類型,這個是可視化過程中需要牢牢把握的要點。圖表的目的,是為了更直觀、準確的呈現數據背後的信息和知識,不同數據關係應該選擇什麼圖表都是有套路的可循的。

但是,如果只是為了使用某個覺得高大上的圖表,而不管數據的特徵是否適用,則是捨本逐末的做法,最終的可視化效果也必定是不理想的。

相關焦點

  • 數據可視化中的經典圖表
    可視化設計原則中最基本和最經典的原則來自於設計師愛德華·R·塔夫特,他在《量化信息的視覺表現》中概述了數據墨水比例原則。該原則要表達的核心思想就是簡潔,最好的大屏可視化不是數據的平鋪,不是設計的天馬星空,我們的圖表要簡潔,我們的數據要簡潔。今天,可視化的設計過程我們暫且略過,先來看一看這些經典的大屏可視化圖表。
  • 為選擇數據可視化圖表而發愁?學會這14個可視化圖表即可
    使用一致的顏色,選擇強調的顏色以突出顯示有意義的數據點或隨時間的變化。將y軸從0開始,以正確反映圖形中的值。2.條形圖當一個數據標籤較長或要比較的項目超過10個時,應使用條形圖(基本上是水平的柱形圖)來避免混亂。這種類型的可視化也可以用於顯示負數。
  • 簡單明了的數據可視化圖表
    這句話充分地表達出從認知的角度來說我們更習慣於直接的視覺表達形式—圖表。可視化圖表有哪些基本類型,我們在選擇圖表時又需要遵守哪些原則呢?基礎圖表及特點1.柱形圖柱形圖利用柱子的高度,能夠比較清晰的反映數據的差異,一般情況下用來反映分類項目之間的比較,也可以用來反映時間趨勢。
  • 數據可視化必修課 - 圖表篇
    ,而圖表是數據可視化中最常用的一種表現形式。用戶對圖形的敏感程度遠遠大於文字,所以產品就需要把數據信息可視化,用簡單的圖形表示出更多的信息量,而圖表是數據可視化中最常用的表現形式。接下來我們來介紹圖表的具體構成及元素解析。
  • 數據可視化,我的數據分析成長之旅
    所以數據可視化也就應運而生,可以將數據信息變得更加直觀有意義,幫助數據更易被人們理解和接受。那麼什麼是數據可視化?百度百科上搬出數據可視化的概念:「數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。」
  • B端互動設計——數據可視化圖表
    在B端設計中,數據可視化是必不可少而且非常重要,越來越多的設計師需要和數據打交道,但是很多設計師不懂可視化當中不同用途的圖表規範,只是單純設計出好看的數據圖表,卻不能給用戶帶來更多的信息和價值。  聯繫:數據之間的相關性;分布:指標裡的數據主要集中在什麼範圍、表現出怎樣的規律;比較:數據之間存在何種差異、差異主要體現在哪些方面;構成:指標裡的數據都由哪幾部分組成、每部分佔比如何;  考慮到日常企業的數據分析場景,圖中有些圖表使用頻率是非常低的。所以我參考了上圖的部分內容,對其進行了總結,重新整合成三個維度:
  • 數據可視化:常用圖表使用總結
    文章對常見的數據可視化圖表進行了簡單的匯總分析,希望對你有益。什麼是數據可視化?數據可視化,簡簡單單就是把數據展示出來嗎?非也非也,其終極是為了滿足用戶對數據的價值期望,利用數據,藉助可視化工具,還原和探索數據隱藏價值,描述數據世界。(⊙o⊙)…還是說人話吧,就是以下兩步。分析需求,熟悉數據,制定目標。
  • 50 個數據可視化圖表
    本文總結了在數據分析和可視化中最有用的 50 個 Matplotlib 圖表。
  • 數據可視化之旅:常用圖表對比
    持續學習中,期望與大家多多交流數據相關的技術和實際應用,共同成長。0x00 前言在之前分享的【數據圖表的選擇】三篇文章中,已經把不同類型數據圖表的用法和適用場景做了一遍梳理。但是,在實際的業務場景中,如何根據擁有的數據集、想要展現的數據模式,去選擇最合適的圖表,需要不斷的去實踐和總結。因此,今天這篇文章分享的內容,是來對比常見相似圖表的差別和適用的數據集。
  • 數據可視化圖表工具有哪些圖表類型?
    每到月度、季度、年度總結的時候,用到最多的、最有說服力的就是數據了。讓數據說話,擺事實、講道理才能贏得上級的肯定。 大家都聽過「數據可視化」,也知道要用直觀的圖表讓受眾理解複雜多變的數據。
  • 數據可視化,職場數據分析都需要哪些常用的圖表?
    ,便於讓讀者更高效閱讀,而不單是自己使用,通過數據可視化突出數據背後的規律,以此突出數據中的重要因素,並且,數據可視化可以將數據變得更加直觀。  使用圖表數據可視化的作用  使用圖表來展示數據主要有三個作用:  表達形象化:使用圖表可以化冗長為簡潔,化抽象為具體,化深奧為形象,使讀者或聽眾更容易理解主題和觀點。  突出重點:通過對圖表中數據的顏色和字體等信息的特別設置,可以把問題的重點有效地傳遞給讀者或聽眾。
  • 數據可視化.圖表篇——餅圖
    (為了讓大家有更直觀的感受,基礎圖表篇系列文章裡的圖表都是藉助 Excel 生成)按套路,咱們還是先看官方解釋:餅圖英文學名為Sector Graph, 又名 Pie Graph。僅排列在工作表的一列或一行中的數據可以繪製到餅圖中。餅圖顯示一個數據系列中各項的大小與各項總和的比例。餅圖中的數據點顯示為整個餅圖的百分比。
  • Excel商務圖表設計,從數據到圖表,變身可視化達人
    本期將通過可視化組件、從數據到圖表2個部分簡單說明下商務圖表的設計可視化組件可視化組件分為四種:視覺暗示、坐標系、標尺、背景信息 不同組件組合在一起,有時它們直接顯示在可視化圖形中,有時候它們則形成背景圖,這都取決於數據本身。
  • 最受歡迎的 50 個數據可視化圖表
    本文總結了在數據分析和可視化中最有用的 50 個 Matplotlib 圖表。
  • 《經濟學人》數據可視化編輯:錯誤的圖表,我們也畫了很多
    經濟學人雜誌除了色彩鮮明的文章之外,其在數據可視化方面也自成一派。絕妙的顏色搭配,風格鮮明的圖表總能讓讀者過目不忘。據圖表編輯編輯Sarah Leo在一篇博客中介紹到:雖然對於每一張圖表,他們都儘量準確地以最能支持故事表達的方式來可視化數字,但有時候也會犯錯。為了能夠做的更好,他們在從錯誤中不斷總結教訓,不斷的自我改進。
  • 數據可視化當中的圖表組合:比例面積圖
    編輯導讀:優秀的數據可視化依賴優異的設計,並非僅僅選擇正確的圖表模板那麼簡單,數據可視化可以幫助用戶更好地理解數據、運用數據。本文作者從自身經驗出發,結合具體案例分享了比例面積圖的不同組合形式,供大家一同參考學習。
  • 大數據可視化常用分析圖表的優缺點
    可視化圖表次整理了一些平常不太使用,但在合適的場景的使用它們,往往能為你的分析報告加分不少的圖表。
  • 中了數據可視化的毒:BBC如何使用R語言繪製數據圖表?
    過去一年裡,BBC 視覺與數據新聞(Visual and Data Journalism)團隊的數據記者已經從根本上改變了他們繪製發表在 BBC 新聞網站上的數據圖表的方式。我們將在這篇文章中介紹我們如何以及為何要使用 R 語言的 ggplot2 軟體包來創建可直接使用的圖表,我們也會給出我們的流程和代碼以及分享我們一路上所學到的東西。
  • 數據圖表可視化的配色一致性原則
    在論證中,顏色的使用應該基於數據,而不是個人偏好或品牌顏色。接下來我們使用數據分析系統DataFocus所製作的圖表來進行相應的演示。2.指標顏色一致性在同一儀錶板中,嘗試對同一指標使用相同的顏色方案,避免過多的顏色幹擾。例如,當我們進行銷售看板分析時,我們通常會分析銷售和退貨金額的指標。因此,即使我們對同一指標進行不同尺寸的數據可視化分析,我們也建議分別對銷售和退貨金額使用相同的顏色系統。
  • H5教程|如何零基礎在H5中實現數據圖表可視化效果
    數據可視化主要旨在藉助於圖形化手段,清晰有效地傳達與溝通信息。今天,我們使用的H5工具是Epub360,下面我們來介紹實現數據圖表可視化效果的方法,零基礎的你們準備好了嗎?首先,我們先來介紹一下數據圖表組件。