數據可視化之旅(三):數據圖表的選擇(中)

2021-01-08 CDA數據分析師

作者 | Destiny 來源 | 木東居士

0x00 前言

數據圖表的選擇(上),分享了「時序數據」和「比例數據」的可視化圖表方案。

不同的數據類型、不同的闡述目的,決定了數據可視化展現形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。

「對比型數據」:對比兩組或兩組以上數據的差異。「分布型數據」:研究數據分布的集中趨勢、離散程度、偏態和峰度等。

0x01 對比型數據可視化

在實際工作中,我們經常需要對比多組數據之間的差異,而這些差異通常是通過不同的標記和視覺通道體現出來。

高度差異/寬度差異:柱狀圖、條形圖。面積差異:面積圖、氣泡圖。字號差異:單詞雲圖。形狀差異:星狀圖。1.柱狀圖

在《數據圖表的選擇(上)》有寫到,柱狀圖是離散時間數據可視化的方式之一,只不過這裡的系列值的數據類型是「時間」而已。

柱狀圖除了可以用於離散時間數據的可視化,更多的是用於比較不同分類數據的可視化,且柱狀圖的數據條數,最好不要超過12條。

以下根據數據類別的個數和可視化的目的,細化柱狀圖的圖表選擇:

單一柱狀圖:適合單一類別的數據比對,也適合表示離散型時序數據的趨勢。重疊型柱狀圖:適合兩個類別的數據對比,半透明柱形條,代表某項指標的「目標值」,內部偏窄且不透明的柱形條表示某項指標的「實際完成情況」。通常會搭配折線圖使用,折線圖則表示目標完成率。並列柱狀圖:適合兩個或三個數據類別的對比,若數據類別超出3個,不建議使用並列柱狀圖。堆疊柱狀圖:適合既要對比總體的數據,又要對比總體各構成項的數據,但是總體各構成項一般不要大於5個,若大於5個,可按佔總體的比例進行歸類,展示TOP5的分類,剩下則歸為「其他」。

2.條形圖

條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那麼在哪些情況下,條形圖能比柱狀圖更好的展示數據呢?

條形圖,相比柱狀圖而言,可以展示更多的數據條數,一般不要超過30條。若分類項的文本過長時,柱狀圖的文本需要進行旋轉才能不重疊,不利於閱讀,而條形圖就就沒有這個缺點。

3.面積圖

面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積。

按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」,兩者的區別如下。

重疊對比型:所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關係。堆砌對比型:只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數據上面。面積圖,一般也是用於趨勢分析中。

當需要分析各個系列,隨時間的變化趨勢時,此時使用「重疊對比型面積圖」比較合適;當既需要分析整體隨時間的變化趨勢,又要了解整體的各構成項隨時間的變化趨勢時,使用「堆砌對比型面積圖」比較合適。

4.氣泡圖

氣泡圖,和散點圖的區別是,氣泡圖一般是用於三維數據的可視化,而散點圖是用於二維數據的可視化。

在散點圖中,圓點的面積是相同的,主要是通過圓點在坐標軸中的坐標點(X,Y)確定的位置,來映射數據。

而氣泡圖,是通過氣泡的面積大小來對比數據的圖形方式,它除了可以反映散點圖中坐標點X、Y的相關關係,還有一個維度的數據可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數據。

如上圖所示,左側的氣泡圖,每個氣泡展示了三個屬性的信息,X-代表人均GDP,Y-代表對應國家的平均壽命,Z-即氣泡的大小,代表對應國家的人口數量。所以,相較於散點圖而言,氣泡圖除了可以展示X、Y兩個變量間的相關關係,同時還可以對比主體另一個維度的數據,並且這個數據是映射到氣泡的大小上的。

當只有一個系列時,只需要一種氣泡圖只需要一種顏色即可。當有多個系列時,不同系列之間可以用顏色來區別。

5.單詞雲圖

單詞雲圖,主要是用於網絡文本中詞頻數據的可視化,如關鍵詞搜索,文章高頻詞,熱點事件關鍵詞等。

單詞雲圖,是通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,為了達到貼合主體的特徵,以及視覺美觀的目的,用戶可以自定義單詞雲的配色方案、背景形狀等設計層面的個性化。

通過單詞雲圖,用戶可以快速找出網站搜索的高頻詞彙、了解文章的主旨、get到熱點事件的關鍵信息。但是要注意一點,單次雲圖只適合表示一組文本數據的對比,不適合多個類別的文本數據之間的比較。

6.雷達圖/星狀圖

當需要對比一個主體、或多個主體本身,在不同維度上的特徵時,雷達圖和星狀圖是不錯的選擇。

雷達圖和星狀圖的區別是:

雷達圖是一體多維的數據,即可視化的對象是一個主體,只是這個主體具有多個維度上的數據特徵。對比的是,同一個主體,在不同維度上的數值,可以看出主體在不同維度上的偏向。星狀圖是多體多維的數據,即可視化的對象是多個主體,且多個主體維度相同,且單個主體具有多個維度上的數據特徵。對比的是,多個主體,在同一維度上的數值,可以看出不同主體之間的差異和側重點。簡單理解就是,雷達圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會給予不同維度上的數值一定的權重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這麼來的。

0x02 分布型數據可視化

數據的分布特徵,是統計學中「描述性統計」模塊研究的內容。要對數據的分布情況進行可視化呈現,首先需要了解數據的描述性度量(集中趨勢、離散程度、偏態和峰度),通過這些反映數據分布特徵的關鍵指標,才能確定能夠使用哪些圖表來進行可視化展示。

描述性統計的相關內容,可以參考這篇文章《統計學第1篇 描述性統計》。

1.直方圖

我們常用的直方圖,主要有「頻數直方圖」和「頻率直方圖」,它們都是用於展示離散型分組數據的分布情況。

繪製直方圖,有如下幾步:

首先,要對數據進行分組,然後統計每個分組內數據元的頻數和頻率。其次,在平面直角坐標系中,橫軸標出每個組數據的下限和上限,即上圖中的a和b。最後,縱軸表示頻數或頻率,每個矩形的高代表對應的頻數或頻率,即上圖中的h。若縱軸表示的是頻數,則是「頻數直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。

「頻數分布直方圖」中,頻數乘以組距得出每個分組的數量,可以看出頻數分布直方圖是用面積來表示頻數的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數量是有本質性區別的。

2.莖葉圖

莖葉圖一般適合數據為整數的數據的可視化,就目前而言,我工作中用得比較少,簡單講下用法。

莖葉圖的原理是,將一組數據按照數據位數進行比較,將數據中的高位數作為樹莖,低位數作為樹葉。假設有如下一組數據:

3,7,9,14,15,16,25,26,29,36,41,43,45,46,49

數據範圍頻數0-9310-19320-29330-39140-495

對應的樹莖和樹葉可以表示為:

樹莖樹葉03791456256936413569

圖形化表示為:

3.箱線圖

在描述性統計中,有涉及到分位數相關的知識,其中比較常用的是四分位數,即一組數據中的下四分位數Q1、中位數、上四分位數Q3,關於分位數的概念不清楚的同學可以自行查閱相關資料。

一組數據中的四分位數,加上這組數據的最大值、最小值,這5個特徵值,就可以繪製一個箱線圖。

箱線圖釋義:

箱子的中間一條線,是數據的中位數,代表了樣本數據的平均水平。箱子的上下限,分別是數據的上四分位數Q3和下四分位數Q1,這代表箱體部分包含了數據集中50%的數據,因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數據的離散程度。在箱子的上方和下方,又各有一條線,有時候代表著最大最小值,有時候代表的是上下內限。如果有點位於內限之外,理解成「異常值」就好。箱線圖常用的場景有如下幾類:

(1)對比多組數據的分布情況。

(2)檢測數據中的異常值或離群點。

4.概率密度圖

若要描述連續型隨機變量其分布規律,概率密度圖是一種很直觀表現形式。

在數學中,連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數,簡單理解就是,連續型隨機變量取值某個確定數值的概率,即為縱切直線與概率密度函數交點的縱坐標的值。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分,也就是區間的上下限與概率密度曲線圍成的面積。

通過圖形化的方式,我們可以清楚的看到隨機變量分布的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態係數和峰度係數來度量,此處不深入闡釋。

5.散點圖/氣泡圖

可參照上述氣泡圖描述部分,不重複贅述。

但是需要記住散點圖和氣泡圖的區別:

散點圖,一般是用於研究兩個變量之間的相關關係,可以是一個類別數據,也可以是多類別數據,但是都是二維的數組(x,y)。氣泡圖,除了具體散點圖的功能以外,還可以用氣泡的面積來映射第三個維度的數據,對應的數據形式是(x,y,z),同樣可以用於多組或多類別數據的比較。6.熱力圖

熱力圖,是通過密度函數進行可視化,用於表示地圖中點的密度的熱圖。現階段,熱力圖在地圖、網頁分析、業務數據分析等其他領域也有較為廣泛的應用。

熱力地圖:比如我們日常使用的導航APP,通過熱力圖來表示各個路況的擁擠程度,顏色越深表示人員越多,對應路段也就越擁擠,有了熱力圖可以很直觀的看到區域內的人群流量,方便駕車人士進行路線規劃。網頁熱力分析:常見的網頁熱力圖,有按滑鼠點擊位置的熱力圖、按滑鼠移動軌跡的熱力圖、按內容點擊的熱力圖。還有一種是獲取用戶眼球在屏幕上的移動軌跡熱力圖,不過這種因為涉及到用戶隱私,獲取數據的難度很大。通過網頁熱力分析,可以直觀清楚地看到頁面上每一個區域的訪客興趣焦點,從而為營銷推廣、用戶體驗優化提供依據。業務數據分析:帶有地理信息屬性的數據、或者離散時間屬性的數據,也可以使用熱力圖來進行數據展示。

7.地圖

當數據帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數據空間劃分,地圖可以分為二維平面地圖和三維立體地圖。

比如我們常用的導航軟體、天氣預報、降水量、颱風移動路線等都和地理信息相掛鈎,這些數據一般也是在地圖上進行呈現,給人以直觀的視覺體驗。

0xFF 總結

無論是要對比數據,還是研究數據的分布情況,都需要根據數據的類型、數據的特徵來確定可視化的最佳方式。

根據數據之間的關係、分析目的、數據特徵,來選擇和確定相應的圖表類型,這個是可視化過程中需要牢牢把握的要點。圖表的目的,是為了更直觀、準確的呈現數據背後的信息和知識,不同數據關係應該選擇什麼圖表都是有套路的可循的。

但是,如果只是為了使用某個覺得高大上的圖表,而不管數據的特徵是否適用,則是捨本逐末的做法,最終的可視化效果也必定是不理想的。

相關焦點

  • B端互動設計——數據可視化圖表
    在B端設計中,數據可視化是必不可少而且非常重要,越來越多的設計師需要和數據打交道,但是很多設計師不懂可視化當中不同用途的圖表規範,只是單純設計出好看的數據圖表,卻不能給用戶帶來更多的信息和價值。  聯繫:數據之間的相關性;分布:指標裡的數據主要集中在什麼範圍、表現出怎樣的規律;比較:數據之間存在何種差異、差異主要體現在哪些方面;構成:指標裡的數據都由哪幾部分組成、每部分佔比如何;  考慮到日常企業的數據分析場景,圖中有些圖表使用頻率是非常低的。所以我參考了上圖的部分內容,對其進行了總結,重新整合成三個維度:
  • 數據可視化圖表工具有哪些圖表類型?
    每到月度、季度、年度總結的時候,用到最多的、最有說服力的就是數據了。讓數據說話,擺事實、講道理才能贏得上級的肯定。 大家都聽過「數據可視化」,也知道要用直觀的圖表讓受眾理解複雜多變的數據。
  • 數據可視化,職場數據分析都需要哪些常用的圖表?
    ,便於讓讀者更高效閱讀,而不單是自己使用,通過數據可視化突出數據背後的規律,以此突出數據中的重要因素,並且,數據可視化可以將數據變得更加直觀。  使用圖表數據可視化的作用  使用圖表來展示數據主要有三個作用:  表達形象化:使用圖表可以化冗長為簡潔,化抽象為具體,化深奧為形象,使讀者或聽眾更容易理解主題和觀點。  突出重點:通過對圖表中數據的顏色和字體等信息的特別設置,可以把問題的重點有效地傳遞給讀者或聽眾。
  • 數據可視化·圖表篇——散點圖
    今天小數要帶大家熟悉的是散點圖,本文圖表生成所用工具仍然是大眾熟知的Excel。說到散點圖,它既能用來呈現數據點的分布,表現兩個元素的相關性,也能像折線圖一樣表示時間推移下的發展趨勢。可以說是最靈活多變的圖表類型。大數據時代,人們更關注數據之間的相關關係而非因果關係。那麼如何考量各變量之間的相關關係呢?散點圖就是一種最直觀簡單的形式。
  • 數據可視化當中的圖表組合:比例面積圖
    編輯導讀:優秀的數據可視化依賴優異的設計,並非僅僅選擇正確的圖表模板那麼簡單,數據可視化可以幫助用戶更好地理解數據、運用數據。本文作者從自身經驗出發,結合具體案例分享了比例面積圖的不同組合形式,供大家一同參考學習。
  • 數據圖表可視化的配色一致性原則
    在論證中,顏色的使用應該基於數據,而不是個人偏好或品牌顏色。接下來我們使用數據分析系統DataFocus所製作的圖表來進行相應的演示。2.指標顏色一致性在同一儀錶板中,嘗試對同一指標使用相同的顏色方案,避免過多的顏色幹擾。例如,當我們進行銷售看板分析時,我們通常會分析銷售和退貨金額的指標。因此,即使我們對同一指標進行不同尺寸的數據可視化分析,我們也建議分別對銷售和退貨金額使用相同的顏色系統。
  • 數據可視化圖表怎麼做才好看?
    可視化技術仿佛有一種化平凡為非凡的魔力,冷冰冰的數據,經過可視化技術的加工,便酒麴入甕般幻化成視覺的盛宴,炫酷的、繽紛的、簡約的、繁複的……數據之美被展現的淋漓盡致。複雜的比如這種:簡單的比如而我們日常使用Excel或者PPT畫圖,一般是這種千篇一律的柱形圖和折線圖,還有那一成不變的配色如何做出高大上的圖表呢?
  • 數據可視化最有價值的50個圖表 | 網際網路數據資訊網-199IT | 中文...
    在數據分析和可視化中最有用的 50 個 Matplotlib 圖表。 這些圖表列表允許您使用 python 的 matplotlib 和 seaborn 庫選擇要顯示的可視化對象。這些圖表根據可視化目標的7個不同情景進行分組。 例如,如果要想像兩個變量之間的關係,請查看「關聯」部分下的圖表。 或者,如果您想要顯示值如何隨時間變化,請查看「變化」部分,依此類推。
  • Python數據可視化實例之繪製圖表
    Python數據可視化實例之繪製圖表原創 蟲蟲安全 2018-09-05 17:41:57得利於語言的簡單明了、豐富的數據結構、豐富的類和模塊,Python如今成了數據科學中的香餑餑,成了matlab、R語言之外又一強大的數據分析工具。拋開其他方面的、今天蟲蟲帶大家一起來探索Python在數據可視化方面的應用。
  • 精心整理4大類12個圖表類型,輕鬆搞定數據可視化
    科技的進步讓我們積累了越來越多的數據,如何更好的利用這些數據,將它們轉化為有用的信息並驅動我們作出更好的決策,關鍵在於將它們可視化。但是,即便科技再進步,可視化工具再精益,也無法遏制劣質圖表的泛濫。因為很多人並不知道該如何從那麼多類型的圖表中,選擇最適合的一種來表達數據。
  • 數據可視化圖表的使用方式及最佳做法,你用對了嗎?
    編輯導語:我們在工作中經常會用到數據,如今為了更加方便的數據圖表,一些企業採用數據可視化圖表,製作數據可視化大屏;本文作者介紹了數據可視化圖表的使用方式以及最佳做法,我們一起來學習一下。
  • 數據分析,用對圖表很重要
    如何將冰冷的數據通過直觀的可視化圖表向上級進行匯報? 在產品設計的時候涉及到數據可視化統計的界面,如何選擇核心指標以及合適的可視化圖表? ........以上只是數據分析應用的其中一部分場景,實際上還有很多。
  • 淺談數據可視化
    我主要進行了少量數據處理和系統可視化部分,在這個過程中,覺得數據可視化是一個非常迷人的話題,這過程中也了解了很多相關的資料,學習了一些基礎的工具,在這裡分享給大家,也是為自己做一個整理和記錄。1、什麼是數據可視化?
  • 從數據可視化到交互式數據分析
    高可視性的可視化項目主要關注兩個目的:帶來靈感和幫助解釋。然而,可視化可以通過數據分析來增加對複雜問題的理解,這樣的項目雖然不多見,但不代表不重要。數據可視化的三個主要用途我知道我這樣總結可能存在嚴重簡化的風險。但是,我發現根據主要目的(有意或無意)確定數據可視化的三類主要用途是很有用的,這也有助於我在本文後面闡明一些觀點。
  • 不知道用什麼圖表展示數據?看這份圖表選擇指南就夠了
    但是圖表的種類繁多,應用場景不一,所以很多新手在進行數據可視化時,經常不知道什麼樣的圖表來展示自己的數據才是最合適的,今天就給大家分享圖表選擇的正確流程和方法,幫助大家選擇正確圖表圖表設計痛點什麼才是好的圖表?
  • 散點圖、箱線圖、核密度函數……數據分析必備的9種可視化圖表
    使用數據框上的info()函數對其進行快速分析: df.info()如圖可見,只有150個條目,在任何一列中都沒有丟失值。此外,還可以看到前四列有浮點值,而最後一列只允許出現整數。事實上,根據數據集描述,我們知道「物種」列只取三個值,每個值代表一種花。
  • Excel如何選擇合適的圖表展示數據?不得不會的職場小技能
    Excel作為數據的載體,不僅僅是把數據存儲下來就完事了,更多的需要數據可視化,如何將處理完畢的數據,並以圖形的形式展示出來,是一門優雅的藝術。數據可視化主要旨在藉助於圖形化手段,清晰有效地傳達與溝通信息,一個好的可視化,帶給人們不僅僅是視覺上的衝擊,還能夠揭示蘊含在數據中的規律和道理,可以更好的幫助管理者進行理解、發現、分析和決策。Excel內置了很多成型的圖表供用戶使用,那麼如何選擇合適的圖表展示數據,是我們不得不學的一項技能。
  • 超硬核的 Python 數據可視化教程!
    Python實現可視化的三個步驟:確定問題,選擇圖形 轉換數據,應用函數 參數設置,一目了然 1、首先,要知道我們用哪些庫來畫圖?Seaborn是一個基於matplotlib的高級可視化效果庫,針對的點主要是數據挖掘和機器學習中的變量特徵選取,seaborn可以用短小的代碼去繪製描述更多維度數據的可視化效果圖其他庫還包括Bokeh(是一個用於做瀏覽器端交互可視化的庫,實現分析師與數據的交互);Mapbox(處理地理數據引擎更強的可視化工具庫)等等本篇文章主要使用
  • 網際網路人要了解的數據可視化 —— 基礎篇
    下圖即為東京奧運會的運動圖形符號(局部):三、達到數據可視化目標的基本方法目前我們工作中經常遇到的數據可視化,大多數是製作數據圖表選擇圖表:圍繞目標找到能提供信息的指標或者數據,選擇合適的圖形去展示需要可視化的數據。視覺設計:以可視化的手段將數據轉化成有趣的設計語言。突出信息:根據可視化展示目標,將重要信息添加輔助線或更改顏色等手段,進行信息的凸顯,將用戶的注意力引向關鍵信息,幫助用戶理解數據意義。
  • 數據可視化在移動端的應用
    應用場景數據可視化在移動端的主要體現是「數據圖表」,我們最常用的數據設計組件就是:柱狀圖、折線圖、環形圖等,它們簡單易懂,容易被用戶接受。數據可視化的特點數據可視化屬於一種理性思維,產品通過圖表可以向用戶清晰的反應用戶在每一個項目中所花費的時間和精力,用戶可以通過數據可視化的圖表形式快速了解到其中的信息。現在iOS 和 Android 平臺暫時沒有推出在數據可視化的設計規範,但是大家只要按照平臺的基本規範設計,相信都能設計出美觀、大方數據圖表。3.