作者 | Destiny 來源 | 木東居士
0x00 前言
數據圖表的選擇(上),分享了「時序數據」和「比例數據」的可視化圖表方案。
不同的數據類型、不同的闡述目的,決定了數據可視化展現形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。
「對比型數據」:對比兩組或兩組以上數據的差異。「分布型數據」:研究數據分布的集中趨勢、離散程度、偏態和峰度等。
0x01 對比型數據可視化
在實際工作中,我們經常需要對比多組數據之間的差異,而這些差異通常是通過不同的標記和視覺通道體現出來。
高度差異/寬度差異:柱狀圖、條形圖。面積差異:面積圖、氣泡圖。字號差異:單詞雲圖。形狀差異:星狀圖。1.柱狀圖
在《數據圖表的選擇(上)》有寫到,柱狀圖是離散時間數據可視化的方式之一,只不過這裡的系列值的數據類型是「時間」而已。
柱狀圖除了可以用於離散時間數據的可視化,更多的是用於比較不同分類數據的可視化,且柱狀圖的數據條數,最好不要超過12條。
以下根據數據類別的個數和可視化的目的,細化柱狀圖的圖表選擇:
單一柱狀圖:適合單一類別的數據比對,也適合表示離散型時序數據的趨勢。重疊型柱狀圖:適合兩個類別的數據對比,半透明柱形條,代表某項指標的「目標值」,內部偏窄且不透明的柱形條表示某項指標的「實際完成情況」。通常會搭配折線圖使用,折線圖則表示目標完成率。並列柱狀圖:適合兩個或三個數據類別的對比,若數據類別超出3個,不建議使用並列柱狀圖。堆疊柱狀圖:適合既要對比總體的數據,又要對比總體各構成項的數據,但是總體各構成項一般不要大於5個,若大於5個,可按佔總體的比例進行歸類,展示TOP5的分類,剩下則歸為「其他」。
2.條形圖
條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那麼在哪些情況下,條形圖能比柱狀圖更好的展示數據呢?
條形圖,相比柱狀圖而言,可以展示更多的數據條數,一般不要超過30條。若分類項的文本過長時,柱狀圖的文本需要進行旋轉才能不重疊,不利於閱讀,而條形圖就就沒有這個缺點。
3.面積圖
面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積。
按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」,兩者的區別如下。
重疊對比型:所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關係。堆砌對比型:只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數據上面。面積圖,一般也是用於趨勢分析中。
當需要分析各個系列,隨時間的變化趨勢時,此時使用「重疊對比型面積圖」比較合適;當既需要分析整體隨時間的變化趨勢,又要了解整體的各構成項隨時間的變化趨勢時,使用「堆砌對比型面積圖」比較合適。
4.氣泡圖
氣泡圖,和散點圖的區別是,氣泡圖一般是用於三維數據的可視化,而散點圖是用於二維數據的可視化。
在散點圖中,圓點的面積是相同的,主要是通過圓點在坐標軸中的坐標點(X,Y)確定的位置,來映射數據。
而氣泡圖,是通過氣泡的面積大小來對比數據的圖形方式,它除了可以反映散點圖中坐標點X、Y的相關關係,還有一個維度的數據可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數據。
如上圖所示,左側的氣泡圖,每個氣泡展示了三個屬性的信息,X-代表人均GDP,Y-代表對應國家的平均壽命,Z-即氣泡的大小,代表對應國家的人口數量。所以,相較於散點圖而言,氣泡圖除了可以展示X、Y兩個變量間的相關關係,同時還可以對比主體另一個維度的數據,並且這個數據是映射到氣泡的大小上的。
當只有一個系列時,只需要一種氣泡圖只需要一種顏色即可。當有多個系列時,不同系列之間可以用顏色來區別。
5.單詞雲圖
單詞雲圖,主要是用於網絡文本中詞頻數據的可視化,如關鍵詞搜索,文章高頻詞,熱點事件關鍵詞等。
單詞雲圖,是通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,為了達到貼合主體的特徵,以及視覺美觀的目的,用戶可以自定義單詞雲的配色方案、背景形狀等設計層面的個性化。
通過單詞雲圖,用戶可以快速找出網站搜索的高頻詞彙、了解文章的主旨、get到熱點事件的關鍵信息。但是要注意一點,單次雲圖只適合表示一組文本數據的對比,不適合多個類別的文本數據之間的比較。
6.雷達圖/星狀圖
當需要對比一個主體、或多個主體本身,在不同維度上的特徵時,雷達圖和星狀圖是不錯的選擇。
雷達圖和星狀圖的區別是:
雷達圖是一體多維的數據,即可視化的對象是一個主體,只是這個主體具有多個維度上的數據特徵。對比的是,同一個主體,在不同維度上的數值,可以看出主體在不同維度上的偏向。星狀圖是多體多維的數據,即可視化的對象是多個主體,且多個主體維度相同,且單個主體具有多個維度上的數據特徵。對比的是,多個主體,在同一維度上的數值,可以看出不同主體之間的差異和側重點。簡單理解就是,雷達圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會給予不同維度上的數值一定的權重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這麼來的。
0x02 分布型數據可視化
數據的分布特徵,是統計學中「描述性統計」模塊研究的內容。要對數據的分布情況進行可視化呈現,首先需要了解數據的描述性度量(集中趨勢、離散程度、偏態和峰度),通過這些反映數據分布特徵的關鍵指標,才能確定能夠使用哪些圖表來進行可視化展示。
描述性統計的相關內容,可以參考這篇文章《統計學第1篇 描述性統計》。
1.直方圖
我們常用的直方圖,主要有「頻數直方圖」和「頻率直方圖」,它們都是用於展示離散型分組數據的分布情況。
繪製直方圖,有如下幾步:
首先,要對數據進行分組,然後統計每個分組內數據元的頻數和頻率。其次,在平面直角坐標系中,橫軸標出每個組數據的下限和上限,即上圖中的a和b。最後,縱軸表示頻數或頻率,每個矩形的高代表對應的頻數或頻率,即上圖中的h。若縱軸表示的是頻數,則是「頻數直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。
「頻數分布直方圖」中,頻數乘以組距得出每個分組的數量,可以看出頻數分布直方圖是用面積來表示頻數的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數量是有本質性區別的。
2.莖葉圖
莖葉圖一般適合數據為整數的數據的可視化,就目前而言,我工作中用得比較少,簡單講下用法。
莖葉圖的原理是,將一組數據按照數據位數進行比較,將數據中的高位數作為樹莖,低位數作為樹葉。假設有如下一組數據:
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
數據範圍頻數0-9310-19320-29330-39140-495
對應的樹莖和樹葉可以表示為:
樹莖樹葉03791456256936413569
圖形化表示為:
3.箱線圖
在描述性統計中,有涉及到分位數相關的知識,其中比較常用的是四分位數,即一組數據中的下四分位數Q1、中位數、上四分位數Q3,關於分位數的概念不清楚的同學可以自行查閱相關資料。
一組數據中的四分位數,加上這組數據的最大值、最小值,這5個特徵值,就可以繪製一個箱線圖。
箱線圖釋義:
箱子的中間一條線,是數據的中位數,代表了樣本數據的平均水平。箱子的上下限,分別是數據的上四分位數Q3和下四分位數Q1,這代表箱體部分包含了數據集中50%的數據,因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數據的離散程度。在箱子的上方和下方,又各有一條線,有時候代表著最大最小值,有時候代表的是上下內限。如果有點位於內限之外,理解成「異常值」就好。箱線圖常用的場景有如下幾類:
(1)對比多組數據的分布情況。
(2)檢測數據中的異常值或離群點。
4.概率密度圖
若要描述連續型隨機變量其分布規律,概率密度圖是一種很直觀表現形式。
在數學中,連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數,簡單理解就是,連續型隨機變量取值某個確定數值的概率,即為縱切直線與概率密度函數交點的縱坐標的值。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分,也就是區間的上下限與概率密度曲線圍成的面積。
通過圖形化的方式,我們可以清楚的看到隨機變量分布的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態係數和峰度係數來度量,此處不深入闡釋。
5.散點圖/氣泡圖
可參照上述氣泡圖描述部分,不重複贅述。
但是需要記住散點圖和氣泡圖的區別:
散點圖,一般是用於研究兩個變量之間的相關關係,可以是一個類別數據,也可以是多類別數據,但是都是二維的數組(x,y)。氣泡圖,除了具體散點圖的功能以外,還可以用氣泡的面積來映射第三個維度的數據,對應的數據形式是(x,y,z),同樣可以用於多組或多類別數據的比較。6.熱力圖
熱力圖,是通過密度函數進行可視化,用於表示地圖中點的密度的熱圖。現階段,熱力圖在地圖、網頁分析、業務數據分析等其他領域也有較為廣泛的應用。
熱力地圖:比如我們日常使用的導航APP,通過熱力圖來表示各個路況的擁擠程度,顏色越深表示人員越多,對應路段也就越擁擠,有了熱力圖可以很直觀的看到區域內的人群流量,方便駕車人士進行路線規劃。網頁熱力分析:常見的網頁熱力圖,有按滑鼠點擊位置的熱力圖、按滑鼠移動軌跡的熱力圖、按內容點擊的熱力圖。還有一種是獲取用戶眼球在屏幕上的移動軌跡熱力圖,不過這種因為涉及到用戶隱私,獲取數據的難度很大。通過網頁熱力分析,可以直觀清楚地看到頁面上每一個區域的訪客興趣焦點,從而為營銷推廣、用戶體驗優化提供依據。業務數據分析:帶有地理信息屬性的數據、或者離散時間屬性的數據,也可以使用熱力圖來進行數據展示。
7.地圖
當數據帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數據空間劃分,地圖可以分為二維平面地圖和三維立體地圖。
比如我們常用的導航軟體、天氣預報、降水量、颱風移動路線等都和地理信息相掛鈎,這些數據一般也是在地圖上進行呈現,給人以直觀的視覺體驗。
0xFF 總結
無論是要對比數據,還是研究數據的分布情況,都需要根據數據的類型、數據的特徵來確定可視化的最佳方式。
根據數據之間的關係、分析目的、數據特徵,來選擇和確定相應的圖表類型,這個是可視化過程中需要牢牢把握的要點。圖表的目的,是為了更直觀、準確的呈現數據背後的信息和知識,不同數據關係應該選擇什麼圖表都是有套路的可循的。
但是,如果只是為了使用某個覺得高大上的圖表,而不管數據的特徵是否適用,則是捨本逐末的做法,最終的可視化效果也必定是不理想的。