大家好,上周介紹完餅圖之後,您有沒有親自動手嘗試一下呢?
今天小數要帶大家熟悉的是散點圖,本文圖表生成所用工具仍然是大眾熟知的Excel。
說到散點圖,它既能用來呈現數據點的分布,表現兩個元素的相關性,也能像折線圖一樣表示時間推移下的發展趨勢。可以說是最靈活多變的圖表類型。
大數據時代,人們更關注數據之間的相關關係而非因果關係。那麼如何考量各變量之間的相關關係呢?散點圖就是一種最直觀簡單的形式。
散點圖的特點?
適用於展現兩個或三個變量之間的關係
數據量越大,散點圖發揮的作用越好
需要關注離群點(異常點)對整體的影響
普通散點圖與可視化
在實際應用中使用頻率最多的是二維散點圖和三維散點圖,而三維散點圖又與氣泡圖有密切關係,我們後面會提到。
二維散點圖的製作相對簡單,無需特殊設置。可視化方面其實也還是咱們的老套路,這裡再通過一個例子帶大家簡單過一遍。
小數收集了某餐館服務滿意度與排隊時間相關的15組數據,導入Excel ,直接生成散點圖如下:
可視化操作步驟:
背景顏色應用(還是以 DataHunter 的 logo 綠為主哦~)
字體顏色、數據點顏色調整
淡化坐標網格線
插入趨勢線。這是散點圖的特色,為了分析兩個變量之間的關係,我們通常會引入趨勢線,Excel中目前給我們提供了線性、指數、線性預測、雙周期移動平均等多種類型選擇。
現實操作中判斷兩個變量之間的關係類型,還需要引入回歸分析等方法,我在這裡只是作為可視化的一個簡單舉例,所以就直接插入了線性趨勢線。
優化後如下圖所示:
曲線圖
在Excel 的散點圖分類中,我們還可以看到一類變體的散點圖——曲線圖。它經常被用來表示某個變量隨時間變量變化的趨勢,與折線圖的功能類似。
我將自己最近30天的步行數作為數據源,然後生成曲線圖。
這裡不再贅述可視化過程,與普通散點圖基本相同(通過線條填充半透明處理、背景漸變填充、日期格式和坐標軸調整等)
氣泡圖
氣泡圖與散點圖最直觀的區別為:散點圖中的數據點長得都一樣,氣泡圖中的氣泡卻大小不同。因為氣泡圖在原先散點圖的基礎上引入了第三個值來控制氣泡的大小。
舉個例子,我將某校30名學生的期末成績與其對應的出勤率作為x值和y值,並引入「去圖書館的時間」作為z值,默認生成氣泡圖如下:
氣泡擠在一起了,怎麼辦呢?
調整坐標軸,將出勤率和分數的最小值和最大值進行修改,調整相應顏色,然後再插入趨勢線,就得到了下圖:
可以看出,除了出勤率與分數之間有簡單的正相關關係外,分數越高的同學,去圖書館的時間也相對較高(氣泡普遍更大)。
最後再強調一下:散點圖實際應用中更適合大範圍的數據,本篇文章中的舉例只是為了說明問題,所以數據量都不大。
小結
散點圖適用於研究大規模數據中兩個變量之間的相關關係
氣泡圖可用於研究展示三個變量之間的關係
曲線圖作為一種特殊的散點圖,適用於研究連續變量的變化趨勢。
題外話:其實看到這些散點圖,總讓小數想起一款大圓吃小圓的網頁遊戲,當初我也是沉溺其中,無法自拔,它的頁面如下圖,遊戲規則挺有意思的,感興趣的小夥伴可以去體驗一下~
最後,基礎圖表篇的可視化系列文章很快就要結束啦,下個系列大家想了解點啥呢?留言給小數,你想要的內容,統統給你!