用數據說話,R語言有哪七種可視化應用?

2020-12-11 雷鋒網

今天，隨著數據量的不斷增加，數據可視化成為將數字變成可用的信息的一個重要方式。R語言提供了一系列的已有函數和可調用的庫，通過建立可視化的方式進行數據的呈現。在使用技術的方式實現可視化之前，我們可以先和雷鋒網一起看看如何選擇正確的圖表類型。

作者 Dikesh Jariwala是一個軟體工程師，並且在Tatvic平臺上編寫了一些很酷很有趣的程序。他用API編寫了第一版Price Discovery，雷鋒網(公眾號：雷鋒網)對他所寫的這篇文章做了編譯，未經許可不得轉載。

如何選擇正確的圖表類型

四種可選擇的基本類型：

1、比較類圖表
2、組成類圖表
3、分布類圖表
4、關係類圖表

為了選擇最適合分析手中數據的圖表類型，首先考慮以下幾個問題：

針對如何選擇最適宜的圖表，Dr.Andrew Abela 提供了一個很好的方法示意圖：

在使用圖表分析的時候，常用的有7種圖表：

1．散點圖
2．直方圖
3．柱狀圖和條形圖
4．箱線圖
5．面積圖
6．熱點圖
7．相關圖

我們使用「Big Mart data」作為案例來理解 R 可視化的實現方法，你可以點擊此處下載完整的數據（google doc）。

雷鋒網將在以下篇幅介紹如何利用 R 實現可視化：

1、散點圖

使用場景：散點圖通常用於分析兩個連續變量之間的關係。

在上面介紹的超市數據中，如果我們想根據他們的成本數據來可視化商品的知名度，我們可以用散點圖，兩個連續的變量這裡我們命名為Item_Visibility和Item_MRP。

這裡使用R中的ggplot()和geom_point()函數。

library(ggplot2) // ggplot2 是R中的一個函數庫

ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point() + scale_x_continuous("Item

Visibility", breaks = seq(0,0.35,0.05))+ scale_y_continuous("Item MRP", breaks = seq(0,270,by =

30))+ theme_bw()

下圖中增加了一個新的變量，對產品進行分類的變量，命名為Item_Type，圖中以不同的顏色作為顯示。

R代碼中增加了分組：

ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point(aes(color = Item_Type)) +
  scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05))+
  scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30))+
  theme_bw() + labs(title="Scatterplot")

可以進一步可視化，將散點圖以不同的小圖表的形式呈現，下圖中，每一個小圖表都代表一種不同的產品：

代碼如下：

ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point(aes(color = Item_Type)) +
  scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05))+
  scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30))+
  theme_bw() + labs(title="Scatterplot") + facet_wrap( ~ Item_Type)

代碼中，facet_warp將圖像顯示在長方形圖表中。

2、直方圖

使用場景：直方圖用於連續變量的可視化分析。將數據劃分，並用概率的形式呈現數據的規律。我們可以將分類根據需求進行組合和拆分，從而通過這種方式看到數據的變化。

繼續使用上面我們引入的超市數據的例子，如果我們需要知道不同成本段的商品的數量，我們可以將所有數據畫出一個直方圖，Item_MRP作為橫坐標。如下圖所示：

下面是一個簡單的畫直方圖的例子，使用的是R中的ggplot()和geom_histogram()函數。

ggplot(train, aes(Item_MRP)) + geom_histogram(binwidth = 2)+
scale_x_continuous("Item MRP", breaks = seq(0,270,by = 30))+
scale_y_continuous("Count", breaks = seq(0,200,by = 20))+
labs(title = "Histogram")

3、柱狀圖和條形圖

使用場景：柱狀圖一般用於表現分類的變量或者是連續的分類變量的組合。

在超市數據的例子中，如果我們需要知道在每一年新開的超市的門店數量，那麼柱狀圖就是一個很好的圖形分析的方式。用「年」的信息作為坐標，如下圖所示：

下面是一個簡單的畫柱狀圖的例子，使用的是R中的ggplot()函數。

ggplot(train, aes(Outlet_Establishment_Year)) + geom_bar(fill = "red")+theme_bw()+
scale_x_continuous("Establishment Year", breaks = seq(1985,2010)) +
scale_y_continuous("Count", breaks = seq(0,1500,150)) +
coord_flip()+ labs(title = "Bar Chart") + theme_gray()

水平柱狀圖

去除代碼中的coord_flIP()變量，可以將直方圖以水平直方圖的方法呈現。

為了得到商品重量（連續變量）和折扣店（分類變量）的關係，可使用下面的代碼：

ggplot(train, aes(Item_Type, Item_Weight)) + geom_bar(stat = "identity", fill = "darkblue") +
scale_x_discrete("Outlet Type")+ scale_y_continuous("Item Weight", breaks = seq(0,15000, by =
500))+ theme(axis.text.x = element_text(angle = 90, vjust = 0.5)) + labs(title = "Bar Chart")

堆疊條形圖

堆疊條形圖是柱狀圖的一個高級版本，可以將分類變量組合進行分析。

超市數據的例子中，如果我們想要知道不同分類商品的折扣店數量，包含折扣店種類和折扣店區域，堆疊條形圖就是做這種分析最為有效的圖表分析方法。

下面是一個簡單的畫堆疊條形圖的例子，使用的是R中的ggplot()函數。

ggplot(train, aes(Outlet_Location_Type, fill = Outlet_Type)) + geom_bar()+
labs(title = "Stacked Bar Chart", x = "Outlet Location Type", y = "Count of Outlets")

4、箱線圖

使用場景：箱線圖一般用於相對複雜的場景，通常是組合分類的連續變量。這種圖表應用於對數據延伸的可視化分析和檢測離值群。主要包含數據的5個重要節點，最小值，25%，50%，75%和最大值。

在我們的案例中，如果我們想要找出每個折扣店每個商品銷售的價格的情況，包括最低價，最高價和中間價，箱線圖就大有用處。除此之外，箱線圖還可以提供非正常價格商品銷售的情況，如下圖所示。

圖中，黑色的點為離值群。離值群的檢測和剔除是數據挖掘中很重要的環節。

下面是一個簡單的畫箱線圖的例子，使用的是R中的ggplot()和geom_boxplot函數。

ggplot(train, aes(Outlet_Identifier, Item_Outlet_Sales)) + geom_boxplot(fill = "red")+
scale_y_continuous("Item Outlet Sales", breaks= seq(0,15000, by=500))+
labs(title = "Box Plot", x = "Outlet Identifier")

5、面積圖

使用場景：面積圖通常用於顯示變量和數據的連續性。和線性圖很相近，是常用的時序分析方法。另外，它也被用來繪製連續變量和分析的基本趨勢。

超市案例中，當我們需要知道隨著時間的眼神，折扣店商品的品種走勢，我們可以畫出如下的面積圖，圖中呈現了折扣店商品的成交量的變化。

下面是一個簡單的畫面積圖的例子，用於分析折扣店商品成交數量的走勢，使用的是R中的ggplot()和geom_area函數。

ggplot(train, aes(Item_Outlet_Sales)) + geom_area(stat = "bin", bins = 30, fill = "steelblue") +
scale_x_continuous(breaks = seq(0,11000,1000))+
labs(title = "Area Chart", x = "Item Outlet Sales", y = "Count")

6、熱點圖

使用場景：熱點圖用顏色的強度（密度）來顯示二維圖像中的兩個或多個變量之間的關係。可對圖表中三個部分的進行信息挖掘，兩個坐標和圖像顏色深度。

超市案例中，如果我們需要知道每個商品在每個折扣店的成本，如下圖中所示，我們可以用三個變量Item_MRP，Outlet_Identifier和Item_type進行分析。

暗的數據表示Item_MRP低於50，亮的數據表示Item_MRP接近250。

下面是R代碼，使用了ggplot()函數做簡單的熱點圖。

ggplot(train, aes(Outlet_Identifier, Item_Type))+
geom_raster(aes(fill = Item_MRP))+
labs(title ="Heat Map", x = "Outlet Identifier", y = "Item Type")+
scale_fill_continuous(name = "Item MRP")

7、關係圖

使用場景：關係圖用作表示連續變量之間的關聯性。每個單元可以標註成陰影或顏色來表明關聯的程度。顏色越深，代表關聯程度越高。正相關用藍色表示，負相關用紅色表示。顏色的深度隨著關聯程度的遞增而遞增。

超市案例中，用下圖可以展現成本，重量，知名度與折扣店開業的年份和銷售價格之間的關係。可以發現，成本和售價成正相關，而商品的重量和知名度成負相關。

下面是用作簡單關係圖的R代碼，使用的是corrgram()函數。

install.packages("corrgram")
library(corrgram)
corrgram(train, order=NULL, panel=panel.shade, text.panel=panel.txt,
main="Correlogram")

通過以上的分類介紹和R程序的簡單介紹，相信你可以使用R中的ggplot庫進行自己的數據可視化分析了。除了可視化分析，你還可以通過我們的網絡課程進一步的學習使用R進行的數據挖掘，歡迎訪問我們的網頁「Google Analytics Data Mining with R」。

Via Tatvic

雷鋒網版權文章，未經授權禁止轉載。詳情見轉載須知。

用數據說話,R語言有哪七種可視化應用?

如何選擇正確的圖表類型

1、散點圖

2、直方圖

3、柱狀圖和條形圖

水平柱狀圖

堆疊條形圖

4、箱線圖

5、面積圖

6、熱點圖

7、關係圖

相關焦點

R語言天氣可視化應用

R語言學習筆記之相關性矩陣分析及其可視化

Day7:R語言課程 (R語言進行數據可視化)

數據可視化之R語言

RStudio|用R Markdown生成你的R語言數據分析報告

【語言班】R語言數據分析與可視化高級研修班(4.26-29)

R語言與Tableau集成之可視化應用

深度| R vs Python:R是現在最好的數據科學語言嗎?

推薦|R語言相關電子書,美輪美奐的數據可視化,再也不怕被嫌棄了

r語言有什麼優劣勢及R語言的未來發展趨勢_R語言在現實中的應用

零基礎學習R語言數據分析

零基礎入門R語言數據分析指南

R語言數據可視化ggplot2包

15種獨一無二的創新數據可視化方式

免費公開課|1小時教你用R 語言完成漂亮的數據可視化

R語言數據清洗實戰——高效list解析方案

技術貼 | R語言:組學關聯分析和pheatmap可視化

獨家 | 手把手教你學習R語言(附資源連結)

中了數據可視化的毒:BBC如何使用R語言繪製數據圖表?

超級乾貨 :手把手教你學習R語言(附資源連結)

用數據說話,R語言有哪七種可視化應用?

如何選擇正確的圖表類型

1、 散點圖

2、 直方圖

3、 柱狀圖和條形圖

水平柱狀圖

堆疊條形圖

4、 箱線圖

5、 面積圖

6、 熱點圖

7、 關係圖

相關焦點

R語言天氣可視化應用

R語言學習筆記之相關性矩陣分析及其可視化

Day7:R語言課程 (R語言進行數據可視化)

數據可視化之R語言

RStudio|用R Markdown生成你的R語言數據分析報告

【語言班】R語言數據分析與可視化高級研修班(4.26-29)

R語言與Tableau集成之可視化應用

深度| R vs Python:R是現在最好的數據科學語言嗎?

推薦|R語言相關電子書,美輪美奐的數據可視化,再也不怕被嫌棄了

r語言有什麼優劣勢及R語言的未來發展趨勢_R語言在現實中的應用

零基礎學習R語言數據分析

零基礎入門R語言數據分析指南

R語言數據可視化ggplot2包

15種獨一無二的創新數據可視化方式

免費公開課|1小時教你用R 語言完成漂亮的數據可視化

R語言數據清洗實戰——高效list解析方案

技術貼 | R語言:組學關聯分析和pheatmap可視化

獨家 | 手把手教你學習R語言(附資源連結)

中了數據可視化的毒:BBC如何使用R語言繪製數據圖表?

超級乾貨 :手把手教你學習R語言(附資源連結)

1、散點圖

2、直方圖

3、柱狀圖和條形圖

4、箱線圖

5、面積圖

6、熱點圖

7、關係圖