heatmap(熱圖)常用於高維數據的可視化。
數據集中的數據按照矩陣形式,編碼為彩色的網格結構。熱圖常附有樹狀圖。
熱圖應用領域很多,如基因、相關性、缺失值等。
heatmaply包能夠生成交互式地圖,滑鼠懸停可查看數值信息、拖動局部可放大查看。
heatmaply包依賴ggplot2包,載入heatmaply之前需裝載相關的依賴包。MacOS在繪製heatmaply時,將自動調用XQuartz插件,如沒有繪製成功,可從官網下載安裝XQuartz。[XQuartz下載安裝請參看文末推薦閱讀:2安裝R軟體]
> library(ggplot2)
> library("heatmaply")
使用heatmaply包默認參數繪製交互式熱圖。
> heatmaply(mtcars)
使用顏色限制調用相關性
參數說明:
控制
設置顏色也可使用:
> heatmaply_cor(cor(mtcars), margins = c(40, 40),
k_col = 2, k_row = 2)
在做相關性分析時,可以將顏色設置為預設之外的組合,但這種顏色在選擇時需要額外注意,繪製的結果可能對色弱/色盲是不友好的。
載入依賴包RColorBrewer。
假定數據均來自正態分布數據集,則標準化(減去均值後除以標準差),將使這些數值範圍限定在相同區間,確保數據並不會由於測量維度差異過大而導致權重偏差、影響結果。此時,這些數值將反映均值到標準差的距離。
如果數據集中的維度來自多個觀測樣本,例如收入、年齡,由於收入範圍數值較大,將會產生較大權重,影響最終的結果。使用「標準化」,將數據範圍限定在【0,1】
標準化將數據提升到【0,1】範圍,這將保留每個數據的原始分布狀態,同時將各維度下的數據限定在同樣的權重中。
缺失值
參數說明:
is.na10( ):檢測缺失值
grid_gap( ):間隔
如需獲得更多R語言數據分析合作方式和技術支持,請掃描下方二維碼關注我們並留言。