數據提取後,對數據的處理自然就成為了重中之重。通過圖表我們可以更有效的展示數據信息。數據可視化則可藉助於圖形化手段,為我們清晰有效地傳達與溝通信息。
1.直方圖(Histogram)
例如,用列來表示每個值的頻率,通過直方圖我們可以顯示出有多大比例的點下落入每個類別。
雖然表示數據離散程度最好的是盒圖,但當兩組數據的最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max),及平均值(mean)一樣時,直方圖則是最好的選擇。
以上兩個直方圖,數據分布截然不同,但卻有著相同的盒圖。
2.分位數圖(Quantile Plot)
分位數圖可以顯示所有數據 ,並且允許用戶評估全部行為和不尋常的事件。對於升序中的值點xi,fi 表明近似 fi % 的數據<=xi ;成對繪製(xi ,fi )通過分位數圖可以直觀的看到數據變化的趨勢。
3.分位數-分位數圖 (Q-Q圖 quantile—quantile圖)
所謂「分位數-分位數」圖就是橫縱坐標表示的均為分位數,即一個分位數對應著另一個分位數。我們繪製出一個單變量分布的分位數 ,那麼我們如何知道一種分布到另一種分布是否有偏移呢? 例子表示分店1出售的物品單價分位數 vs. 分店 2 的每個分位數.
從Q-Q圖中我們可以清晰地看出,分店1出售的物品單價數據趨勢,傾向於低於分店2.
4.散布圖(Scatter plot)
散布圖提供雙變量的數據的第一印象:點的聚集,離群點, 等 。每個值對,作為一個坐標點繪於平面上來顯示數據。
通過散布圖,我們通常可以發掘數據的正、負相關信息。
當然還有些是不相關的。