研究人員一致認為,視覺是我們的主要意識:我們感知,學習或處理的信息中有80-85%是通過視覺進行調節的。 當我們試圖理解和解釋數據時,或者當我們尋找數百或數千個變量之間的關係以確定它們的相對重要性時,情況就更是如此。 識別重要關係的最有效方法之一是通過高級分析和易於理解的可視化。
數據可視化幾乎應用於所有知識領域。 不同學科的科學家使用計算機技術對複雜事件建模並可視化無法直接觀察到的現象,例如天氣模式,醫療條件或數學關係。
數據可視化提供了一套重要的工具和技術,可用於定性理解。 基本技術如下圖:
線圖是最簡單的技術,用於繪製一個變量與另一個變量之間的關係或依存關係。 要繪製兩個變量之間的關係,我們可以簡單地調用plot函數。
條形圖用於比較不同類別或組的數量。 類別的值通過條形圖表示,可以用垂直或水平條形圖配置,每個條形圖的長度或高度代表該值。
關於餅圖和甜甜圈圖的價值存在很多爭論。 通常,它們用於比較整體的各個部分,並且在組成部分有限以及包含文本和百分比來描述內容時最有效。 但是,它們可能難以解釋,因為人眼很難估計區域並比較視角。
直方圖表示連續變量在給定間隔或時間段內的分布,是機器學習中最常用的數據可視化技術之一。 它通過將數據分成多個塊(稱為" bin")來繪製數據。 它用於檢查基礎頻率分布,離群值,偏斜度等。
另一種常見的可視化技術是散布圖,散布圖是表示兩個數據項的聯合變化的二維圖。 每個標記(點,正方形和加號等符號)表示一個觀察值。 標記位置指示每個觀察值。 當您分配兩個以上的度量時,將生成一個散布圖矩陣,該矩陣是一系列散布圖,顯示分配給可視化的各對度量的所有可能配對。 散點圖用於檢查X和Y變量之間的關係或相關性。
今天,組織每分鐘都會生成和收集數據。 由於必須考慮到信息的速度,大小和多樣性,因此生成的大量數據(稱為大數據)給可視化帶來了新的挑戰。 此類數據的數量,種類和速度要求組織從技術上離開其舒適區,以獲取有效決策所需的情報。 基於數據分析核心基礎的新的更複雜的可視化技術不僅考慮了基數,還考慮了此類數據的結構和來源。
非參數數據的內核密度估計
如果我們不了解數據的總體和底層分布,則將此類數據稱為非參數數據,並藉助代表隨機變量概率分布函數的內核密度函數將其可視化。 當數據的參數分布沒有太大意義,並且您希望避免對數據進行假設時,可以使用它。
帶須狀圖的裝箱圖顯示了大數據的分布,並且很容易看到異常值。 本質上,它是五個統計信息(最小值,下四分位數,中位數,上四分位數和最大值)的圖形顯示,總結了一組數據的分布。 較低的四分位數(第25個百分位數)由框的下邊緣表示,較高的四分位數(第75個百分位數)由框的上邊緣表示。 中位數(第50個百分位數)由中心線表示,該中心線將框分成多個部分。 極值由從盒子邊緣伸出的晶須表示。 箱形圖通常用於了解數據中的異常值。
大數據的多樣性帶來了挑戰,因為半結構化和非結構化數據需要新的可視化技術。 詞雲視覺表示一個詞在文本主體中的出現頻率及其在雲中的相對大小。 此技術用於非結構化數據,作為顯示高頻或低頻單詞的一種方式。
可以用於半結構化或非結構化數據的另一種可視化技術是網絡圖。 網絡圖將關係表示為節點(網絡內的各個參與者)和關係(關係在個人之間)。 它們被用於許多應用程式中,例如,用於分析社交網絡或繪製跨地理區域的產品銷售情況。
相關矩陣可以通過結合大數據和快速響應時間來快速識別變量之間的關係。 基本上,相關矩陣是一個表,顯示變量之間的相關係數:表中的每個單元格代表兩個變量之間的關係。 相關矩陣被用作匯總數據的方式,被用作更高級分析的輸入,並且被用作高級分析的診斷。
數據可視化可能會成為任何演示文稿的寶貴補充,也是理解數據的最快途徑。 此外,可視化數據的過程既令人愉快又充滿挑戰。 但是,利用許多可用的技術,很容易最終使用錯誤的工具來呈現信息。 要選擇最合適的可視化技術,您需要了解數據,其類型和組成,您要傳達給觀眾的信息以及觀看者如何處理視覺信息。 有時,簡單的線圖可以節省使用高級大數據技術繪製數據時所花費的時間和精力。 了解您的數據-它將為您打開其隱藏的值。
(本文翻譯自Sciforce的文章《Best Data and Big Data Visualization Techniques》,參考:https://medium.com/sciforce/best-data-and-big-data-visualization-techniques-e07b897751dd)