數據可視化的基本流程

2020-12-06 CDA數據分析師

作者 | 向倩文來源 | 數據產品手記

大多數人對數據可視化的第一印象,可能就是各種圖形,比如Excel圖表模塊中的柱狀圖、條形圖、折線圖、餅圖、散點圖等等,就不一一列舉了。以上所述,只是數據可視化的具體體現,但是數據可視化卻不止於此。

數據可視化不是簡單的視覺映射,而是一個以數據流向為主線的一個完整流程,主要包括數據採集、數據處理和變換、可視化映射、用戶交互和用戶感知。一個完整的可視化過程,可以看成數據流經過一系列處理模塊並得到轉化的過程,用戶通過可視化交互從可視化映射後的結果中獲取知識和靈感。

圖1 可視化的基本流程圖

可視化主流程的各模塊之間,並不僅僅是單純的線性連接,而是任意兩個模塊之間都存在聯繫。例如,數據採集、數據處理和變換、可視化編碼和人機互動方式的不同,都會產生新的可視化結果,用戶通過對新的可視化結果的感知,從而又會有新的知識和靈感的產生。

下面,對數據可視化主流程中的幾個關鍵步驟進行說明。

01

數據採集

數據採集是數據分析和可視化的第一步,俗話說「巧婦難為無米之炊」,數據採集的方法和質量,很大程度上就決定了數據可視化的最終效果。

數據採集的分類方法有很多,從數據的來源來看,可以分為內部數據採集和外部數據採集。

1.內部數據採集:

指的是採集企業內部經營活動的數據,通常數據來源於業務資料庫,如訂單的交易情況。如果要分析用戶的行為數據、APP的使用情況,還需要一部分行為日誌數據,這個時候就需要用「埋點」這種方法來進行APP或Web的數據採集。

2.外部數據採集:

指的數通過一些方法獲取企業外部的一些數據,具體目的包括,獲取競品的數據、獲取官方機構官網公布的一些行業數據等。獲取外部數據,通常採用的數據採集方法為「網絡爬蟲」。

以上的兩類數據採集方法得來的數據,都是二手數據。通過調查和實驗採集數據,屬於一手數據,在市場調研和科學研究實驗中比較常用,不在此次探討範圍之內。

02

數據處理和變換

數據處理和數據變換,是進行數據可視化的前提條件,包括數據預處理和數據挖掘兩個過程。

一方面,通過前期的數據採集得到的數據,不可避免的含有噪聲和誤差,數據質量較低;另一方面,數據的特徵、模式往往隱藏在海量的數據中,需要進一步的數據挖掘才能提取出來。

常見的數據質量問題包括:

1.數據收集錯誤,遺漏了數據對象,或者包含了本不應包含的其他數據對象。

2.數據中的離群點,即不同於數據集中其他大部分數據對象特徵的數據對象。

3.存在遺漏值,數據對象的一個或多個屬性值缺失,導致數據收集不全。

4.數據不一致,收集到的數據明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數,或者所填的郵政編碼和城市之間並沒有對應關係。

5.重複值的存在,數據集中包含完全重複或幾乎重複的數據。

正是因為有以上問題的存在,直接拿採集的數據進行分析or可視化,得出的結論往往會誤導用戶做出錯誤的決策。因此,對採集到的原始數據進行數據清洗和規範化,是數據可視化流程中不可缺少的一環。

數據可視化的顯示空間通常是二維的,比如電腦屏幕、大屏顯示器等,3D圖形繪製技術解決了在二維平面顯示三維物體的問題。

但是在大數據時代,我們所採集到的數據通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數據中,挖掘有價值的信息來支持決策,除了需要對數據進行清洗、去除噪聲之外,還需要依據業務目的對數據進行二次處理。

常用的數據處理方法包括:降維、數據聚類和切分、抽樣等統計學和機器學習中的方法。

03

可視化映射

對數據進行清洗、去噪,並按照業務目的進行數據處理之後,接下來就到了可視化映射環節。可視化映射是整個數據可視化流程的核心,是指將處理後的數據信息映射成可視化元素的過程。

可視化元素由3部分組成:可視化空間+標記+視覺通道

1.可視化空間

數據可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪製技術,解決了在二維平面顯示的問題,如3D環形圖、3D地圖等。

圖2 可視化空間示例

2.標記

標記,是數據屬性到可視化幾何圖形元素的映射,用來代表數據屬性的歸類。

根據空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別採用了點、線、面、體這四種不同類型的標記。

圖3 標記類型示例

3.視覺通道

數據屬性的值到標記的視覺呈現參數的映射,叫做視覺通道,通常用於展示數據屬性的定量信息。

常用的視覺通道包括:標記的位置、大小(長度、面積、體積...)、形狀(三角形、圓、立方體...)、方向、顏色(色調、飽和度、亮度、透明度...)等。

圖3中的四個圖形示例,就很好的利用了位置、大小、顏色等視覺通道來進行數據信息的可視化呈現。

「標記」、「視覺通道」是可視化編碼元素的兩個方面,兩者的結合,可以完整的將數據信息進行可視化表達,從而完成可視化映射這一過程。

關於可視化編碼元素的優先級,以及如何根據數據的特徵選擇合適的可視化表達,下次會專題來分享下。

04

人機互動

可視化的目的,是為了反映數據的數值、特徵和模式,以更加直觀、易於理解的方式,將數據背後的信息呈現給目標用戶,輔助其作出正確的決策。

但是通常,我們面對的數據是複雜的,數據所蘊含的信息是豐富的。

如果在可視化圖形中,將所有的信息不經過組織和篩選,全部機械的擺放出來,不僅會讓整個頁面顯得特別臃腫和混亂,缺乏美感;而且模糊了重點,分散用戶的注意力,降低用戶單位時間獲取信息的能力。

常見的交互方式包括:

1.滾動和縮放:當數據在當前解析度的設備上無法完整展示時,滾動和縮放是一種非常有效的交互方式,比如地圖、折線圖的信息細節等。但是,滾動與縮放的具體效果,除了與頁面布局有關係外,還與具體的顯示設備有關。

2.顏色映射的控制:一些可視化的開源工具,會提供調色板,如D3。用戶可以根據自己的喜好,去進行可視化圖形顏色的配置。這個在自助分析等平臺型工具中,會相對多一點,但是對一些自研的可視化產品中,一般有專業的設計師來負責這項工作,從而使可視化的視覺傳達具有美感。

3.數據映射方式的控制:這個是指用戶對數據可視化映射元素的選擇,一般一個數據集,是具有多組特徵的,提供靈活的數據映射方式給用戶,可以方便用戶按照自己感興趣的維度去探索數據背後的信息。這個在常用的可視化分析工具中都有提供,如tableau、PowerBI等。

4.數據細節層次控制:比如隱藏數據細節,hover或點擊才出現。

05

用戶感知

可視化的結果,只有被用戶感知之後,才可以轉化為知識和靈感。

用戶在感知過程,除了被動接受可視化的圖形之外,還通過與可視化各模塊之間的交互,主動獲取信息。

如何讓用戶更好的感知可視化的結果,將結果轉化為有價值的信息用來指導決策,這個裡面涉及到的影響因素太多了,心理學、統計學、人機互動等多個學科的知識。

學習之路漫漫,一直在路上, 我們會持續分享數據可視化領域的知識,記得持續follow我們喲!

相關焦點

  • 數據新聞生產的流程再造與敘事創新
    對數據新聞生產流程和敘事方式的分析 3.1 對數據新聞生產流程和敘事方式的研究方法 本研究選擇財新網「數字說」頻道·數字專題2017年以來的交互型數據新聞可視化作品共36篇進行分析。 在研究數據新聞的新聞生產流程時,本研究將新聞生產劃分為新聞價值、新聞操作、新聞規範三個部分。
  • B端互動設計——數據可視化圖表
    編輯導語:設計師如今在日常工作中也會遇到很多數據,對於設計師來說,好看並不是判斷的標準,實際價值和作用才是真正需要的;本文作者分享了關於數據可視化的框架,以及關於可視化設計的基本準則和規範,我們一起來學習一下。
  • 淺談數據可視化
    我主要進行了少量數據處理和系統可視化部分,在這個過程中,覺得數據可視化是一個非常迷人的話題,這過程中也了解了很多相關的資料,學習了一些基礎的工具,在這裡分享給大家,也是為自己做一個整理和記錄。1、什麼是數據可視化?
  • 兩步搞定數據可視化
    數據可視化強調以圖形形式呈現抽象信息。數據可視化使我們能夠發現傳統報告,表格或電子表格中未被注意的模式,趨勢和相關性。研究表明,人類對視覺的反應優於任何其他類型的刺激。人類大腦處理視覺信息的速度比文本快60,000倍。
  • 數據可視化技術的應用,行業優秀案例分享
    數據可視化並不是什麼新型技術,二十世紀50年代電子計算機圖形學的初期,就可以利用軟體建立出了第一批圖形圖表。伴隨著近幾年來大數據備受關注,網際網路端數據剖析產品盛行。企業歷經前些年IT系統基本建設後累積了很多數據,包含業務流程數據、客戶數據、以及他第三方數據。
  • 從數據可視化到交互式數據分析
    高可視性的可視化項目主要關注兩個目的:帶來靈感和幫助解釋。然而,可視化可以通過數據分析來增加對複雜問題的理解,這樣的項目雖然不多見,但不代表不重要。數據可視化的三個主要用途我知道我這樣總結可能存在嚴重簡化的風險。但是,我發現根據主要目的(有意或無意)確定數據可視化的三類主要用途是很有用的,這也有助於我在本文後面闡明一些觀點。
  • 必聽公開課:從零入門科研數據可視化雲平臺
    作為一名科研工作者,除了要不斷推進實驗進展、及時獲取實驗數據外,如何向他人清晰明了地呈現自己的研究成果也是一項必備的科研能力。科研成果要求專業、嚴謹、信息量,且兼顧審美,所以數據可視化在科研工作中發揮著越來越重要的作用。基於可視化圖形,我們可以更好地展示科研數據中的主要特徵和規律。
  • 數據可視化圖表工具有哪些圖表類型?
    每到月度、季度、年度總結的時候,用到最多的、最有說服力的就是數據了。讓數據說話,擺事實、講道理才能贏得上級的肯定。 大家都聽過「數據可視化」,也知道要用直觀的圖表讓受眾理解複雜多變的數據。
  • 最佳大數據可視化技術
    當我們試圖理解和解釋數據時,或者當我們尋找數百或數千個變量之間的關係以確定它們的相對重要性時,情況就更是如此。 識別重要關係的最有效方法之一是通過高級分析和易於理解的可視化。數據可視化幾乎應用於所有知識領域。 不同學科的科學家使用計算機技術對複雜事件建模並可視化無法直接觀察到的現象,例如天氣模式,醫療條件或數學關係。
  • 優秀的數據可視化,原來是這樣做的!
    這樣炫酷的數據可視化,小編真的不會。開個玩笑,其實工作中我們並不需要作出很炫酷的視覺呈現,數據可視化主要旨在藉助於圖形化手段,清晰有效地傳達與溝通信息,有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的數據集的深入洞察。
  • 基於WebGL的三維數據可視化大屏開發流 ThingJS
    三維數據大屏可視化系統包含多源數據連接、生成二維/三維視圖、構建可視化大屏、大屏功能應用等一體化服務,基於多年可視化項目經驗,ThingJS平臺得出從數據源上傳到可視化大屏應用的完整流程,供參考。(1) 多源數據連接功能系統提供對數據的多種連接方式,包括:多種資料庫數據源連接、實時數據表和靜態文件數據源,具體可查看數據文件列表頁。(2) 可視化視圖構建功能之圖形展現可視化大屏提供豐富的二維及三維圖形展現, 平面圖表是常見的視圖元素。
  • 數據可視化在移動端的應用
    隨著大數據行業的快速發展,數據可視化設計在移動端的應用越來越多。今天我們就數據可視化在移動端的使用場景、特點、注意事項以及各個使用場景進行一次簡單的分享。應用場景數據可視化在移動端的主要體現是「數據圖表」,我們最常用的數據設計組件就是:柱狀圖、折線圖、環形圖等,它們簡單易懂,容易被用戶接受。
  • 海洋數據三維可視化
    海洋數據可視化平臺指通過海洋信息三維可視化技術,實現海洋信息數據的可視化。海洋數據可視化是科學管理海洋數據的重要組成部分,它能夠將無法直接查看的數據以直觀的圖形方式展示出來,提高海洋數據研究利用能力,能提髙數據訪問效率及安全性。
  • 大公司都是怎麼做數據可視化規範的
    本周,表哥嘗試翻譯了一篇3次凱度信息之美獲獎者——Amy Cesal 的文章《What are Data Visualization Style Guidelines》,一起看看她是如何看待數據可視化設計系統的吧!1、什麼是數據可視化設計系統?
  • [會議論文]統計數據倉庫中可視化決策支持系統的研究
    ,將VDSS分為方法層,模型層和應用層三個層次,本文通過對統計數據倉庫體系中可視化決策支持系統的各層次定義和功能介紹,為數據倉庫體系中可視化決策支持系統的建立提供了理論基礎和實踐依據。本文我們將重點就「統計數據倉庫」體系中的可視化決策支持系統(VDSS)的相關研究進行詳細的介紹。2. 可視化決策支持系統層次劃分及功能定義      VDSS模塊是「統計數據倉庫」體系的重要組成部分,其主要目的是:基於數據倉庫中豐富的各類經濟數據,利用成熟的定量分析技術構成決策支持模塊,對經濟指標進行分析、預測和政策分析。
  • Material Design設計語言-數據可視化
    在行業內還沒有一個標準的規範可參考之前,谷歌的可視化團隊於2019年6月率先開發了數據可視化設計指南。數據可視化:主要是藉助於圖形化手段,清晰有效地傳達與溝通信息。2019年6月率先開發了數據可視化設計指南。
  • 百度數據可視化實驗室正式成立,發布深度學習可視化平臺 Visual DL
  • 超硬核的 Python 數據可視化教程!
    Python實現可視化的三個步驟:確定問題,選擇圖形 轉換數據,應用函數 參數設置,一目了然 1、首先,要知道我們用哪些庫來畫圖?matplotlibpython中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。
  • 數據可視化的一些思考丨從三個問題看數據可視化的商業前景
    數據可視化的需求場景是什麼?一種場景是「看」,數據可視化的主要作用是展示匯報,是信息的獲取。比如前不久RayData團隊為央視頻打造的生態可視化交互管理系統,以及在央視現場的工作區,利用RayData Web做出來的環形可視化大屏,都是為了讓管理者、運營者、業務人員更好地獲取相關信息。另一種場景是「用」,數據可視化的主要目的是交互管理,是數據的應用。
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    完整數據分析流程圖1.數據存儲在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最後得到了怎樣的數據。由於數據在存儲階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬體、內外部環境問題無法保證,這些都會導致後期數據應用問題。