大數據可視化技術的挑戰及應對措施

2021-01-08 千家智客

  在大數據時代,數據可視化技術在廣泛應用的同時,也面臨諸多新的挑戰。大數據可視化是一個面向應用的研究領域,本文重點從應用實踐的角度,討論在大數據背景下大數據可視化內涵、研究進展、相關技術與產品以及所面臨的一系列挑戰。

 

  大數據可視化內涵

 

  數據可視化就是將抽象的「數據」以可見的形式表現出來,幫助人理解數據。大數據可視化相對傳統的數據可視化,處理的數據對象有了本質不同,在已有的小規模或適度規模的結構化數據基礎上,大數據可視化需要有效處理大規模、多類型、快速更新類型的數據。這給數據可視化研究與應用帶來一系列新的挑戰。

 

  數據可視化這一概念自1987年正式提出,經過30餘年的發展,逐漸形成3個分支:科學計算可視化(scientific visualization)、信息可視化(information visualization)和可視分析(visual analytics)。近些年來,這3個子領域出現了逐漸融合的趨勢。本文統稱為「數據可視化」。

 

  在傳統數據可視化基礎上,論文嘗試給出大數據可視化的內涵:大數據可視化是指有效處理大規模、多類型和快速變化數據的圖形化交互式探索與顯示技術。

 

  其中,有效是指在合理時間和空間開銷範圍內;大規模、多類型和快速變化是所處理數據的主要特點;圖形化交互式探索是指支持通過圖形化的手段交互式分析數據;顯示技術是指對數據的直觀展示。

 

  大數據可視化技術

 

  首先從方法層面介紹基本滿足常用數據可視化需求的通用技術,根據可視化目標分類介紹,然後根據大數據的特點,重點介紹相關的大規模數據可視化、時序數據可視化、面向可視化的數據採樣方法和數據可視化生成技術。

 

  常用的數據可視化技術

 

  數據可視化技術在應用過程中,多數非技術驅動,而是目標驅動。如圖顯示了目前業界廣泛使用的根據目標分類的數據可視化方法,數據可視化目標抽象為對比、分布、組成以及關係。

 

  按目標分類的常用數據可視化方法

 

  1)對比。比較不同元素之間或不同時刻之間的值。

 

  2)分布。查看數據分布特徵,是數據可視化最為常用的場景之一。

 

  3)組成。查看數據靜態或動態組成。

 

  4)關係。查看變量之間的相關性,這常常用於結合統計學相關性分析方法,通過視覺結合使用者專業知識與場景需求判斷多個因素之間的影響關係。

 

  大規模數據可視化

 

  大規模數據可視化一般認為是處理數據規模達到TB或PB級別的數據。經過數十年的發展,大規模數據可視化經過了大量研究,重點介紹其中的並行可視化和原位(in situ)可視化。

 

  (1)並行可視化

 

  並行可視化通常包括3種並行處理模式,分別是任務並行、流水線並行、數據並行。

 

  任務並行將可視化過程分為獨立的子任務,同時運行的子任務之間不存在數據依賴。

 

  流水線並行採用流式讀取數據片段,將可視化過程分為多個階段,計算機並行執行各個階段加速處理過程。

 

  數據並行是一種「單程序多數據」方式,將數據劃分為多個子集,然後以子集為粒度並行執行程序處理不同的數據子集。

 

  (2)原位可視化

 

  數值模擬過程中生成可視化,用於緩解大規模數值模擬輸出瓶頸。根據輸出不同,原位可視化分為圖像、分布、壓縮與特徵。

 

  輸出為圖像的原位可視化,在數值模擬過程中,將數據映射為可視化,並保存為圖像。

 

  輸出為分布數據的原位可視化,根據使用者定義的統計指標,在數值模擬過程中計算統計指標並保存,後續進行統計數據可視化;

 

  輸出為壓縮數據的原位可視化採用壓縮算法降低數值模擬數據輸出規模,將壓縮數據作為後續可視化處理的輸入;

 

  輸出為特徵的原位可視化採用特徵提取方法,在數值模擬過程中提取特徵並保存,將特徵數據作為後續可視化處理的輸入。

 

  時序數據可視化

 

  時序數據可視化是幫助人類通過數據的視角觀察過去,預測未來,例如建立預測模型,進行預測性分析和用戶行為分析。

 

  面積圖可顯示某時間段內量化數值的變化和發展,最常用來顯示趨勢。氣泡圖可以將其中一條軸的變量設置為時間,或者把數據變量隨時間的變化製成動畫來顯示。蠟燭圖通常用作交易工具。

 

  甘特圖通常用作項目管理的組織工具,熱圖通過色彩變化來顯示數據,直方圖適合用來顯示在連續間隔或特定時間段內的數據分布。

 

  折線圖用於在連續間隔或時間跨度上顯示定量數值,最常用來顯示趨勢和關係。南丁格爾玫瑰圖繪製於極坐標系之上,適用於周期性時序數據。OHLC圖通常用作交易工具。

 

  螺旋圖沿阿基米德螺旋線繪製基於時間的數據。堆疊式面積圖的原理與簡單面積圖相同,但它能同時顯示多個數據系列。量化波形圖可顯示不同類別的數據隨著時間的變化。

 

  另外,具有空間位置信息的時序數據,常常將上述可視化方法地圖結合,例如軌跡圖。

 

  面向可視化的數據採樣方法

 

  面向可視化的時序數據採樣,主要針對時序數據的折線圖視覺效果進行優化。此類研究的主要目標為,從時序數據中選擇小部分時序數據,利用折線圖上的點與連線的視覺效果,使得選取數據的折線圖視覺效果與原始數據的可視化結果儘可能接近。

 

  Steinarsson總結了一些基於折線圖的時序數據採樣算法,認為折線圖中的每個數據點都存在各自的視覺權重。Kehagias提出了M4aggregation時序數據採樣算法。Guo等總結了4種針對空間數據的可視化約束:代表性約束、可視性約束、平移一致性與縮放一致性,並基於可視化約束提出了貪心策略採樣算法。

 

  數據可視化生成方式

 

  經過數十年的發展,數據可視化形成了從底層編程到上層交互式定製的多層次生成方式。

 

  數據可視化生產方式

 

  編程方式根據語言類型可以分為函數式編程與聲明式編程。函數式編程可以根據圖表元素封裝層級分為更基礎的圖形編程接口,聲明式編程出現時間相對較晚,其中採用圖形語法思想的可視化語法。

 

  交互式數據可視化生成方式通過交互接口,使得用戶不用編程即可定製可視化圖表。其中,Polaris與Tableau採用數據列拖選方式交互生成可視化圖表;Voyager和Data2Vis則提供了根據數據自動生成可視化圖表的能力;Lyra和Data Illustrator則提供了一種類似於Visio的交互方式,從圖表元素拼裝圖表的能力。VisFlow在提供多個可視化模板的基礎上採用數據流的思想,將可視化圖表作為數據處理流的中間步驟,通過可視化的方式進行數據處理。

 

  整體而言,編程方式的優點在於豐富的表現能力與個性化定製能力,缺點是缺乏直觀性,要求使用者具有編程能力,且相對需要更多的人力與時間成本;相對而言,交互方式的優點在於直觀,用戶無需編程即可定製圖表,使用更為廣泛,缺點是表達能力有限,系統功能和性能常常無法滿足使用者個性化需求。

 

  大數據可視化產品

 

  本節重點介紹介紹相關的大數據可視化產品,包括適用於一定大數據場景的傳統數據可視化產品及面向大數據的數據可視化產品。

 

  傳統數據可視化產品

 

  PowerBI作為微軟推出的數據可視化產品,在2019年的GartnerBI象限中排名首位。優點在於易用性,交互方式類似於Excel;缺點在於性能相對較弱,缺少數據準備於清洗工具。

 

  Tableau基於關係型代數理論研發,是目前使用最為廣泛的數據可視化產品之一。優點在於基於拖放的交互方式,豐富的功能以及支持Hadoop和Google BigQuery等大數據平臺;缺點是僅支持結構化數據,大數據實時響應較慢,權限約束有限。

 

  QlikView為新興的數據可視化產品,使用越來越廣泛。優點在於數據關聯查詢與鑽取能力,圖表繪製快速;缺點在於易用性不足,作為內存型的數據可視化產品,數據處理速度依賴於內存大小,對硬體要求較高。

 

  面向大數據的可視化產品

 

  大數據背景下產生的數據可視化產品如下。

 

  Apache Superset是基於Flask-Appbuilder構建的開源數據可視化系統,B/S架構,集成了地圖、折線圖、餅圖等可視化方法,提供了一種方便的看板定製方法。優點是系統可擴展性與權限控制機制;缺點是系統穩定性和大數據處理能力不足。

 

  Apache Zeppelin是面向大數據的交互式數據分析與協作記事本工具,開源項目,B/S架構。優點是與不同大數據框架的集成能力與系統可擴展性;缺點是需要編程,不支持異步,對於大規模數據,客戶端可能需要等待較長時間。

 

  大數據可視化挑戰

 

  數據可視化在大數據場景下面臨諸多新的挑戰,包括數據規模、數據融合、圖表繪製效率、圖表表達能力、系統可擴展性、快速構建能力、數據分析與數據交互等。

 

  數據規模

 

  大數據規模大、價值密度降低,受限於屏幕空間,所能顯示的數據量有限。因此為了有效顯示使用者所關注的數據和特徵,需要採用有效的數據壓縮方法。目前已有的方法針對數據本身進行採樣或聚合,未考慮數據可視化的顯示特性。近期一些學者提出了針對特定可視化場景的數據壓縮方法。但是目前依然缺少通用的面向可視化的數據壓縮方法,也缺少實際應用的產品。

 

  數據融合

 

  大數據的另一個表現是數據類型多樣,常常分布於不同的資料庫。如何融合不同來源、不同類型的數據,為使用者提供統一的可視化視角,支持可視化的關聯探索與關係挖掘,是一個重要的問題。其中涉及數據關聯的自動發現、多類型數據可視化、知識圖譜構建等多個技術問題。

 

  圖表繪製效率

 

  隨著數據規模的增加,圖表可視化的效率問題越來越凸顯。目前,有些可視化產品開始採用WebGL藉助GPU實現平行繪製。越來越多的數據可視化產品採用B/S架構,其性能一定程度上優先於瀏覽器;另外,由於跨終端需求越來越普遍,也對圖表繪製提出了更多挑戰。

 

  圖表表達能力

 

  隨著產生數據的來源增加,數據類型不斷增加,數據使用者對於數據的交互需求越來越多,已有的數據可視化產品完全無法滿足使用者的可視化需求,時常出現需要的可視化形式產品不支持或支持不夠等問題。這就對於系統的圖表表達能力提出了更高的要求,同時對於系統支持使用者的個性化定製提出了新的要求。

 

  系統可擴展性

 

  大數據對於數據可視化系統的擴展能力提出了新的挑戰,系統的可擴展性將成為衡量一個大數據可視化系統的重要指標。

 

  快速構建能力

 

  大數據伴隨著快速變化與增加的數據,如何幫助用戶及時理解數據,發現問題,離不開數據可視化的快速構建能力,即根據使用者數據驅動的圖表快速定製能力。數據在s級甚至ms級更新的情況下,有沒有可能實現圖表的秒級更新與快速定製。另外,圖表定製後的快速共享與響應功能也將成為必要的系統功能。

 

  數據分析

 

  傳統的BI工具主要集中在數據篩選、聚合及可視化功能,已經不能滿足大數據分析的需求,Gartner提出了「增強分析」,數據可視化只有結合豐富的大數據分析方法,將數據的探索式分析形成一個閉環,才能實現完整的大數據可視化產品,有效幫助使用者理解數據。預測性分析是大數據的趨勢,數據可視化有效結合預測方法,將有助於使用者的決策。

 

  數據交互

 

  大數據可視化使用者需要通過可視化與圖表背後的數據和處理邏輯進行交互,由此反應使用者的個性化需求,幫助用戶用一種交互迭代的方式理解數據。在傳統的交互手段基礎上,更加自然的交互方式,將有助於使用者與數據更好的交互,也有助於拓展大數據可視化產品的使用範圍與應用場景。

 

  大數據可視化技術與產品所面臨主要挑戰的同時也對其發展帶來了新機遇,例如Yu等提出的面向數據流式可視化的自然語言交互接口,通過自然語言與可視化常見操作的映射實現。微軟Excel軟體集成自然語言交互,其中的AnnaParser算法將數據表進行抽象並結合表格知識理解實現語義理解。

 

  AutoVis

 

  如前所述,大數據可視化面臨一系列挑戰。為此,課題組自主研發了數據感知的交互式可視化設計平臺AutoVis,目標是讓大數據的可視化過程更加簡單,核心是輔助使用者快速完成從數據到圖表的設計過程,包括數據定義、圖表設計、映射過程、圖表交互與看板服務。


  數據定義

 

  AutoVis支持IoTDB、PostgreSQL、MySQL、SQLServer、SQLLite等常用資料庫類型,以及提供RESTfulAPI接口的數據服務。設計實現了抽象數據集構建與計算技術,支持不同數據的自由組合,通過抽象數據集歸一化,實現數據集的快速生成。

 

  圖表設計

 

  AutoVis採用模板化思想,提供了百餘個覆蓋常用可視化技術的圖表模板,支持即時模板擴展及拖拽即用,達到秒級圖表定義。另外,AutoVis提供了所見即所得的圖表組合定製看板能力,實現了分鐘級看板定義。

 

  映射過程

 

  為了達到圖表定製易用性的同時實現實時可擴展性,即融合編程方式的表達能力和交互方式的易用性,AutoVis設計實現了3種互補的數據至圖表的映射方式:交互選項、擴展選項、手工編碼。

 

  圖表交互

 

  圖表交互能力在大數據場景下愈發重要。AutoVis的圖表模板提供了常用的交互功能,包括點選、懸浮、刷選等。另外,AutoVis還實現了看板圖表的自動關聯,支持跨圖表跨數據的鑽取能力。

 

  看板服務

 

  AutoVis在支持常用的看板連結共享基礎上,提供了看板服務能力,即使用者不僅可以將看板共享,或集成到其他系統,還可以動態向看板傳遞參數,動態調整看板可視化內容。另外,AutoVis圍繞看板提供了「數字會商室」功能,使用者可以圍繞數字看板進行數據驅動的討論與決策。

 

  數據可視化已成為人理解數據的重要途徑,在大數據時代,人們更加需要有效的數據可視化工具直觀分析大規模數據,快速捕捉數據變化。

 

  大數據可視化技術的挑戰及應對措施.中琛魔方大數據平臺(www.zcmorefun.com)表示相對傳統的數據可視化,大數據也帶來了數據規模、數據融合、圖表繪製效率、圖表表達能力、系統可擴展性、快速構建能力、數據分析與數據交互等多個方面的挑戰。有效應對這些挑戰將有助於大數據可視化隨著大數據和數據科學的普及,推動其應用到更多領域。


相關焦點

  • 最佳大數據可視化技術
    當我們試圖理解和解釋數據時,或者當我們尋找數百或數千個變量之間的關係以確定它們的相對重要性時,情況就更是如此。 識別重要關係的最有效方法之一是通過高級分析和易於理解的可視化。數據可視化幾乎應用於所有知識領域。 不同學科的科學家使用計算機技術對複雜事件建模並可視化無法直接觀察到的現象,例如天氣模式,醫療條件或數學關係。
  • 智慧水務安全挑戰與應對措施
    智慧水務安全挑戰與應對措施北極星水處理網  來源:中國信息化  作者:張振山 範德昌  2021/1/13 15:57:33  我要投稿  北極星水處理網訊:2020年5月28日,以色列國家網絡安全負責人公開承認,該國4月份挫敗了對其供水系統的大規模網絡攻擊。
  • 工賦開發者社區|工業大數據安全風險與技術應對
    同時,海量工業數據的採集和傳送已突破時空限制,向企業數據中心匯集。這期間工業大數據的採集與應用,隱藏著巨大的安全風險,隨時可能對工業生產造成災難性影響。如何應對安全風險,在政策加持的同時,必須靠技術解決。2018年,克萊斯勒、福特、特斯拉等全球100家車企的47000多個機密文件遭外洩。
  • 實時大數據分析的應用_實時可視化大屏的製作
    實時大數據分析是指對規模巨大的數據進行分析,利用大數據技術高效的快速完成分析,達到近似實時的效果,更及時的反映數據的價值和意義。用戶可實時捕捉數據運行情況,如電商運營大屏等,幫助用戶實時決策,運營情況瞭然於胸。
  • 分享現代分布式電源架構的關鍵技術挑戰及應對措施的方案設計
    打開APP 分享現代分布式電源架構的關鍵技術挑戰及應對措施的方案設計 LandaCulbertson, Mou 發表於 2019-08-29 09:31:02
  • 大數據時代可視化新聞的特點及發展趨勢
    更多本來與「數字」無關或者關係不大的新聞報導領域,也因為數據採集技術的完善,逐漸採用了數據新聞的報導形式,進一步發展成可視化新聞涉及的領域。藉助「數據」這一基礎,可視化新聞在來源和表現形式上,都較傳統的以文字和單一的新聞圖片為主要表現形式的新聞報導有較大差異。
  • 從數據可視化到交互式數據分析
    這篇文章,以及之前的演講,旨在更好地定義可視化在數據分析中的角色,並激發更多關於可視化領域正在發生的事情的討論,遺憾的事,這件事情並沒有像其他事情那樣引人注目。但為什麼要專注於分析?它有什麼特別之處?我的理由是,數據分析是一項基礎的人類技術活動,它有可能幫助人們解決重要的社會和科學問題。更確切地說,我認為數據分析很重要。
  • IBM發新產品應對大數據
    全世界每天有超過250兆字節的數據,從傳感器、移動終端、網絡交易、社交網站等形形色色的地方產生;過去兩年內產生的數據量,就佔了有史以來的90%。數據分析一直是業界熱點,社交媒體、移動計算等興起後,對非結構化數據的處理成為焦點,大數據成為熱詞。2009年4月,IBM提出業務分析與優化(BAO,Business Analytics Optimization)戰略,應對大規模數據的處理。
  • 淺談數據可視化
    數據可視化,是利用計算機圖形學和圖像處理技術,將數據轉換為圖形或者圖像在屏幕上顯示出來進行交互處理的理論方法和技術。當然這是最基本的理解,進一步來說,數據可視化毫無疑問是基於數據的,我們很幸運地處於這樣一個讓我們興奮的時代,數據科學讓我們越來越多地從數據中發現人類社會中的複雜行為模式,以數據為基礎的技術決定著人類的未來,但並非是數據本身改變了我們的世界,起決定作用的是我們可用的知識。大數據已經改變了我們生活工作的方式,也對我們的思維模式帶來影響。
  • 數據可視化技術的應用,行業優秀案例分享
    數據可視化並不是什麼新型技術,二十世紀50年代電子計算機圖形學的初期,就可以利用軟體建立出了第一批圖形圖表。伴隨著近幾年來大數據備受關注,網際網路端數據剖析產品盛行。企業歷經前些年IT系統基本建設後累積了很多數據,包含業務流程數據、客戶數據、以及他第三方數據。
  • 看風電行業如何利用數據可視化
    風電智能化首先遇到的是感、知覆蓋度的挑戰。在風電場運行過程中會遇到各種問題,越高覆蓋度的提升資產感知力,越能捕捉到運行中的問題,從而規避運行風險。集中精力對一颱風機或一個風電場進行感知力的智能化改造不難,但當面對成百上千個風況地形各異的風電場、數萬臺型號不一的風機時,全覆蓋的提升感知力挑戰難度非常大。
  • 100%數位化,中南醫院聯合浪潮存儲應對影像大數據挑戰
    隨著臨床診斷數據的快速積累,新冠肺炎的影像學大數據特徵逐漸清晰,CT影像結果對疫情診斷變得愈發重要。而CT正是基於X射線的醫學影像檢查手段。 醫學影像技術憑藉非侵入方式取得人體內部組織影像,成為醫生診斷治療各種疾病的得力助手。除了我們常聽說的X光、CT、核磁,還有診斷和指導腫瘤治療的PET、讓在血管裡放支架成為可能的血管造影。
  • 海洋數據三維可視化
    海洋數據可視化平臺指通過海洋信息三維可視化技術,實現海洋信息數據的可視化。海洋數據可視化是科學管理海洋數據的重要組成部分,它能夠將無法直接查看的數據以直觀的圖形方式展示出來,提高海洋數據研究利用能力,能提髙數據訪問效率及安全性。
  • 大數據時代的大數據技術與應用有哪些.
    從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。  在解決了這些難題的同時,也意味著大數據開始向縱深方向發展。大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。
  • 數據可視化的一些思考丨從三個問題看數據可視化的商業前景
    數據可視化的本質,是將數據呈現,讓觀眾有視覺化思考能力,放在十年前,其實就是EXCEL與PPT的結合。隨著相關技術的成熟,和人們對閱讀體驗的需求更新,越來越多的數據中控大屏、人機互動系統應運而生。這是一個值得深入的市場嗎?不妨從以下三個問題,找出答案。
  • 醫療健康大數據:應用實例與系統分析
    信號處理是一組用來識別、分析、處理信號的技術;仿真是模擬一個複雜系統行為的技術,經常被用來預測;可視化是將數據處理為圖像、圖標、動畫,以幫助人類直觀了解數據。2.2 大數據處理平臺大數據的特點決定了傳統的資料庫軟體和數據處理軟體無法應對存儲、處理、分析大數據的任務。大數據處理任務由運行在數十臺,甚至數百臺伺服器的大規模並行軟體完成。
  • 數據可視化的基本流程
    數據可視化不是簡單的視覺映射,而是一個以數據流向為主線的一個完整流程,主要包括數據採集、數據處理和變換、可視化映射、用戶交互和用戶感知。一個完整的可視化過程,可以看成數據流經過一系列處理模塊並得到轉化的過程,用戶通過可視化交互從可視化映射後的結果中獲取知識和靈感。
  • 大公司都是怎麼做數據可視化規範的
    本周,表哥嘗試翻譯了一篇3次凱度信息之美獲獎者——Amy Cesal 的文章《What are Data Visualization Style Guidelines》,一起看看她是如何看待數據可視化設計系統的吧!1、什麼是數據可視化設計系統?
  • 一文了解大數據管理的技術
    現在,讓我們來談談這個領域是如何發展的,或者更準確的說,它所面臨的挑戰。數據上的挑戰在某種形式上,這個層面的知識是指當處理數據時你需要解決的問題。你可以這樣想:有大數據的地方,就有大的問題和挑戰。當你在進行某個層面上的數據處理工作時,你將需要一些特定的技能。
  • 數據中心環境運維的新方式,讓機房溫度可視化
    在物聯網的大趨勢下,機房的設備信息以及一些環境信息變成了數據擺在了人們面前。在這個大數據的時代,數據的可視化不僅體現在數據值本身,更應該通過數據的變化來獲取一些信息。我們今天的主題,機房溫度雲圖,它通過不同的顏色來展示機房機櫃溫度的高低及變化,將之形象化出來,讓人們更加直觀的觀察溫度值的變化。 數據中心運維,喜冷怕熱。