【IT168 專稿】導讀:大數據的核心不是「大」,也不是「數據」,而是蘊含在其中的商業價值。作為挖掘數據背後潛在價值的重要手段,商業智能和分析平臺成為大數據部署中的關鍵環節。然而,獲取價值的難點並不在於數據分析應用的部署,而在於專業數據分析人才的缺乏。市場研究機構IDC甚至認為,數據分析人才的欠缺可能會成為影響大數據市場發展的重要因素。
「讓每個人都成為數據分析師」是大數據時代賦予的要求,數據可視化的出現恰恰從側面緩解了專業數據分析人才的缺乏。Tableau、Qlik、Microsoft、SAS、IBM等IT廠商紛紛加入數據可視化的陣營,在降低數據分析門檻的同時,為分析結果提供更炫的展現方式。為了進一步讓大家了解如何選擇適合的數據可視化產品,本文將圍繞這一話題展開,希望能對正在選型中的企業有所幫助。
一、數據可視化概述
數據可視化是技術與藝術的完美結合,它藉助圖形化的手段,清晰有效地傳達與溝通信息。一方面,數據賦予可視化以意義;另一方面,可視化增加數據的靈性,兩者相輔相成,幫助企業從信息中提取知識、從知識中收穫價值。
維基百科對數據可視化的定義較為權威,它認為數據可視化是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。
1.發展歷史
數據可視化的歷史可以追溯到二十世紀50年代計算機圖形學的早期,人們利用計算機創建出了首批圖形圖表。到了1987年,一篇題為《Visualization in Scientific Computing(科學計算之中的可視化,即『科學可視化』)》的報告成為數據可視化領域發展的裡程碑,它強調了新的基於計算機的可視化技術方法的必要性。
隨著人類採集數據種類和數量的增長,以及計算機運算能力的提升,高級的計算機圖形學技術與方法越來越多的應用於處理和可視化這些規模龐大的數據集。二十世紀90年代初期,「信息可視化」成為新的研究領域,旨在為許多應用領域之中對於抽象的異質性數據集的分析工作提供支持。
當前,數據可視化是一個既包含科學可視化,又包含信息可視化的新概念。它是可視化技術在非空間數據上新的應用,使人們不再局限於通過關係數據表來觀察和分析數據信息,還能以更直觀的方式看到數據及數據之間的結構關係。
2.市場調查
IT168網站在2014年3月進行了一項有關數據可視化的調查,從中可以看出,當前已經部署數據可視化的企業僅為15%,但有56%的企業計劃1-2年內部署相關應用。從企業部署可視化的目的來看,排在前三位的分別為:通過可視化發現數據的內在價值(36%)、滿足高層領導的決策需要(30%)和滿足業務人員的分析需要(25%),僅有9%的企業選擇需要更美觀的展現效果。
▲數據可視化知名度、流行度和領導者調查
在針對Tableau、Qlik、Tibco software、SAS、Microsoft、SAP、IBM和Oracle八家數據可視化產品和服務提供商的調查中,筆者分別從知名度、流行度和領導者三個角度進行分析。從知名度來看,八家廠商幾乎不分先後,只有微小的差距;從流行度來看,SAP、IBM和SAS佔據前三位,所在比例分別為19%、18%和17%;從領導者來看,Tableau以40%的優勢遙遙領先,這與2014年Gartner的魔力象限排名也非常吻合。
3.技術趨勢
數據可視化的思想是將資料庫中每一個數據項作為單個圖元元素,通過抽取的數據集構成數據圖像,同時將數據的各個屬性值加以組合,並以多維數據的形式通過圖表、三維等方式用以展現數據之間的關聯信息,使用戶能從不同的維度以及不同的組合對資料庫中的數據進行觀察,從而對數據進行更深入的分析和挖掘。
傳統的數據可視化工具僅僅將數據加以組合,通過不同的展現方式提供給用戶,用於發現數據之間的關聯信息。近年來,隨著雲和大數據時代的來臨,數據可視化產品已經不再滿足於使用傳統的數據可視化工具來對數據倉庫中的數據抽取、歸納並簡單的展現。新型的數據可視化產品必須滿足網際網路爆發的大數據需求,必須快速的收集、篩選、分析、歸納、展現決策者所需要的信息,並根據新增的數據進行實時更新。因此,在大數據時代,數據可視化工具必須具有以下特性:
(1)實時性:數據可視化工具必須適應大數據時代數據量的爆炸式增長需求,必須快速的收集分析數據、並對數據信息進行實時更新;
(2)簡單操作:數據可視化工具滿足快速開發、易於操作的特性,能滿足網際網路時代信息多變的特點;
(3)更豐富的展現:數據可視化工具需具有更豐富的展現方式,能充分滿足數據展現的多維度要求;
(4)多種數據集成支持方式:數據的來源不僅僅局限於資料庫,數據可視化工具將支持團隊協作數據、數據倉庫、文本等多種方式,並能夠通過網際網路進行展現。
4.專家觀點
中國傳媒大學新聞學院沈浩教授:隨著非結構和半結構化數據的增長,數據可視化的發展需要迎合多類型的數據,詞雲、泡泡圖、熱圖等形式的出現更加貼合新的數據類型。另外,在展現形式上,數據可視化工具還應該滿足直接發布到雲端、移動端的需求。
阿里巴巴數據平臺事業部資深開發工程師寧朗:數據可視化是大數據和大智慧之間的橋梁,大數據將數據變為設計師,每個人都可以利用。
Splunk中國區高級售前工程師崔玥:數據可視化重新定義了數據分析,如同Windows重新定義了作業系統,它將數據從晦澀的代碼中脫離出來,通過簡單的圖形界面和大眾更易接受的方式,提供一個展現、監控數據的平臺,讓數據分析工作更簡單。
QlikView南北亞區售前經理張子斌:數據可視化利用人類發現複雜數據中的異常、模式、趨勢甚至相關性的天然能力,這是我們無法用數據的行和列做到的。好的數據可視化伴隨有內存中的關聯技術、移動和社交商業探索能力,能讓使用者自由、高效地挖掘數據以找出重要規律並做出時間關鍵的決策。