〈導語〉
大數據分析工程師除了要知道如何處理數據、進行分析,對於分析的結果進行可視化呈現也是必備的技能。本文就來介紹一下可視化分析平臺-Tableau。
可視化的重要性
想像一下你辛辛苦苦做了一堆分析,得出來的數據卻沒有人看得懂,你該怎麼辦?
這個時候你需要藉助可視化來展示你的結果,俗話說,有圖有真相,一圖勝千言。數據可視化主要旨在藉助於圖形化手段,清晰有效地傳達信息,同樣的結果不同的展現方式給人不同的信息體驗。
決策者需要的是快速直觀準確讀懂數據中蘊含的信息 ,所以這些數據不能只是一堆結果數據,要通過科學的可視化展示出來讓決策者直觀的通過可視化了解這些數據背後的含義。
本文的主要目標
1)認識Tableau可視化軟體
2)簡單使用Tableau Desktop軟體
3)如何學習Tableau
4)了解下其他可視化工具
本文的講解思路
本文圍繞Tableau可視化工具進行講解,通過介紹Tableau的功能和使用讓讀者對Tableau有初步的認識,同時給出了Tableau的學習指南,最後介紹了其他的可視化工具。
×××
以下為正文
Tableau簡介
作為一款商業數據分析可視化工具,Tableau 已連續 7 年穩居「Gartner 商業智能和分析平臺魔力象限」領導者!2019年6月10日,Salesforce以天價157億美元收購Tableau,創雲營銷平台歷史上最大收購事件。
簡單的來說,Tableau是一款可以幫助人們快速分析、可視化並分享數據信息的工具。
它將數據運算和圖表展示完美結合起來,不需要編碼基礎,軟體非常容易上手,通過簡單的拖拽去製作精美的圖表,這樣一款工具深受數據分析師和商業分析師的青睞。
簡便地無編碼拖拽式操作
開箱即用,快速製圖
內置美觀的可視化圖表,不用考慮配色,格式
強大的權限管理
方便易用的數據訂閱服務
Tableau Prep Builder 是 Tableau 產品套件中的一個新工具,使用 Tableau Prep Builder 來合併、調整和清理數據,以便在 Tableau 中進行分析。
Tableau Desktop 是Tableau 套件中負責製作可視化視圖的工具,連接所需數據源後,通過拖拽的方式構建所需的可視化視圖,發布到Tableau Online或者Tableau Server上。
Tableau Online 是完全託管在雲端的分析平臺。發布儀錶板並與任何人共享自己的發現。所有內容均可通過瀏覽器輕鬆訪問,還可藉助移動應用隨時隨地進行查看。這樣既獲得 Server 的共享和協作功能,又不需要真正管理伺服器,無需維護任何硬體。
Tableau Server輕鬆跟蹤和管理內容、用戶、許可證和性能。快速管理數據源和內容的權限,直觀監視使用情況。隨時可以進行縱向、橫向擴展。可以部署到本地或者私有雲上。
Tableau必知
1)支持多種類型數據
Tableau支持連接到存儲在各個地方的各種數據。可以是存儲在計算機上的電子表格或文本文件中,或存儲在企業內伺服器上的大數據、關係或多維數據集(多維度)資料庫中,也可以連接到 Web 上提供的公共域數據,如美國人口普查局信息,或連接到雲資料庫源,如 Google Analytics、Amazon Redshift 或 Salesforce。
2)連接方式
支持實時連接和數據提取。實時連接每次打開視圖都會去伺服器撈取數據,適合數據量小,即席查詢速度快的數據源;而數據提取是將數據拉取到本地或者Tableau Server伺服器中,這樣每次打開視圖就會從本地或者Tableau Server伺服器中去撈取數據,對原始的數據伺服器不會產生壓力。
1)什麼是視圖
能夠展示數據的圖都可以稱做視圖,Tableau中的視圖有三種形式-工作表、儀錶板和故事,其中儀錶板由工作表組成,故事可由工作表和儀錶板組成-類似PPT形式,工作表是最基本的視圖,這三種都可以進行分享和發布。下圖依次表示工作表、儀錶板、故事的標識。保存視圖的文件叫做工作簿。
2)可以做哪些圖
Tableau支持大部分的圖表類型,內置了二維表、熱圖、突顯表、地圖、餅圖、條形圖、柱狀圖、折線圖、散點圖、面積圖、盒須圖、甘特圖、標靶圖、氣泡圖等。選擇相應的數據後,點擊智能顯示中的圖表類型就能直接生成圖表。
除了這些內置的圖表類型,Tableau還支持生成其他複雜的圖表,下面自行感受下吧。
製作可視化視圖的界面,叫做Tableau工作區,這裡是一切精美視圖的工廠,必須了解它的全部功能和含義,下圖是工作區的圖示,具體位置的含義見下方的說明。
A. 工作簿名稱 - 工作簿包含工作表,後者可以是工作表、儀錶板或故事。
B. 卡和功能區 - 將欄位拖到工作區中的卡和功能區,以將數據添加到視圖中。
C. 工具欄 - 使用工具欄訪問命令以及分析和導航工具。
D. 可視化區 - 顯示可視化圖表區域。
E. 單擊此圖標轉到「開始」頁面,可以在其中連接到數據。
F. 側欄 - 側欄區域包含「數據」窗格和「分析」窗格。
G. 單擊此選項卡可轉到「數據源」頁面並查看數據。
H. 狀態欄 - 顯示有關當前視圖的信息。
I. 工作表標籤 - 標籤表示工作簿中的每個工作表。這可能包括工作表、儀錶板和故事。
1)維度包含定量值(例如名稱、日期或地理數據)。可以使用維度進行分類、分段以及揭示數據中的詳細信息。維度影響視圖中的詳細級別。
2)度量包含可以測量的數字定量值。度量可以聚合。將度量拖到視圖中時,Tableau(默認情況下)會向該度量應用一個聚合。
維度和度量可以在工作區的數據窗格中查看,維度和度量可以相互轉換。
Tableau 在視圖中以不同的方式表示數據,具體取決於欄位是離散欄位(藍色)還是連續欄位(綠色)。連續和離散是數學術語。連續意指「構成一個不間斷的整體,沒有中斷」;離散意指「各自分離且不同」。
綠色度量 和維度 是連續的。連續欄位值被視為無限範圍。通常,連續欄位會向視圖中添加軸。
藍色度量 和維度 是離散的。離散值被視為有限。通常,離散欄位會向視圖中添加標題。
數據源中的每個欄位都具有一種數據類型。數據類型反映了該欄位中存儲的信息的種類,例如整數 (410)、日期 (1/23/2015) 和字符串(「Wisconsin」)。欄位的數據類型在「數據」窗格中由以下所示圖標之一來標識。
篩選器的作用就是對數據做過濾操作,分為數據源篩選器和視圖篩選器。
1)數據源篩選器
在連接數據源的時候可以對數據源增加篩選操作。
2)視圖篩選器
視圖篩選器顧名思義是在製作視圖的時候進行篩選操作,它的位置在工作區的功能區域中。
標記卡在視圖構建的使用頻率是最高的,因為它可以調整視圖的圖表類型、顏色、大小、標籤、提示文字,下面重點說明下常用的圖表類型、顏色、大小這三個功能。
1)圖表類型
通過下拉菜單可以切換12種基本的圖表類型。
2)顏色卡片
將維度或者度量拖到顏色卡片中,可以根據維度和度量的信息顯示不同的顏色,默認一套顏色,也可以進行調整。
3)大小
將維度或者度量拖到大小卡片中,可以根據維度和度量的信息來決定視圖元素的大小,整個比例可以點擊大小卡片進行設置。
1)共享數據
向其他 Tableau Desktop 用戶提供數據源時,可以將其發布到 Tableau Server 或 Tableau Online。如果數據源在 Tableau Server 或 Tableau Online 的工作簿中,則可以通過保存數據源來提供數據源,前提是它是嵌入式 Excel 或文本文件。
2)共享視圖
可以將視圖發布到 Tableau Server 或 Tableau Online,以與其他成員共享視圖。發布之後,可通過 Web 瀏覽器或 Tableau 移動應用訪問內容。
Tableau Server有一套完整的站點權限管理機制,可以設置用戶和用戶組可以訪問的站點、項目、工作簿、視圖、數據源,不同用戶有相應的角色,不同角色對應不同的權限,也可以自定義權限。
1)站點角色
在Tableau Server中用戶在新建的時候都會賦予一種站點角色,不同的角色默認權限不同,支持自定義權限。
如上圖所示,站點角色包括站點管理員、發布者、交互者、查看者、未許可,其中站點管理員具備所有的權限,而未許可無任何權限,其他角色的權限,請看下圖:
定時調度也就是定時啟動一個任務去執行相應的操作,目前可以支持數據刷新和郵件訂閱
1)數據刷新
可以為發布的數據提取數據源或連接到該數據提取的已發布工作簿計劃刷新任務,支持全量刷新和增量刷新。
2)郵件通知
通過郵件的方式去查看相應的報表數據,是一個很普遍的需求,可以在相應的視圖中去進行郵件訂閱,然後選擇相應的調度時間,就完成了郵件訂閱;另外一種郵件通知是用在郵件告警上,當視圖中的某個度量的值滿足相應的條件(過高、過低或者達到一個特殊值)就發送郵件通知。
小試牛刀
目的:分析下不同省份的銷售額及不同產品類型的銷售額
通過Tableau Desktop製作一個在地圖上顯示餅圖,根據每個省的銷售額顯示餅圖的大小,餅圖內部由各類別組成,可以一眼看出哪個省份的銷售額最高及哪種產品的銷售額最高。
這裡的數據源採用Tableau Desktop自帶的超市數據。
連接Tableau自帶的示例數據,選擇訂單表。
更改省份的地理角色為省/市/自治區,雙擊省份,這將在行和列上自動生成經度和緯度。將省份拖到標籤,顯示每個省的標籤。
將銷售額欄位拖到大小標記卡上,並調整顯示圓的大小比例。
將類別欄位拖到顏色標記卡上,並將標記卡的類型改為餅圖。
這樣一份完整的視圖就完成了,簡單而又清晰的表達出各省的銷售額情況。
學習指南
Tableau如何學習其實是一個範圍很大的問題,本文所介紹的只是一點皮毛,讓讀者對Tableau有一個初步的認識,想要熟練的在工作中使用最有效的方法是將官方的文檔實際操作一遍,Tableau的官方文檔從入門到精通有詳細的進階教程。
網址:
http://www.tableau.com/zh-cn/learn/training
從中可以學到:
工具界面操作
文件的發布和共享
連接資料庫、連接文本數據、發布數據源、數據提取、數據關聯等
分組、集、數據桶、參數、排序、參考線、趨勢線、篩選器、預測等
創建儀錶板和故事
一般常用圖形繪製及地圖繪製
計算欄位以及LOD表達式(「超越視圖級別」 詳細級別表達式)
格式調整與布局
比視頻更詳細的手冊,可下載相應版本PDF。
https://www.tableau.com/zh-cn/support/help
https://public.tableau.com/
Tableau Public 這裡聚集了世界各地的 Tableau 粉絲,他們通過 Public 分享自己的 Viz 作品。在 Gallery 版塊上每天都會有精選 Viz 發布,並且每篇 Viz 都能夠下載,供大家學習。
通過研究大神們的作品,模仿並加以創新,創造出更棒的作品。Tableau Public上的 blog 版塊也是尋找資料的入口。裡面的文章推送,不僅包括優秀 Viz 的展示,更有作品背後故事的講述,很多還會有具體教程的乾貨分享。
還有哪些可視化工具
目前對數據進行可視化處理的形式和方法越來越多,有完全不需要編碼的可視化軟體、有專門的可視化JavaScript庫、有在線處理生成可視化結果的網站。下面就作者所了解的範疇及網上流行的可視化工具選擇性的進行介紹,所以如果沒有看到你常用的可視化工具可以在公眾號後臺留言或者直接評論,讓作者和其他讀者拓寬一下知識面。
1)在線處理類
這一類工具導入數據後,對數據的可視化處理均在線上完成,結果可以下載保存、內嵌網站或者分享到社交網站上。
RAWGraphs是一個開源數據可視化工具。旨在提供電子表格應用程式和矢量圖形編輯器之間的缺失連結,所以它只支持表格數據。另外上傳到RAW的數據僅由Web瀏覽器處理,保證了數據的安全性。
ChartBlocks 是英國的一家公司開發的製作統計圖表的線上工具,它無法取代專業的Excel等辦公軟體但是可以專注於幫我們線上快速簡單製作出漂亮的統計圖表,運用到簡報、網頁或報告文件中。
Visme平臺提供數以百萬計的免費圖片資源,各種漂亮的字體支持,數以千計的免費矢量素材可以選擇,針對個人有免費版。
Grow 提供了一個極簡、且高度個性化的數據分析平臺,能夠從多個數據源中挖掘、提取數據,並實時更新,Grow還支持從150多個數據源導入數據。
InFogram是一款支持在線製作響應式資訊圖表設計的工具,用戶通過簡單的拖拽功能組合各種圖表樣式完成精美的可視化圖表,它還支持根據顯示器屏幕的大小自動調整適合的閱讀效果。可以使用Infogram的免費模板創建信息圖、圖表和地圖,可以下載生成後的圖表,或將這些圖表嵌入到網站中。Infogram除了免費的基礎版本外,還提供專業版本、企業版本等。類似的工具還有Visual.ly。
2)平臺類
這一類一般為可視化提供一套完整的解決方案,包括數據的讀入、可視化的製作、可視化的發布及各種權限設置,Tableau也屬於這一種。
Power BI是微軟旗下的商業分析工具,可以很好地集成微軟的Office辦公軟體,可惜的是只支持Windows系統,用戶可以自由導入任何數據,如文件、文件夾和資料庫,並且可以使用Power BI軟體、網頁、手機應用來查看數據。Power BI對個人用戶是免費的。
QlikView是一個完整的商業分析軟體,使開發者和分析者能夠構建和部署強大的分析應用。QlikView應用使各種各樣的終端用戶以一個高度可視化,功能強大和創造性的方式,互動分析重要業務信息。
Sugar是百度雲推出的數據可視化服務平臺,目標是解決報表和大屏的數據可視化問題,解放數據可視化系統的開發人力。Sugar提供界面優美、體驗良好的互動設計,通過拖拽圖表組件可實現5分鐘搭建數據可視化頁面。
平臺支持直連多種數據源(MySQL、SQL Server、PostgreSQL、Oracle、GreenPlum、Baidu Palo等),還可以通過API、靜態JSON方式綁定可視化圖表的數據,簡單靈活。大屏與報表的圖表數據源可以復用,用戶可以方便地為同一套數據搭建不同的展示形式。
DataV旨讓更多的人看到數據可視化的魅力,幫助非專業的工程師通過圖形化的界面輕鬆搭建專業水準的可視化應用,滿足您會議展覽、業務監控、風險預警、地理信息分析等多種業務的展示需求。
支持的數據類型如下:
這一類的工具大多是JavaScript庫,需要一定的代碼基礎。
1)ECharts
ECharts,使用 JavaScript 實現的開源可視化庫,可以流暢的運行在 PC 和行動裝置上,兼容當前絕大部分瀏覽器(IE8/9/10/11,Chrome,Firefox,Safari等),底層依賴輕量級的矢量圖形庫 ZRender,提供直觀,交互豐富,可高度個性化定製的數據可視化圖表。
2)D3.js
D3.js是開源的數據可視化JavaScript函數庫,被認為是很好的JavaScript可視化框架之一。開發者剛開始學習D3.js時會感到很複雜,但是D3.js功能強大,非常靈活,值得開發者深入學習研究。注意D3.js無法在較低版本的IE瀏覽器中正常顯示圖形。
類似的開源庫還有:
Chart.js:它為設計人員和開發人員提供8個可定製的動態可視化展現方式,用HTML5 Canvas高效地繪製響應式圖表;
Ember Charts:它專注於圖形交互,可以繪製很多種圖表,包括時間序列圖表,有很強的錯誤處理能力,當遇到錯誤數據時,系統也不會崩潰;
Chartist.js:它可以創建複雜的響應式圖表,配置簡單,代碼簡潔,還支持自定義SASS架構;
Highcharts:它的兼容性比D3.js更好,在現代瀏覽器中使用矢量圖,在低版本的IE瀏覽器中使用VML來繪製圖形,所以它可以在所有行動裝置和電腦瀏覽器上使用。
3)Plotly
Plotly是一個功能強大的數據可視化框架,可以構建交互式圖形和創建豐富多樣的圖表和地圖。Plotly可以提供比較少見的圖表,比如等高線圖、燭臺圖(K線圖)和3D圖表,而大多數工具都沒有這些圖表。它所支持的語言不只是JavaScript,還支持諸如R,Matlab,Python等語言。
plotly繪製的圖能直接在jupyter中查看,也能保存為離線網頁,或者保存在plot.ly雲端伺服器內,以便在線查看。
總結
本文通過對Tableau可視化工具的介紹,讓讀者了解到這樣一款可以快速上手的的可視化工具,作為大數據分析工程師必備技能的補充。
最後希望讀者按照學習指南實際操作學習一下,它真的可以幫到你。
-end-