自建Superset數據可視化平臺

2021-02-19 Imitation

因為文章內容太長了,防止大家看的疲憊,所以這篇文章分為上下集。上半部分,會講一下如何安裝superset mac docker版,以及基本介紹superset的功能。下半集教大家如何用superset製作一個疫情地圖。

在前言之前,我們先看一下效果吧。



前言 & Superset介紹

數據可視化話可以說是非常實用的一個技能,無論是Excel圖標,Python可視化,都可以讓大量的數據變得不是那麼枯燥,讓人一眼就能看出數據所反應的問題。如果你擅長vba,即使用Excel也能做出非常有用的動態可視化圖表,相比來說Python的確更適合用來數據可視化。

基於我的淺薄理解,數據可視化就是Business Intelligence, 常見的商業BI工具包括Tableau,Power BI等等。而有些公司則自己開發BI工具,比如我們要講的Superset,就是Airbnb的工具。

BI工具的Dashboard功能可以方便我們動態的查看想要的細節,比如說今年疫情新聞的丁香醫生疫情地圖,從地圖上,我們可以看出每個省份的疫情狀況,點擊省份,則又可以查看市級情況,只要Dashboard做好了設定,可以一層一層的深入了解。

商用BI dashboard就是這麼一個設置好了層級,可以逐步分析發現問題的平臺。企業一般根據需求預設及格Dashboard,連接資料庫,實時更新數據,尋找問題。

數據可視化也好,數據分析也好,在商業環境下,其實更多是配合需求講出一個故事來。根據需求,可以迴避不好的數據,或者編造一個自圓其說不易戳穿且有數據為證的謊言。此處推薦我正在看的一本書《簡單統計學:如何識別一本正經的胡說八道》,你可在學習如何識別偽數據分析的同時掌握一下如何一本正經胡說八道的技能,並反應到ppt當中,我相信對於職業生涯還是很有幫助的。

那麼我為什麼不用Python呢,額,是因為我自學的水平有點爛,所以挑了這個自帶了很多可視化效果的Superset,你也可以選擇其他的開源數據平臺,或是試用Tableau

Superset自帶了近二三十種可視化模板,可以根據需求自由調配。通過模板組合稱dashboard即可實時使用。

Superset的層級結構如下:

第一個單位是table(導入database並不能直接實用,你只能每次使用一張表,當然還有一個騷操作,你可以在SQL Lab功能中篩選出多張表之間的數據生成你需要的表)

第二個單位是charts(以前叫slices) (Charts就是你根據單個table生成的視圖模板,每次只能生成一個,你可以用同一張表生成不同的charts)

第三個單位就是dashboard了 (由Charts匯聚而成,你可以添加篩選工具,細化你需要了解的內容)

希望這些內容能讓你了解到數據可視化,BI以及superset的一些基本知識,我的理解如果有出錯的地方,也歡迎各位大佬指正。

那接下來,就從目錄開始,安裝並開始基本使用。

目錄

macOS docker

Superset安裝

創建admin帳號

基本使用(功能介紹)

基本使用-csv上傳

基本使用-資料庫連接

案例-新冠肺炎可視化分析設置

基本使用-數據清理及格式

基本使用-可視化

基本使用-Dashboard

macOS Docker

關於如何使用macOS作為伺服器,請參考第一篇公眾號文章

大部分功能都能在mac docker上很好的運行,但是純host模式的網絡模式鏡像不適用於mac docker。如果你已經有了基本的docker使用經驗,可以直接開始了,當然,沒有相關經驗,也可以從下載一個dmg開始,Mac Docker下載。因為我會提供最直接的代碼供大家複製黏貼。

Superset安裝

首先交代一下,我使用的是Dockerhub上的現成鏡像amancevice/superset,點擊連結可以查看原文。

以下內容全部在termianl中操作

拉取鏡像:

docker pull amancevice/superset

需要注意下面的命令,『 -v /你的/資料庫儲/路徑 』,這句請修改為你本機資料庫存儲路徑,或者你可以直接將容器完全連通本機全盤;另外如果需要換埠,請修改『 -p 8021 』,創建容器:

docker run -d --name superset -p 8021:8088 -v /你的/資料庫儲/路徑:/home/superset amancevice/superset

至此,Superset已完成安裝,需要注意,此時你雖然可以訪問192.xx.xx.xx:8021了,但你並沒有用戶名和密碼。

創建admin帳號

以下內容全部在termianl種操作

創建admin,請直接輸入一下命令:

docker exec -it 容器id fabmanager create-admin --app superset

系統會提示你創建密碼,兩次確認即可。

我在windows上配置完密碼之後,還初始化了superset自帶的世界人口資料庫案例,鑑於我之後會以一個實例來講,我就不多次一舉了,當然,如果你想看看,請執行以下命令:

docker exec -it 容器id superset db upgrade

至此,你可以打開並登陸Superset了

基本使用(功能介紹)

Superset畢竟是Airbnb這麼一個商業公司使用的平臺。所以在權限這塊還是考慮的算是挺全的,雖然沒有SSO等複雜對接。但他的權限組成方式是類似於SAP的角色代碼(由302個基本權限 組成角色權限 再分配給用戶),還包括一些簡單的日誌審計功能。個人使用無所謂了,對於團隊或公司使用,不同職能查看不同的數據,不同的dashboard,團隊使用是夠了,大型公司大量Dashboard及數據接入是否能夠正常運行,我就不確定了。

包含了dashboar樣式的導入,css樣式的自定義等,這方面我也不是很懂了,主要是界面查看的自定義。我就不做解釋了。

這個比較重要,是所有數據連接的關鍵點, 你有兩個選擇,連接資料庫,或者是上傳CSV,這兩個內容會在後面講。 table選項則是我們進去自定義數據分析方式的入口,主要就是這個。至於Druid,是海量數據下進行交互式實時數據展現的 BI/OLAP 工具(我也不懂,懵逼,我還沒用到這個地步)。

Charts存儲著我們對原始數據生成的一些展示方式,就像這樣。我們可以選擇不同的展示方式,比如下圖種的時間折線圖。再通俗點,就是先篩選excel的數據,再做了個折線圖。使用Superset,你可以擁有很多看起來更高大上的,比如蛇形圖,比如城市熱點圖等等。

BI,或者說是數據分析的精華,由不同的Charts組成,根據不同的數據類型設計不同的Charts,然後合併到一起,更方便的從多個緯度查看數據情況。這裡就放一張superset的官宣圖吧。

Superset一直被詬病的一點是只能使用單張表格的數據,excel都能多表vlookup呢,你一個大數據平臺居然沒這功能。無意囉嗦兩句,superset本身就是作為一個公司內部某部門的需求開發出來的,人家當時的需求分析的數據可能就只是在某個資料庫的某一張表裡。現在開源以後有了SQL Lab,幹嘛呢?需要跨表跨資料庫?可以曲線救國,從多張表中用sql select出你需要的數據,生成一張新的表,用excel的話來說,就是vlookup出多張表的數據,然後創建一個新的表,用這張新表去做分析。

Superset的基本功能介紹先到這裡,接下來,開始數據導入。

基本使用-csv上傳

我會講到如何去關聯資料庫,但對於初學者,或者不擅長資料庫的人來說(妄加斷言,大部分真正有BI需求的人,幾乎都不懂資料庫)

所以,我們從簡單的CSV上傳開始說吧。也沒那麼簡單,一般中文系統中文excel下導出的csv往往編碼不對,所以,你無法成功的向Superset中導入csv。

數據清理,這個非常重要,擅長使用sql語句清理資料庫的,相信大部分人都做不到,所以,在學習過程中,可以選擇excel整理完成後到處 utf-8格式的csv

macOS 導出 utf-8 csv,非常簡單,另存為 - 格式 - csv(utf-8)

Windows,請參考百度經驗 , 希望沒有ETC跑出來指責我為什麼不用高貴的Google而是百度

好了,點擊upload,完成我們的上傳。接下來就可以去Sources - Tables當中折騰我們的數據了。

基本使用-資料庫連接

資料庫連接,在Sources - Databases當中,選擇添加,以SQLAlchemy URI關聯資料庫。作為使用Superset自學數據可視話的我來說。我也就用了一個sqlite嘗試了,更多的資料庫連接方式,請查看SQLAlchemy指引

sqlite:////home/superset/home-assistant_v2.db

在資料庫連接過程中,我建議你勾選allow csv upload,其餘不用設置(應該說是按需設置)。如下圖:

那在下一期的文章,我將教大家利用現有數據製作疫情地圖網站。



相關焦點

  • 大數據分析平臺的可視化數據探索趨勢
    以「大數據分析」為關鍵詞去進行搜索,你可以在大多數條目中看到「數據分析平臺」和「可視化」的概念。在發展受到局限時,人類喜歡並擅長於去使用工具和製造工具。人類對圖形信息的攝取效率遠大於單純的文字數字。所以在信息流數量與流動速度爆炸都爆炸式增長的現狀下,自然地催生了可視化大數據分析平臺這類產品。數據可視化旨在藉助於圖形化手段,清晰有效地去傳達與溝通信息。
  • 百度數據可視化實驗室正式成立,發布深度學習可視化平臺 Visual DL
  • 寧夏殘疾人康復中心 - 智慧醫療數據可視化分析平臺
    寧夏殘疾人康復中心 - 智慧醫療數據可視化分析平臺 2020年10月13日 10:25作者:黃頁編輯:黃頁 為了提高數據管理的效率,充分發掘現有數據資源的價值,中心考慮採用專業的商業智能軟體,搭建適合自身企業發展的綜合數據可視化平臺。
  • 倫敦創企Flourish推出數據可視化平臺,助力企業高效理解分析數據
    )】3月29日報導 (編譯:Yilia)倫敦一家創企Flourish於近日推出了數據可視化平臺,讓公司(包括媒體組織)能更容易地從數據中獲得出結論。公司的聯合創始人為Duncan Clark和Robin Houston,前者曾是一位數據新聞記者,後者是一位計算機科學家。去年3月份,Flourish進入Founders Factory加速器後(該加速器與英國衛報新聞有媒體合作項目),就開始開發這個平臺。
  • 數據可視化設計系列(1): 數據可視化的定義
    這樣理解來,」可視化「也在描述一種「讓大家看見的」發展方向,或者能力。數據可視化的領域是廣博且在不斷擴展的,那用五個字去完整地整個領域終究稍顯單薄。本文旨在給數據可視化(Data Visualization)下一個定義,盡力為大家引入數據可視化的無窮趣味和無儘可能性。那麼,什麼是數據可視化呢?
  • 數據可視化與信息可視化怎麼搞?
    我們常常迷失在數據中,紛繁複雜的數據讓我們無所適從。可視化作為解決這問題的有效手段,通過視覺的方式讓數字易於理解。本文梳理了可視化相關內容,並且根據數據平臺組同仁們在可視化項目過程中使用經驗,總結一些可視化使用注意事項,與大家分享。
  • 大數據產品分析:淺析數據可視化
    數據可視化的發展,將改變傳統的管理方式,讓數據的呈現更及時、更直觀、更簡單。數據可視化是什麼?數據可視化——藉助於圖形化手段,清晰有效地傳達與溝通信息同時對數據進行交互分析。為什麼需要?由於人類大腦在記憶能力的限制,所以我們利用視覺獲取的信息量多於感官,在大數據與網際網路時代,企業從傳統的流程式管理方式過渡到基於數據的管理方式將會成為必然的趨勢,數據可視化能夠幫助分析的人對數據有更全面的認識。
  • 臺達4K雷射DLP打造智慧工商大數據可視化平臺
    在當前經濟生活中,科學的工商制度方法和真實的工商數據是政府部門和決策者客觀分析經濟形勢、準確把握經濟走勢的重要基礎。近年來,包括政府工商數據在內的大數據資源迅猛增長,已成為與自然資源、人力資源同樣重要的國家基礎性戰略資源,成為促進經濟增長和轉型發展的新動力和提升政府治理能力的新途徑。
  • 對比3家平臺,我總結了疫情數據可視化的8點經驗
    開年以來,隨著疫情方面的數據逐漸增多,一些網際網路公司也紛紛發布一些可視化的數據產品服務,讓用戶可以實時並直觀了解最新情況,可謂一個便民利器。而本文,則通過丁香醫生、今日頭條以及騰訊新聞推出的「疫情實時動態」可視化服務,總結分享其中運用到的一些常見的數據可視化經驗。
  • 數據可視化工具大集合
    所謂數據可視化是對大型資料庫或數據倉庫中的數據的可視化,它是可視化技術在非空間數據領域的應用,使人們不再局限於通過關係數據表來觀察和分析數據信息
  • 數據可視化的十大優點
    這是數據可視化的步驟,允許組織領導者實時訪問和解釋數據,以便他們能夠快速做出明智的決策。   數據可視化工具為技術、管理人員和其他知識工作者提供了新方法,可以顯著的提高他們掌握隱藏在數據中的信息的能力。
  • Superset 0.34.1 發布,數據探查與可視化平臺
  • 3D數據可視化平臺3DataAnalytics獲130萬美元種子輪融資
    8月12日消息,3D數據可視化平臺3Data Analytics宣布獲得130萬美元種子輪融資,本輪融資分別來自馬克·庫班公司、HTC Vive等投資方。據悉,3Data Analytics也是HTC Vive X孵化器投資的初創公司之一。
  • 3D數據可視化平臺3Data Analytics獲130萬美元種子輪融資
    8月12日消息,3D數據可視化平臺3Data Analytics宣布獲得130萬美元種子輪融資,本輪融資分別來自馬克·庫班公司、HTC Vive等投資方。據悉,3Data Analytics也是HTC Vive X孵化器投資的初創公司之一。
  • 數據可視化工具的特點有哪些
    導讀 數據可視化使用的越來越廣泛,已經成為企業和機構迅速取勝的法寶,推動各行業可視化、智能化升級轉變。
  • 39個大數據可視化工具
    SAS Visual Analytics // @SASsoftwareSAS可視化分析工具為了更加全面的分析能夠探索各種尺寸的數據集可視化。擁有直觀的平臺和自動化預測工具,SAS視覺分析允許甚至可以讓無技術基礎的用戶來探索數據和潛在機會之間更加深層次的關係。
  • 大數據時代人民網可視化數據新聞研究
    數據新聞可視化設計的反思與創新路徑——以2014「數據新聞獎」作品為例 [J]. 新聞界, 2015, 09): 55-60.][[5]的觀點以強調可視化設計對數據新聞的重要性。 沈甜(2015)在研究數據新聞在我國新媒體平臺的實踐與發展過程中認為:「一篇數據新聞的製作動機有兩種,第一種是先產生問題,然後根據問題通過各種渠道來挖掘解決問題的數據,第二種是先有數據,從數據中發現問題,提出問題。」[[6] 沈甜. 「數據新聞」在我國新媒體平臺的實踐與發展現狀探究----以網易. 「數讀」和騰訊「新聞百科」為例[D].
  • 智慧警務系統開發app,智慧公安大數據可視化平臺建設
    智慧警務系統開發app,智慧公安大數據可視化平臺建設隨著城市化進程的加快及經濟發展,我國社會治安構成要素日漸膨脹,給公安機關警務工作帶來很大壓力,而警力資源則幾乎未增長,導致供需矛盾日益激化。警務工作在人工智慧、大數據及雲計算等技術融合的驅動下,呈現出新的發展特徵。"智慧警務"的提出順應了警務智能化的潮流,是警務智能化的一種重要形態。智慧警務以提升公安機關核心戰鬥力為主要目標,以實施大數據戰略為路徑,以大數據、雲計算、人工智慧、移動網際網路、物聯網等技術為支撐,打造警務工作智慧化的新理念和新模式。
  • 值得推薦的數據可視化工具都在這
    AntV 又是螞蟻金服出品(阿里系)的一套數據可視化語法,貌似是國內第一個採用The grammar Of Graphics這套理論的可視化庫。antv帶有一系列的數據處理API,簡單數據的數據歸類,分析的能力,被很多大公司用作自己BI平臺的底層工具。
  • 有哪些值得推薦的數據可視化工具?
    可用於業務數據的快速分析,製作dashboard,也可構建可視化大屏。tableau的平價替代,有別於Tableau的是,企業級數據分析的功能更多。antv帶有一系列的數據處理API,簡單數據的數據歸類,分析的能力,被很多大公司用作自己BI平臺的底層工具。 2、可視化報表類——適合報表開發、BI工程師Tableau幾乎是數據分析師人人會提的工具,內置常用的分析圖表,和一些數據分析模型,可以快速的探索式數據分析,製作數據分析報告。