AWS發布AWS Glue DataBrew,讓數據可視化準備工作提速達80%

2020-12-01 eNet矽谷動力

AWS Glue全新的可視化數據準備工具,讓數據科學家和數據分析師能夠更快地清洗和處理數據。與傳統數據準備方法相比,速度可提高80%。

北京2020年11月19日 /美通社/ -- 日前,亞馬遜雲服務(AWS)宣布AWS Glue DataBrew正式可用。AWS Glue DataBrew是一款全新的可視化數據準備工具,客戶無需編寫代碼就可以清洗和處理數據。自2016年以來,數據工程師一直使用AWS Glue來創建、運行和監控數據提取、轉換和加載(ETL)作業。AWS Glue同時提供基於代碼接口和可視化界面,大大簡化了客戶在雲中提取、轉換和加載數據的過程。數據分析師和數據科學家們一直想要一種更簡單的方法來清洗和處理這些數據,而這正是DataBrew所能提供的。通過AWS Glue DataBrew,客戶可以直接從AWS數據湖、數據倉庫和資料庫中開展數據探索和實驗,而無需編寫代碼。AWS Glue DataBrew為客戶提供了超過250個預先構建的轉換,以自動化數據準備任務如過濾異常、標準化格式和糾正無效值。而沒有這些預先構建的轉換,往往需要幾天或幾周的時間編寫手工編碼。一旦數據準備完畢,客戶可以立即開始使用AWS和第三方的分析和機器學習服務來查詢數據和訓練機器學習模型。使用AWS Glue DataBrew不需要預付協議或費用,客戶只需要為數據集的創建和運行轉換付費。如欲開始使用AWS Glue DataBrew,請訪問:

為分析和機器學習準備數據涉及多個必要且耗時的任務,包括數據提取、清洗、標準化、加載和大規模ETL工作流的編排。為了大規模地提取、轉換和加載數據,精通SQL或Python、Scala等程式語言的數據工程師和ETL開發者可以使用AWS Glue。ETL開發者通常更喜歡現代ETL工具中常見的可視化接口,而不是編寫SQL、Python或Scala,所以AWS最近推出了AWS Glue Studio,這是一個新的可視化界面,可以幫助編寫、運行和監控ETL作業,無需編寫任何代碼。一旦數據被可靠地搬移到AWS上,就需要業務線中理解數據上下文的數據分析人員和數據科學家對這些數據進行清洗和處理。要清洗和處理數據,數據分析師和數據科學家們要不就得在Excel或Jupyter Notebooks中處理小批量的數據,從而無法處理大型數據集。又或者需要依靠稀缺的數據工程師和ETL開發人員編寫定製代碼,執行清洗和處理。為了發現數據中的異常,技術精湛的數據工程師和ETL開發者需要花費數天或數周時間編寫定製工作流,將數據從不同的源中提取出來,然後透視、轉置,多次切分數據,才能由數據分析師和數據科學家迭代,識別並解決數據的質量問題。在開發了這些轉換之後,數據工程師和ETL開發者仍然需要編排自定義工作流並持續運行來自動地清洗和規範化新傳入的數據。每次數據分析師或數據科學家想要更改或添加轉換時,數據工程師和ETL開發者就需要再次提取、加載、清洗、規範化和協調數據準備任務,這個迭代過程可能需要數周到數個月的時間才能完成。結果是,客戶多達80%的時間都花費在清洗和標準化數據上,而非真正地分析數據並從中提取價值。

AWS Glue DataBrew是一個AWS Glue的可視化數據準備工具,允許數據分析師和數據科學家無需編寫任何代碼,即可通過一個交互式、單擊的可視化界面來清洗和轉換數據。使用AWS Glue DataBrew,終端用戶可以直接從他們的Amazon Simple Storage Service (Amazon S3)數據湖、Amazon Redshift數據倉庫、Amazon Aurora和Amazon Relational Database Service (Amazon RDS)資料庫中輕鬆地訪問、可視化地探索組織內任意數量的數據。客戶無需編寫代碼,即可選擇超過250個內置函數來組合、透視和轉置數據。AWS Glue DataBrew推薦諸如過濾異常、將數據標準化為標準日期和時間值、生成用於分析的聚合,以及糾正無效、錯誤分類或重複的數據等數據清洗和標準化步驟。對於複雜的任務,如將單詞轉換為通用的基本單詞或根單詞如將「yearly」和「yearlong」轉換為「year」,AWS Glue DataBrew還提供了使用高級機器學習技術,如自然語言處理(NLP)的轉換。然後,用戶可以將這些清洗和處理步驟保存到工作流稱為配方中,並將它們自動應用到未來傳入的數據中。如果需要對工作流進行更改,數據分析師和數據科學家只需更新配方中的清洗和處理步驟,並在新數據到達時自動應用它們。AWS Glue DataBrew將準備好的數據發布到Amazon S3,讓客戶可以很便捷地立即用於分析和機器學習。AWS Glue DataBrew是無伺服器和全託管的服務,客戶不需要配置、供應或管理任何計算資源。

「AWS客戶正以前所未有的速度使用數據,進行分析和機器學習。然而,這些客戶經常告訴我們,他們的團隊在無差異的、重複的、單調的數據準備工作上花費了太多時間。」AWS資料庫和分析副總裁Raju Gulabani表示,「客戶喜歡像AWS Glue這樣基於代碼的數據準備服務的可擴展性和靈活性,而允許業務用戶、數據分析師和數據科學家無需編寫代碼,就可以獨立地可視化地探索和試驗數據,也會讓客戶從中受益。AWS Glue DataBrew具有一個易於使用的可視化界面,可幫助所有技術水平的數據分析師和數據科學家理解、合併、清洗和轉換數據。」

AWS Glue DataBrew現已在美國東部(維吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、歐洲(愛爾蘭)、歐洲(法蘭克福)、亞太地區(雪梨)區域和亞太地區(東京)區域正式推出,其它區域也將很快推出。

相關焦點

  • AWS Ubuntu 18.04 鏡像採用滾動內核模型
    可作為 linux-aws-edge 內核進行預覽,建議僅在非生產部署中使用。那些想要在 Ubuntu AWS 機器上安裝 Linux 5.0 rolling kernel 的用戶需要在終端窗口中運行以下命令。成功安裝後,必須使用下面列出的第二個命令集重新引導計算機,並且重新啟動之後,可以使用下面的第三條命令查看正在運行哪個內核。
  • 亞馬遜AWS商標侵權案判賠7600萬+判決書
    4.媒體報導炎黃盈動公司提交的《科技日報》2007年3月20日刊登的《AWS業務流程管理開發平臺實現兩大技術創新》載明,用戶可以利用「AWS」品牌平臺軟體進行「可視化的設計和變更軟體功能」「隨需所用,快速開發」「AWS平臺引擎自動執行」代碼編寫工作。
  • B端互動設計——數據可視化圖表
    編輯導語:設計師如今在日常工作中也會遇到很多數據,對於設計師來說,好看並不是判斷的標準,實際價值和作用才是真正需要的;本文作者分享了關於數據可視化的框架,以及關於可視化設計的基本準則和規範,我們一起來學習一下。
  • 長期押注機器學習,雲計算巨頭AWS為何這麼做?
    AWS大中華區雲服務產品管理總經理顧凡舉了一個SageMaker的例子:「客戶說你們去年發布的這些東西都挺好的,但是確實是在機器學習當中有一塊硬骨頭還是沒啃,就是怎麼快速地把原始數據轉化成模型所需要的核心特徵,把這個步驟加快。」
  • 後臺數據可視化界面設計的10條經驗法則
    本文的英文原標題是「10 Rules of Dashboard Design」,其中Dashboard如果翻譯成儀錶盤的話,總覺得不大容易理解,所以我在這裡把它翻譯為數據可視化。數據展示方面的設計,相信大家會經常用到,這篇文章有很多簡單直接,立馬就能用上的乾貨,一起來學習吧!為什麼數據可視化設計非常重要?
  • 一個成功而有價值的數據可視化應該注意這25點技巧
    編輯導語:我們在工作中經常會分析數據,通過圖表等方式可以幫助我們更加清晰明了地看到分析結果,所以一個成功有價值的數據可視化能發揮到很大的作用;本文作者分享了關於數據可視化注意的25點技巧,我們一起來看一下。
  • 火爆抖音、B站的數據可視化動態視頻都是如何製作的?
    最近世界疫情越來越嚴重,小編在關注疫情的發展情況過程中,再一次拜倒在數據可視化的石榴裙下,話不多說,請看以下動畫。 類似的視頻最近在抖音、B站上非常火爆!短短兩分鐘數據可視化的動態視頻可以讓我們非常清楚的了解疫情隨時間的變化趨勢,比如各個國家感染人數情況,還可以對比每個國家疫情的嚴重程度等等.......你是不是也在感嘆數據可視化的神奇力量。 So,這種數據可視化動態視頻怎麼製作的呢?在好奇心的驅使下,小編調研了下市面上的各類工具,為大家選取了兩款好上手的動態視頻製作工具:datavrap、flourish。
  • 嵌入式 BI 行業解決方案:智慧環保大數據可視化系統
    但是由於長期缺乏先進科學的環境監測、監察、監控手段,無法為行政、法律、經濟等環境管理手段,導致環保工作進展緩慢,成效不足。二、環保行業商業智能 BI 核心訴求環保行業從業者期望能夠實現多源環保監測數據匯集融合,優化數據算法,打造生態環境動態資料庫和運營體系,提供智慧環保大數據BI分析服務。
  • excel地圖數據可視化,看起來很厲害,其實很簡單,僅需2步搞定
    Hello,大家好,今天跟大家分享下我們如何在地圖上實現數據的可視化,今天我們要用到的功能是三維地圖,三維地圖其實就是powermap,只不過在2016版之後的版本中被稱為三維地圖,powermap是powerbi的組件之一,它主要是對帶有地理位置的數據進行可視化的操作,使用powermap進行地圖數據可視化的操作也非常的簡單
  • 一周熱點:領先Google 150年的數據可視化及WhatsApp架構解析
    ……谷歌應用數據分析流感疫情堪稱經典,然而早在150年前,既有數據分析趕走霍亂的先例。 本次發布會上,英特爾針對該創新產品在數據分析領域中的應用價值進行了詳細解析。與RISC架構相比,英特爾至強E7 v2處理器能夠將性能提升多至80%,並可將4年總體擁有成本降低80% 。
  • 重磅乾貨 | 數字冰雹三維地理信息可視化·城市篇 技術解析
    基於三維GIS將現實世界中三維對象的相關屬性與空間位置進行有機結合,通過經緯度與高程數據對空間對象進行數據化描述,可對空間實體的位置、分布、距離等空間信息進行科學分析;與可視化技術的結合,可直觀化、形象化呈現實體對象在空間中的真實狀態。
  • 大國重器 | 以北鬥衛星可視化,致敬偉大祖國
    (全球四大衛星導航系統組網態勢)   那麼北鬥導航系統的工作原理是什麼呢?它與其他全球導航相比有什麼不同呢?為此,數字冰雹製作了全球衛星導航系統可視化演示程序,將全球四大衛星導航系統的發射數據、空間在軌態勢、以及北鬥系統的工作原理進行了可視化分析和直觀展示,希望通過本文,讓大家對北鬥導航系統有更深入的了解。
  • 對話德勤合伙人:AWS的雲上「吸引力法則」
    作為一家常年被IDC、ALM等第三方機構評為排名第一的諮詢企業,其在雲服務能力的歷練中,先後斬獲2019年APN(AWS合作夥伴網絡)中國最佳全球諮詢合作夥伴的獎項,以及2020 APN大數據合作夥伴之星。在德勤管理諮詢合伙人,AWS業務領導合伙人朱昊看來,德勤更像是一個垂直於企業雲轉型中的諮詢與實踐綜合體。
  • 【Viz of the Day】年度最佳可視化作品新鮮出爐,快來一飽眼福!
    即刻 get 視頻回放↓↓↓2020 年跌宕起伏,但全球數據愛好者社區 Tableau Public 始終致力於將有影響力(且令人鼓舞)的數據見解帶入生活,幫助人們發現數據的價值。在年底之際,我們精心整理了 12 個月份的最佳 Viz 作品,與大家一起回顧那些最令人驚嘆的可視化!
  • 守護星——實現源端應用的可視化管理
    守護星智能管理軟體是北京量子智慧科技公司於2014年推出市場的,從IT技術領域的劃分,守護星的核心價值可以用一句話來概括,即:「實現資料庫端應用的可視化管理」。主管們總是容易將它定位成以下三類監控管理類工具之一:  1) 綜合網管類管理平臺(類似產品如:BMC\HP Openview\北塔\摩卡\華3\銳捷……)  2) 資料庫監控工具(類似產品如:Oracle EM\Quset Spotlight\ Maxgauge……)  3) 端到端的應用管理APM(類似產品如:CA\聽雲\APMOne……)  由於守護星自身強調的是對數據源端應用的可視化管理
  • 科學家發布暗物質地圖分布數據圖
    在4月13日美國巴爾的摩舉行的美國物理學術社區會議上,暗能量調查項目組(The Dark Energy Survey)發布了首張暗物質分布數據地圖
  • 一、數據發布與更新(10)
    問:國家統計數據主要通過哪些渠道發布?   答:為滿足不同用戶群體獲取統計數據的需求,國家統計局採用多種方式發布統計數據,分別是國家統計局官方網站、國家統計局數據發布庫、《中國統計年鑑》等統計出版物、新聞發布會和兩微一端(即微博、微信和手機客戶端)。   1.
  • 大數據DaaS創業公司「星圖數據」上線「D-Matrix」產品,為傳統製造...
    然而,獲得精確並且實時的產品銷售數據卻又比以往任何時候都來的重要,這種難題的存在,給了創業公司進入的可能。 「星圖數據」是一家成立於2013年的大數據「DaaS」創業公司,他們致力於為傳統製造業公司提供完整的在線產品銷售數據信息,並生成直觀的可視化報告。
  • 國家天文臺發布巨幅宇宙二維天圖,利用阿里雲資源計算分析數據
    1月14日,國家天文臺北京-亞利桑那BASS巡天團隊、DESI國際合作巡天項目團隊聯合發布最新巨幅宇宙二維天圖。這也是目前人類測量獲得的最大宇宙天圖,全球200名科研人員歷時6年聯合觀測和數據分析,覆蓋兩萬平方度的天空,約為全天球面積的一半,容納10萬億數碼像素,包含20億天體。
  • 數據分析的黃金十二宮,從入門到精通,十二類好書,想要拿走
    而想要系統地提升自己的數據分析能力,僅靠實際工作中的歷練,或是利用日常的碎片時間從網上搜集和學習數據分析相關的零散知識或案例,肯定是遠遠不夠的。大家非常有必要通過一些專業書籍,由淺入深,建立自己的數據分析知識體系,並針對性地運用於自己的工作中。這裡有一份完整的學習數據分析的書單,可供大家參考,由淺入深分為十二類別,每個類別大家可擇其一。