AWS發布AWS Glue DataBrew,讓數據可視化準備工作提速達80%

2020-12-22 美通社

北京2020年11月19日 /美通社/ -- 日前,亞馬遜雲服務(AWS)宣布AWS Glue DataBrew正式可用。AWS Glue DataBrew是一款全新的可視化數據準備工具,客戶無需編寫代碼就可以清洗和處理數據。自2016年以來,數據工程師一直使用AWS Glue來創建、運行和監控數據提取、轉換和加載(ETL)作業。AWS Glue同時提供基於代碼接口和可視化界面,大大簡化了客戶在雲中提取、轉換和加載數據的過程。數據分析師和數據科學家們一直想要一種更簡單的方法來清洗和處理這些數據,而這正是DataBrew所能提供的。通過AWS Glue DataBrew,客戶可以直接從AWS數據湖、數據倉庫和資料庫中開展數據探索和實驗,而無需編寫代碼。AWS Glue DataBrew為客戶提供了超過250個預先構建的轉換,以自動化數據準備任務如過濾異常、標準化格式和糾正無效值。而沒有這些預先構建的轉換,往往需要幾天或幾周的時間編寫手工編碼。一旦數據準備完畢,客戶可以立即開始使用AWS和第三方的分析和機器學習服務來查詢數據和訓練機器學習模型。使用AWS Glue DataBrew不需要預付協議或費用,客戶只需要為數據集的創建和運行轉換付費。如欲開始使用AWS Glue DataBrew,請訪問:https://aws.amazon.com/glue/features/DataBrew

為分析和機器學習準備數據涉及多個必要且耗時的任務,包括數據提取、清洗、標準化、加載和大規模ETL工作流的編排。為了大規模地提取、轉換和加載數據,精通SQL或Python、Scala等程式語言的數據工程師和ETL開發者可以使用AWS Glue。ETL開發者通常更喜歡現代ETL工具中常見的可視化接口,而不是編寫SQL、Python或Scala,所以AWS最近推出了AWS Glue Studio,這是一個新的可視化界面,可以幫助編寫、運行和監控ETL作業,無需編寫任何代碼。一旦數據被可靠地搬移到AWS上,就需要業務線中理解數據上下文的數據分析人員和數據科學家對這些數據進行清洗和處理。要清洗和處理數據,數據分析師和數據科學家們要不就得在Excel或Jupyter Notebooks中處理小批量的數據,從而無法處理大型數據集。又或者需要依靠稀缺的數據工程師和ETL開發人員編寫定製代碼,執行清洗和處理。為了發現數據中的異常,技術精湛的數據工程師和ETL開發者需要花費數天或數周時間編寫定製工作流,將數據從不同的源中提取出來,然後透視、轉置,多次切分數據,才能由數據分析師和數據科學家迭代,識別並解決數據的質量問題。在開發了這些轉換之後,數據工程師和ETL開發者仍然需要編排自定義工作流並持續運行來自動地清洗和規範化新傳入的數據。每次數據分析師或數據科學家想要更改或添加轉換時,數據工程師和ETL開發者就需要再次提取、加載、清洗、規範化和協調數據準備任務,這個迭代過程可能需要數周到數個月的時間才能完成。結果是,客戶多達80%的時間都花費在清洗和標準化數據上,而非真正地分析數據並從中提取價值。

AWS Glue DataBrew是一個AWS Glue的可視化數據準備工具,允許數據分析師和數據科學家無需編寫任何代碼,即可通過一個交互式、單擊的可視化界面來清洗和轉換數據。使用AWS Glue DataBrew,終端用戶可以直接從他們的Amazon Simple Storage Service (Amazon S3)數據湖、Amazon Redshift數據倉庫、Amazon Aurora和Amazon Relational Database Service (Amazon RDS)資料庫中輕鬆地訪問、可視化地探索組織內任意數量的數據。客戶無需編寫代碼,即可選擇超過250個內置函數來組合、透視和轉置數據。AWS Glue DataBrew推薦諸如過濾異常、將數據標準化為標準日期和時間值、生成用於分析的聚合,以及糾正無效、錯誤分類或重複的數據等數據清洗和標準化步驟。對於複雜的任務,如將單詞轉換為通用的基本單詞或根單詞如將「yearly」和「yearlong」轉換為「year」,AWS Glue DataBrew還提供了使用高級機器學習技術,如自然語言處理(NLP)的轉換。然後,用戶可以將這些清洗和處理步驟保存到工作流稱為配方中,並將它們自動應用到未來傳入的數據中。如果需要對工作流進行更改,數據分析師和數據科學家只需更新配方中的清洗和處理步驟,並在新數據到達時自動應用它們。AWS Glue DataBrew將準備好的數據發布到Amazon S3,讓客戶可以很便捷地立即用於分析和機器學習。AWS Glue DataBrew是無伺服器和全託管的服務,客戶不需要配置、供應或管理任何計算資源。

「AWS客戶正以前所未有的速度使用數據,進行分析和機器學習。然而,這些客戶經常告訴我們,他們的團隊在無差異的、重複的、單調的數據準備工作上花費了太多時間。」AWS資料庫和分析副總裁Raju Gulabani表示,「客戶喜歡像AWS Glue這樣基於代碼的數據準備服務的可擴展性和靈活性,而允許業務用戶、數據分析師和數據科學家無需編寫代碼,就可以獨立地可視化地探索和試驗數據,也會讓客戶從中受益。AWS Glue DataBrew具有一個易於使用的可視化界面,可幫助所有技術水平的數據分析師和數據科學家理解、合併、清洗和轉換數據。」

AWS Glue DataBrew現已在美國東部(維吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、歐洲(愛爾蘭)、歐洲(法蘭克福)、亞太地區(雪梨)區域和亞太地區(東京)區域正式推出,其它區域也將很快推出。

相關焦點

  • AWS 發布針對 Amazon EC2 的 Apple macOS 實例
    Original URL : https://amazonaws-china.com/blogs/aws/new-use-mac-instances-to-build-test-macos-ios-ipados-tvos-and-watchos-apps/Amazon EC2 Mac實例的發布使基於
  • AWS推出Apache Airflow全託管工作流MWAA
    最近,AWS 推出了亞馬遜Apache Airflow託管工作流(MWAA),這是一項全託管的服務,簡化了在 AWS 上運行開源版 Apache Airflow 和構建工作流來執行 ETL 作業和數據管道的工作。
  • AWS,大爺終究還是大爺!
    https://www.juniper.net/documentation/en_US/release-independent/nce/topics/topic-map/nce-179-qfx-aws-outposts.html
  • 資源 | 100+個自然語言處理數據集大放送,再不愁找不到數據!
    (9.5MB)http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html企業信息:分類企業在社交媒體上到底談論了什麼的工作。要求志願者將企業陳述分類為信息(關於公司或其活動的客觀陳述),對話(回復用戶等)或行動(要求投票或要求用戶點擊連結等的信息)。
  • AWS寧夏區域上線兩項新服務:AWS Glue和Amazon Athena
    AWSGlue全新的ETL服務據介紹,AWSGlue是一種全託管的數據提取、轉換和加載(ETL)服務及元數據目錄。它讓客戶更容易準備數據,加載數據到資料庫、數據倉庫和數據湖,用於數據分析。使用AWSGlue,在幾分鐘之內便可以準備好數據用於分析。
  • AWS Outposts對本地存儲供應商構成了生存威脅嗎
    據威廉·布萊爾(William Blair)分析師傑森·阿德(Jason Ader)稱,其80億美元的年收入使該公司成為全球第二大數據存儲業務,儘管規模僅是市場領先者戴爾的一半。相比之下,這比NetApp的20財年收入高出26億美元,幾乎是HPE 2021財年總結45.6億美元存儲收入的兩倍,是IBM 2020財年存儲硬體業務的四倍多,是Pure 2020財年16.43億美元收入的五倍。
  • 亞馬遜推出AWS Panorama
    AWS Panorama軟硬結合讓人工智慧「一鍵化」近日,AWS發布了一套全新的基於機器學習開發的計算機視覺(CV)硬體設備AWS Panorama Appliance,與之一齊發布的還有配套的軟體AWS Panorama SDK(Software Development Kit )。
  • 泛娛樂出海:LiveMe&AWS解讀泛娛樂App出海的技術探索之路
    預計,今年可以達到50個全球的數據中心,覆蓋85個國家和地區,通常離岸用戶更近,能夠給以用戶更好的體驗,突顯平臺優勢。技術,運營,產品三位一體,相互輔助,相互促進。第三,平臺技術,實時配套服務。相對而言實時風險而言,如用戶管理,風控系統,審核等方面,通過技術手段幫助運營和產品提升效率,促進LiveMe的持續增長。
  • 亞馬遜雲服務(AWS) 為機器學習擴圈 觸及每一位AI工作者
    AWS的Amazon SageMaker為他們提供了首個全託管的機器學習集成開發環境,並為這個開發環境不斷增加新功能,從數據準備、到模型訓練、參數調優與模型迭代、到模型部署、模型質量監控,在整個過程中最大限度地提高他們開展機器學習的效率,降低他們開展機器學習的門檻。工具集的頂層,面向技術能力相對薄弱的客戶,他們有一定的數據,但沒有算法人才,他們希望在業務場景中直接引入人工智慧。
  • 百度智能雲數據可視化平臺Sugar重磅發布AI問答功能
    近日,百度智能雲BI與數據可視化平臺Sugar重磅發布AI問答功能,用戶只需將想知道的數據問題輸入至提問框,AI問答這個數據管家就可以實時地用圖形化的方式給出答案。AI問答接入了百度強大的自然語言處理(NLP)技術,依託智能對話定製與服務平臺UNIT的表格問答能力,使得用戶能像使用搜尋引擎一樣便攜靈活地查詢與分析分散於各系統的數據,成為應用即問即答的數據管家。
  • AWS中國區域正式上線兩項文件存儲服務,AWS存儲全家桶齊了
    作為AWS雲上的為Windows工作負載提供的文件存儲服務, Amazon FSx for Windows File Server主要應用於用戶文件共享、Web網站服務、企業內容管理、Windows應用程式和工作負載、數據分析業務等。
  • NVIDIA在AWS Marketplace中開設AI Storefront
    人閱讀 2020-12-25發布 來源:TechWeb.com.cn 相關關鍵詞 人工智慧改變了我們的生活和工作方式 主要的AI供應商之一是圖形處理單元(GPU)市場領導者NVIDIA。
  • 大公司都是怎麼做數據可視化規範的
    上周,表哥分享了一篇關於,洋洋灑灑四千多字把可視化規範背後的原則研究了個遍。但在實際工作中,可視化常常是在多人協作中完成的,我們該如何制定一份可視化標準來確保跨人員、跨平臺設計呢?我們常聽到視覺識別系統(VIS),可視化有沒有專門的設計系統呢?
  • 快到年底了,聊聊數據可視化
    年底快到了,又到了「打工人」做匯報的時候,也許你負責市場部,可能你是銷售負責人,或者僅僅匯報個人在幾個項目中的表現,無論怎樣,你都不可能把原始數據展示給大家,你或多或少會採用某種「可視化」的方法,直觀傳達你想表達的重點信息,那麼問題來了,可視化包含什麼,怎麼做可視化,有哪些方法可以做好可視化?
  • 中國數據內容大會聚焦數據內容與可視化
    新華社杭州12月20日電 19日,「行業與前瞻——2020中國數據內容大會」在浙江杭州舉行。本屆大會以「融合中的數據可視化:科學敘事與數據開放」為主題,聚焦數據內容與可視化這一流行敘事模式,以期進一步帶動可視化技術的國內推廣和國際交流,並激發數據開放及其公共價值。
  • 可視化腦洞十五個數據可視化的奇妙例子
    、財新數據可視化實驗室創始人黃志敏老師,從本期開始擔任可視化專欄特約欄目主編。特約專欄主編黃志敏老師推薦語:可視化是數據、藝術和技術的結合。那必定意味著數據可視化比得上千言萬語,對不對?無論如何,是時候讓我們收羅一些最具視覺衝擊力的複雜數據集了。以下是我最喜歡的15個例子。