又來搶大數據飯碗?AWS發布SageMaker:省略數據清洗、建模、調參等步驟

2021-02-21 AI前線
AI 前線導語:美國拉斯維加斯時間 2017 年 11 月 29 日上午,AWS CEO Andy Jassy 在一年一度的 AWS re:Invent 大會上發布了主題演講。在短短兩小時內,Andy 宣布了一系列令人興奮的新服務。其中最重要的包括一款售價 249 美元的、名為 DeepLens 的人工智慧攝像機;一套用於開放並部署機器學習算法的 SageMaker 平臺;外加實時視頻識別、文字翻譯等多項應用層服務。

更多乾貨內容請關注微信公眾號「AI 前線」(ID:ai-front)

據 AI 前線了解,作為全場最大亮點的 SageMaker 平臺,真正做到了「默默秒殺全場」的強大功能:除了免去了開發者進行數據清洗、建模的麻煩事兒,甚至還可以把開發者最頭疼的調參優化交給機器處理。

顯而易見,亞馬遜公司希望各企業客戶能夠更好地運用人工智慧技術——當然最重要的是,使用由亞馬遜出售的人工智慧工具。

通過本次大會公布的這一整套人工智慧解決方案,亞馬遜方面已經明確表示,希望能夠乘這股人工智慧的繁盛東風進一步拓展收入規模。與此同時,這批聲明的發布也標誌著亞馬遜與同樣擁有自家 AI 企業解決方案的谷歌在這一領域成為了競爭對手。

正如本文開頭所說,這也許是本次 re:Invent 上發布的最大殺器,也可能是自各類開源機器學習框架流行以來在 AI 領域出現的最大殺器(如果使用體驗真的如 Andy Jassy 所描述的那樣好的話):普通開發者也想用機器學習來玩自己的數據,但是數據清洗、建模、各種試錯太難太花時間,把開發者都嚇跑了。SageMaker 的目標是,開發者只需要關心自己輸入什麼數據,自己想用什麼框架和什麼算法,其他的各種參數調優什麼的髒活兒就讓機器自己用機器學習來做,一鍵直達式機器學習服務,開發者值得擁有。

讓我們來看看這個可能會讓大數據工程師「失業」的神器到底有何玄機?

Amazon SageMaker 是一項全託管端到端機器學習服務,可幫助數據科學家、開發人員以及機器學習專家快速構建、訓練並託管規模化機器學習模型。 它的出現將顯著加速一切機器學習工作,同時幫助大家快速將機器學習元素添加至生產應用程式當中。SageMaker支持當前機器學習行業中最為流行的各類框架(包括谷歌 TensorFlow、Facebook Caffe2、Pytorch 以及 MXNet 等),且允許開發者從查找必要數據起步對其 AI 模型進行訓練,而後將成果發送給客戶——整個流程皆可在此程序內實現。

Amazon SageMaker 由以下三大主要部分組成:

創作(Authoring):無需進行任何設置,使用 Jupyter Notebook IDE 就能進行數據探索、清潔與預處理。你可以在常規實例類型或 GPU 驅動型實例當中運行此類工作負載。

模型訓練:一項分布式模型構建、訓練與驗證服務。你可以利用其中的內置常規監督與無監督學習算法及框架,或者利用 Docker 容器創建屬於自己的訓練機制。其模型訓練規模可囊括數十個實例,以支持模型構建加速。訓練數據讀取自 S3,訓練後的模型成果亦可存放在 S3 存儲桶內。最終得出的模型結果為數據相關模型參數,而非模型當中進行推理的代碼。將關注點分開之後,開發人員能夠更輕鬆地將 Amazon SageMaker 訓練出的模型部署至其它平臺(例如 IoT 設備)。

模型託管:模型託管服務可配合 HTTP 端點以調用模型進行實時推理。這些端點可進行規模擴展,從而支持實際流量;開發人員也可以同時對多套模型進行 A/B 測試。此外,你也可以使用內置的 SDK 構建這些端點,或者選擇 Docker 鏡像提供自己的配置選項。

上述組成部分皆可獨立使用,這意味著 Amazon SageMaker 將能夠輕鬆填補現有流程中的空白環節。換句話來說,當開發人員以端到端方式使用該服務時,將能夠享受到由其提供的強大功能。

作為 AWS 免費項目的一部分,大家無需任何投入即可馬上開始使用 Amazon SageMaker。 在前兩個月中,用戶每月可獲得 250 個小時的 t2.medium 記事本實例使用額度,50 個小時的 m4.xlarge 訓練用實例使用額度,外加 125 個小時的 m4.xlarge 託管用實例使用額度。在免費範圍之外,具體計費標準因實際服務區而定,但總體成本包含每秒實例使用、每 GB 存儲容量使用以及每 GB 數據傳入 / 傳出等因素。(小編註: 大家可以先試用之後看看 Amazon SageMaker 是否真如 Jassy 所說的這麼智能。)

AWS 官方博客上對如何使用 SageMaker 提供了一份簡易指南,下面截取並翻譯了構建機器學習流程的部分,迫不及待的小夥伴們到官網查看完整的操作方法:https://aws.amazon.com/cn/blogs/aws/sagemaker/

作為示例,這裡假定我們需要構建、訓練並部署一套基於 Apache MXNet 的圖像分類器。這裡我們使用 Gluon 語言、CIFAR-10 數據集,外加 ResNet V2 模型架構。

在創建記事本實例時,其會啟動一個配備有 Anaconda 軟體包與常規深度學習庫、具有 5GB 機器學習存儲分卷,且包含多種示例記事本算法顯示機制的機器學習計算實例。開發人員可以選擇配置其中的 VPC 支持能力,從而在自己的 VPC 內創建 ENI 以簡化並保護對資源的訪問。

在實例配置完成之後,我們就可以打開記事本並開始編寫代碼!

為了簡潔起見,我們在這裡忽略實際模型訓練代碼。不過對於任何 Amazon SageMaker 常規框架訓練工作,您都可以通過以下方式建立起一套簡單的訓練接口:

def train(    channel_input_dirs, hyperparameters, output_data_dir,    model_dir, num_gpus, hosts, current_host):    passdef save(model):    pass

這裡,我們打算在 Amazon SageMaker 基礎設施中的 4 個 ml.p2.xlarge 實例之上創建一項分布式訓練任務。順帶一提,這裡已經將所有必要的數據下載到本地。

import sagemakerfrom sagemaker.mxnet import MXNetm = MXNet("cifar10.py", role=role,          train_instance_count=4, train_instance_type="ml.p2.xlarge",          hyperparameters={'batch_size': 128, 'epochs': 50,                           'learning_rate': 0.1, 'momentum': 0.9})

現在,我們已經構建起模型訓練任務,並可通過以下命令為其饋送數據:m.fit("s3://randall-likes-sagemaker/data/gluon-cifar10").

如果前往任務控制臺,就會看到這項任務正在運行當中!

現在我們的模型已經完成了訓練,並可用於進行實際預測!利用之前提到的代碼,這裡創建並啟動一個端點。

predictor = m.deploy(initial_instance_count=1, instance_type='ml.c4.xlarge')

而後運行以下命令調用該端點: predictor.predict(img_input)!

就這麼簡單,只需要不足 100 行代碼,我們的端到端機器學習流程即構建完成。

在今天於 AWS re: Invent 大會上發布的消息當中,DeepLens 攝像機可能是最吸引眼球的。與谷歌 Clips 類似,這同樣是一款帶有內置 AI 功能的攝像頭;但與 Clips 不同的是,DeepLens 專門面向開發者,而非消費者。這是全球首款面向開發者且可實現深度學習的無線視頻攝像頭。Andy Jassy 對它的定位是個「學習機」——可以手把手幫助開發者學習如何入門圖像識別 / 視頻識別

DeepLens 預裝大量 AI 工具,包括光學字符識別、圖像與物體識別等等。AWS 方面在一篇博文中解釋稱:「它能夠幫你檢測貓狗、人臉、家庭及日常環境下的各類物品、動作與行動等等。」

對於普通企業來說,DeepLens 則能夠幫助大家更快測試並開發基於視覺的新型 AI 功能。舉例來說,如果你正在運營倉庫並希望自動掃描貨品庫存,則可購置一些 DeepLens 攝像機以完成這項工作。在這之後,還可以使用亞馬遜提供的預訓練 AI 識別基本物品,或者訓練自有模型並將其加載至攝像頭當中。每款 DeepLens 都配有一塊英特爾凌動處理器,能夠採集 1080p 視頻與音頻。為了實現連接與數據導出,DeepLens 還設有 Wi-Fi、USB 以及迷你 HDMI 接口。

如大家所預期,DeepLens 將與 AWS 推出的其它雲及 AI 服務進行緊密集成。正如蘋果公司努力將客戶同其生態系統綁定起來一樣,亞馬遜也希望開發者們能夠將其所有 AI 工具放到同一個平臺上。

目前 DeepLens 已經在 Amazon.com 上預售,價格 249 美元,2018 年 4 月發貨。

更多教程和介紹見:

https://aws.amazon.com/cn/blogs/ai/customize-and-display-aws-deeplens-project-output-on-your-laptop/

https://aws.amazon.com/cn/blogs/ai/extend-aws-deeplens-to-send-sms-notifications-with-aws-lambda/

除了以上兩項大殺器,Andy Jassy 也發布了一系列應用層的新服務。

Rekognition Video:繼去年發布的 Rekognition 圖像識別服務之後,本次又發布了視頻識別服務,可以做人物跟蹤一類的任務並實時得出分析結果,相關消息在 re:Invent 大會前已經發布,詳見 AI 前線之前的 報導。

Amazon Kinesis Video Streams:幫助用戶把來自不同設備、不同制式的視頻流上傳雲端的一項服務。

Amazon Transcribe:音頻轉文字服務,目前支持英語和西班牙語。

Amazon Translate:翻譯服務。

Amazon Comprehend:自然語言識別服務。

這一切究竟意味著什麼?首先幾乎可以肯定的是,這意味著 AWS 這一已然成為亞馬遜營收主體的業務支柱未來還將幫助其賺取更多資金。AWS 這家子公司已經成為全球伺服器容器銷售領域的領導者,如果人工智慧工具的市場需求持續增長,那麼其必將在這一層面有所建樹。憑藉著 Alexa 這類產品,亞馬遜公司已經證明其能夠構建 AI 產品,並打算將其智能方案銷售給其它企業。

上個季度,AWS 營收與 2016 年同期相比增長了 42%,本季度營收為 45.8 億美元,遠超分析師們的預期。(不過這一增長率同上個季度持平,這意味著其爆炸性的增長速度可能正在放緩。)而在被問及 AWS 最終是否可能成為全球規模最大的企業級科技公司並擊敗甲骨文時,CEO Andy Jassy 在今天發布公告前接受 CNBC 採訪時表示,「也是有可能的。」

參考資料來源:

https://www.theverge.com/2017/11/29/16715688/amazon-ai-camera-developer-enterprise-tools

https://aws.amazon.com/cn/blogs/aws/sagemaker/

今日薦文

點擊下方圖片即可閱讀

AI 這麼熱,那它是不是高不可攀呢?並不是,其實 AI 落地的核心是工程問題,比如如何用 AI 設計 UI,輔助運維、測試?AI 如何與雲計算、流處理、K8s/Mesos 等底層架構相結合?這些都與大家的基本工作息息相關。

那麼,我該如何跟上潮流,學習並掌握相關 AI 技術呢?去哪裡可以找到現成的答案呢?

AICon 上,我們邀請到了來自 AWS、BAT、360、京東、微信、攜程、愛奇藝、知乎、第四範式等公司 AI 技術負責人前來分享他們的人工智慧落地實踐,內容涵蓋 AI 架構、機器學習 2.0、搜索推薦及 feed 流、語音識別與智能助手、計算機視覺、NLP 等相關話題。目前大會 8 折報名倒計時進行中,可點擊文末 閱讀原文 詳細了解。

相關焦點

  • 為什麼說AWS發布的SageMaker會是一個大殺器?
    訓練數據不夠,就要多採集數據、多存儲數據、多清洗數據。算法不合適,可能是因為參數的調試還沒做到位,可能因為參數的調試需要耗費太多時間和其他成本所以在一個局部最優解就停下了,也可能是因為使用的框架(引擎)不合適。至於哪個框架更合適,可能需要多試幾個框架,乃至於可能當前市面上流行的框架都不合適,需要一個新的框架。
  • Q新聞丨IPv6要來啦!AWS發布SageMaker;macOS High Sierra重大漏洞;比爾蓋茨當選中國工程院外籍院士
    本周要聞: 中共中央辦公廳、國務院辦公廳推進 IPv6 落地;macOS High Sierra 現重大漏洞,無需密碼即可登錄;AWS 發布 SageMaker:省略數據清洗、建模、調參等步驟;比爾蓋茨當選為中國工程院外籍院士;Android 8.1 最終預覽版發布;GitHub 超過半數是重複代碼。
  • 大數據(Big data)及大數據機器學習建模過程簡介
    金融大數據就是金融領域的大數據,來源於金融市場(如股票、債券價格)、企業(財務數據、成交量)、政府(經濟、貿易數據)、個體(信用卡交易、社交媒體言論)、網際網路、物聯網(loT)等…IBM提出的大數據的特徵
  • 10+位機器學習大神測評 Amazon SageMaker 全流程實戰
    (圖片來自:https://aws.amazon.com/cn/blogs/aws/sagemaker/)按照官方文檔的說法,Amazon SageMaker 的功能包含模型構建、訓練和部署三大部分(文檔來自:https://aws.amazon.com/cn/about-aws/whats-new/2017/11/introducing-amazon-sagemaker
  • 【工具篇】41 款實用工具,數據獲取、清洗、建模、可視化都有了
    在其他工具中,數據清洗工具、數據管理和建模工具以及數據可視化工具都非常重要。本文列出了不同類別中的一些主要工具。數據清洗工具一旦完成數據收集,便需要檢查其清潔度。數據清洗通常稱為數據淨化,即其數據從源中刪除或更正髒數據的過程。數據聲明程序的目標是識別和消除數據中的錯誤,為進一步分析、建模和可視化提供一致的數據。在數據項層級上,一些不正確的數據通過適當的驗證被拒絕。在諸如文件和資料庫的同構數據集合中,不一致程度和錯誤數量較少。
  • Amazon SageMaker新玩法——定製你的語音識別模型
    根據「創建基於Amazon S3的FSx」章節中提示的步驟,在命令終端中安裝Lustre客戶端,並執行掛載命令。此外,您還可以配置筆記本生命周期策略,在創建或者啟動Notebook實例的時候,實現筆記本自動掛載FSx文件系統,參考文檔[2]。下載WeNet原始碼在上一步中的命令行終端,執行如下命令,將完成代碼下載。
  • 數據清洗指南
    在進行回歸建模之前,我們通常需要清洗數據。下面是數據清洗的定義數據清洗:從記錄集、表或資料庫中檢測和修正(或刪除)受損或不準確記錄的過程。它識別出數據中不完善、不準確或不相關的部分,並替換、修改或刪除這些髒亂的數據。本文還是以合併完成後的CEIC數據作為例子,進行講解。
  • 搶人飯碗了!推薦一款全自動的機器學習建模神器PyCaret
    獲取數據在本次循序漸進的教程中,我們將使用「糖尿病」數據集,目標是根據血壓,胰島素水平,年齡等多種因素來預測患者結果。直接從存儲庫導入數據集的最簡單方法是使用pycaret.datasets模塊中的get_data函數。
  • AI 技術風向標 | 2021 re:Invent 最全 Amazon SageMaker 發布匯總
    並且,對外提供為期兩個月的免費試用,最多可訓練10個 ML 模型和100萬單元格的免費數據空間。隨著越來越多的人開始在日常工作中使用人工智慧,對訓練數據集進行標記的需求越來越大,數據科學團隊也無法滿足日益增長的需求,甚至很多公司已經開始培養專門的數據標註團隊。
  • 【數據分析】5大SQL數據清洗方法!
    但真正的原始表是混亂且包含了很多無用的冗餘特徵,所以能夠根據原始數據清洗出相對乾淨的特徵表就很重要。前兩天在Towards Data Science上看到一篇文章,講的是用Pandas做數據清洗,作者將常用的清洗邏輯封裝成了一個個的清洗函數。
  • AWS新品發布公告-2021-11-19
    使用 FindMatches 轉換,即使記錄沒有共同的唯一標識符且沒有欄位完全匹配,您也可以在數據集中確定重複記錄或匹配的記錄。FindMatches 可幫助自動執行複雜的數據清洗以及重複數據刪除任務。
  • 大數據建模!全省網安同臺競技
    為認真貫徹落實公安部網安局有關會議精神,大力推進全省公安網安部門大數據應用工作,進一步激發全省網安民警開展大數據應用的積極性、主動性、創新性。
  • 知識|數據清洗(data cleaning)的重要性
    (data cleaning)這一環節,即「增」「刪」「查」「改」,通過data cleaning要讓我們的數據成為可以進入模型的狀態,也是就是清潔的數據(tidy data/clean data),過不了這一關,後面的建模就無法實現。
  • SQL清洗數據
    OLAP 稱之為聯機分析處理,它是對已經存儲在資料庫中的數據進行分析,幫我們得出報表,指導業務。它對數據的實時性要求不高,但數據量往往很大,存儲在資料庫(數據倉庫)中的數據可能還存在數據質量的問題,比如數據重複、數據中有缺失值,或者單位不統一等,因此在進行數據分析之前,首要任務就是對收集的數據進行清洗,從而保證數據質量。
  • 免費的數據源網站大全!再也不愁找不到數據練手
    這些數據集一般都比較完善、質量相對較高,拿到手數據清洗的工作比較少,適合新手做一些簡單基礎的分析。,另外我也列一些除了政府網站之外的相關網站:1、FiveThirtyEight:http://fivethirtyeight.com/這是互動式新聞與體育賽事的網站,網站中會發布許多數據相關的文章,這些文章中會把使用到的數據集發布在github上,除了獲取數據集,你還可以參考別人的項目過程2、Socrata OpenData:https://
  • 大數據之數據挖掘
    說道「大數據」這一詞,現在許多人都明白它的意思,但對於大數據專業未來要從事的相關工作可能就不是很清楚了,下面我們就為大家介紹一下大數據要從事的工作之一
  • 大數據系列(3)|用 Amazon AppFlow 與 Amazon Athena 分析 Google Analytics 數據
    今天敏捷雲將與您分享大數據系列文章第三期《用 Amazon AppFlow 與 Amazon Athena 分析
  • 直播 | 基於 Amazon SageMaker 的深度學習案例分享
    數據處理、建模、調參優化、部署管理. 作為開發者,你還在為這些麻煩事兒煩惱麼?
  • 小白也能看懂的大數據崗位解讀
    大數據工程師工作的內容取決於工作再數據流的哪一個環節。下面,我就根據日常數據處理的流程,來梳理一次數據處理步驟與對應崗位的關係。崗位:ETL工程師內容:主要是對數據進行一個預處理,即清洗的過程。這個也就是大家平常所熟知的ETL工程師,專門來做數據的抽取工作的。