AWS發布的AI新特性,更能體現雲上機器學習的優越性

2020-12-22 存儲在線

美國時間12月8日,在亞馬遜 re:Invent 2020 上,AWS 人工智慧副總裁 Swami Sivasubramanian 宣布了雲上機器學習服務——Amazon SageMaker的諸多更新,從這次更新中,看到了雲上機器學習方案的優越性。

在全球發布後的第一時間,AWS大中華區雲服務產品管理總經理顧凡和AWS大中華區機器學習產品總監代聞及時向中國媒體分享並解讀了這次連珠炮一樣的發布。

從顧凡的介紹中了解到,2016年,AWS開始在雲上提供機器學習服務,2017年開始加速,最近三年,每年新增的服務和功能超過200個,全球有超過十萬家企業用戶在使用AWS雲上的機器學習服務,這些用戶遍布多個行業,可謂遍地開花。從AWS的全球化視野來看,中國區用戶是在機器學習應用方面走的比較領先的。

在談到AWS構建雲上機器學習服務的側重點時,顧凡提到了三點,一個是在服務的寬度和深度上發力,一個是考慮與用戶應用環境的集成,最後一個是幫助用戶構建機器學習的能力,要授人以漁。

上圖提到的是AWS的雲上機器學習服務的三個維度:多元的基礎架構,包括各種AI開發框架、各種算力架構類型以及各種機器學習實例主機;高級的API服務,各種訓練好的模型,只需調用API即可使用;另外一層是機器學習煉丹爐一樣的服務——Amazon SageMaker,是AWS最具特色的雲上機器學習服務,是目前已知同類產品中功能最強大的一個。

隨著數據越來越多的出現在雲上,隨著雲上機器學習功能的完善,體驗的一步步優化,雲上機器學習優勢將更明顯,此次新發布中,分布式的機器學習方案就非常體現雲的優越性,同時也能明顯感覺到,企業對機器學習的接受度在快速提高,應用更加普遍了,機器學習不再是紙上談兵,一個行之有效的服務可以幫助企業快速落地機器學習的能力。

在詳細介紹此次發布的內容前,先簡單介紹下我個人對新功能的看法:

其中有幾個功能是預料之中的,比如Amazon SageMaker Data Wrangler是做數據準備工作的,這是繼續Ground Truth之後,在數據準備方面的又一個大動作,它通過預配置的一些操作來幫助用戶進行數據準備,能節省很大一部分數據準備的工作時間。此前一直覺得AWS在這部分做的不多,這下做了很好的補充。

機器學習的工作流(Pipeline)工具Amazon SageMaker Pipelines也是預料之中的發布,能幫助用戶分享和復現機器學習的訓練過程,便於組織內協作,還配合訓練迭代記錄工具來優化模型。當機器學習應用於生產環境中,成了一種家常便飯一樣的操作,工作流就非常有必要。

最能體現雲上機器學習優越性的發布Distributed Training on Amazon SageMaker。以分布式來進行機器學習訓練是很多人翹首以盼的高級特性,機器學習大都局限在單臺設備上,為此,很多人不得不選一臺配置儘可能高的機器,但訓練速度仍舊局限在單臺設備的算力。Distributed Training on Amazon SageMaker把訓練負載分配到多臺設備上,讓訓練時間變的可控,模型訓練和迭代會更及時。我最大的感受是,這種分布式的方案最能體現雲上機器學習的優越性。

有幾個功能期待值不是特別高,但做出來仍非常有價值,比如Amazon SageMaker Feature Store,是管理特徵數據的,便於分享和復用特徵數據;Deep Profiling for Amazon SageMaker Debugger 是查看訓練過程資源利用情況的工具,能優化成本;Amazon SageMaker Edge Manager是幫助把模型運行在邊緣端的工具;

最讓我驚訝的是Amazon SageMaker Clarify還能進行偏差檢測和模型解釋。在訓練前,能結合Amazon SageMaker Data Wrangler來分析檢測數據是否有傾向性,是否公正,能檢測數據分布的情況並給出提示。在模型訓練完成,在推理階段,還能幫用戶看出來哪些特徵對模型的影響比較大。有類似能力的方案似乎並不多,能讓開發者對於模型本身有更深的認識,為模型優化找方向。

以下內容是更為具體的介紹:

Amazon SageMaker Data Wrangler ——數據清洗、特徵提取神器

機器學習的訓練需要數據,但是有很多數據不能直接拿來做訓練,需要做處理,比如,處理數據格式不一樣的情況,要處理數據缺失的情況,處理數據明顯出錯的情況等等,這種把數據規範化的過程就屬於數據準備過程,然後,還需要將數據轉化為特徵,這部分工作稱為特徵工程。

在機器學習工作中,這些工作要消耗開發人員大量的時間。Amazon SageMaker Data Wrangler就是為了簡化這一過程。

Amazon SageMaker Data Wrangler首先可以從多種數據源接收數據,然後,用內置的300多個數據轉換器,對特徵進行規範化、轉換和組合,將原始數據進行處理後得到可用於訓練的數據,整個構成不需要用戶寫一行代碼。

轉換過程能在Amazon SageMaker Studio裡查看,看這些轉換是否符合預期。這些提取出來的特徵數據會保存在 Amazon SageMaker Feature Store 中,以供重複使用。

Amazon SageMaker Feature Store——特徵存儲和管理神器

Amazon SageMaker Feature Store 提供了一個新的存儲庫,可以存儲、更新、檢索和共享用於訓練和推理的特徵數據,如果沒有這一服務,用戶只能把特徵數據存在S3上。

真的需要這種服務嗎?其實,AWS是考慮到很多特徵(Feature)需要復用的情況,包括同一個人訓練不同模型,同一家公司不同部門都可能會復用特徵,作為機器學習專家的AWS發現了復用特徵時會的管理負擔,於是就推出了Amazon SageMaker Feature Store。

在訓練過程中,需要大批量訪問特徵數據,推理過程中,模型需要實時訪問部分特徵數據。兩個過程需要使用一樣的特徵數據,但有不同的訪問模式,開發者自己來做這件事其實並不容易。

Amazon SageMaker Feature Store就是為了解決這一問題,它提供了一個可供開發人員訪問和共享特徵的服務。

訓練階段它能方便地組織和更新大批量特徵數據,推理階段它能提供單毫秒級的低延遲訪問,來訪問少量特徵數據,既降低了生成模型的難度,又提供高了預測的精度和預測的性能。

Amazon SageMaker Feature Store 集成在 Amazon SageMaker Studio 中,

Amazon SageMaker Pipelines 實現工作流管理和自動化

開發過程中的CI/CD可以加速軟體開發和部署的效率,為了加速機器學習的工作效率,Amazon SageMaker Pipelines出現了,這是第一個專為機器學習構建的CI/CD(持續集成和持續交付)服務,目前此類服務很少,而且,使用起來比較麻煩。

Amazon SageMaker Pipelines可以設置機器學習的工作流,包括數據加載步驟、數據轉換過程(用Amazon SageMaker Data Wrangler)、保存特徵(用Amazon SageMaker Feature Store)、訓練配置及算法設置、調試步驟,以及優化步驟,設置機器學習的全流程。

Amazon SageMaker Pipelines可以使用相同的設置來重複進行端到端的工作流,也可以定期使用新數據重新運行工作流,來更新模型,更新模型的過程可以用Amazon SageMaker Experiments來記錄,幫助開發者調參和迭代模型。

創建的Amazon SageMaker Pipelines可以在團隊之間共享和重複使用,可以用一個工作流重新創建一個模型,也可以在基礎上修改,創建一個新的模型。

用戶可以通過Amazon SageMaker Studio來使用Amazon SageMaker Pipelines。

使用 Amazon SageMaker Clarify進行偏差檢測和模型解釋

開發人員有時會嘗試使用開源工具檢測訓練數據中的統計偏差,這需要大量的編程工作。而Amazon SageMaker Clarify能幫助用戶檢測整個機器學習工作流中的統計偏差,並能為模型所做的預測提供解釋。

Amazon SageMaker Clarify已集成到Amazon SageMaker Data Wrangler,它運行了一系列基於特徵數據的算法,用以識別數據準備過程中的偏差,並且清晰描述可能的偏差來源及其偏差程度。這樣,開發人員就可以採取措施來減小偏差。

Amazon SageMaker Clarify還與Amazon SageMaker Experiments集成使用,它還能詳細說明輸入到模型中的每個特徵是如何影響預測的。最後,Amazon SageMaker Clarify與 Amazon SageMaker Model Monitor集成,一旦模型特徵的重要性發生偏移,導致模型預測質量發生改變,它就會提醒開發人員。

用 Deep Profiling for Amazon SageMaker Debugger 做模型訓練剖析

Deep Profiling for Amazon SageMaker Debugger 能夠自動監控系統資源利用率,為訓練瓶頸提供告警。開發人員沒有一個標準的監控系統利用率的方法(例如 GPU、CPU、網絡吞吐量和內存 I/O)以識別和排除訓練作業中的瓶頸。因此,開發人員無法以最快的速度、最高的成本效益來訓練模型。

Amazon SageMaker Debugger通過最新的 Deep Profiling 功能擴大了監控系統資源利用率的範圍,在 Amazon SageMaker Studio 中或通過 AWS CloudWatch 發送訓練期間的問題告警,將使用情況關聯到訓練作業中的不同階段,或者訓練期間的特定時間點。

Amazon SageMaker Debugger 還可以根據告警觸發別的操作,比如,當檢測到 GPU 使用情況不正常時,即停止訓練作業。Amazon SageMaker Debugger  Deep Profiling 目前支持 PyTorch、Apache MXNet 和 TensorFlow 等框架,無需在訓練腳本中更改任何代碼即可使用。

用 Distributed Training on Amazon SageMaker 縮短訓練時間

Distributed Training on Amazon SageMaker 使得訓練大型複雜深度學習模型的速度比當前的快上兩倍。當一些模型太大,無法容納在單個 GPU 提供的內存中時,用戶會嘗試在多個 GPU 間拆分模型,但拆分模型的方式和調整訓練代碼的過程非常複雜。業內也有一些別的實現方案,是許多人都致力於實現的一個功能。

為了克服這些挑戰,AWS拿出了自己的解決方案,用Distributed Training on Amazon SageMaker 提供兩種分布式訓練功能,一種是拆分數據,一種是拆分訓練好的模型。

第一種,Distributed Training 與 Amazon SageMaker 模型並行引擎一起,通過在多個 GPU 間自動分割數據,將訓練作業從一個 GPU 擴展到數百個或數千個 GPU,將訓練時間縮短多達 40%。

第二種,Distributed Training 與 Amazon SageMaker 模型並行引擎一起,自動剖析和識別分割模型的最佳方式,在多個 GPU 上高效分割具有數十億參數的大型複雜模型。

使開發人員能夠在不增加成本的情況下,提高大型模型的訓練速度,這一功能充分體現了雲上分布式架構的優勢。

使用 Amazon SageMaker Edge Manager管理邊緣設備模型

Amazon SageMaker Edge Manager 可以幫助開發人員優化、保護、監控和維護部署在邊緣設備集群上的機器學習模型。

能在降低內存佔用率的同時,提升運行速度,而且,準確性也沒有損失,當發現模型出現問題,可以重新訓練模型以便開發人員不斷提高模型的質量。

通過Amazon SageMaker JumpStart開啟機器學習之旅

Amazon SageMaker JumpStart 為開發人員提供了一個易於使用、可搜索的界面,用於查找同類最佳解決方案、算法和 notebook 示例。

當前,缺乏機器學習經驗的客戶很難開始機器學習部署,而高級的開發人員發現很難將機器學習應用到所有應用場景。

通過 Amazon SageMaker JumpStart,客戶現在可以快速找到針對其機器學習場景的相關信息。新接觸機器學習的開發人員可以從多個完整的端到端機器學習解決方案中進行選擇(例如欺詐檢測、客戶流失預測或時序預測),並且可以直接部署到 Amazon SageMaker Studio 環境中。有經驗的用戶則可以從一百多個機器學習模型中選擇,快速開始模型構建和訓練。

相關焦點

  • AWS新發布,更能體現雲上機器學習優越性
    美國時間12月8日,在亞馬遜 re:Invent 2020 上,AWS 人工智慧副總裁 Swami Sivasubramanian 宣布了雲上機器學習服務——Amazon SageMaker的諸多更新,從這次更新中,看到了雲上機器學習方案的優越性。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    機器之心發布機器之心編輯部近日,在史丹福大學、華盛頓大學、Allen AI 和 UMass 聯合發起的機器閱讀理解(QuAC[1] (Choi et al., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single
  • 創新不止,AWS正讓機器學習變得無處不在
    通俗地說,在計算機系統中,經驗通常以數據形式存在,機器學習所研究的是從數據中產生模型的算法,有了學習算法,機器學習就可以基於數據產生模型,並在面對新的情況時提供相應的判斷。 其實,機器學習與亞馬遜雲服務(AWS)淵源頗深。AWS對機器學習的布局,在2016年就已開始。
  • AWS如何為AI工作者賦能?
    因此,機器學習將成為這個時代的主流技術之一。如同AWS全球機器學習副總裁Swami Sivasubramanian (簡稱Swami) 在亞馬遜re:Invent大會上所言,「機器學習是我們這一代人遇到的最具顛覆性的技術之一。」
  • 引領雲端機器學習時代,AWS正改變我們的未來
    與常規的機器學習工具相比,Amazon SageMaker Feature Store不僅具備高度可視化的圖形界面,它還可以做到安全地存儲、發現,以及共享特性數據,並在執行新的機器學習任務時,輕鬆地對此前已經提煉出的特性進行再度使用,而無需重新配置數據。
  • AWS在中國推出AWS Educate計劃
    若要更多地了解 AWS Educate 和申請計劃,請訪問:http://aws.amazon.com/cn/education/awseducate/。一旦我們將教育工作者和學生的機構納入該計劃中,AWS Educate 將儘快完成審批。  多年來,AWS 教育資助計劃已經將雲計算技術輸送到諸多的教育工作者和學生手中,讓他們能夠將創意付諸實踐。
  • 匯量科技陳緒出席AWS re:Invent,分享如何基於AWS構建一站式機器...
    匯量科技資深算法架構師陳緒應邀出席大會,與AWS資深解決方案架構師、區域經理張孝峰展開深度對話,分享了匯量科技是如何基於AWS構建一站式機器學習平臺MindAlpha來滿足日均千億次預測並推動業務飛速發展的。即日起至12月18日,用戶均可通過AWS re:Invent 活動官方頁面觀看該分享內容。
  • 微博機器學習平臺雲上最佳實踐
    本文講述了微博機器學習平臺和深度學習平臺的業務功能和雲上實踐,剖析了阿里雲大數據在微博這兩大學習平臺的架構建設上所起到的作用。微博機器學習平臺(WML)優勢微博機器學習平臺的特點是樣本規模大,百億級樣本,實時性比較高,是分鐘級,然後模型規模是百億級,模型實時性根據不同場景有小時級、分鐘級和秒級。作業的穩定性的話要求是三個9,平臺業務多,場景豐富迭代快。
  • ...AI發布首個企業級隱私保護機器學習平臺與升級版AI模型殺毒軟體
    本次會議上,瑞萊智慧RealAI旗下兩款第三代AI新品——隱私保護機器學習平臺RealSecure和人工智慧安全平臺RealSafe2.0 版本正式發布。此次新品發布,標誌著RealAI首次正式展示其基於「第三代人工智慧技術」手段所描畫的AI原生基礎設施藍圖,RealAI將不斷深耕人工智慧基礎設施建設,發展AI產業「第二增長曲線」,致力人工智慧成為新時代動力基礎。
  • 亞馬遜雲服務(AWS) 為機器學習擴圈 觸及每一位AI工作者
    中國發展網訊 記者成靜報導 12月9日, AWS全球機器學習副總裁Swami Sivasubramanian (簡稱Swami) 在亞馬遜re:Invent大會上發表機器學習和人工智慧主題演講,展示了AWS關於人工智慧與機器學習的最新全景藍圖,並宣布了一系列新服務和新功能,讓機器學習更易用和拓展到更加廣闊的使用者、應用場景和行業。
  • 促進Golang雲開發谷歌推出Go Cloud
    同時雲計算也是目前技術發展最快的一個領域,並且改變了我們的基礎IT架構:大量的網站、應用開始遷移到雲上。為了應對這種趨勢,促進Golang在雲計算領域的繁榮(當然在容器領域 Golang開發的docker是一枝獨秀的),谷歌最近推出了Go Cloud(github地址: google/go-cloud),包括開源庫和一套工具,可以讓每個碼農更輕鬆地使用Golang構建雲應用程式。
  • 吳恩達官宣下一步:新推深度學習新課程,繼續培養AI人才
    今年3月,吳恩達從百度首席科技學家人上離職後,關於他新動向的猜測和關注就一直沒有停歇。直到前不久,他宣布八月正式公布自己的新項目。就在剛剛,美國還是8月8日的時候,吳恩達正式披露了自己的新動向。吳恩達的下一步,將通過deeplearning.ai這個網址,繼續提供一系列深度學習的Coursera課程。
  • Google發布「多巴胺」開源強化學習框架,三大特性全滿足
    麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。但不用擔心,Google 近日發布了一個替代方案:基於 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。
  • 贊同科技與浪潮商用機器聯合發布金融業務雲「強」中臺解決方案
    近日,贊同科技股份有限公司(簡稱:贊同科技)與浪潮商用機器有限公司(簡稱:浪潮商用機器)經過嚴密的論證和適配測試,聯合發布了基於K1 Power平臺的、雲原生架構的金融業務雲中臺解決方案,雙方旨在共同為金融用戶打造面向關鍵業務資料庫和應用雲化的最佳實踐。
  • AWS機器學習平臺SageMaker提昇平行運算速度
    在第二周的Re: Invent大會上,AWS宣布機器學習開發及部署平臺SageMaker運用新技術提昇平行運算速度,可加速以EC2執行實例(instance)對大型資料集訓練模型。隨著機器學習的資料集和模型越來越大、愈來複雜,也讓機器學習的訓練項目花的時間越來越長,即使以Amazon EC2 p3或p4這類GPU執行實例服務,用公開資料集COCO(Common Objects in Context)來訓練高端對象偵測模型,像是Mask RCNN和Faster RCNN也要花上超過6小時。
  • Gartner首份雲上AI開發服務魔力象限:領導者象限沒有國內廠商身影
    編者按:本文來自微信公眾號「機器之能」(ID:almosthuman2017),作者:機器之能,36氪經授權發布。原題目《Gartner首份雲上AI開發服務魔力象限:國內騰訊入圍,阿里百度落選》 近日,Gartner 首份雲 AI 開發服務魔力象限正式發布,魔力象限以供應商前瞻性、執行力為橫縱坐標,主要考核語言、視覺、自動機器學習三大領域產品,將市場上供應商劃分四大象限——領導者,有遠見者、特定領域者(小眾玩家)
  • AWS 聘用 Rust 編譯器聯合創始人,大企為何都愛 Rust?
    因為喜歡,AWS已經開始贊助Rust項目,在官方博文中,AWS雲與開源主管Matt Assay總結了這家雲計算巨頭偏愛Rust原因,以及使用這門程式語言的方式。他說道,Rust最讓人興奮的一點是,是它讓基礎設施變得「無聊」。這不是一件壞事,畢竟沒人願意自己的設備過分「激動」,安全穩定才是他們希望看到的。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    世界大會上百度大腦6.0的發布,持續引領 AI 技術高速發展。七八月50餘項能力的開源開放及升級,是夏日火熱的積澱,希望可以幫助您更高效實現產業智能化應用落地,快來一同閱讀您最關心的內容吧。>醫療票據 OCR 方案,智能結構化方案全新上線;智能庭審輔助解決方案開放邀測;視頻分析邊緣計算盒 EM-BOX 上新5項技能,分析功能更豐富;
  • 百度智能雲過去一年收入翻倍,全行業首發「AI工業化智能公式」
    7.新發布:歸檔存儲歸檔存儲是對象存儲BOS除原有的標準、低頻、冷三級存儲外,第四級存儲。歸檔存儲的1GB數據在雲上存儲1個月僅需0.015元,成本比現有最冷的存儲還要便宜一半。當您要取回數據時,也僅需分鐘級即可取回訪問。歸檔存儲將為數字資產長期歸檔等場景提供最低成本的存儲方案。
  • 華為雲連發6大安全新品,企業上雲更安心
    今日,華為雲在深圳舉行了年中安全新品發布會,一連發布了6款安全新服務和新特性,包括企業主機安全服務混合雲版、Web應用防火牆獨享版、私有證書管理服務、文件數字水印、態勢感知服務和安全靶場體驗平臺,並基於自身的等保實踐,發布了《華為雲等保2.0白皮書》,讓企業都用上更簡單極致的安全服務,安全上雲、雲上安心。