半導體行業觀察綜 發表於 2020-12-02 15:21:30
在近日舉辦的re:Invent開發人員大會上,AWS宣布推出全新的AI訓練晶片AWS Trainium,這是該公司用於訓練機器學習模型的下一代定製晶片。該公司承諾,通過對TensorFlow,PyTorch和MXNet的支持,它可以提供比雲中任何競爭對手更高的性能。
據亞馬遜方面介紹,AWS Trainium是由AWS設計的第二個定製的 機器學習(ML)晶片,為在雲中訓練ML模型提供最佳的性價比。除了提供最具成本效益的ML訓練外,Trainium還為雲中的ML提供了最高的性能和最大的萬億次運算(TFLOPS)計算能力,並支持更廣泛的ML應用。
從他們提供的數據可以看到,亞馬遜新晶片與標準的AWS GPU實例相比,帶來了30%的吞吐量提升,並將每次使用成本降低了45%。
亞馬遜指出,Trainium晶片專門針對深度學習培訓工作負載進行了優化,適用於圖像分類,語義搜索,翻譯,語音識別,自然語言處理和推薦引擎等應用。
按照亞馬遜的說法,隨著ML的使用加速,我們迫切需要通過推理和訓練來提高性能並降低基礎架構成本。去年,AWS推出了AWS Inferentia,這是一種定製晶片,可為客戶提供雲中最低成本的高性能ML推理。雖然Inferentia解決了推理成本,即使該成本佔ML基礎架構成本的90%,但許多開發團隊也還受到固定ML訓練預算的限制。這限制了改進模型和應用程式所需的培訓範圍和頻率。AWS Trainium通過為雲中的ML培訓提供最高的性能和最低的成本來應對這一挑戰。藉助Trainium和Inferentia,客戶將擁有從擴展培訓工作量到部署加速推理的ML計算的端到端流程。
亞馬遜進一步指出,AWS Trainium與AWS Inferentia共享相同的AWS神經元SDK,這就方便Inferentia開發人員開始使用Trainium。由於Neuron SDK已與包括TensorFlow,PyTorch和MXNet在內的流行ML框架集成在一起,因此開發人員可以通過最少的代碼更改輕鬆地從基於GPU的實例遷移到AWS Trainium。
據介紹,AWS Trainium可通過Amazon EC2實例和AWS Deep Learning AMI以及包括Amazon SageMaker,Amazon ECS,EKS和AWS Batch在內的託管服務使用。
因為沒有基準測試結果,所以我們尚不清楚Trainium的性能在與Google的張量處理單元(TPU)進行比較時,誰更厲害。後者是Google託管在Google Cloud Platform中的AI訓練工作負載的晶片。谷歌表示,即將推出的第四代TPU提供的矩陣乘法萬億次運算能力是第三代TPU的兩倍以上。(矩陣通常用於表示輸入到AI模型的數據。)它還提供了「顯著」的內存帶寬提升,同時受益於互連技術的進步。
過去,機器學習的部署受到算法的大小和速度以及對昂貴硬體的需求的限制。實際上, 麻省理工學院的一份報告發現,機器學習可能正在接近計算極限。一項單獨的Synced 研究估計,華盛頓大學的Grover假新聞檢測模型在大約兩周內花費了25,000美元進行訓練。據報導,OpenAI花費了高達1200萬美元來訓練其GPT-3語言模型,而Google估計花費了6,912美元來訓練BERT,這是一種雙向轉換器模型,可為11種自然語言處理任務重新定義最先進的技術。
隨著企業需求的增長,Amazon越來越傾向於轉向AI和機器學習訓練以及推理服務。根據一項估計,2017年全球機器學習市場的價值為15.8億美元,預計到2024年將達到208.3億美元。11月,亞馬遜宣布將Alexa和Rekognition的部分計算轉移到Inferentia支持的實例上,旨在使工作更快,更便宜,同時將其從Nvidia晶片上移開。當時,該公司聲稱將部分Alexa工作轉移到Inferentia,從而使延遲時間縮短了25%,而成本卻降低了30%。
責任編輯:tzh
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴