機器之心發布
機器之心編輯部
2020 年 4 月,國內 AI 晶片獨角獸寒武紀對外宣布,旗下雲端智能晶片及加速卡系列思元 270 將正式基於寒武紀虛擬 MLU(vMLU)技術,首次支持 SR-IOV 功能。
據了解,SR-IOV 功能具備更好的租戶隔離、應用熱遷移特性,可為雲服務供應商提供安全、優質的 AI 計算資源,以充分保障用戶在 AI 領域的投資。思元 270 是寒武紀首款支持 SR-IOV 虛擬化功能的雲端智能晶片產品。據悉,寒武紀未來的雲端智能晶片,都會支持 SR-IOV 功能。
瞄準用戶痛點:如何高效利用 AI 計算資源
思元 270 是寒武紀推出的面向雲端的智能晶片,其支持全面的 AI 推斷場景部署,包括視覺、語音、自然語言處理等多樣化的人工智慧應用。思元 270 系列支撐數據中心、專業場景乃至桌面等多元化部署場景。
在這些部署場景中,面向雲端部署、多樣化人工智慧推斷、以及配合寒武紀邊緣側板卡進行應用開發時,如何對 AI 計算資源的有效利用是用戶首要關心的問題。也是寒武紀本次推出 SR-IOV 虛擬化功能的核心訴求:
面向雲端部署:在雲部署環境下,雲服務提供商 (CSP) 幫助海量租戶以高性價比、高可用性的方式提供計算、存儲、網絡資源的服務,在此基礎上還可提供高達 99.99% 的高可用服務級別。從 Hypervisor 和底層硬體上對資源進行高效共享以及多租戶、實例進行相互隔離,成為了 AI 雲服務的基本訴求。面向複雜的人工智慧推斷:在 AI 應用進行部署時,用戶通常會遇到業務邏輯較為複雜的場景,需藉助多個網絡模型來構建 AI 輔助決策系統。為保證伺服器節點內的服務質量,通常會採用一機多卡的部署方式。但計算成本和服務質量需要兼顧時,用戶會希望用單張板卡並行多個模型來解決問題。面向邊緣、端側應用開發:寒武紀產品線已在雲、邊、端三個維度實現全面覆蓋,在面向邊緣側和端側的應用開發過程中,用戶經常會受部署側的 CPU、產品形態或網絡條件的限制,無法直接在最終部署的設備上進行開發。寒武紀支持採用端雲一體的開發環境幫助用戶快速將應用落地,而幫助雲側計算資源高效、合理的分配給應用開發組,是思元 270 虛擬 MLU 的開發目標之一。寒武紀首推 SR-IOV 功能:讓 AI 雲、業務部署和應用開發更靈活、高效、安全
為實現以上訴求,思元 270 採用寒武紀虛擬化技術——vMLU,該虛擬化技術允許多個作業系統和應用程式共存於一個物理計算平臺上,共享同一個晶片的計算資源。它為用戶提供良好的安全性和隔離性,還支持如熱遷移等高靈活特性。vMLU 幫助提高雲計算密度,也使數據中心的 IT 資產管理更靈活。
除了虛擬化基本的資源共享特性,思元 270 首推的 SR-IOV 虛擬化技術,支持運行在雲伺服器上的多個實例直接共享智能晶片的硬體資源。傳統虛擬化系統中大量的資源和時間損耗在 Hypervisor 或 VMM 軟體層面,PCIe 設備的性能優勢無法徹底發揮。而 SR-IOV 的價值在於消除這一軟體瓶頸,助力多個虛擬機實現高效物理資源共享。
與傳統圖形加速卡的 vGPU 所採用的虛擬化技術不同,思元 270 採用「非基於時間片的共享」方式,因為其沒有因時間片切換上下文帶來的性能損失,能充分保證各 VF 獨立的服務質量,彼此完全獨立運行互不影響。
硬體環境:: 1x MLU270-S4, Xeon Gold 6140@ 2.30GHz, 測試環境:Cambricon-MLU270 1.2.5,作業系統:Centos7.6
SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0,框架:Caffe
另外,SR-IOV 還可以避免因分時復用切換應用帶來的性能開銷。如上圖顯示,vMLU 搭配 Docker 或 VM 運行時,單個 VF 業務性能保持在硬體性能的 91% 以上。這使得用戶在多模型並行時,對各 VF 可以做出更準確的服務質量 (QoS) 預期,而不必考慮多模型時的擁塞或切換帶來的性能開銷。
基於 SR-IOV 的 vMLU:更好的租戶隔離性
虛擬化技術被數據中心廣泛採用,除了因為其提供了對資源共享的能力(提供了更好的密度性能),也因為相對於其它技術 (如 docker), 虛擬化提供了更好的隔離性和安全性。寒武紀 vMLU 基於 SR-IOV 的虛擬化技術可以幫助雲用戶實現更好的隔離特性,具體優勢如下:
首先,資源獨立,互不幹擾,能確保服務質量(QoS);其次,多任務時,沒有無隊列阻塞的煩惱;再次,其具備獨立內存資源,各 VF 之間互不可見;最後,它的部署相對簡單,不需要對開源軟體成分進行修改。
面向 Docker-container 的 SR-IOV flat:更高效部署方式
除了對 VM 提供虛擬化支持,寒武紀虛擬化技術還對 docker-container 提供基於 SR-IOV 的虛擬化擴展 (SR-IOV flat 模式),用於多個 containers 共享一塊 MLU 卡的計算能力, 同時,提供了基於 kubernetes 的管理插件。該功能為那些對隔離性和安全性需求沒那麼高的數據中心提供更輕量級部署方式。
下圖對比了在 container 環境中經常被用到的 GPU 彈性共享池技術和 SR-IOV Flat 技術。
Elastic GPUs shared pools vs. SR-IOV flat
從上圖可以看出,寒武紀 vMLU 所採用的 SR-IOV-Flat 技術在隔離性, QoS 上都有明顯優勢。
VF 熱遷移 (Live Migration):幫助 AI 雲應用達到 99.99% 的高可用服務級別
想要達到 99.99% 的高 QoS,要求雲業務的年意外停機時間不超過 53 分鐘。熱遷移(Live Migration)功能可以在虛機及其應用程式仍在運行時將其移動到另一臺主機。AI 計算資源是否具備熱遷移能力是評價其在數據中心的群集配置策略、平衡主機的工作負載、容災處理風方面能力的關鍵指標。
寒武紀 vMLU 虛擬化技術為思元 270 提供了熱遷移的能力, 下圖為 MLU 在熱遷移發生時晶片內部的數據流圖:
在熱遷移(Live Migration)功能的作用下,AI 算力實現不停機轉移,思元 270 可助力 AI 雲實現 99.99% 的高服務可用性。
基於寒武紀 vMLU 虛擬化技術,並支持 SR-IOV 功能的寒武紀思元 270 雲端智能晶片正式推出,其優質租戶隔離、應用熱遷移特性,可為雲服務提供商提供更加安全、優質的 AI 計算資源。據悉,搭載虛擬化 vMLU 技術的寒武紀思元 270 已經與金山雲合作並開始內部部署,預計未來 1 至 2 個月會正式上線,敬請期待。