作為面向Kubernetes構建的開源機器學習工具包,Kubeflow如今正式迎來1.2版本。
本次新版主要更新包括:模型構建、訓練調優以及機器學習管道的增強;引入自動配置超參數機制以提高準確度;提供Kubernetes上的無伺服器接口;提供交互式編碼環境以更好地進行模型開發等等。
重要內容一 —— Katib 0.10
Katib是基於Kubernetes的超參數調優與神經架構搜索系統,能夠支持TensorFlow、XGBoost以及Pytorch等多種機器學習框架。
新版本的Kubeflow引入了帶有v1bet1 AP1的升級版Katib,旨在通過自動超參數配置(控制模型訓練過程中的變更)以更強大的基礎架構交付更加準確的模型成果。Katib 0.10中的一些重要功能包括:
提前停止:此功能有助於節約集群資源。此功能無需修改任何訓練原始碼即可使用。在親模板中支持定製化資源定義(CRD):CRD API資源允許用戶定義自己的定製化資源。藉助這一新功能,用戶可以通過簡單的步驟將各項定製化資源整合至Katib當中。恢復實驗:用戶現在可以使用自定義存儲卷中保存的原有建議數據,快速恢復Katib實驗。指標提取:在此之前,Katib試驗控制器只能採用實驗中可用的最佳指標值。在此次更新之後,用戶能夠為實驗指定更為靈活的指標策略。重要內容二 —— KFServing 0.4.1
KFServing用於提供Kubernetes CRD,藉此在任意框架上支持機器學習模型。它提供GPU Autoscaling(自動規模伸縮)、Scale to Zero(擴展歸零)以及Canary Rollouts(金絲雀測試發布)等功能,並為Tensorflow、XGBoost以及PyTorch等其他機器學習框架提供高性能抽象接口。
在更新之後,KFServing v0.4.1現可在Red Hat開發的OpenShift容器平臺上運行;此外,新版本還提供一項附加功能,允許您以邊車模式添加批處理模塊。藉助此功能,KFServer Batcher能夠一次性接受並批量處理所有用戶請求,而後將其發送至「InterferenceService」。這不僅能夠節約大量時間,現時也可加快對幹擾請求的響應速度,並提高基礎設施的資源利用率。
其他新增功能,包括引入Triton幹擾伺服器重命名與集成支持,並允許自定義URL路徑。
重要內容三 —— Kubeflow Pipelines
Kubeflow Pipelines是基於容器的機器學習工作流部署平臺。這些平臺包含用於管理並跟蹤實驗的用戶界面;安排多步驟機器學習工作流的引擎;使用軟體開發套件(SDK)與系統進行交互;並提供用於管道及組件定義的SDK。新的Kubeflow Pipelines將支持並簡化機器學習管道的端到端編排,同時簡化實驗與重複使用等常規流程。
新的Kubeflow Pipelines還支持Tekton。源自谷歌雲的Tekton是一套基於Kubernetes的靈活開源平臺,專門用於創建持續集成與交付(CI/CD)系統。
其他重要公告
除了以上討論的主要功能之外,Kubeflow v1.2還引入了用於模型開發的交互式、實驗性編碼環境Notebooks,可供個人及團隊通過Kubernetes命名空間用於調度各類資源。
另一項重要的附加功能,是使用經過更新的模型管理技術對各個版本及其子組件(例如元數據)進行建模。這種模型管理技術將大大降低模型組織與識別的難度。此外,新版本還在嘗試為機器學習模型及數據定義數據類型,藉此在更為廣泛的元數據標準及不同框架之間建立起良好的互操作性。
更多精彩內容,參考原文:https://analyticsindiamag.com/kubeflow-v1-2-released-all-the-features-introduced/
文章部分內容來源: 分布式實驗室