火花 發表於 2020-11-26 15:02:58
11月19日,在2020全球超算大會(SC20)上,浪潮發布了新一代HPC集群管理平臺ClusterEngineV5,不僅支持超算中心HPC及AI計算負載,為硬體運維、業務管理和應用性能分析提供全棧式高效管理,而且幫助系統管理者輕鬆管理上萬節點,大幅提升了HPC集群的資源利用率和應用計算效率,滿足了面向未來的新型超算中心的創新業務增長需求。
ClusterEngineV5提供獨有的HPC應用性能分析工具,幫助用戶診斷應用瓶頸,提升HPC應用優化效率及質量。該工具可對異構集群進行全方位性能分析,針對AI計算提供函數級應用性能分析,及時定位性能異常,幫助用戶深入分析和發現計算性能優化空間。基於該工具的分析結果,用戶可結合自身平臺的資源使用情況及設備特徵,提升應用計算效率及資源利用率。
面對底層硬體,ClusterEngineV5提供一體化硬體運維監控平臺,實現伺服器、存儲、網絡設備的全生命周期自動化運維,有效地幫助用戶提高運維效率、降低運維成本。平臺可實現7*24小時大規模硬體監控管理,快速識別200+類問題,內置30000+專家級大數據規則庫,快速診斷故障根因並提供解決方案。同時可以自動監測數據中心功耗,進行智能分析、遠程控制、功耗管理,幫助用戶節省30%以上的功耗。
面對核心業務,ClusterEngineV5為上萬節點HPC集群提供穩定、高效、易用的HPC業務管理平臺。可實現HPC和AI應用的統一管理,作業提交流程極簡化。並能根據用戶業務需求實現靈活的作業調度和管理策略,保證資源充分利用。同時支持容器化,用戶可快速部署應用,在多節點並行計算時,保證各節點系統環境一致,並且可通過容器快速部署開發環境,提升開發工作效率。
另外,浪潮ClusterEngineV5打通了硬體監控、業務管理和應用性能分析,提供了一套面向HPC與AI應用場景的全棧式超算中心管理解決方案,涵蓋全生命周期集群硬體智能運維、全方位集群監控、應用性能監控、異構集群算力調度分析和調優等,幫助管理人員高效管理HPC和AI負載,降低集群部署和管理門檻,提高資源利用率和計算效率,實現降本增效,推動面向未來的超算中心業務創新。
fqj
打開APP閱讀更多精彩內容聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴