刷新OpenStack最大規模集群紀錄,智算中心作業系統有了新標杆

2020-12-10 CIO時代網

2020年初,一場以新基建之名的數字基礎設施建設熱潮,讓國人為之興奮。所謂「新基建」也稱為新型基礎設施,主要是指融合了雲計算、大數據、人工智慧等新興數位技術的城市基礎設施,2020年4月中央明確「新基建」範圍,包括5G建設、大數據中心、人工智慧等七大領域。新基建之所以重要,還在於它承擔了推動傳統基礎設施向新型基礎設施轉型的歷史重任,這在十三五與十四五之交具有格外重要的意義。

針對新基建以及大數據中心等具體的數字基礎設施,浪潮作為國內老牌技術廠商以及全球第二大伺服器廠商,在2020年4月提出了「智算中心」的概念,為大規模數據中心的演進指明了方向。如果說大規模數據中心強調的是算力、性能、可靠性等,那麼智算中心更多強調的是算力的集約化,包括各種異構計算的整合以及雲、大數據、人工智慧等平臺的協同打通。開放標準、集約高效、普適普惠,是智算中心的基本特徵。

從大規模數據中心到智算中心,其核心「作業系統」又將迎來怎樣的變化?2020年11月25日,浪潮在2020雲海創新論壇(IIF2020)上發布了智算中心作業系統,向外界展示了對智算中心作業系統的構想及落地實踐——雲海OS完成了全球最大規模OpenStack單一集群1000節點的雲數智融合實踐。

(浪潮信息副總裁張東)

浪潮信息副總裁張東表示,浪潮雲海OS以開源開放技術為基礎、以新時期用戶需求為出發點,不斷進化成為開放、融合、敏捷、智能的作業系統,滿足新基建時代智算中心的要求,奠定了政企數位化轉型「雲數智」融合的基礎,是智算中心的中樞。

浪潮雲海OS經歷了從虛擬化管理到雲數據中心作業系統的演變,如今又進化為智算中心作業系統,而其底座仍然是開源技術及工業標準硬體,從而滿足開放標準、普適普惠、集約高效的要求。

突破OpenStack大規模單一集群

在11月25日舉辦的浪潮雲海創新論壇2020上,浪潮雲海發布了全球最大規模OpenStack單一集群達1000節點的雲數智融合實踐。浪潮雲海在2019年就完成了單一集群500節點的測試,是當時基於OpenStack Rocky版本的全球最大規模單一集群實踐。本次1000節點大規模測試,在規模、場景、性能等方面進行了全面突破,完成了從500節點到1000節點的升級,還刷新了今年4月雲海OS所取得的SPEC Cloud IaaS 測試紀錄,實現了量變到質變的躍遷。

中國信通院全程參與了兩次集群的測試。中國信通院雲大所副所長慄蔚表示,OpenStack是當前主流的雲架構開源項目,逐漸成為高速發展企業和成熟企業基礎IT架構的首選解決方案之一。OpenStack在小規模部署時,其性能和穩定性較為穩定,開源特性和良好的社區支持也為小規模部署提供了技術參考。隨著企業探索的不斷深入,大規模應用的需求越發迫切,OpenStack大規模雲集群有待突破。

作為全球頂級的開源項目之一,OpenStack已經走過了十年的歷程,成為私有雲的產業事實標準以及部分公有雲的「底座」,是當前全球部署最為廣泛的開源雲軟體。截止2020年,OpenStack發布了22個版本,社區裡有超過40個項目,全球有超過1000萬的基於OpenStack的計算核心,在全球187個國家和地區有數十萬成員。今年10月,OpenStack基金會演進成為Open Infrastructure Foundation開源基礎設施基金會,凸顯了融合人工智慧、5G、大數據、邊緣計算等新型工作負載的定位。

一方面,OpenStack可以納管和支持融合的工作負載越來越多;另一方面,由於開源技術和複雜組件帶來的局限性,導致當達到一定規模時,系統的運維難度陡增、並發性能降低,而通過對系統的合理優化方能滿足大規模節點部署的應用場景,保證系統的正常穩定運行,這就是浪潮雲海OpenStack大規模單一集群測試的意義所在。

更大、更全、更高

浪潮在多年雲平臺建設的探索中發現,大型用戶的雲平臺實踐普遍面臨大規模的挑戰。隨著內外部用戶數量的增長,單一應用和服務的規模變得愈發龐大,需要同時部署數百甚至數千臺虛擬機。如果使用多個小規模集群構建雲平臺,應用和服務的跨集群部署、管理、升級會變得異常困難甚至無法實現,因此對單一集群的規模產生了強烈的需求。

針對大型用戶對大規模雲平臺單一集群的需求,浪潮雲海團隊在中國信通院的見證下開展了OpenStack大規模單一集群的測試。浪潮雲計算與大數據產品線首席架構師亓開元表示,從2019年的OpenStack單一集群500節點到今年的1000節點,不僅僅是更大規模的單一集群,今年還加入了大數據和人工智慧,測試集群支撐的業務更全,整體系統達到的更高性能。

本次測試,浪潮雲海團隊在短短3天內完成了1000臺伺服器部署,支撐傳統業務、雲原生業務、大數據業務、人工智慧應用等,並刷新了SPEC Cloud基準測試世界紀錄:OpenStack實現3000個虛擬機高並發創建,密度可達5萬,30分鐘內完成百節點裸機發放;容器實現1000節點管理,3萬 POD並發創建,20萬POD管理,10萬應用管理;存儲實現240節點管理,10萬卷分布式存儲,單節點1萬IOPS,單集群240萬IOPS;SDN實現2到7層網絡10萬臺虛擬機統一管理配置,流量靈活調度。

亓開元強調,浪潮公司大力支持OpenStack大規模單一集群的測試,僅本次測試用的1000臺伺服器的成本就高達上億,是直接從生產線拉下來後送入老化線,其目標就是向用戶展示浪潮的交鑰匙工程能力。換言之,本次所測試實現的1000臺OpenStack大規模單一集群,同樣的方案可以直接部署到用戶的數據中心,馬上就可獲得本次測試所實現的各種極致性能,例如金融和電信等行業都對1000節點單一集群有著實際需求,因此1000節點單一集群相應就極具行業參考規範價值。

而在1000節點之後,下一個測試規模是什麼?亓開元介紹,實際上在本次測試中也進行了1000節點集群的多集群連接測試,未來可以通過多集群方式擴大到上萬節點,滿足用戶更大規模數據中心的未來需求。

從雲數據中心到智算中心

作為OpenStack社區的重要成員之一,浪潮早在2015年就開始圍繞「開放、融合、敏捷」的理念,以OpenStack為核心構建數據中心作業系統,通過敏捷開發的模式實現了虛擬、裸機、容器的統一管理及增強。尤其是在高性能、高效率、高可用、資源融合、多雲融合、雲數智融合以及智能運維、智能服務等方面持續進行優化創新,在開源版本基礎上融入了大量企業級增強和優化,打造了雲數智堅實的底座。

實際上,對於雲計算、大數據和人工智慧計算來說,這是三種不同形態的計算方式,對於計算資源的要求和調度等有著各自的要求,那麼作為智算中心作業系統又是如何實現雲數智融合的呢?這首先就需要對雲計算、大數據和人工智慧等開源技術的深入掌握和深度理解,特別是需要掌握OpenStack雲計算「底座」的精深知識以及相關的工程實踐,而這就是1000節點單一集群測試和實踐的重要價值。

對於浪潮雲海OS來說,不僅強調對OpenStack開源技術的掌握,更強調參與開源社區以及通過自己的實踐來回饋開源社區。例如在OpenStack第21個版本Ussuri和剛發布的第22個版本Victoria中,浪潮在代碼提交數、完成藍圖數、起草藍圖數、補丁修複數和參與人天數均達到全球前列、中國第一。近年來,浪潮的社區貢獻主要集中在Nova(計算)、Cinder(塊存儲)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存儲)等核心模塊,並主導完成Nova通過Cyborg管理加速設備的特性、貢獻Inspur GPU、FPGA、NVMe SSD等硬體設備驅動,有效促進了人工智慧、邊緣計算等新興領域的發展,今年還發布了Venus智能日誌管理開源項目,與業界共同構建開放統一的智能基礎設施。

而面向雲原生領域、滿足用戶容器化場景需求,浪潮基於微服務思想、以應用為中心、面向私有雲市場打造的企業級容器服務平臺,這就是浪潮雲海容器雲平臺InCloud K8S(簡稱 ICK8S),並於2020年9月發布了V2.2版本。該版本新增了微服務治理功能,並在應用管理、應用部署、應用中心等方面全面升級,實現針對容器化業務場景的全面覆蓋。例如在最重要的微服務治理方面,ICK8S實現了無侵入式微服務治理——支持全流量治理、鏈路追蹤、灰度發布等治理服務,治理實現與業務開發的完全解耦,平臺兼容多種微服務框架,已有微服務應用無需額外改造即可平滑遷移。

在面向人工智慧和機器學習方面,大數據處理平臺浪潮雲海Insight入選了Forrester發布中國預測分析和機器學習市場研究報告《Now Tech: Predictive Analytics And Machine Learning In China, Q3 2020》(簡稱PAML),浪潮與百度、阿里雲、騰訊雲等企業入選中國預測分析和機器學習市場第一陣營。浪潮雲海Insight平臺具備數據智能化分析挖掘、多數據源協同計算、大規模集群一鍵式部署、異構平臺混合部署與資源精細化管理等領先技術特性。

正是有了前期在雲計算、大數據和人工智慧等領域的技術布局,如今浪潮雲海OS才有可能升級到智算中心作業系統,特別是實踐了1000節點大規模單一融合集群。浪潮以OpenStack、K8S等開放基礎設施為底座,融入AIOps和人工智慧訓練推理平臺,構建雲數智一體化平臺並提供智能化服務。「智算中心作業系統是智算中心的靈魂,能夠有效聯接下層硬體和上層服務,異構融合多種算力和多元場景,敏捷應對不同智算需求,以智能驅動創新」,浪潮信息副總裁張東就此表示。

總結來說:浪潮雲海OS向智算中心作業系統的升級,是面向未來政企用戶需求而提前進行的布局。浪潮作為網際網路市場的第一大伺服器廠商,將網際網路對於新興技術的需求以及相應的技術方案沉澱和積累下來,再向傳統政企用戶擴散。無論是雲原生、大數據和人工智慧等,真正要全面進入政企應用還要幾年的時間,而浪潮智算中心作業系統不僅為新基建樹立了新標杆,更是為十四五的政企數位化轉型立下了新標杆!

 

第三十屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓

責編:chenjian

相關焦點

  • 不止於1000節點:浪潮雲海完成全球最大規模單一集群雲數智融合實踐
    1000節點大規模實踐相比500節點,在控制節點不變的情況下,集群規模擴大了一倍,存儲擴大3倍達到240節點,計算節點增加1.8倍達到720節點,安裝部署擴容裝配全生命周期時間不變。場景更全。1000節點大規模從OpenStack測試升級為雲數智全棧融合測試,並在雲平臺軟環境部署交付效率上也有優異表現。
  • 一飛智控無人機集群表演在天津大學創造金氏世界紀錄
    挑戰當天,金氏世界紀錄官方認證官全程參與並完成官方審核查驗,最終宣布全程連續飛行動畫過程用時26分19秒,成功創造全球「最長時長無人機表演的動畫」這一全新記錄,挑戰圓滿成功。本次挑戰之時正值北方寒冬,室外氣溫為-8℃,在極冷的天氣能飛出最長航時,證明了該技術的廣泛地域適應性,這也標誌著我國無人機民用集群領域的技術又邁向了新的臺階,開啟了用科技演繹空中動畫藝術的新時代。
  • 基於OpenStack Rocky版本的單一集群實踐,浪潮雲海如何做到?
    因此,浪潮發起了此次基於OpenStack Rocky版本的大規模集群實踐。從小雲到大雲的需求演變OpenStack是當前最流行的雲架構開源項目,逐漸成為高速發展企業和成熟企業IT基礎架構的首選解決方案。IDC發布的《2018年SDC市場報告》顯示,政府、通信和媒體、金融佔據2018年國內OpenStack市場收入前三位,佔整體市場份額67%。
  • 雲計算中openstack架構最受歡迎,那麼其優點是什麼?
    連續增長的雲計算服務提供商可以解決網際網路行業發展過程中的很多問題,現在業界採用的雲計算服務包括基於iaas架構的虛擬化平臺、基於paas架構的託管計算平臺以及基於saas架構的雲計算資源交易平臺,在這幾大類的服務中,其中openstack架構最受歡迎,那麼openstack的優點究竟是什麼呢?
  • 智算中心融合算力、數據和算法,全面支撐AI技術應用和演進
    在智慧時代,數字經濟已經成為國家經濟增長的新動力,其中雲計算、5G、人工智慧、大數據以及邊緣計算是數字經濟結構組成中最底層的核心技術產業。而智算中心則是支撐它們數位化、智能化轉型的最主要算力生產中心,在未來將成為數字經濟時代的新型基礎設施。
  • 智算中心:採用先進的AI架構 創建全新AI算力生產模式
    隨著資訊時代的到來,海量的數據增加,對於算力的要求越來越高。而智算中心就是承載這種算力的生產中心。現在世界各國都非常重視AI算力的基礎設施建設,因為這直接關係到人工智慧的創新發展和質量,以及賦能實體經濟實現新舊動能的升級與轉型。2020年12月10日,國家信息中心信息化和產業發展部聯合浪潮發布的《智能計算中心規劃建設指南》全文正式發布。
  • 「最多無人機同時飛行」金氏世界紀錄刷新:一個飛天逐夢的故事
    2020年9月20日,伴隨著3051架無人機同時升空並點亮珠海的夜晚,「最多無人機同時飛行」金氏世界紀錄稱號被再次刷新當航空航天科技邁向智能化、網絡化、微型化時代,無人機橫空出世,不僅使人類飛天逐夢有了新姿勢,也將人類帶往「上帝的視角」,以全新的方式俯覽天地、連結世界。
  • 浪潮雲海完成OpenStack Rocky版本全球最大規模單一集群實踐
    在上半年,浪潮還宣布了一項節點數量多達200個的測試成績,也證明了Rocky版本在企業實際生產環境中的部署以及大規模集群支持,這對於未來更廣泛的應用具備了指導意義。而如今,當這個數字從200躍升為500的時候,所帶來的意義又有了進一步的轉變。上嘗從容與信言諸將能不,各有差。上問曰:「如我,能將幾何?」信曰:「陛下不過能將十萬。」上曰:「於公何如?」曰:「臣多多而益善耳。」
  • 智算中心注入時代新動力 推動智能化應用發展
    「新基建」的到來為各種智能化應用帶來了發展良機。隨著智算中心的落地,以人工智慧技術為代表的產業獲得了強大的算力支撐。現在,國家發改委已經明確了信息基礎設施、融合基礎設施和創新基礎設施三種新基建類型,智能計算中心首度亮相即引發了業界廣泛關注。
  • 「走進溪村」2020超算中國高峰論壇舉行,開啟融合智算雲新時代
    在科技部指導下,本次高峰論壇由CCF高專委、華為雲、鵬城實驗室聯合舉辦,以「新基建、新超算、新經濟開啟融合智算雲的新時代」 為主題,旨在新基建背景下,基於超算、雲,AI、HPC、大數據等新興數位技術融合,碰撞出「政產學研用」相結合的思辨創新。從而助力更多行業獨角獸的孵化,賦能千行百業,真正推動科技進入企業場景的轉型升級。
  • 「生命密碼」破譯加速度 中國精準醫學再次刷新世界紀錄
    中國方案刷新全基因組測序速度的世界紀錄全基因組測序技術將人基因組隨機打斷成數億個短片段平行測序,因此測完之後只是一大堆零散的數據,必須進行分析運算才能得到有生物學意義的結論。不久前,全基因組「測序數據云分析」領域傳來「爆炸性」消息:深圳承啟生物科技有限公司利用自主研發的雲平臺Chi-Cloud及高精度算法FANSe3,成功實現了單機5分鐘分析完成一個人全基因組數據集,再度刷新世界紀錄。為什麼說是「再度刷新世界紀錄」呢?
  • 浪潮發布新一代HPC集群管理平臺ClusterEngine
    11月19日,在2020全球超算大會(SC20)上,浪潮發布新一代HPC集群管理平臺ClusterEngineV5,支持超算中心HPC及AI計算負載,提供涵蓋硬體運維、業務管理和應用性能分析的全棧式高效管理,幫助系統管理者輕鬆管理上萬節點,大幅提升HPC集群的資源利用率和應用計算效率
  • 一飛智控在津榮獲「最長時長無人機表演的動畫」金氏世界紀錄
    央廣網天津12月18日消息(記者劉陽)12月18日,全球智能工業級無人機領軍企業一飛智控在天津大學成功獲得金氏世界紀錄稱號——「最長時長無人機表演的動畫」。挑戰當天,金氏世界紀錄官方認證官全程參與並完成官方審核查驗,最終宣布全程連續飛行動畫過程用時26分19秒,成功創造全球「最長時長無人機表演的動畫」這一全新記錄,挑戰圓滿成功。
  • 破世界紀錄!上海交通大學實現天文學N體模擬粒子數新突破!
    上海交通大學上海交通大學網絡信息中心、天文系聯合廈門大學天文系等單位,依託交大超算平臺(π 2.0集群),成功完成4.4萬億粒子的宇宙大尺度結構N體模擬Cosmo-π測試(使用512節點、20480核心),追蹤了137億年以來的宇宙演化
  • 奈良美智的夢想王國7257萬港元成交,刷新個人紀錄
    其中高達6米的《然而並非一切(綠屋)》從2000萬港元起拍,經過激烈競爭,3400萬港元落槌於現場買家的2222號牌,加佣金4012萬港元,刷新了奈良美智的個人拍賣紀錄。隨後上場的雙胞胎作品《然而並非一切(橘屋)》以1800萬港元起拍,落槌於2750萬港元,加佣金3245萬港元,同樣被2222號牌買家拿下,將這兩件原本分隔於香港和臺灣的作品相聚一堂。
  • 「智造」產業鏈!江蘇13個世界級產業集群正崛起
    2019年,由盛虹集團和東華大學牽頭組建的「江蘇新視界先進功能纖維創新中心」獲得國家工信部批覆,成為全國第13家國家級製造業創新中心,也是江蘇省首家國家級製造業創新中心。中心落戶蘇州盛澤鎮,聯合了國望高科、浙江恆逸、新鳳鳴、東華大學等15家長三角地區的企業和高校科研院所作為主要股東單位,致力於功能纖維行業的共性技術研發和產業化轉移。
  • XSKY發布XMotion納管熱遷移技術,OpenStack集群遷移效率提升超10倍
    下面我們以某省級農信社的大規模OpenStack生產集群遷移為案例,介紹XMotion的存儲和計算一體化在線遷移方案。因為歷史原因,過去為了規避單一供應商的產品和服務風險,該用戶在對外省級聯社以及對私內部運營,規劃和籌建了兩套OpenStack集群,這兩套集群各自獨立運營,資源以及權限分離管理;而在過去三年的逐步比較中,發現B集群服務商具有更好的產品穩定性和商業服務能力,所以本次遷移的目標是為了將OpenStack廠商A的老集群遷移到OpenStack廠商B的新集群中,同時將原XSKY存儲集群遷移到新版本的兩套集群中
  • 未來科學發現可以「算」出來
    國家超級計算無錫中心主任楊廣文教授介紹,超算由大量的計算節點組成,每個計算節點由一些CPU組成,計算節點由高速網際網路連接起來,當年還有大規模存儲系統、系統軟體、應用軟體和冷卻系統等。但是,我國幾代超算人承上啟下,憑藉著「兩彈一星」科學精神,創造出了不起的「奇蹟」。至今,從天河二號到「神威·太湖之光」國產超級計算機,共10次拿下世界第一 。
  • 央廣網報導浪潮:智能工廠和智算中心《「元」來有你》
    日前,中央廣播電視總臺央廣網推出跨年特別直播《「元」來有你》,以記者探訪形式,對浪潮等在疫情中復產復工以及在科技領域創新表現突出的企業進行了報導。記者現場解說我現在所在的位置是位於山東濟南的浪潮智能工廠。