導讀
自計算機誕生之日起,科學和工程對計算性能的無限追求,一直在不斷衝擊和超越摩爾定律的想像。高性能計算資源特別是其計算能力的大小已經成為衡量高校科學技術研究、產品研發實力、人才培養水平和持續創新能力的重要標誌。
中南大學是教育部直屬全國重點大學、國家「211工程」首批重點建設高校、國家「985工程」部省重點共建高水平大學和國家「2011計劃」首批牽頭高校,2017年9月入選世界一流大學A類建設高校。學校對高性能計算資源具有迫切的現實需求。
中南大學高性能計算公共服務平臺作為一個硬體先進、功能齊全、資源豐富,面向全校師生提供高性能計算服務的開放性公共服務基礎設施,不僅可以為學校的科學研究和工程計算提供計算力支撐,而且還參與了中國教育科研網格(ChinaGrid)二期的建設並成為其重要節點。
01、強強聯手,打造首個5萬核智算中心平臺
中南大學與浪潮強強聯手,共同打造國內高校計算能力一流的高性能智算平臺。針對用戶需求和項目特點,採用浪潮高密度AI微模塊數據中心解決方案,運用多項業內新技術,搭建高度智能化高性能智算平臺。
整個平臺擁有1058個計算節點,合計50896個計算核心。為滿足多元算力作業需求,智算中心集群採用CPU、GPU的混合計算環境,CPU理論計算能力可達4856萬億次,GPU理論計算能力可達788萬億次,整個計算集群聚合計算能力達到五千六百萬億次。
同時採用浪潮AIStation調度平臺對算力進行高效調度,滿足算力資源的細粒度高效共享,整體資源利用效率可提升至80%;在算力聚合層面,配置100Gb高速IB計算網絡對算力集群進行高效聚合,保證應對大規模作業任務或AI訓練大模型場景的集群內算力的高效聚合。
此外,為確保元數據訪問服務不間斷運行,獨立配置雙熱備高性能I/O伺服器節點,通過成熟的HA軟體配置成高可用模式,任何一臺伺服器出現故障(網絡通訊、作業系統、伺服器硬體等)都會自動切換到另一臺伺服器,確保數據訪問服務不間斷運行。
02、60KW冷量空調,打破製冷瓶頸
在對中南大學高性能計算公共服務平臺建設場地詳細的實地勘察基礎上,為了最大化提升空間利用率,浪潮採用業內技術領先的60KW高冷量列間空調,相比傳統風冷列間空調節省了7個標準IT機櫃,有效提升了計算節點機櫃的布置空間,計算資源相應地提升約1.2倍。60KW冷量空調優勢在於,一是冷量更高,約為傳統列間空調製冷量的1.5倍;二是能耗更低,使智算平臺PUE值整體降低約10%。
03、定製化布線系統,集約高效
中南大學高性能計算公共服務平臺採用了兩套浪潮AI微模塊。由於在進行高性能計算時,存在多個計算節點同時協同工作的應用場景,要求兩個微模塊之間實現高速互聯。傳統的走線方式需要鋪設大量的IB(InfiniBand)線纜,增加了數據傳輸的延時,同時,IB線纜造價昂貴,經費投入巨大。為滿足應用的整體化需求,浪潮在兩個微模塊之間採用定製化過線橋架,優化了IT機櫃之間的布線。定製化橋架保證了系統整體美觀協調,相對傳統布線方案減少IB線纜長度約20%,在有效節約投入的同時,保證了高性能計算對高速計算網絡帶寬的需求。
04、AI智能監控系統,智算平臺的晴雨表
中南大學高性能計算公共服務平臺有了可靠的硬體支撐還需要一個「大腦」對其進行監控和管理。微模塊監控系統採用32寸觸控大屏,可運行3D可視化管理系統。3D可視化系統運用H5技術,具備監視面板、溫度雲圖、資產查詢、空間查詢、功率查詢、AI智能巡檢等功能,有效降低了運維人員的工作強度。在操作間還部署了機房運維監控大屏,通過監控大屏和輔助顯示器對主機房和配電間設施的運行狀態進行實時監控和顯示。AI智能監控系統就像晴雨表,不僅可以實現數據的監控,還可以通過日誌數據的統計分析,預測可能發生的故障,極大地提高了平臺運行的穩定性。
05、系統自動投影,運行狀態一目了然
作為國內高校計算能力一流的智算平臺,中南大學高性能計算公共服務平臺不僅提供強大的計算力及專業技術服務,還是對外展示風採的平臺。AI微模塊搭載監控系統自動投影技術,在滑動門上通過特殊屏幕呈現出清晰的投影效果,使觀眾仿佛置身於中南大學智算平臺之中,通過屏幕上投射的動態影像,觀眾可以全方位感受到智算平臺所帶來的強烈震撼,一睹高性能計算公共服務平臺的風採,彰顯中南大學的文化魅力,享受一場視覺盛宴。
中南大學高性能計算公共服務平臺的建設與學校「智慧中南」的理念不謀而合。高密度部署、定製化設計以及AI智能監控系統三大法寶為平臺的穩定、持續和可靠運行提供了強有力的保障。平臺將於2020年9月底建成並於10月份投入試運行,我們相信,智算平臺的投入使用,必將極大地推動中南大學科學研究的成果產出並進一步促進高水平人才的培養。