文/黃海峰
科研機構,是科技持續發展的「發動機」。科研機構需要怎樣的支撐?我們認為,除了經費和人才外,科研機構對計算能力有著更高需求,特別是高性能計算,強大的算力,能夠滿足大量科研項目的計算需求,縮短研發周期,進而推動高效創新。
筆者近日在華為全聯接2020大會(以下簡稱HC)期間注意到,國內以高新技術和前沿科學研究為主的一流大學——中國科學技術大學(以下簡稱「中科大」),聯合華為打造的「瀚海20超級計算系統」成功發布。
「瀚海20超級計算系統」在HC期間的發布儀式
「瀚海」建成:性能更強、更節能
中科大計算機科學與技術學院教授、博士生導師、網絡信息中心主任、超級計算中心主任李京在HC分享「瀚海20超級計算系統」建設經驗
眾所周知,中科大在量子信息、化學與材料、物理、微尺度物質科學、核科學等學科領域,位居國內科研前沿,此類學科對於計算量需求巨大,也就形成了高性能計算天然的應用場景。中科大在1995年建成國家高性能計算中心(合肥),為教學科研服務。2002年眾多科研方向需要購置計算設備,之後建設了超算中心,持續演進多年。
發展到2018年,中科大超級計算中心幾項挑戰逐漸凸顯:一是科研人員作業排隊時間太長,用戶體驗差,影響科研進度;二是原有高性能計算平臺利用率過高,無法進行大規模並行計算,制約科研廣度、深度、精度;三是存儲小,性能低。受現有機房空間及電力限制,普通的風冷伺服器無法放下,所以中科大希望選擇液冷伺服器提高能效實現節能。
2019年12月,為解決科研人員上述問題,中科大通過面向全社會招標,最終在其高性能計算平臺落地了一個大項目,讓算力終於迎來「質」的飛躍:在華為協助下,「瀚海20超級計算系統」完成全部建設和系統調優,順利通過了項目驗收。
「瀚海20超級計算系統」擁有CPU計算集群30480顆核,系統理論峰值性能2.52Pflops,實測HPL雙精度浮點計算能力:700多個節點1.43PFlops,計算效率為63.95%,甚至部分計算節點HPL效率能跑出71%以上的超高性能。
「瀚海20超級計算系統」是中國高校首家在高性能計算平臺中採用InfiniBand HDR100 100Gbps網絡技術構建的全線速的高速計算網絡,基於ConnectX-6晶片的InfiniBand和乙太網卡可提供無與倫比的性能,在600納秒的極低延遲下,每秒可發送2億條消息,讓中科大科研用戶獲得更快的網絡性能,也是全國高校首例。
該系統也為科研用戶提供了多種算力平臺,採用了20臺華為TaiShan伺服器構建安全可靠的基於鯤鵬架構的計算集群。該架構在部分單精度和整型計算應用程式性能表現優異,帶來新一輪的算力加持,提供高性能的硬體加靈活的軟體綜合解決方案,可用於生物信息學計算軟體,和流體力學計算。
據了解,中科大「瀚海20超級計算系統」不只性能強,而且更加綠色環保,系統採用華為全液冷的解決方案,高效散熱,可以大量節省機櫃,降低能耗。比如在256P、FP16算力提供時只需要16個機櫃的Atlas,但功耗只有36千瓦,其中的720臺華為X6000液冷高密伺服器計算節點僅需10個機櫃即可部署,每個機櫃72個節點39KW的超高密計算系統,相比傳統伺服器每年至少可節省電費17餘萬元。
使用頻繁:推動高校諸多科研工作
「瀚海20超級計算系統」已成為當前中國高校中最大高性能計算校級平臺之一,穩定高效運行近一年,完成幾十萬個作業,超2億CPU核小時,支持了大規模的天體宇宙模擬、高並行的量化計算與等離子體模擬、託珠單抗能夠有效治療重症新冠患者的原因以及大規模的量子模擬以加快量子霸權等重要研究。
「原來我們設想,針對多種應用試運行時可能存在問題,需停機升級,結果很穩定,用戶作業繁忙,無需升級。」李京介紹。「瀚海20超級計算系統」建成後,的確幫助中科大眾師生完成了一系列學術科研突破。
我們在此選擇幾個典型案例。
第一,中科大合肥微尺度物質科學國家研究中心的胡老師針對大尺度分子固體材料的第一性原理計算模擬,以自主開發的第一性原理線性標度計算軟體DGDFT[JCP 143, 124110 (2015)]為基礎,開發低標度、低通訊,低內存、低訪存的並行計算方法,實現超大規模高性能並行計算,其中DGDFT採用了多級MPI並行以及高效求本徵值方法,具有高度可擴展性。在某校外高性能計算和「瀚海20超級計算系統」高性能計算平臺上分別計算金屬石墨烯C2880(2880個碳原子),在相同核數下的絕對計算速度比該校外超算運行快30%以上。
第二,中國科大網絡信息中心張煥傑老師就利用其實現了ARM平臺甄別郵件系統中用戶弱口令問題,由原來的需要1天,縮短到30幾秒即可完成,大大縮短了處理時間,提高了郵件系統的安全性。
第三,得益於華為提供的軟硬體技術支持,中科大鴻雁隊參賽學生開拓創新、理論與實踐結合,在問題識別、分析與解決等方面得到了迅速且顯著的技能提升,做到充分備戰,最終再次問鼎ISC-SCC20國際大學生競賽冠軍。
中科大超級計算中心副主任李會民在HC分享「瀚海20超級計算系統」應用經驗
據悉,中科大超算中心主要系統瀚海20超級計算系統實際利用率高,達到93.99%,而之前的TC4600百萬億次超級計算系統是84.47%。「目前用戶需求旺盛,現有資源遠遠無法滿足需要。」中科大超級計算中心副主任李會民表示。
「承瀚海之遼闊,比星雲之光華」,整個系統運行流暢、運維簡單、綠色節能,相信這套先進、高效的「瀚海20超級計算系統」,將更好地助力中科大各院校師生開展科學研究,全面促進中科大的「雙一流」建設發展。
「計算」無處不在:生態合作,實現更多領域應用
如今的HPC已不再局限於科研、石油化工等傳統「高精尖」領域,而將「無處不在」,日趨「普惠化」。「瀚海20超級計算系統」所採用的華為解決方案,可以服務於更多社會產業與領域,在各行各業中的使用率不斷攀升,並在數位化轉型中扮演著不可或缺的角色。
在近日的CCF全國高性能計算學術年會(HPC CHINA2020)大會上,華為等一眾知名科技企業、高校、科研機構紛紛展示出最新科技產品與科研成果,開設專場HPC論壇,深度分享了HPC解決方案及在各領域落地的探索。
其中,以Atlas 900 AI集群為代表的華為AI+HPC融合解決方案已經在氣象預測、基因測序、生命科學、金融、醫療等多行業得到快速普及,有著廣泛的需求和應用。
在致力發展計算產業生態過程中,以中科大與華為攜手打造「瀚海20超級計算系統」為例,其最終目標就是科技企業與科研高校、合作夥伴們實現共贏,通過綠色節能、安全可靠、極致性能的先進算力,實現各行各業的數位化轉型和業務創新。
總體來看,高性能計算推動世界發展進程,已經成為重大科研前沿領域不可或缺的重要手段。「瀚海20超級計算系統」,作為未來高性能領域備受矚目的「後浪」,能否在之後逐步走出校園,推動行業,掀起波瀾,乘風破浪至彼岸,我們拭目以待。