「當今,科學研究可分為三種:實驗、理論和計算。」
——諾貝爾獎得主,威爾遜
如果說,在科學的發展長河中,伽利略和牛頓奠定了實驗科學和理論科學的基石。那麼,計算機的發明,則把計算推上了人類科學活動的另一個前沿,此後,計算在科學活動中發揮著越來越重要的作用。
例如,被稱為「上帝粒子」的希格斯(Higgs)玻色子是2012年度最大的科學突破。它的發現和捕捉之路離不開歐洲核子研究中心(CERN),而對撞實驗項目則離不開背後的大規模數據處理,大量的數據處理則需要依靠高性能計算(HPC)。
不僅如此,近年來,計算在生命科學、天文物理學、醫學、系統科學等各種科學中,所發揮的作用日益增大。並且,在氣象、核技術、石油勘探、航空航天、裝備製造研發、運輸交通等國民與國防建設的很多重要領域中,計算成了必不可少的手段。
「網際網路的應用有兩大驅動力,一個是商業的網際網路,另一個就是科研領域,1994年中國接入網際網路之後,接入的第一個科研應用就是高能物理。」蘭州大學網絡安全與信息化辦公室主任陳文波主任在接受採訪時說。
蘭州大學的HPC之「難」
蘭州大學是教育部直屬的全國重點綜合性大學,是國家「985工程」和「211工程」重點建設高校之一,於2017年入選教育部世界一流大學建設名單,並且有4個學科入選世界一流學科建設名單。
據了解,高性能計算作為蘭州大學的科研工具扮演了極其重要的角色,「我們平臺的超算能力是1200萬億,在西部高校的HPC規模應該是最大的。」 蘭州大學網絡安全與信息化辦公室主任、超算中心主任陳文波主任說。
學校先後在物理、化學、大氣學院等學院建設了高性能計算中心,給各學院的教師和學生提供了科研支撐。「在上世紀80年代,全國開始建立計算中心,蘭大就是其中之一,當時用的是日本富士通的機器,之後,又從中小型機過渡到X86伺服器,2004、2015年開始採用計算集群,到了2010年後,各學院開始了自建…….」陳主任回顧了蘭州大學的HPC應用之路。
目前,雖然各學院分散建設高性能計算中心的模式在一定程度上滿足了現有的科研需求,但也存在著諸多問題,難以滿足學校長遠的發展。主要表現在:
1、資源浪費:各學院獨立建設高性能計算集群,物理設備或部門之間的隔離導致資源無法共享,造成資源嚴重浪費;
2、運維管理複雜:各學院老師需要承擔各院高性能計算集群設備的運維管理工作,無法更好地聚焦科學研究;
3、採購成本高:由於高性能計算集群建設沒有做到全校一盤棋統籌,導致高性能計算相關的設備採購成本及運營成本居高不下;
4、用戶體驗差:由於大多數有科學計算需求的師生都是非計算機專業出身,存在對超算系統概念不了解、環境不熟悉、使用門檻高的問題。對於一名通常只有2~3年研究時間的學生來說,基礎配置和調試等工作佔用了大量的研究時間;
5、不利於交叉學科發展:學科交叉點是科學新的生長點、新的科學前沿,而校級平臺是學科交叉的溫床,但各院獨立建設的現狀無法滿足高性能計算中交叉學科的發展需求;
面對以上的種種問題,蘭州大學亟需統籌規劃全校的高性能計算中心建設,構建全校統一的高性能計算公共服務平臺。但是統一建設仍面臨著很多新的挑戰,例如,如何實現計算資源的靈活調度?如何實現用戶的業務隔離?如何實現作業的合理調度?
遇見容器HPC
據蘭州大學網絡安全與信息化辦公室超算中心高級工程師 張洋老師回憶,早在五六年前,在蘭州大學跟美國聖地牙哥超算中心合作項目的時候,開始對容器HPC有初步的了解並持續關注。所以在規劃建立統一的高性能計算平臺的時候,優先考慮使用容器HPC。據悉,針對蘭州大學在統一高性能計算平臺的建設過程中面臨的問題,華為利用自身大量的行業數位化轉型經驗和生態夥伴的整合能力,攜手聯科提供的基於容器的HPC解決方案在眾多競標者中脫穎而出。
據了解,此方案運用雲計算技術、前端展示以及移動計算等技術,打破了傳統校園計算中心的建設模式,通過容器的隔離和鏡像打包功能,將平臺管理員從複雜的管理工作中解放出來,建立基於容器技術的高效公共計算雲平臺的管理模式和應用服務體系,讓用戶像使用手機一樣,方便的使用高性能計算,通過行動裝置隨時隨地的提交任務,查看結果。最終,通過容器解決方案,做到計算環境快速部署和切換。
「早期做方案調研的時候,我們找了五個學院的應用進行測試,觀察其性能的損耗,因為對HPC應用來說,性能是優先需要考慮的,結果是,經過測試後,容器確實性能損耗和物理機相比基本上沒有多大的區別,並且,多節點的MPI應用也都能跑起來。」張老師說。
具體來說,容器HPC解決方案統一部署之後,給蘭州大學帶來了顯而易見的價值:
首先,簡管理。建立統一的計算平臺,通過用戶管理子系統,對平臺使用者的身份進行認證、審批、權限控制、配額信息管理、用戶組及用戶成員關係等管理,幫助學校實現計算平臺的在各學院的租戶化管理、運營;
其次,降成本。通過容器隔離子系統,在同一個計算平臺上同時運行不同版本的作業系統,擁有獨立的網絡配置(包括高速乙太網以及高速IB計算網),並可訪問不同的存儲空間及數據集。保證虛擬化的資源性能與物理性能損失小於1%,滿足科學與應用數據中心高性能計算的需求;
再次,均資源。通過任務調度子系統,實現從多種計算資源中選擇最合適的節點啟動容器。並通過資源監控模塊、作業執行監控模塊以及作業調度算法模塊實現最合理的作業調度,實現多個學院的用戶在平臺上能夠均衡地獲取到資源。
寫在最後
教育科研水平直接代表著國家的科技實力與能力。在過去,我國在高性能計算的應用方面,一直和歐美存在著差距,「如今,我國超算的發展是爆炸式的,我們已經慢慢從學習的階段走向了應用階段。」陳主任在採訪結束時表示。
當前,國內高校HPC應用迎來了一個黃金時代,而容器HPC將引領高校的超算發展,助力高校科研的繁榮之路。