賽迪網訊 在不久前公布的全球超級計算機500強排行榜中,安裝了微軟Windows HPCServer2008作業系統的曙光5000A超級計算機實現了百萬億次的突破,以峰值速度233.47萬億次、Linpack值180.6萬億次的成績,躋身世界超級計算機前十名。
這是本次排名中在美國之外的唯一進入前十名的超級計算機。由此,中國成為世界上第二個可以研發生產百萬億次超級計算機的國家,中國高性能計算領域的歷史也從此進入一個新的紀元。
篳路藍縷,以啟山林對於微軟公司和作為國內高性能計算領域翹楚的曙光公司來說,這樣成績的取得似乎完全在情理之中;然而任何驚人奇蹟的創造,背後都往往蘊藏著開創者們不為人知的艱苦努力。其實,微軟與曙光信息產業有限公司的攜手可追溯到2007年。那一年,兩家公司正式籤署了合作備忘錄,在集群系統開發、集群系統的軟體和解決方案的開發、中國高性能計算人才的培養等方面展開了廣泛的合作。2008年,在曙光5000A成為全球前十名的超級計算機的過程中,微軟中國研發集團和曙光的工程師團隊更是並肩戰鬥,為開創中國高性能計算領域的新紀元而殫精竭慮。在一系列緊張而有序的前期準備工作之後,2008年6月,在首臺安裝了WindowsHPCServer2008的伺服器上進行的單節點測試中,運算效率達到了86%,為同期各類作業系統中最高,這令尚屬高性能計算領域新兵的微軟工程師們非常振奮,也令曙光團隊對合作打造百萬億次超級計算機的前景充滿信心。7月,微軟工程師們在曙光天津產業基地進行的32節點測試中,運算效率達到84%,幾乎實現了節點數目-運算能力的線形擴展,這在運算次數每次加倍,運算效率至少要損失1%到%2的通常經驗預測下幾乎是不可能完成的任務。微軟中國研發集團戰略合作部數據中心經理李銘清楚地記得,在離天津市區5公裡之外的車間內完成此次測試後,他們拖著疲憊的步伐去找賓館,卻因天津正在舉行夏季達沃斯會議而被多個客滿的賓館拒之門外,幾個小時後才輾轉住進了一家小旅館。
艱難困苦,玉汝於成2008年9月12日,微軟中國研發集團和曙光信息產業有限公司的工程師團隊正式進駐於中科院計算所臨時搭建的數據中心,開始了對全部1920個節點構成的集成計算系統的大規模測試和優化。此前,微軟HPC團隊服務過的最大客戶是美國國家超級計算應用中心(NCSA),當時構建的超級計算機由1200個雙路四核的伺服器節點構成,且負責這個項目的微軟美國團隊相關經驗十分豐富。而此次曙光5000A由1920個四路四核的伺服器節點構成,規模是作為高性能計算技術的全球領先者的NCSA擁有的超級計算機的四倍,這對年輕的微軟中國HPC團隊來說是個非同尋常的挑戰。由於測試要求嚴格的無塵環境,佔地達2000平方米的數據中心幾乎完全不通風,只有一個很小的門可供出入。測試過程中50個機櫃的散熱風扇同時工作,環境噪音接近70分貝。兼之數據中心剛剛搭建,各方面情況尚較簡陋,現場工作環境非常艱苦。就是在這樣嚴酷的條件下,微軟和曙光的工程師團隊,夜以繼日地與這臺重50噸、身價2億人民幣的超級計算機「同吃同住同勞動」達7周半之久(從9月1日開始搭建計算機到10月28日完成最後測試結果)。團隊中每人每天的平均工作時間達到14小時以上,在工作現場的機櫃旁、停車場的角落裡偶爾可見悄然入睡的疲憊身影。雙方團隊在這樣艱苦的環境下,經過不懈的努力,令計算集群的性能和速度不斷提高,並多次在最後的期限前奇蹟般的實現既定目標。9月28日,曙光5000A的浮點運算能力達到87.6T;僅僅一天之隔的9月29日,系統運算能力即突破百T大關達到116.3T,得以趕在世界超級計算機大會的截止日期——10月1日之前順利申報全球超級計算機的Top500;10月9日,在九個毫無突破、倍受煎熬的日日夜夜之後,工程師們在逆境中的堅韌不拔終於使曙光5000A的運算能力實現突破,達到了140.3T的新高;10月13日凌晨兩點左右,在雙方工程師們的熱烈歡呼中,這臺超級計算機的運算能力達到167.4T,突破了此前曙光方面預計的160T。此舉被稱為「創造了中國高性能計算的歷史」。在經歷了10月25日174.9T和10月26日的179.8T之後,2008年10月28日,曙光5000A得到它提交給世界超級計算機大會的最終結果——180.6T。當時一直守侯在工作現場的微軟工程師李銘鄭重地說:「我們當時都屏住了呼吸,生怕一絲稍重的氣息都會影響到機器的運行。」自此,中國高性能計算的歷史被正式改寫。對於微軟WindowsHPCServer 2008在本次top500排名測試整個過程中的表現,曙光總裁歷軍顯得十分激賞,「這是我們首次應用WindowsHPCServer2008在這樣大規模的超級計算機上進行測試,本來抱著試試看的態度。但它在測試過程中表現了出極高的效率,最終得到的結果也十分優異,大大超出了我們的預期,這一切都讓我們充分肯定了微軟在這個領域的實力。」
曙光風範:風馳電掣,躡景追飛據此次在一線作戰的工程師們介紹,像此次曙光5000A這樣大規模的計算集群對於硬體的穩定性要求非常高,一臺機器的一條內存出問題就會導致整個任務失敗。因此整個過程中來自曙光的工程師們一直輪流值班,並在現場準備了大量備份硬體,一旦發現問題立刻上前更換,工作效率令人敬佩。而之前搭建數據中心的整個過程,包括電源和水管的焊接及連入整個大廈的系統,架鋼梁、機櫃和路線等,曙光公司僅用了十天左右的時間。其中讓微軟的工程師們印象尤為深刻的是,曙光公司調動了可以調動的全部人員,包括秘書、財務等行政人員,在一個晚上將現場共計七百條,總長達60公裡的光纖全部部署完畢。「這是在其他任何國家都不可能實現的」,微軟中國研發集團伺服器與開發工具事業部HPC開發團隊經理嚴治慶在與遠在美國的團隊交流時表示。
微軟語錄:「起來看歷史啦!」在數據中心現場,微軟工程師們擔負著對系統進行管理和優化,問題排查,不斷推動運算速度提升的重任。項目推進過程中一旦出現問題,要迅速分析原因,如出在硬體方面則需要馬上與曙光的工程師們進行溝通,軟體方面的情況則需要HPC產品團隊的工程師們及時貢獻智慧,微軟中國研發集團HPC開發團隊在嚴治慶經理的親自帶領下,項目經理、軟體開發工程師和軟體開發測試工程師與數據中心團隊共同戰鬥在工作現場,對項目的順利完成起到了至關重要的作用。由於WindowsHPC作業系統是第一次部署在如此大規模的集群上,需要對部署中和測試中出現的問題及時解決,必要時確保得到美國產品團隊的實時支持,工程師們日以繼夜的工作,很多時候是凌晨或周末,把美國有經驗的開發和測試工程師叫上一起開會診斷,力求在最短時間內解決問題。微軟美國的工程師也以極大的熱情把自己的經驗和智慧毫無保留地貢獻出來,因為他們清楚地知道這不但是在創造微軟高性能計算的歷史,也是在創造中國高性能計算的歷史。
在艱苦的歷程中,工程師們一直以極大的熱情投入工作,然而項目從前期準備、節點測試到入駐數據中心後的衝刺總共歷時近一年的時間,其中經歷過好幾次非常困難的「瓶頸」階段。每當大家已非常努力卻一時看不到成果,出現焦躁情緒的時候,微軟中國研發集團戰略合作部的數據中心經理李銘總會以這樣的話為大家打氣:「請記住,我們現在的工作是在創造中國高性能計算的歷史。」
也許正是因為有了這樣強烈的使命感,無論是在天津曙光產業基地,在生產車間裡做測試,還是後來在臨時搭建各方麵條件尚很簡陋的中科院計算所地下二層車庫,微軟工程師們對艱苦環境和繁重任務的適應能力讓所有人驚嘆。身在提倡工作與生活平衡的微軟公司,從入駐車庫開始的中秋節、國慶長假以及各個周末,工程師們沒有休息過一天。其中尤其令人感慨的是被大家親切地稱為「老夏」的法國性能測試專家Xavier,受到大家的熱情感染這次也成了拼命三郎,在項目中每天的工作量是在法國的兩到三倍。
2008年10月13日,對於微軟的工程師們來說是一個格外值得紀念的時刻。這一天凌晨,守候在數據中心現場的工程師們親眼見證了167.4T運算紀錄的誕生,歷史性地突破了整個項目開展預計的160T。結果出來的那一刻,微軟中國研發集團的工程師李浩然叫醒了正在角落裡休息的夥伴們。「起來看歷史啦!」他興奮地說。
這天晚上的慶祝活動中,每個人都喝了有生以來最多的酒,曙光的聶總還拿出了珍藏的茅臺。令人在多日之後仍津津樂道的是老夏同志由於對茅臺酒的後發勁力估計不足而喝了很多,後來兩次跌進了飯館中作裝飾用的水池裡。然而讓人印象更為深刻的可能是他在席間的一番話。「我非常榮幸能參加這樣一個項目,成為改變中國在高性能計算這個領域實力的一員」,他手持酒杯,發表了這番頗具國際主義精神的感言。「這個數字的出現後,中國的高性能計算產業就邁上了一個新的臺階,能為此出一份力我感到非常自豪!」
(責任編輯:張笑)