2010年,夏。
「天河一號」二期系統進駐國家超算天津中心首期工程——通信光纖鋪設甫一開始,就遇到了大麻煩。
鋪設光纖的溝槽溫度高達40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出了線芯。
這個問題不解決,後果不堪設想。輕者信號中斷、通信短路,重則導致系統紊亂。
怎麼辦?工程現場指揮員的舉動出人意料,他把衣褲一脫,跳進悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條「人肉地毯」,一根根光纖順著的工程人員的身軀通暢地向前延伸。
光纖鋪設過程中,幾十人在悶熱的溝槽裡赤身裸背爬了數十天,被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫髮無損。
等到「天河一號」二期系統試機那天,開機運行的一瞬間,全部線路暢通無阻。
不久後的11月,我國首臺千萬億次超級計算機「天河一號」以驚人的運算速度在全球超級計算機500強榜單中位居世界第一,這也是五星紅旗第一次插上世界超算之巔。
1983年我國巨型機實現「零」的突破,到「天河一號」大顯王者風範,歷經數位科學家的艱苦探索,中國超算不斷衝擊巔峰,高端應用連續兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。
以「神威•太湖之光」和2017年完成技術升級和系統優化的「天河二號」為標誌,我國超級計算機具備了從自主微處理器、自主互聯、自主軟體系統到自主應用的全方位自主研製。伴隨著改革開放的時代大潮,我國高性能計算機完成了從「跟跑」到「領跑」的歷史跨越。
再見!屈辱的玻璃房子
「中國要搞四個現代化,不能沒有巨型機!」1978年,在中央召開的一次重要會議上,鄧小平同志的這句話擲地有聲。隨即,他代表黨中央、國務院將這一任務交給國防科技大學。
時任該校計算機研究所所長的慈雲桂教授聽到這個消息,當即向上級立下軍令狀:每秒一億次一次不少,6年時間一天不拖,預算經費一分不超。「就算是豁出這條老命,也要把中國的巨型機搞出來!」
在中國老一代超算人的心裡,藏著一段關於玻璃房子的心痛往事。
20世紀80年代,中國氣象部門想從美國克雷公司進口一臺計算機,美國人死活不肯賣。後來好不容易鬆口了,但美國政府要對出口中國的高性能計算機進行監視,即在計算機機房安裝監視儀器,機器也要封在玻璃機房裡,由他們自己人使用監控,不許中國科技人員進去。
「銀河一號」巨型計算機面對西方國家如此嚴密的技術封鎖,以慈雲桂教授為代表的第一代中國計算機科技人員敢為人先,率領國防科大計算機科研隊伍,在1983年12月研發出中國第一臺億次巨型電子計算機,取名為「銀河」。中國從此成為繼美、日之後能獨立設計和製造巨型機的國家。
1993年,德國曼海姆大學漢斯·埃裡克教授等開始實施國際TOP500排名。彼時,國防科大銀河系列超級計算機關鍵技術攻堅勢如破竹。但每當中國躍上一個新臺階,美國或日本不久便會宣布研製出世界上運算速度最快的超級計算機。似乎,中國的超算水平總是比別人差那麼一點點。
進入21世紀,世界超級計算機發展遭遇「冰封」時期。科學家們為了提高超算系統的整體性能,只能依賴於加大系統規模:比如計算機體積有幾個足球場那麼大、需要建一個專用的發電站才能滿足它的功耗。2004年日本的「地球模擬器」,雖然一度搶佔國際TOP500排名第一,但其機房竟需要四層樓,銅質電纜有上百公裡長。
超算技術再跨越,需要新的體系結構理論來支撐。這也意味著中國和美、日等發達國家處於同一起跑線,中國在超算領域決戰決勝、衝擊巔峰的時機來臨!
死磕到底,科學家「著了魔」2006年開始,楊學軍和他的團隊,開始了一場極富創意甚至有點冒險的主動出擊戰。其時,國家制定了「先研製兩臺百萬次超級計算機、再研製一臺千萬億次超級計算機」的「兩步走」戰略。但以楊學軍為總設計師的總師組,經過深入技術調研、反覆權衡利弊,決定從每秒10萬億次直接衝刺每秒1000萬億次,走別人沒有走過的CPU+GPU技術路線。這一超常決策引起一片譁然。
以10倍速度逐步遞增來研製超級計算機,已成為國際慣例。從每秒10萬億次直接向每秒1000萬億次跨越,會不會有點急功近利? 楊學軍的劍走偏鋒,會成功嗎?
CPU(通用微處理器)+GPU(專用微處理器)異構融合體系結構,形象地說,就是把眾多CPU、GPU有機地連成一枚「捆綁式火箭」。所謂「一個和尚挑水喝,兩個和尚抬水喝,三個和尚沒水喝。」把數千個CPU和數千個GPU組合成一個「大廟」,它們還能賣力「挑水」嗎?
失敗的滋味,不好受。2009年3月,他們把CPU、GPU這兩類「和尚」組合起來,竟發現總性能還不到600億次,而一顆CPU就有近500億次的性能。也就是說GPU雖然用於圖像處理速度驚人,但讓它與CPU放在一塊用於科學計算,就變得非常懶惰,計算效能只有20%左右。
難道,這條路真的走錯了嗎?楊學軍不信邪。他向妻子招招手:「你去把車開來,帶我出去轉轉。」車子駛出高速收費站時,楊學軍掏出手機,堅定地說:「別人不敢走的路,並不等於走不通。從技術原理分析,GPU的計算性能,通過軟體優化,是可以大幅提高的……」
關鍵時刻,經學校黨委推薦,時任中央軍委主席胡錦濤任命廖湘科為每秒千萬億次超級計算機工程總指揮和常務副總師。隨後,楊學軍、廖湘科作出了一個超常決策:把完成研製任務的時間節點,由原計劃的2010年底提前一年,即在2009年底前推出中國第一臺每秒千萬億次超級計算機。
在長沙郊區的一個抗洪指揮部,國防科大超級計算機創新團隊來了一次長達半年的「閉關」,成員們整天貓在那棟三層小樓裡,眼睛只盯著顯示屏,從早上7點盯到午夜。
功夫不負有心人,突擊隊連續奮戰四個月,先後改進優化8萬餘次,創造了一個科學奇蹟:GPU計算效能躍升至70%以上,達到世界最高水平!
奇蹟背後的「上甘嶺戰役」2009年國慶節來臨前夕,每秒千萬億次超級計算機一期系統安裝完畢。同年10月29日,我國第一臺每秒千萬億次超級計算機橫空出世,中國成為世界上第一個掌握CPU+GPU異構融合體系結構技術、第二個研製出每秒千萬億次超級計算機的國家。時任中共中央總書記、國家主席、中央軍委主席胡錦濤聞訊,親自為她題名「天河」。
除了喜悅,研究團隊並不甘心。停滯,意味著被淘汰。2009年10月,國防科大計算機學院超級計算機創新團隊召開「天河一號」二期系統決戰動員會,時間定為一年,目標是每秒4700萬億次,並且一定要用上自己研製的CPU,逐步改變微處理器依賴進口的局面。
奇蹟真的發生了。
2010年11月,在世界超級計算大會上,「天河一號」二期系統以計算峰值高出第二名 「美洲虎」兩倍多的絕對優勢,勇奪國際TOP500排名第一,打破了美國在超級計算機領域長期一家獨大的局面,標誌著我國自主研製的超級計算機綜合技術水平跨入世界領先行列。
在奮起直追的路上,有多少個不眠之夜,又有多少次激流勇進,數不清,道不明。這樣的奇蹟,來自超強的膽魄,也來自超出常人的艱辛。參與人員說,真是打了幾場「上甘嶺」。比如,通信光纖的保衛戰。
通信光纖鋪設,是「天河一號」二期系統進駐國家超算天津中心的首期工程,時間緊迫、任務艱巨。為確保按期完成施工任務,指揮員把任務細化到天,要求大家「當天任務不完成當天不吃不睡」。
哪知施工第一天剛鋪了幾根,施工指揮員拿起一看,立刻傻眼了。時值盛夏,溝槽溫度高達40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出線芯。這個問題不解決,後果不堪設想。輕者信號中斷、通信短路,重則導致系統紊亂。
指揮員做出了大膽的行為。他把衣褲一脫,跳進悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條「人肉地毯」,一根根光纖順著官兵的身軀通暢地向前延伸。
幾十個人在粗糙悶熱的溝槽裡赤身裸背爬了數十天,一個個被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫髮無損。
就這樣,等到「天河一號」二期系統試機那天,打開機器的一瞬,全部通信線路暢通無阻。
這樣的中國超算,值得喝彩
喜悅還未退去,質疑接踵而至。
在「天河一號」取得世界第一不久後,很多國內外的專家和媒體質疑其中看不中用,甚至還有專家調侃 「天河一號」實際上就是一臺大遊戲機。「當時,我就怒了!」國家超級計算天津中心應用研發部部長孟祥飛立下了軍令狀,幹不好「天河一號」的應用就捲鋪蓋走人。
如何讓更多企業、院校、科研單位成為「天河一號」的用戶?孟祥飛把自己的團隊打造成售前、售後、研發的「三體」。為了讓「天河一號」忙起來,孟祥飛一年常常要跑上四、五十個城市,行程最多時可以繞地球兩圈。經過不懈努力,現在每天在「天河一號」平臺上並發在線的研發任務有近1400項,每天要完成近萬項計算任務。「天河一號」成為了名副其實的「國之重器」。
今年6月25日,新一期全球超級計算機500強榜單發布,美國超級計算機「頂點」以峰值速度每秒20億億次佔據榜首。在上榜的超算總數上,中國以206臺位居第一,美國為124臺。
「天河一號」副總設計師胡慶豐分析,從「天河一號」奪冠到美國的「頂點」居首,期間經歷了日本的「京」、美國的「紅杉」和「泰坦」、中國的「天河二號」和「神威•太湖之光」,可以看出,美國、日本、中國同處於世界超級計算機研製的領先行列,形成了在具體系統上交替領先的格局。
同時,我國超級計算機在應用的普及性和廣泛性方面發展態勢良好,高端應用連續兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。以「神威•太湖之光」和2017年完成技術升級和系統優化的「天河二號」為標誌,我國超級計算機具備了從自主微處理器、自主互聯、自主軟體系統到自主應用的全方位自主研製。
國際超級計算機界的下一個目標是被稱作「E級超算」的百億億次超級計算機,美國、日本、歐洲都部署了「E級超算」研發計劃。按照中國的時間表,中國最早有望在2020年發布E級超算。目前中國同時啟動了三大E級超算原型系統的研發,分別是國防科大和天津超算中心的「天河三號」、中科曙光的E級超算以及江南所和濟南超算中心的「神威」E級超算。
胡慶豐展望,正在研發中的百億億次超級計算機系統將在我國的大科學、大工程、大數據和人工智慧等更加廣泛和深入地應用中發揮重要作用。
(原標題:他們甘當「人肉地毯」,只為能讓天河一號「跑」起來)
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)