天河三號超算系統
技術人員在運用超算解決地質難題
國家超級計算天津中心技術人員參與天河三號研發
天津超算中心劉光明領取「世界第一」獲獎證書
國家超級計算天津中心
日前,由國防科技大學和天津海河傳媒中心聯合製作的三集紀錄片《逐夢天河》正式播出。紀錄片講述了中國超算從萌芽、起步到登頂世界第一的發展歷程,通過一代代以祖國需要為己任的計算機科技攻關隊伍接續奮鬥的故事,詮釋了科學家精神的深刻內涵……
「每秒一億次,一次不少!六年研製時間,一天不拖!預算經費,一分不超!」
1994年二三季度,是中國東南沿海一年當中最厲害的颱風季。9月,在南太平洋形成的第17號颱風,在浙江一帶登陸,正是因為「銀河-Ⅱ」巨型計算機提前的預報,準確判定了颱風的強度和具體登陸地點,相關部門將颱風造成的損失降到了最低。
此時,距離「銀河」巨型機問世整整過去了11年。
……
慈雲桂教授,中國首臺巨型機「銀河-Ⅰ」的總設計師。21歲時他在逃避戰亂途中考取西南聯合大學航空系,但卻因病無法前往昆明報到,只好就近借讀於湖南大學機械系,此後,因成績優異被保送到清華大學。新中國成立後,慈雲桂調入哈軍工海軍工程系任副主任、雷達教研室主任。半個世紀前,憑著一本只有數十頁紙的計算機科普書,他帶領9名學員邁出了中國自主設計研製電子計算機的第一步。
慈雲桂將團隊分成兩組,一組由他率領南下北京,赴中科院計算機研究所學習研製磁芯存儲器,解決元器件困難;另一組攻克基本電路設計實驗以及運算器、控制器邏輯設計等一系列難關。
兩年後,我國第一臺自主設計製造的計算機107機研製成功。
1964年11月,我國第一臺電晶體通用數字計算機441B宣告誕生。
此後10年,隨著集成電路技術的應用,世界算力再次迎來新的突破。但幾乎就在中國百萬次計算機誕生的同時,美國科學家運用向量技術,實現了數據批量化處理,算力直指億次大關,標誌著計算機前沿領域跨入高速度、大容量的巨型機時代。
時鐘的指針來到1978年,中國迎來了科學的春天。改革開放總設計師鄧小平指出:「中國要搞四個現代化,沒有巨型機不行!」當年陽春三月,中央召集巨型機研製部署會,研製任務又一次落在了慈雲桂的肩上。
年逾花甲的慈雲桂,受領任務後,立下軍令狀,「每秒一億次,一次不少!六年研製時間,一天不拖!預算經費,一分不超!」
那時,中國工業基礎薄弱,電子元器件性能和工藝水平落後,慈雲桂的研究人手不足一百, 連間像樣的實驗室都沒有,設備嚴重老化,加之國外對技術的封鎖,這時候啟動每秒億次巨型機工程,無異於霸王硬上弓。
元器件落後,還要保證巨型機的算力,這使設計變得更加複雜。巨型機由7個楔形機櫃組成,每個機櫃可安7塊底板,每塊底板可插入14塊插件,需要通過四萬多根直徑0.5毫米的細線有序連接起來,一旦出現錯繞虛焊,整個電路板都將報廢。
「在繞接的時候,兩個人在上面繞,一個人在不停地報圖紙的位置,並且要兩遍三遍地核實。」國防科大原繞接組員工楊萍回憶。
這是一次以勤補拙的艱難探索。5年時間,慈雲桂和全體研發人員放棄了節假日,吃在工廠、睡在機房。當時加班費一晚上兩毛錢,卻沒有人來領。為的是省下每一分錢,用在零件、設備的生產上,儘快造出中國的巨型機。
最終,全機4萬多條繞接線、12萬個繞接點、861塊插件板、200多萬個手工焊點,無一錯繞、無一虛焊。
「銀河-Ⅰ」巨型機整機連續運行12天、主機連續運轉289小時,毫無故障!1983年12月22日,新華社、人民日報、解放軍報等近二十家中央媒體同時向世界宣布:中國第一臺每秒運算一億次以上的「銀河」巨型機研製成功!這標誌著中國躋身世界少數幾個能研製巨型機的國家行列。
「一個國家、一個團隊持續30年做一件事,拿個世界第一還有問題嗎?」
關鍵核心技術,要不來、買不來、討不來,這是中國計算機事業從無到有,艱苦奮鬥幾十年來,最深切的感受。
1986年3月,一項著眼世界戰略性高科技發展的計劃,被提上黨中央議事日程。這項重大決策被命名為「863計劃」。
在「863計劃」助推下,「曙光一號」「銀河-Ⅲ」「神威Ⅰ」等高性能計算機在中國南北相繼誕生,逐漸形成了「曙光」「銀河」「神威」三大系列,一如三支國家隊,你追我趕,算力迅速攻破百萬億次。
自上世紀90年代開始,高性能計算機的發展依靠大規模並行計算,就是把幾十、幾百、上千個CPU中央處理器聯結在一起。然而,當CPU數量增加到一定程度時,並不能帶來運算速度的提高,卻遇到了一系列瓶頸無法解決。
世界亟待一次突破。而這一次,靈感來自於中國。
2008年8月8日,奧運之火點亮中國,在舉國歡慶的夜晚,國防科技大學的「銀河樓」裡燈火通明。國防科技大學和天津正式啟動「國家超級計算天津中心」建設,聯合承擔「千萬億次高效能計算系統」的研製。在這裡,一個全新的方案正在醞釀。
經過長達半年的封閉攻關,軟體程序歷經8萬多次改進優化,最終,科研人員採用混合語言編程等技術,實現了計算核心異構協同,一舉將GPU的計算效率提高到70%以上,達到世界最高水平。
2009年金秋十月,新中國六十華誕,我國首臺千萬億次超級計算機宣告誕生,命名為「天河」。
從此,目光聚焦到渤海之濱──天津濱海新區。2010年夏天,「天河一號」超級計算機在這裡進場安裝。
「天河一號」副總設計師、國家超級計算天津中心首任主任劉光明回憶:「當時是6、7月份,正趕上桑拿天,機房裡面空調還沒到位。來了60個剛剛入校的碩士生,都是軍人學員,有時候大家把衣服脫掉就穿個背心,身上颳得一道道的血印子,看著也挺心疼的。但是不這樣做肯定趕不上,所以就24小時接班,只爭朝夕……」
在科研人員的爭分奪秒下,「天河一號」比原計劃提前近一年時間成功入駐國家超級計算天津中心。與此同時,「天河一號」也在大洋彼岸掀起了波瀾。
歷史的高光時刻,停留在2010年11月16日。
這一天,在美國路易斯安那州紐奧良市舉辦的世界超級計算大會上,「天河一號」二期系統以計算峰值4700萬億次,高出第二名美國克雷「美洲虎」1倍多的絕對優勢,勇奪國際T0P500排名第一。
中國超算實現了彎道超車!
劉光明代表「天河一號」研製團隊,接過刻有「中國製造」的獎牌。這是自鴉片戰爭以來,中國人第一次登上世界科技競賽最高領獎臺。
「當時記者採訪問到,你怎麼拿到世界第一的?感覺質疑我們為什麼會有這樣的技術實力,是不是偷了他們的核心技術,」劉光明回憶,「我說,一個國家、一個團隊持續30年做一件事,拿個世界第一還有問題嗎?中國超算此後輝煌的十年,在這個起點上意義非常重大。」
「超算中心所有費用加起來,實現收支平衡,還有結餘,這在全世界是第一家。」
「天河一號」登頂世界第一後,外界的質疑隨之而來,有風涼話說,「天河」超級計算機中看不中用,甚至說「天河一號」就是一臺大號遊戲機。
超級計算機最重要的作用就是開展應用、服務國家。對於國家超算天津中心應用研發部部長孟祥飛來說,當年他正是因為在自己的研究領域國內缺少計算能力支撐,而選擇留學美國。中國與發達國家的差距,深深觸動了孟祥飛,2010年他毅然決定回國加入天河團隊,成為天河應用研發的中堅力量。
頂著外界各種壓力和質疑,他毫不猶豫地說,「做不好『天河一號』的應用,我就捲鋪蓋捲走人!」
彼時,國內超級計算機的應用剛起步。為了讓「天河一號」儘快服務國家經濟社會發展,籤了軍令狀的孟祥飛帶著團隊,開始在全國各地奔波推廣。
艱難之時,孟祥飛接到了來自中國石油東方地球物理公司的合作意向,其前身石油部物探局正是「銀河-Ⅰ」巨型機的首個應用單位,這讓天河團隊看到了希望。
在2009年前後,石油勘探領域有一項技術叫做「逆時偏移」,是當時比較熱門的一項成像技術。這項技術如同給大地做CT,是將地下構造通過計算機成像出來,作為鑽井的依據,但需要傳統成像技術幾十倍的計算量。如果使用常規計算機需要運算40多天,但距離這款成像軟體的發布時間,僅剩下短短一個月。
時間不等人,石油技術研發團隊決定用「天河一號」試一試。
「那天我們晚上8點多調好程序把作業任務發到計算機上去,到10點鐘的時候大家去吃飯,吃完飯回來發現已經死機了。」中國石油東方地球物探有限公司研發部副主任武威回憶。
這樣的狀況出乎意料,擁有著峰值4700萬億次的「天河一號」,怎麼突然卡了殼?所有人都在分析可能的原因,尋找解決的辦法。
「那天晚上大家忙到夜裡2點左右,修復存儲、討論方案。」武威說。
為了解決這個問題,天河團隊針對這種大規模數據吞吐的需求,結合天河超級計算機的結構設計,進行了負載均衡數據壓縮等技術優化。
一直到第二天下午6點,「逆時偏移」成像軟體終於得以在「天河一號」上完美呈現。從原計劃的40多天,到實際執行的16個小時,「天河一號」用時間證明了自己。
2010年12月8日,《中國日報》向全世界介紹了這一成功案例,「天河一號」再次讓全世界為之關注。
眼下,「天河一號」已經服役10年,每天運行計算任務超過1400個,一千多個科研團隊藉助「天河一號」開展科研工作,構建形成了石油勘探、生物醫藥、動漫與影視特效渲染、高端裝備製造、地理信息等五大高性能計算應用平臺。
到2013、2014年時,國家超級計算天津中心已經實現了收支平衡,大大超出了所有人的預期。「我們不只是把投資能回收,超算中心所有費用加起來,實現收支平衡,還有結餘,這在全世界是第一家。」劉光明說。
從「銀河」的歷史性突破,到「天河」、「神威」等一系列超級計算機不斷刷新世界速度,中國超級計算機的跨越只用了40年。今天,在國際TOP500名單裡,中國超級計算機已經佔據了228臺,部署量位居世界第一。
在新時代的中國,大到國產大飛機C919的氣動外形製造,小到商品包裝盒的抗壓設計,超級計算機技術正深入到國家發展的各個層面。七家國家級超算中心橫貫南北,一個資源共享覆蓋全國的國家超算網絡正在形成。
2020年新冠肺炎疫情肆虐全球,通過超級計算機的演算,人類已經發現了新冠肺炎會導致人體停止分解一種叫做緩激肽的化學物質,從而導致患者肺部充滿液體並引發炎症,使患者呼吸困難。而依託超算的大數據技術,在疫情聯防聯控精準施策過程中的應用同樣初見成效。
如今,世界超算領域正邁向E級計算,即10的十八次方每秒百億億次運算,被全世界公認為是超級計算機界的下一頂皇冠。早在三年前,中國就超前布局,同時啟動了E級超算的研製計劃。
在第二屆世界智能大會上,由國防科技大學和國家超級計算天津中心共同研發的新一代百億億次超級計算機「天河三號」原型機驚豔亮相。如今,天河、神威、曙光三大E級原型機已全部交付。
無論過去還是現在,無論苦難還是輝煌。「胸懷祖國、團結協作、志在高峰、奮勇拼搏」的「銀河精神」已成為中華民族精神不可或缺的一部分。面對未來人類發展的諸多難題,需要科技的支撐構建人類命運共同體。「超算」的故事還將持續,中國的貢獻還將繼續。