我國高性能計算領軍企業中科曙光前天在第29屆國際超算大會上,發布了由其牽頭的E級計算系統研發路線圖。這是中國E級計算系統研發路線圖首次亮相國際舞臺。E級計算是指運算速度在每秒百億億次(1018/秒, Eflops)量級的計算機,它比目前最快的計算機性能還要高出一個數量級以上。為何要研發E級計算機,它將給我們的生活帶來什麼變化?解放日報·上觀新聞記者就此專訪了中科曙光高性能產品事業部總經理曹振南。
解放日報·上觀新聞:前有天河二號,後有神威太湖之光,如今E級計算機原型系統已經啟動。為何要研發比目前最快的計算機性能還要高出一個數量級以上的計算機?
曹振南:E級計算這個目標的確立既是計算發展的必然結果,更是人類對計算提出的必然要求。一方面很多研究和探索只能通過計算方法來開展,如模擬氣候和天體物理學複雜的過程。另一方面,越來越多的實驗和觀測系統發現,產生的數據超過Peta字節且迅速地邁向E級字節。對這些數據進行處理和分析的需求直接提升了所需的計算能力的標杆。
E級計算機是世界各國特別是發達國家競相爭奪的技術制高點,美國、歐洲、日本等國家和地區都提出了自己的E級超算研發計劃。2008年到2011年,美國能源署和美國國家研究委員會委員多次對E級計算的科學必要性進行了闡述和匯總。他們著重對氣候、高能物理、核物理、聚變能科學、核能源、生物學、材料科學、化學和國家核安全9個方面進行了調研。同時,美國國家科學基金會對數十個遍及科學和工程的E級應用的研發團隊進行資助。比如,海平面上升及其與全球變暖之間的關係;暗物質的質量;伽馬射線爆發的本質等。這些模擬計算需要在原子尺度上進行,都是重要的E級計算需求。
對於中國來說,解決發展面臨的重大挑戰性問題,很多都需要高性能計算的支持。比如,在防治環境汙染方面,受到計算能力與軟體限制,目前仍處於使用理想模型、對單個生活小區進行分析的級別。高性能計算將在闡明大氣複合汙染的成因,預測大氣複合汙染物擴散和追溯汙染源等方面發揮重要作用。此外,為解決列車在高速行駛時出現的橫風效應、會車效應、隧道效應及氣動噪聲等一系列空氣動力學問題,也需要使用基於高性能計算的數值風洞開展研究。
解放日報·上觀新聞:為什麼說E級計算機除了追求更快的計算速度,還面臨著「功耗牆」「可靠性牆」「編程牆」等幾方面的挑戰?
曹振南:E級計算機的計算性能將達到每秒百億億次量級,要實現如此之高的性能,同時又要具有很高的效率、可靠性,且功耗不能太高。這是非常具有挑戰性的工作。
就拿能效比來說吧,E級計算機是一個普通計算機性能的10的9次方倍,功耗只有普通計算機的10的5次方倍。這樣高的性能功耗比,目前市場上沒有一款處理器可以滿足。中國著力發展自己的處理器已經數十個年頭,性能尚未完全趕上世界先進水平,要在這短短幾年把處理器的性能提高几個數量級,這必然是全球IT人士面臨的巨大挑戰。
在可靠性方面,以神威·太湖之光超級計算機為例,它是由40個運算機櫃和8個網絡機櫃組成。一臺機櫃就有1024個處理器,整臺計算機共有40960個處理器。對於這樣一臺複雜精密的設備,要保證各個層次部件的穩定性與可靠性,難度可想而知。而E級計算機的計算性能將是太湖之光的10倍以上,其穩定性與可靠性的難度必然是指數級增加。
我特別想強調一下軟體編程方面的挑戰。超級計算的應用軟體往往規模龐大,開發周期長、成本高、難度大,要真正發揮未來E級計算系統的能力,軟體的開發任務會變得相當艱巨。目前的超級計算機系統儘管運行Linpack等基準程序可以取得70%以上的效率,但是執行實際應用程式效率低,往往在10%以下。解決E級計算應用效率與適用性的問題,需要開展應用與系統的深度協同設計,實現應用效能的大幅躍升。應用軟體不僅需要在E級計算機上「跑」起來,更加需要具有良好的擴展性,真正發揮E級的計算效率,否則就成了「高速公路上跑拖拉機」。
解放日報·上觀新聞:研發E級計算機,有哪些目標?計劃用幾年時間達到目標?
曹振南:按照我國科技部「十三五」規劃來看,E級計算機的研製分為原型機和E級計算機2個主要步驟。通過原型機的研製,將會驗證E級計算機系統的技術路線圖,提出完整的E級系統方案。
原型機於2016年啟動,2018年驗收。預計E級計算機將在2020年左右對外發布。
解放日報·上觀新聞:中科曙光、國防科技大學和江南計算技術研究所同時獲批牽頭E級高性能計算的原型系統研製項目,形成中國E級高性能計算「三頭並進」的局面。作為唯一的一家企業,你們有何技術優勢?
曹振南:作為亞洲第一大高性能計算機廠商,我們從2009年到2016年已連續8年蟬聯中國高性能計算機排行榜市場份額第一。正在舉行的29屆國際超算大會公布了全球超算500強榜單,中國機器上榜總數達171套,與美國並列第一。其中,曙光上榜有47臺,穩居全球前四。
題圖來源:視覺中國 圖片編輯:曹立媛