高性能計算之源起——科學計算的應用現狀及發展思考

2020-12-06 中國發展門戶網

中國網/中國發展門戶網訊 科學計算是指應用計算機處理科學研究和工程技術中所遇到的數學計算問題。在現代科學研究和工程技術中,常常遇到大量複雜數學計算。其複雜程度往往超越了人腦運算的能力,必須使用計算機進行求解。而計算科學的應用水平已成為衡量國家科技發展水平的重要標誌之一;其應用的深入程度則反映出對科學問題探索與理解的深度。2013年10月,美國哈佛大學Martin Karplus教授、史丹福大學Michael Levitt教授和南加州大學AriehWarshel教授3位科學家獲得了諾貝爾化學獎,獲獎理由是「為複雜化學系統創立了多尺度模型」。評選委員會在聲明中指出,對當今的化學家而言,計算機已成為與試管同等重要的工具,計算機對生命現象的模擬已為化學大部分研究成果的取得立下了「汗馬功勞」。這無疑會進一步加深各學科對計算模型和計算科學的認識與應用,並將引領學科發展進入下一波浪潮。

高性能計算應用需應對高度異構的挑戰

自20世紀中葉後,高性能計算機的發展取得了長足進步,其計算能力不斷地得到提高。特別是進入21世紀以來,高性能計算在重大科學發現的前沿基礎科學研究領域已逐漸成為不可或缺的重要手段之一。近年來,高度異構和內部網絡高速互聯是現代高性能計算機體系架構的重要發展方向。而對於若干典型的高性能計算應用,通訊與計算能力不匹配的矛盾較為突出。一般說來,現代計算機的處理器和加速部件往往達到幾千億次至幾萬億次的浮點運算能力,而目前性能較好的內部網際網路的帶寬雖達到了200 Gb,仍然相對較慢。

超大規模科學計算的顯著特徵是可計算問題的規模巨大,TOP500①排名前十的超級計算機系統一般擁有千萬個以上數量的處理器核心,按照單處理器核心可處理100萬個未知量來計,這意味著可計算處理具有1萬億個自由度的複雜系統。即便如此,當今世界上計算能力最強的這些高性能計算機在那些複雜度更高的科學計算應用對計算能力幾乎無止境的需求面前,也顯得杯水車薪。因此,應用和計算科學家往往不得不採用簡化模型、對計算問題進行預條件處理和採用混合精度等手段來降低計算量。從算法的角度來說,美國超算領域的著名數學算法專家Colella於2004年提出了科學計算的7種算法模型,即結構性網格、非結構性網格、快速傅立葉變換(FFT)、稠密線性代數(Dense Linear Algebra)、稀疏線性代數(Sparse Linear Algebra)、粒子動力學(Parti­cles)、蒙特卡洛(Monte Carlo),被稱為「七個小矮人」。這7種算法模型對高性能計算機提出了不同方面和層次的需求,也基本覆蓋了常見高性能計算應用。

我國高性能計算應用的矚目成果

中國科學院科學家聯合攻關取得令人矚目的高性能計算應用成果

高性能計算應用的發展和進步需要數學、計算科學、應用領域等學科的深度交叉融合。20世紀90年代中期,中國科學院軟體研究所、生物物理研究所、物理研究所以及北京科技大學、國家智能中心的科學家聯合攻關,在國產「曙光1000」並行計算機上,完成了多個應用軟體,並在天然DNA的整體電子結構理論計算、雷射晶體材料(LBO)電子態理論分析及廣義本徵值並行計算等方面取得了令人矚目的高水平成果。生物物理學、物理學等應用領域的科學家設計出便於在「曙光1000」上實現的新方案,並在運維人員的密切配合下,使其付諸實施。而計算科學家則針對「曙光1000」的特點,提出了「黑匣子並行」的思想和並行方案;同時,在理論上證明了若干收斂性定理,為保證計算結果的正確性及準確預估迭代時間提供了可靠的理論保證。這是中國科學院非常具有代表性的多領域科學家聯合攻關,發揮物理模型、算法和高性能計算技術多學科優勢和深度交叉的力量,取得高水平成果的成功案例。後來,參與攻關的中國科學院物理研究所王鼎盛與中國科學院生物物理研究所陳潤生分別因在計算物理學與計算生物學上的成就而被增選為中國科學院院士。

中國高性能計算應用取得「戈登·貝爾」獎的突破

近年來,我國科學家在高性能計算應用領域又取得了新突破。在大氣科學的全球大氣動力學的高性能計算研究方面,由中國科學院軟體研究所楊超、清華大學薛巍和付昊桓領銜的應用成果——「千萬核可擴展全球大氣動力學全隱式模擬」在2016年11月美國鹽湖城舉辦的「全球超級計算大會2016」(SC16)上一舉拿下高性能計算應用領域最高獎——「戈登·貝爾」獎②,實現了我國高性能計算應用在此項大獎上零的突破,成為我國高性能計算應用發展的一個新的裡程碑。該課題在應用與算法2個層面實現了重大突破:①應用層面。大氣動力過程的模擬速度較美國下一代大氣模擬系統AM3(GFDL開發)的計算效率提升近1個數量級。全隱式求解方法是未來超高解析度大氣模式構建的一種新選擇。②算法層面。實現目前世界上第一個可擴展到千萬核,峰值效率超過6%的隱式求解器,它將模擬解析度提升至500米以內,並行度和峰值效率較2015年「戈登·貝爾」獎工作均提升一個數量級。該成果可應用於全球高解析度氣候模擬和高精細數值天氣預報,並在航空、地學、工程學等領域的挑戰性計算問題中有廣闊應用前景。

我國典型傳統科學計算應用現狀與發展

多年來,中國科學院一直走在我國科學計算應用發展的前列。無論是應用水平、計算規模還是成果顯示度均取得了長足的進步。除了上述代表性成果,中國科學院的應用成果還有許多。但因篇幅所限,以下僅選取幾個中國科學院典型傳統科學計算應用領域,從科學家視角,談談科學計算應用現狀與發展和一些思考,以期窺一斑見全貌,更希望能引發讀者更深入的思考與關注。

大氣科學之全球氣候海洋模式

現狀

全球氣候海洋模式是氣候系統模式的重要組成部分,也是氣候研究、氣候預測和預估不可或缺的工具。空間解析度的持續增加是海洋環流模式發展的重要趨勢之一。全球高解析度海洋模式的發展要追溯到20世紀90年代初,第一個全球25公裡的海洋模式使用了美國地球物理流體力學實驗室(GFDL)發展的MOM模式。21世紀開始,隨著以日本的「地球模擬器」為代表的大型超算平臺的發展,國際上有20多家模式開發中心開始進行全球渦分辨(10公裡)模式的發展和研究,包括日本的JAMSTEC,美國的NCAR、NOAA GFDL、FSU,以及德國的MPI氣象研究所等。

我國國內的高解析度全球海洋模式多是引進國外的模式,如在氣候模式應用的MOM和POP模式,以及在預報系統中採用的HYCOM和NEMO模式。中國科學院大氣物理研究所在全球海洋模式發展方面進行了長期攻關,所發展的渦解析度全球海洋環流模式——LASG/IAP氣候系統海洋模式(LASG/IAP Climate System Ocean Model,LICOM)也是我國唯一自主發展的全球海洋環流模式。LICOM海洋模式的模擬結果參與了歷次國際耦合模式比較計劃(CMIP)並被政府間氣候變化專門委員會(IPCC)引用,其最新版本的模式被國際同行認為是對ENSO(El Niño-Southern Oscillation)模擬能力最好的模式之一。不僅如此,基於LICOM海洋模式成功地研製了水平解析度為10公裡的海洋環流模式,可顯式地模擬海洋中尺度渦旋。中國科學院計算機網絡信息中心王文浩等採用MIC並行優化LICOM,實現了較好的加速效果,加速比達到2.09。高解析度的LICOM支撐了國家和中國科學院的多項大型專項,也應用在國家海洋局環境預報中心等海洋業務中,為日常經濟活動等提供了海洋環境保障。

對領域應用的促進

對歷年參加CMIP計劃模式中海洋分量模式解析度的分析表明,氣候海洋模式最高解析度的增長基本與計算機發展的摩爾定律相吻合,即模式的解析度受限於計算能力。隨著高性能計算的發展,近期美國國家航空航天局(NASA)採用MITgcm海洋模式,進行了全球2公裡的試驗。雖然試驗受限於計算量和存儲量,僅僅運行了1年左右,但其結果第一次實現了對全球次中尺度渦的垂直輸送的估算,發現了次中尺度渦在海洋上層熱量收支中的重要作用,對於海洋科學和氣候變化研究都有重要的意義。與此同時,國內的多家海洋研究單位,也在著手嘗試聯合進行此方面的研發,有逐步趕超國際的發展趨勢。

發展趨勢

隨著E超級計算平臺的研發,全球海洋模式的水平解析度必然也會向公裡級、百米級發展,可分辨種類更齊全的海洋運動形式,如次中尺度渦、內波等。在數值模式中分辨更多的海洋運動形式也是海洋科學的重要發展趨勢,而國產計算系統的建設是發展我國自主研製超高解析度海洋模式的絕佳契機。

大氣科學之全球空氣品質預報

現狀

為了應對大氣汙染問題,歐盟、美國、日本和中國均建立了依託高性能計算機的空氣品質數值預報中心。我國於2015年建立了國家空氣品質預測預警裝置,包括峰值達130萬億次的高性能計算機系統、環境空氣品質數值預報模式系統、環境空氣品質數值預報模式系統並行環境系統、支撐保障系統。這一裝置成為我國近年來應對大氣重汙染事件的核心工具,有效支撐了我國大氣汙染防治計劃的開展。

西班牙Martı́n等採用OpenMP對STEM-II(Sul­phur Transport Eulerian Model 2)進行了並行化,並在SGI O2000多處理器、富士通AP3000多計算機和PC集群上開展了測試,結果表明並行代碼的模式程序可以顯著減小模式運行所需的CPU計算時間。德國Lieber和Wolke發展了一種能有效解決化學傳輸模式負載不均衡問題的改進耦合方案,有效提高了化學傳輸模式的並行計算效率。朱雲等研究了CMAQ模型在64位Linux作業系統上不同CPU核心數目並行計算模擬耗時以及結果的差異情況。研究結果表明,並行計算能大幅縮短CMAQ模擬耗時,以16個CPU核心並行處理為性價比最佳值;多於16個核心並行處理時,隨核心數量的增加模型性能提升的趨勢減緩。王自發等基於高性能計算集群建立了具備多模式集合預報功能的空氣品質多模式集成預報業務系統,有效支撐了北京奧運會的空氣品質保障,推動了我國空氣品質預報預警能力的快速提升。Wang等針對空氣品質模式中計算耗時大的氣相化學模塊,設計了化學動力學模擬的新框架,以適應下一代處理器中單一指令多數據(SIMD)技術的使用,通過矢量化實現細粒度級並行化,可使空氣品質預報模式實現3倍以上的加速計算。Wang等利用「地球系統數值模擬裝置」的原型系統「矽立方」首次實現了中國區域5公裡水平解析度多年的大氣汙染高精度模擬。

對領域應用的促進

基於高性能計算的城市、區域和國家空氣品質預報雖然已取得了長足的進步並具備了較強的預報預警能力,但全球空氣品質的預報預警能力仍然非常有限且不確定性大。一方面,由於空氣品質數值模擬與預報涉及非常複雜的多尺度大氣物理化學過程以及毫秒級大氣化學反應和微物理過程的模擬,計算代價高昂,全球空氣品質模擬預報仍停留在較粗的空間解析度(>25公裡),難以合理表徵很多次網格尺度過程(如機動車、電廠等排放過程以及局地環流過程)。目前,尚未有國家實現高解析度(<10公裡)的全球空氣品質預報。另一方面,受計算資源約束,現有全球模式對很多物理化學過程都進行大幅簡化處理,同時排放源、氣象場等輸入數據不確定性大,進一步加大了全球空氣品質預報的難度和不確定性。因此,我國空氣品質預報能力提升亟待超級計算資源和技術的支撐。

發展趨勢

未來,隨著我國超算能力的不斷增強以及國產計算系統的研發,給我國乃至全球空氣品質預報、預警提升提供了巨大的機會。目前,我國在建的國家重大科技基礎設施「地球系統數值模擬裝置」將研發全國3公裡、重點地區1公裡水平解析度的區域高精度大氣汙染模式,建成後將大幅提升我國區域大氣汙染模擬預報能力。此外,依託國產計算系統也正在研製高解析度全球空氣品質智能化網格預報系統,必將大幅提升我國在全球空氣品質預報上技術能力和研究水平。

生命科學之藥物設計

現狀

自20世紀70年代以來,基於計算的藥物發現與設計(Computational Drug Discovery and Design,CDDD),也稱之為計算機輔助藥物設計(Comput­er-Assisted Drug Design,CADD),經歷了顯著提升。隨著分子生物學和結構生物學的快速發展,大量重要疾病相關的生物大分子的三維結構和生物功能得以確定。同時,隨著高性能計算機的快速發展,計算方法在藥物發現和分子模擬中的應用不斷增加。量子力學、分子力學、分子動力學以及這些方法的組合已廣泛用於疾病靶點及藥物開發研究。

近10年,基於國產超級計算機的發展,中國科學家在生物大分子分子動力學模擬研究領域取得了較大進展,尤其是中國科學院上海藥物研究所的(以下簡稱「上海藥物所」)藥物靶標動態行為研究取得了系列創新成果,闡明了眾多藥物靶標功能及藥物作用機制。目前,基於國產超級計算機,上海藥物所研究團隊開展了40萬個原子體系的全原子十微秒尺度的分子動力學模擬,其水平不落後於世界最高水平。但在中小規模(~5萬個原子)的全原子分子動力學模擬中,國外的超級計算機,如Anton已可以支撐十毫秒級分子動力學模擬,而我國現有超級計算機只能支撐百微秒級分子動力學模擬。

同時,作為藥物分子設計重要手段之一的高通量虛擬篩選(High Throughput Virtual Screening,HTVS)技術,亦稱為並行分子對接(Parallel Molecular Dock­ing)技術的發展,使得藥物分子設計的速度、成功率均得到了大幅提高。但高通量虛擬篩選計算需要消耗大量的高性能計算資源,計算開銷非常昂貴。

對領域應用的促進

傳統上,在製藥行業中上市新藥是非常困難的過程。在美國,一種新藥的上市往往需花費超過10億美元並耗費10—17年的時間。基於生物大分子(如蛋白質和核酸)三維結構的一系列CDDD方法,如高通量虛擬篩選方法,極大地提高了藥物發現的效率。根據美國政府報告,由於CDDD技術應用,每種藥物平均開發成本減少了約1.3億美元,研發時間縮短了約1年。

目前,國際各大製藥企業均開始重視高性能計算在藥物研發中的應用,採用自建高性能計算或與高性能計算服務商及超級計算中心合作的方式來解決創新藥物研發進程緩慢的問題。特別是D. E. Shaw Re­search③通過招募數百名數學、化學、生物學等專業以及計算機軟硬體方面的優秀人才,開發了蛋白質模擬專用機Anton[18]和Anton 2,多次獲得「戈登·貝爾」獎;為其專用機發展的分子動力學模擬Desmond程序已經成為藥物研發軟體Schrodinger(薛丁格)的核心組件之一,是該軟體實現高精度自由能計算FEP的主要模塊。2016年,美國500強企業吉利德科學公司(Gilead Sciences)投資1.2億美金購買Nimbus製藥的治療肝病的藥物,該事件成為一時的熱點,被美國著名媒體《福布斯》雜誌報導。Nimbus公司是美國薛丁格公司技術參股公司,該藥物完全是用Schrodinger軟體設計,計算機設計加實驗驗證總耗時僅1年時間,時間之短令業界震驚。

「十二五」期間,上海藥物所依託我國自主研發的「天河二號」和「神威·太湖之光」超級計算機開發了大規模並行的分子動力學模擬軟體、虛擬藥物篩選方法及軟體,實現了最高156萬核並行,並行效率達85%;在針對腫瘤、糖尿病、B肝等重大疾病靶標蛋白的藥物研發中獲得了顯著成果,多個化合物完成技術轉讓,取得了巨大經濟效益。

發展趨勢

新發突發大規模感染性疾病和抗感染藥物耐藥問題嚴重威脅人類生命與健康。應對新發突發大規模感染性疾病,基本上無現成藥物可供選用。因此,快速實現從無到有的突破在應急應對中顯得無比重要,而採用超級計算機藥物虛擬篩選技術可在短時間內獲得候選化合物,提供緊急應對方案。對抗感染藥物耐藥問題,只有採用新策略和新機制開展新類型抗感染藥物研究,方有可能緩解病原微生物對傳統抗感染藥物的耐受難題。與病菌耐藥相關的蛋白以及途徑種類繁多,且在結構水平上的耐藥機制尚未完全闡明。因此,對細菌蛋白耐藥機制進行研究十分必要,而這就需要對生物大分子的結構與功能進行研究。近2年內的技術突破使超大複合物的高分辨結構研究成為可能,高分辨冷凍電鏡技術的突破則成為重要的推動手段之一。科學家利用各種技術獲得蛋白質三維結構後,採用分子動力學模擬進行結構功能研究和自由能微擾方法進行小分子藥物設計改造。冷凍電鏡三維重構、分子動力學模擬均需要耗費大量的高性能計算機時,而隨著國產超級計算系統的應用,將會大幅減少藥物設計對實驗的依賴並顯著提高藥物研發效率。

基礎科學之高能物理

現狀

高能物理的研究對象是物質世界的基本結構及基本相互作用。量子色動力學(QCD)和電弱統一理論(EW)通稱為粒子物理的標準模型,是目前高能物理研究的基本理論體系。高能物理的前沿重要課題有強相互作用中的夸克禁閉、標準模型精確檢驗和超出標準模型的新物理的尋找;與之相關的重大物理問題有強子結構和強相互作用低能特性、宇宙早期演化、中微子性質和中微子質量起源、暗物質和暗能量等。

高性能計算在高能物理中發揮著日益重要的作用,應用範圍包括海量的高能物理實驗數據的分析(數據密集型)、對撞機和探測器的計算機模擬輔助設計(計算密集型),以及以格點量子色動力學(格點QCD)為代表的高能物理理論計算(計算密集型)。隨著計算機技術的發展,高能物理中的高性能計算已經成為與傳統的高能物理實驗、理論研究並列的第三大分支;其中格點QCD以其高強度、高可擴展性、高並行效率等特點,長期成為高性能科學計算的主要應用領域之一。曾於1988年、1998年和2006年3次獲得「戈登·貝爾」獎,2018年也入圍了該獎項的候選名單。

歐、美、日等發達國家和地區歷來十分重視格點QCD研究並保持在該領域的領先地位。目前,美國格點QCD研究每年消耗的計算資源為幾百兆CPU核小時,預計到2025年將達到目前的幾十至一百倍。格點QCD已被美國列為其未來E級計算機的重點應用之一,並組織研究隊伍在物理課題、算法研究和程序開發等方面開展研究。

我國的格點QCD研究也有長期積累,目前正在組織相關團隊基於國內的超級計算系統調試和開發格點QCD的應用軟體,期望在未來參與到該領域E計算應用發展中。

對領域應用的促進

格點QCD的研究手段是進行大規模的Monte Carlo數值模擬研究,屬於典型的高性能科學計算領域。其對於高能物理中的重大科學問題研究有不可替代的作用,直接服務於未來高能物理的重大物理發現。在標準模型精確檢驗和超出標準模型新物理尋找方面,格點QCD可以提供標準模型基本參數(如夸克質量、強耦合常數等)的最精確的理論結果;可以從第一性原理提供對新物理敏感的強子矩陣元的精確、可靠的理論輸入。在夸克禁閉等強相互作用低能特性方面,格點QCD可以對新型強子態、強子-強子相互作用以及強子結構等問題給出模型無關的物理結果。

格點QCD研究成果的物理意義和國際地位直接決定於對統計誤差和各種系統誤差的控制水平,而誤差大小直接決定於計算規模和計算資源。格點QCD的系統誤差主要來自四維時空格點體系的物理大小、格點細密程度以及夸克質量參數的選取。目前國際上格點QCD研究的最大的格點體系大小為1283×256,計算規模大約十萬或數十萬核;如果未來規模提高到2563×512,則計算規模將增大到數百萬核,必須使用E級計算。正所謂「計算決定未來」,計算能力和資源對高能物理未來的重要發現和理論突破的意義是不言而喻的。

發展趨勢

美國面向格點QCD研究的未來E級計算應用早已開始布局,國產高性能計算系統將為我國的格點QCD研究直接參與國際競爭提供十分重要的計算支撐。北京正負電子對撞機和北京譜儀(BEPCII/BESIII)是國際上工作在粲夸克能區獨一無二的高亮度的實驗裝置。在輕強子性質研究,尤其是在新型強子態(如膠球、混雜態和XYZ粒子)研究方面有潛在的重大物理發現,但需要理論研究的支持,其中格點QCD的研究必不可少。

我國格點QCD研究將基於國產高性能計算系統開展與BESIII物理密切相關的研究,為實驗研究提供精確可靠的物理判據,以期產生重要物理成果。核子(質子和中子)是宇宙可見物質的主要組成,但我們對其結構並不十分清楚,我國籌建的中國高能電子-離子對撞機(EicC)和美國的高能電子-離子對撞機(EIC)及JLab的重要目標之一是研究核子結構。中國的格點QCD研究將針對核子質量、自旋核子三維結構以及對新物理敏感的強子矩陣元進行具有原創性的科學研究。同時,通過大規模的科學計算實踐,我國科學家可為格點QCD研究的計算方案、算法和軟體作出貢獻。

計算化學之第一原理計算

現狀

第一性原理(First-principles)材料模擬的主要任務即從密度泛函理論(Density Functional Theory,DFT)出發,在無任何經驗參數的條件下從頭計算分子和固體材料的物理化學性質及其應用。第一性原理電子結構計算軟體包括了一些有史以來計算成本最高的科學應用程式,無論是硬體還是軟體發展方面,它們(如VASP、Gaussian、NWChem等)總是經常處於對高性能計算能力需求的最前沿。為了通過密度泛函理論數值計算求解具體的物理化學問題,需要採用基組展開等方法將DFT方程離散成計算機可以識別和操作的數組和矩陣,從而獲得材料中所有原子周圍的電子密度,進而計算出材料的電子結構及其他重要特性。第一性原理軟體包大致可以分為平面波基組軟體、原子軌道線性組合(LCAO)基組軟體、混合型平面波和高斯基組軟體。如果從計算複雜度(包括計算時間和內存)上區分,第一性原理電子結構計算方法可以分為傳統的高標度法和線性標度法。

當今國際上的高性能第一性原理計算軟體(包括低標度和高標度)並不多,僅有LS3D、CP2K、NWChem、BigDFT、DGDFT和Qbox等可實現中等規模高性能並行計算(10 000個CPU核以上),其中LS3D和Qbox曾獲得「戈登·貝爾」獎。另外,DGDFT和國內商業軟體PWmat還採用了圖形處理器(Graphics Processing Unit,GPU),GPU加速大大地提高了計算效率。同時,VASP、Gaussian、NW­Chem和BigDFT等軟體也正在發展GPU加速模塊。

對領域應用的促進

通過輸入的材料結構信息,第一性原理計算可較為準確地預測已知材料的基態結構和基本物理化學性質,並實現原子級別的精準控制。這已成為21世紀解決實驗理論問題和預測新材料結構性能的強有力工具和標準研究方法。該方法不需要開展真實的實驗,極大地節省了成本,縮短了新材料的開發周期,為材料的製備和改性、新材料的開發以及極端環境下材料的性質研究提供了有效的理論指導。然而,由於計算量極大,第一性原理材料模擬領域的科研人員對軟體性能和計算資源的需求越來越大。高性能計算的快速發展為第一性原理計算提供了機遇,使其在凝聚態物理學、材料科學、化學和生物學等領域發揮著日漸重要的作用,包括模擬並解釋實驗新現象,分析其本徵物理機制,以及設計新型功能材料並預測新奇性質等,取得了很多重要科研成果。可以說,第一性原理計算體現了量子力學理論與高性能計算之間的高度結合,實現了理論-模擬-實驗三位一體的科研模式,並引發了材料科學的革新。

發展趨勢

事實上,第一性原理計算現已成為高性能計算中應用最廣泛和最活躍的領域。該領域研究的快速發展不僅歸功於理論、算法和軟體進步,更得益於計算機硬體能力的指數級增長,包括處理器速度和數目的增加、內存容量和速度的增長、大規模並行處理能力的提高等。隨著計算機硬體和算法軟體的發展,高性能計算機的計算能力飛速提高,第一性原理計算應用領域也將大步前進。更精確、更大體系的第一性原理計算以及更長時間尺度的分子動力學模擬都將成為可能,其計算結果也將更加接近真實體系,從而使第一性原理計算發揮更大作用。

材料科學之鈦合金微觀組織演化

現狀

由於結構材料的複雜性和應用對性能的多方面需求,一種新材料從設計到應用往往需花費20年以上。以航空發動機用鈦合金為例,對其強度、模量、韌性、疲勞、蠕變、氧化、腐蝕等方面性能均有很高要求,此外還需長壽命、高可靠、低成本。發達國家在航空航天材料方面有近百年的積累,而我國雖經幾十年的研究,也有很多自己的合金牌號,但許多關鍵材料仍無法自給,其原因之一是基礎研究不足。

21世紀以來,人們逐漸認識到計算模擬對新材料研發的促進作用,美國先後啟動了「集成計算材料工程」(ICME)和「材料基因組計劃」(MGI),希望藉助計算加速新材料的研發,同時降低成本。我國2016年啟動了材料基因工程計劃,希望結合計算及實驗,促進鈦合金等多種關鍵材料的研發,以滿足航空航天及燃氣輪機等的需求。

對領域應用的促進

在新材料的研發與優化方面,多尺度模擬在合金化效應計算與合金元素篩選,微觀原子變形機制的揭示,不同條件下的微觀組織演化以及熱加工工藝的優化等方面都起到重要作用,而這些都需要以高性能計算為基礎。中國科學院金屬研究所在國內率先集成多尺度模擬與實驗研究,研發出應用600℃的高溫鈦合金Ti60和應用於人體的低模量鈦合金Ti2448,並對TiAl合金葉片的應用等方面起到了重要推動作用,但仍無法滿足航空、航天、航海、能源等對新材料的巨大需求。上述對性能的多方面需求,均需以材料的成分和組織為保證。儘管先進的測試手段不斷湧現,但仍無法滿足合金形變、相變機制及組織演化等的理解。例如,保載疲勞從20世紀70年代開始,一直制約著鈦合金的高效應用。

中國科學院計算機網絡信息中心張鑑團隊與中國科學院金屬研究所合作開展合金微結構演化相場模擬研究,研發了合金微組織演化大模擬並行軟體ScETD-PF。它是基於可擴展緊緻指數時間差分算法庫的相場模擬軟體,支持計算材料科學、計算物理學、計算生命科學等學科的計算模擬,實現了國際上最大規模的合金微結構粗化相場模擬,有助於加快我國新型合金的設計和加工工藝優化。團隊應用ScETD-PF軟體在「神威·太湖之光」超級計算機上運行合金微結構粗化過程相場模擬,規模較以往提高近百倍,實現了超過千萬核的擴展性能,相場模擬實際性能達到峰值的40%,遠高於普通軟體約5%的水平。該軟體入圍了2016年「戈登·貝爾」獎候選名單。

發展趨勢

國產計算系統的研發將改變我國過去以實驗和仿製為主的新材料研發模式。通過計算模擬篩選合金成分,揭示形變、裂紋萌生的微觀機理,探索不同微觀組織的形成機制及其對性能的影響,為材料性能控制指明方向。甚至在材料製備之前即可模擬其在不同應用下的性能,從而大幅度減少實驗次數及時間,顯著提升創新能力。還可通過模擬,根據新部件設計對材料提出新要求,實現材料的按需設計,最終提升航空航天等系統的水平。

計算材料學之材料結構預測

現狀

材料是國民經濟的基石,是實現製造業轉型升級的重要基礎。隨著計算機模擬技術的發展,流體力學、材料和醫療等專業領域也開始使用模型輔助科學研究。由於其問題的複雜性,這些領域的模型參數優化使用單一的優化算法或者適應度計算方法無法有效解決問題,比如某些方法精度高但運行時間長,而某些方法需要苛刻的前置條件。因此,在這些領域通常採用多種方法結合的方式進行參數優化,即由不同步驟組合起來進行問題求解,從而發揮各個方法的優點,更有效率的解決問題。同時,應用領域有很多商業軟體,不提供相應SDK(軟體開發工具包),整個流程通常只能採用腳本語言(如Shell語言)對各個步驟進行連接。

對領域應用的促進

多步驟參數優化算法的典型場景是材料學領域的晶體結構預測算法。目前常見的結構能量計算方法有分子動力學模擬的方法和基於第一性原理的密度泛函理論(DFT)方法。DFT方法能夠提供更準確的結構能量,但計算成本很高。以TiO2晶體為例,採用分子動力學軟體LAMMPS計算其能量,平均耗時為169 ms(100次實驗的統計結果,下同);而採用DFT軟體VASP計算其能量,平均耗時為10 309.27 s,兩者相差將近6萬倍。在DFT軟體的基礎上採用參數優化算法搜索結構晶體狀態,其時間成本很可能超出科學家可接受時間上限。由此可見,單純採用分子動力學方法進行結構能量模擬,很難獲得和DFT方法同等的模擬精度;而單純採用DFT方法,隨著分子結構複雜度上升,其時間成本越來越昂貴。

發展趨勢

多步驟參數優化算法較好地解決了這個問題。目前該領域通常是將兩種方法結合,在不明顯影響系統效率的情況下,有效提升模擬方法的精確度。美國Ames國家實驗室提出一種AGA(Adaptive Genetic Algorithm)算法,其採用遺傳算法進行給定結構的晶體狀態搜索,在GA計算個體適應度時,採用分子動力學方法模擬結構能量。同時,創造性地添加了Adaptive loop模塊,將GA生成的數個最優結構交與第一性原理DFT方法重新精確計算其結構能量,再採用Force-Matching方法基於精確信息對分子動力學方法的勢參數進行耦合,從而提升分子動力學方法的精確性。如此組成大循環,直至收斂。

計算宇宙學之天文N體計算模擬

現狀

宇宙學模擬是理解星系形成、暗物質、暗能量等重大科學問題的重要手段,從計算技術方面來講,宇宙學模擬涉及的物理過程之多、動力學範圍之大、計算方法之複雜、計算規模之大,一直是反映國際高性能計算發展水平的典型代表。其中最核心的N體問題模擬及其應用先後9次獲得「戈登·貝爾」獎,這充分顯示N體問題相關算法及其應用的重要性和並行實現的技術難度。

日本東京大學的Ishiyama和Makino等開發了N體問題並行數值模擬軟體GreeM,並在富士通「京」超級計算機上通過各種性能優化技術,在國際上率先實現了萬億粒子規模的宇宙學N體模擬。

我國在宇宙學N體問題大規模模擬方面近幾年取得重要突破。中國科學院國家天文臺計算天體物理重點實驗室和中國科學院計算機網絡信息中心合作,在國際上率先發展了基於MIC/CPU混合架構的宇宙學N體模擬軟體PhontoNs。該軟體在「Intel並行應用挑戰賽2014」的兩個獎項上均獲得了亞軍。

對領域應用的促進

2015年北京師範大學張同傑率領的研究團隊開發了Tian-Nu軟體,在「天河二號」上成功進行3萬億粒子數的中微子和暗物質的宇宙學N體問題模擬,揭示了宇宙大爆炸1 600萬年後至今的137億年的演化進程。該軟體基於P2P和PM的耦合算法,模擬結果已發表在《自然-天文》(Nature Astronomy)上,獲得了國際宇宙學領域的高度關注。

發展趨勢

目前國際上成熟的宇宙學模擬軟體均基於純CPU的傳統超級計算機,而大型超級計算機的主流發展方向是深度異構。在異構計算環境下對超大規模粒子體系進行快速模擬需要研究如何提高算法的並行可擴展性,尤其需要解決動態模擬過程中粒子分布不均時的負載均衡問題。另外,還需要研究眾核異構平臺上的性能優化技術、分布式八叉樹週遊的計算與通信重疊技術、三維FFT大規模可擴展性並行劃分與通信。中國科學院計算機網絡信息中心正在與中國科學院國家天文臺合作,針對國產超級計算機,通過並行異構算法設計以及代碼優化,研發能夠滿足宇宙學超大規模數值模擬需求的引力場N體模擬軟體。基於國產計算系統的天文N體計算模擬軟體將實施千億量級及以上規模的高效率宇宙學模擬,為國際大型星系巡天、暗物質、暗能量大型探測計劃,以及我國重大科學工程500米口徑球面射電望遠鏡(FAST)和空間站巡天望遠鏡等大科學裝置提供必要的數值模擬支撐。

計算生物學之基因測序

現狀

從管中窺豹的DNA分子排列,到暗藏殺機的複雜遺傳疾病;從小分子代謝物流轉不息,到眼角眉梢的巧笑嫣然;見微知著地貫通微觀到宏觀是無數遺傳學家思考畢生的問題。前瞻性隊列研究是流行病學的基本觀察性研究設計之一,自20世紀70—80年代起,世界各國陸續開始建立長期隨訪的人群隊列。新建立的人群隊列,如中國法醫分子畫像樣本庫、荷蘭Rotterdam隊列、英國雙生子隊列、英國ALSPAC隊列、美國波士頓隊列、澳大利亞QIMR隊列、拉丁美洲CANDELA隊列等,其規模越來越大,且包含較為全面的健康結局信息、環境暴露信息和社會學信息。這些數據具備部分大數據的特徵:大型隊列的規模已經達到了50萬種樣本以上,且採樣精度不斷提高,通過整合基因組學、轉錄組學、表觀組學、蛋白組學、代謝組學、免疫組學和影像組學等多維數據,數據量迅速擴大;表型數據包含非結構化圖像、音、視頻等高度異質性數據,並且存在複雜的關聯關係,呈現出多樣性和異質性;藉助電子健康記錄及智能傳感設備,數據更新頻繁。深入解析這些數據是精準醫學和DNA表型刻畫等多領域的核心目標,在複雜疾病的個性化預防、診療和指導公安刑偵破案等方面有重要的應用價值。

對領域應用的促進

隨著測序技術不斷發展和各國對普惠健康領域投入的增加,新建立的人群隊列規模越來越大,且包含較為全面的健康結局信息、環境暴露信息和社會學信息,這些數據具備部分大數據的特徵。未來由隊列聯盟整合的跨國人群隊列的樣本規模會達到千萬級,傳統分析手段的處理效率難以適應數據的產生速度。與此同時,藉助電子健康記錄及智能傳感設備的實用,頻繁更新的多維表型組學數據形成了高度異質的數據集合。深入解析這些數據需設計高效合理的資料庫架構以對多源、異構數據的清洗、標準化和存儲,並引入新算法進行處理。

發展趨勢

面對樣本量和數據維度的爆炸性增加,生物信息學也迎來了技術拐點。科研界和工業界共同發力,許多經典的生物信息學算法和流程通過使用高性能計算資源,提高了生產效率,增強了系統易用性,降低了存儲管理難度;而針對高性能計算平臺開發的機器學習、深度學習算法,也在解析多維數據複雜因果關係及交互作用網絡方面嶄露頭角。以經典的全基因組關聯分析為例,配合高性能運算平臺的高算力開發的新統計學習算法,可以極大提高統計效力,從而發現以前未發現的影響人類複雜表型的遺傳因子,深入理解其遺傳結構。對於複雜疾病來說,這能夠提供明確的分子通路和基因靶標,進而完善複雜疾病的個性化預防、診療、分子分型、預後等健康管理方案。對於人類複雜外貌表型來說,也可以基於發現的遺傳因子建立外貌表型預測模型,推動協助刑事案件偵查、海關檢驗和移民管理等工作進入主動、精確、智能的新時代。將來,高性能計算將進一步推動面向生命科學研究的機器學習和深度學習的算法開發,助力數據聚類、建模預測、文本挖掘、圖像識別等領域開展數據驅動型研究。

關於我國科學計算發展的若干建議

歷經30年,我國的科學計算由起步發展至今,在諸多研究領域取得了長足的進步,但仍需面對E級超算④的新挑戰。高性能計算機的體系結構越來越複雜,其特徵是處理器和加速器部件的複雜深度異構、單處理器內眾核、單節點內多處理器、數萬計算結點、多級存儲系統和超高速內部網際網路,這對應用軟體的研製提出了眾多挑戰。

我國經過多年的努力和投入,超級計算機硬體基礎設施能力已達國際先進水平。但由於在科學計算軟體方面如基礎算法庫、並行算法庫、高性能計算應用中間件和各學科領域應用軟體缺乏穩定投入和長期積累,導致我國科學計算應用各環節均嚴重依賴國外。特別是使用國外軟體佔比高達90%以上,這已成為制約我國高性能計算進一步發展的「卡脖子」問題。

為了更好地發展我國的科學計算應用和加強研發應用軟體,今後應戰略性布局和規劃我國科學計算的發展路線和實施計劃,具體給出5點建議。

設立國家級高性能計算軟體研發中心,並給予長期穩定支持。針對國產處理器研發若干重要領域的科學計算軟體;通過挖掘若干應用領域的科學問題,以應用需求為導向,設立長期穩定的科學目標。圍繞該目標,開展長期、持續的軟體研發。

大力加強高性能計算應用中間件的開發。近年來,在國家「863」計劃和重點研發計劃「高性能計算」專項的支持下,我國科研工作者成功研製了三維並行結構自適應軟體框架JASMIN和三維並行自適應有限元軟體平臺PHG。中國科學院計算機網絡信息中心科研人員在計算科學應用研究中心支持下,正研發並行計算框架SC Tangram。通過框架支撐,並行計算細節可對應用科學計算研究人員屏蔽,使其可集中於物理模型和計算方法創新並加速計算程序與新方法、新模型的融合,最終實現大規模並行計算應用軟體的快速開發。

進一步在國家戰略層面加強科學計算應用軟體的規劃和開發。科學計算應用軟體是計算科學和應用科學領域交叉融合的產物,涉及面廣。僅僅依靠高等院校和科研院所的研究人員憑興趣自發或是零散的研發應用是遠遠不夠的,應從國家戰略層面和科學問題的需要出發,以需求為牽引,以需要解決問題為目標,制定10年甚至更長時間的規劃並堅定地執行方才能見到成效。

提高科學計算應用的基礎研究水平。科學計算能力包括計算機軟體硬體、支撐軟體以及算法的能力。只有提高科學計算應用的基礎研究水平,才能對高性能計算機的軟硬體提出更高的需求,從而推動高性能計算應用向著更深層次和更高水平發展。大力發展複雜異構系統上的各種精度的混合計算方法,加強高性能體系結構發展與算法、軟體的互動。

大力加強計算科學和應用學科的複合型人才培養。科學計算涉及應用科學、計算機科學、數學等多個學科,必須在高等教育、繼續教育以及研究院所等層面開展相關培養工作,加大經費支持,建立適合的評價機制,鼓勵研究人員從事計算應用軟體的研發,提高待遇,從而形成可持續性發展的局面。

致謝感謝中國科學院大氣物理研究所劉海龍和唐曉、中國科學院上海藥物研究所於坤千、中國科學院高能物理研究所陳瑩、中國科學技術大學胡偉、中國科學院金屬研究所徐東生、中國科學院北京基因組研究所劉凡、中國科學院計算機網絡信息中心王彥堈和王武提供了相關科學計算應用的文字材料;感謝中國科學院物理研究所王鼎盛院士提供珍藏了20多年的、發表在《人民日報》和《中國科學報》上的有關「曙光1000」攻關的報導。(作者:金鐘,中國科學院計算機網絡信息中心 中國科學院計算科學應用研究中心;陸忠華,中國科學院計算機網絡信息中心;李會元,中國科學院軟體研究所;遲學斌,中國科學院計算機網絡信息中心 中國科學院計算科學應用研究中心;孫家昶,中國科學院軟體研究所。《中國科學院院刊》供稿)

 

相關焦點

  • 遇見容器HPC 蘭州大學的高性能計算應用之路
    「當今,科學研究可分為三種:實驗、理論和計算。」  ——諾貝爾獎得主,威爾遜  如果說,在科學的發展長河中,伽利略和牛頓奠定了實驗科學和理論科學的基石。那麼,計算機的發明,則把計算推上了人類科學活動的另一個前沿,此後,計算在科學活動中發揮著越來越重要的作用。
  • 遇見容器HPC——蘭州大學的高性能計算應用之路
    諾貝爾獎得主威爾遜曾經說: 「當今,科學研究可分為三種:實驗、理論和計算。」如果說,在科學的發展長河中,伽利略和牛頓奠定了實驗科學和理論科學的基石。目前,雖然各學院分散建設高性能計算中心的模式在一定程度上滿足了現有的科研需求,但也存在著諸多問題,難以滿足學校長遠的發展。
  • HPC CHINA 2019:航空航天領域高性能計算應用
    以「計算 見智 贏未來」為主題,聚焦E級計算機研製挑戰、HPC重大應用等主題展開,匯聚業界前沿學術與應用動態。  此次大會,行業各界頂級人才齊聚一堂,共同探討HPC系統在大數據、人工智慧、E級計算、航空航天等領域的應用趨勢和融合發展。參會人數超過2500名,參展科研院所及企業50餘家,特邀報告及主題演講總共21場,論壇會議將近50場。
  • 量子計算技術產業發展現狀與應用分析
    在此背景下,各大科技巨頭、初創公司、科研機構和不同領域的行業需求者紛紛開展量子計算相關的研究與應用布局,產業生態得到不斷培育、發展態勢良好。2 量子計算技術發展現狀量子計算技術研究始於20世紀80年代,關鍵技術包含量子處理器的物理實現、量子編碼、量子算法、量子軟體、外圍保障和上層應用等多個環節(見圖1)。
  • 「2016理論與高性能計算化學國際會議」舉行
    本次會議主要關注量子化學和分子模擬方法、高性能計算軟體及其在生物、藥物發現、材料設計和能源領域的應用。  計算化學虛擬實驗室主任、中科院大連化學物理研究所研究員韓克利主持開幕式。Daniel Crawford回顧並展望了高性能計算化學的現狀與未來。計算機網絡信息中心主任廖方宇代表主辦方致辭。西南大學副校長李明代表協辦方致辭,介紹了學校的歷史和當地的特色。
  • 計算社會科學:發展現狀與前景展望
    計算社會科學(Computational Social Science,CSS)以大衛·拉澤(David Lazer)教授等15位美國學者於2009年2月在《科學》(Science)雜誌上聯合發文並首次正式提出這一學術概念為標誌,已經走過十多個年頭。雖然歷程短暫,但其發展迅猛,對人文社會科學理論及應用產生了廣泛而深遠的影響,引起了學界的高度關注與深層思考。
  • 高性能電磁計算應用與軟體開發研討會在京召開
    2月5日,中科院高技術局在中國科學院網絡信息中心組織召開了高性能電磁計算應用與軟體研討會,來自中科院電子所、電工所、數學院、物理所、網絡中心,以及北京理工大學、上海交通大學的20餘位專家學者參加了本次研討會。
  • 美能源部高性能計算應用項目推動先進位造發展
    導語 11月13日,美國能源部能源創新高性能計算網站宣布,其製造業高性能計算(HPC4Mfg)專題啟動4個項目。為了深入了解其中的物理化學相互作用,並得出獲得最大熱解效率的最佳操作條件,該項目採用高性能計算對反應器進行建模。該項目將形成高效的大型熱解系統(具備約200噸/天的處理能力),可顯著減少美國廢棄塑料的積壓。
  • 綜述:從地球科學和高性能計算看年輕人的挑戰和機會
    近日,他聯合五位地球科學學者發表了一篇論文《在新信息技術時代 地球科學需要加強基於高性能計算和大數據的科學研究》(ps:為方便讀者閱讀,標題在論文標題基礎上做了調整),研究新資訊時代對地球科學領域研究人員尤其是年輕人的影響。新資訊時代,年輕人的工作前景、職業發展產生哪些改變?面對可視化、深度學習、量子計算、雲計算等熱門領域,又該如何選擇?文章對這些問題進行了詳細討論。
  • 淺談志願者分布式計算技術應用及現狀
    內容摘要:為普及志願者分布式計算相關知識,從基礎知識開始逐步解開大家對於志願者分布式計算的種種不解和疑惑,文中把自己參與分布式計算的感受和了解的知識與大家分享,同時也希望更多人能以科學的眼光來看待分布式計算並給予理解和支持。同時中國的分布式計算的發展,不僅依靠程序開發人員,更多地需要依靠志願者長期穩定的參與和支持,力所能及地為人類進步儘自己的綿薄之力。
  • 乾貨丨邊緣計算應用、現狀及挑戰
    本文內容包括對邊緣計算概念、典型應用場景、研究現狀及關鍵技術等系統性的介紹,認為邊緣計算的發展還處在初級階段,在實際的應用中還存在很多問題需要解決研究,包括優化邊緣計算性能、安全性、互操作性以及智能邊緣操作管理服務。全文6200字,預計閱讀15分鐘。
  • 2019年人工智慧對高性能計算的10種影響
    3.以不同方式思考:通過利用機會重新思考方法來替換遺留代碼 高性能計算(HPC)是一種傳統技術,人工智慧相對來說是一種新技術。顯然,隨著人工智慧的成熟,它將創造自己需要支持的重要遺產。就目前而言,當這兩種技術結合時,它將鼓勵有關重新實現遺留代碼的對話,這在某些情況下可能已經過期。
  • 駱劍承:遙感智能計算與地理精準應用的思考與探索
    這一段在家封閉寫作的日子,是在一種比平日還忙碌的狀態中悄然度過的,在反覆思考和不斷打磨中,終於把這本《遙感大數據智能計算》(駱劍承等著. 北京:科學出版社,2020.8)專著相對完整的一稿修改出來了。
  • 面向E級計算的材料科學計算軟體系統與應用—新聞—科學網
    基於高性能計算的材料設計是加速功能材料研發的重要途徑,是世界強國持續投入大量人力和物力展開競爭的核心領域。近年來,國內外高性能計算機逐漸向百億億次(E級)計算水平邁進,有望實現人類未曾嘗試過的大尺度、長時間和高通量的材料計算與設計,為材料科學領域的發展帶來前所未有的機遇和挑戰。
  • AI+科學計算 【AI+科學系列 · 第二期】報名了!
    」Webinar 匯集計算數學、科學計算及超大規模計算等領域的交叉研究學者,從「AI for Scientific Computing」和「Scientific Computing for AI」兩個視角進行前沿討論,以期能碰撞出創新的思想之火花。
  • 楊元慶:聯想通過大數據、算法及高性能計算推動人工智慧的發展
    2017年6月29日,聯想集團董事長兼CEO出席上海交通大學「85屆計算機系教育發展基金」暨「楊元慶教育基金」頒獎儀式,並給獲獎師生頒獎。在頒獎儀式上,楊元慶表示,聯想正在通過數據、超算和算法研究,推動人工智慧的發展。以下是楊元慶發言的原文。
  • 沒有超級計算機,也敢玩高性能計算?
    「隨著成本的下降和應用情形的增多,高性能計算吸引了各種類型和規模的新用戶。擴展應用包括基於超級計算機的高性能計算系統、基於集群的高性能計算和高性能計算服務雲。高性能計算機數據存儲系統提供商Panasas公司的系統工程總監Dale Brantly介紹說:「依靠數據的收集、分析和分發而蓬勃發展的環境,以及依靠可靠的系統來支持具有巨大計算能力的工作流程等等,都需要高性能計算。」雖然中小企業採用的仍然相對較少,但對於願意投資於技術和員工專業知識的企業來說,這項技術具有巨大的潛力。
  • 第十四屆全國高性能計算學術年會兩千人共享盛會,綻放青島!
    、青島海洋科學與技術試點國家實驗室、國家超級計算濟南中心、中國海洋大學承辦,北京並行科技股份有限公司協辦,山東計算機學會、中國通信工業協會人工智慧與智慧應用分會聯合舉辦。百餘位國內外業界技術大咖與專家學者出席盛會並分別做大會特邀報告與主題報告,分享最新科研成果、發展方向、業界動態,內容覆蓋人工智慧、大數據和超算為核心的新一代信息技術、新興醫學領域影像組學的發展、高保真仿真的工程設計、高能物理高性能計算的需求、格點QCD軟體在國產超級計算機「太湖之光」和「天河二號」上的移植和運行、高效的科學可視化等最前沿資訊。
  • 視點 | 讓計算機科學真正流行起來——計算機科普的現狀與思考
    2019年的一次意外事件,引發了我對科學普及的重新認識和深刻的思考。2019年初我帶女兒看科幻電影《流浪地球》之後,給女兒畫了6張手繪圖講解其中的科學知識。這讓我深切意識到大眾對科學知識的需要和對科研人員參與科普工作的認可。根據近期的思考,我認為推動計算機科學普及需要從品牌、產品和生態三個方面著手。
  • 曙光高性能計算解決方案:物理化學領域
    在物理和化學學科中,隨著理論計算方法的發展和成熟,以及計算機軟、硬體技術的不斷進步,計算機模擬研究漸趨普及,已成為繼實驗手段、理論推導之後的第三類重要的科研方法。相應領域的計算機模擬研究也逐漸形成獨立的學科,比如計算化學、計算材料學等。