David A. Yuen是美國哥倫比亞大學教授、美國地球物理學會會士(AGU Fellow)、國際計算地球動力學權威,一直非常關心青年HPC人才的培養。
近日,他聯合五位地球科學學者發表了一篇論文《在新信息技術時代 地球科學需要加強基於高性能計算和大數據的科學研究》(ps:為方便讀者閱讀,標題在論文標題基礎上做了調整),研究新資訊時代對地球科學領域研究人員尤其是年輕人的影響。新資訊時代,年輕人的工作前景、職業發展產生哪些改變?面對可視化、深度學習、量子計算、雲計算等熱門領域,又該如何選擇?文章對這些問題進行了詳細討論。
浪潮AIHPC官微授權轉載此文,以期對青年學生的職業選擇提供一些啟發和思路。
論文作者
HenryM. Tufo1 , David A. Yuen2,3., Gabriele Morra4.,Matthew G. Knepley5 , 張貝6, 陳石6
1. Dept. of Computer Science, University of Colorado, Boulder, U.S.A.
2. Dept. of Applied Physics and Applied Mathematics, Columbia University, U.S.A
3. College of Information Science and Engineering and College of Marine Geosciences, Ocean University of China, Qingdao, China
4. Dept. of Physics and Earth Sciences, University of Louisiana, Lafayette, Louisiana U.S.A
5. Dept. of Computer Science and Engineering, State University of New York, Buffalo, U.S.A.
6.Institute of Geophysics, China Earthquake Administration, Beijing, China
摘要
我們闡述了2020年新資訊時代對地球科學領域研究人員尤其是對年輕人的影響,並倡導和呼籲他們對職業培訓和發展進行重新思考。本文展望它在未來十年對學術生涯規劃和更現實的職業目標的潛在影響。我們敦促職業中期的人們需要重新評估以前的職業規劃。學生或研究人員需要具備高性能計算(HPC)、數據分析、人工智慧和/或可視化方面的技術,以及應用計算機科學和數學方面的廣泛技能。我們就幾個在未來十年有巨大發展潛力的領域的熱門前景給出建議,比如可視化、深度學習、量子計算和信息以及雲計算,所有這些都屬於高性能計算的範疇。我們的預測是,新資訊時代將大大改變各年齡段研究人員的工作前景和職業道路,我們在地球科學中年輕學者未來所面臨的嚴峻局面進行了深層探討。
01
當今地球科學年輕科研人員所面臨的問題
新信息科技時代的形勢對就業市場和科學技術市場上的年輕研究人員產生了巨大的衝擊。不僅20到35歲的年輕人會受到影響,而且年齡在35至50歲的中年人將會感受到技術變革的衝擊。各個年齡段的人都會感受到這種影響,甚至包括那些即將退休的人。
現在的高速發展的全球經濟以及美國教育產業的自負盈虧的產業模式對美國大學產生特別的影響,因為它們的商業模式側重於吸引富裕的國內外學生。有能力、有抱負的學生對地球動力學等固體地球科學理論學科缺乏興趣,入學人數一直都在減少。在過去的30年裡,還有美國教育界的一種趨勢是降低數學和物理科學課程的數量,以吸引更多的學生學習地球科學。這導致了一些美國國內研究生知識儲備不足,同樣的情況也發生在歐洲的本科課程中。
這種衰退將嚴重影響美國各州和國家層面的研究支持。這將意味著,除了人工智慧和量子計算與信息等特定戰略領域外,所有支持研究生的職位都將減少。我們預計在不久的將來,美國的聯邦機構如國家科學基金會、美國地質勘探局、美國國家航空航天局和美國能源部等在地球物理學或地質學等大多數領域都會削減開支。這種情況在歐洲不會那麼嚴重,但在北美和澳大利亞,我們預計這些領域的研究生入學人數會下降。
自1960年代以來,地震波傳播的數值模擬一直是地球科學高性能計算的主要驅動力。70年代末,地幔對流的高性能計算才出現。在過去的幾年裡,我們可以確切地看到,潮流已經發生了變化,地球科學中的數值建模如今已落入數據分析、反問題、不確定性量化和深度學習等更大的範疇。
固體地球地球物理學已經達到了全盛時期,未來我們不會過多地關注傳統的固體地球地球物理學的建模,例如孔隙波或火山噴發、冰川後反彈和俯衝過程這些方向的研究。在美國,由於美國國家科學基金會的地球科學計劃,在過去的二十多年裡,俯衝動力學一直是地球動力學模型的主要驅動力之一。在中國和日本、德國等其他國家,對俯衝過程沒有這樣的特別關注。然而,地震波通過不均勻介質的傳播上比俯衝動力學對社會更有實際的應用意義。波成像一般在很多其他實用科學和工程都有應用,特別是在生物醫學領域有廣泛的應用。
圖1 地球科學研究方向從1985年至2020年的轉變
在21世紀20年代,固體地球地球物理學在美國學術界的總體規劃中變得越來越不重要。相反,其他學科,如大氣、海洋、氣候建模、太陽物理學、磁重聯和太陽耀斑建模正引領著這一方向,因為這些現象具有更多的社會影響(見圖1)。在21世紀,尤其氣候變化、海嘯和颶風更和人們息息相關,它們的研究更有科技與實際經濟指導價值。它們應該比沿著聖安地列斯斷層或美國西北部的卡斯卡迪亞俯衝板塊的大地震、四川盆地的地震災害或北京周邊地區的地震風險得到更多的關注。
所有這些迫在眉睫的變化將意味著我們必須超越大學裡單一學科領域發展的世界觀。讓我們多走跨學科的路,把地球科學和其他學科聯繫起來。我們不能再僅僅使用《科學》或《自然》,或在《地球物理研究雜誌》或《流體力學雜誌》等頂級期刊上發表的論文數量來判斷一個人在計算地球物理領域的成就。這些傳統的比較方法用於量化以前大學的相對地位。在今後的時代,生產有用的工件(例如,軟體)也應該得到獎勵。
如今對研究生來說更重要的是重新適應新形勢,並學習高性能計算相關技術,以便在後疫情時代的新工作機會中找到有收入的工作,因為今後找到學術職位將變得困難。
確實有許多可供學習的資源來完成這一轉變。如PETSc、GeoClaw等軟體庫,還有其他一些交付到社區的軟體,如礦物物理研究中使用的VLAB,用以全球地球動力學模擬的ASPECT,用於地殼動力學的PyLith。在可視化軟體方面,人們轉向LavaVu和Underworld來模擬各種地球物理問題和火山流,這項工作由澳大利亞政府資助了17年多,由Louis N. Moresi領導,當時他在墨爾本莫納什大學工作,並與莫納什大學的Steve Quenette和Owen Kaluza合作。我們必須培養能在大流行後的世界中從事各種行業的學生。訓練學生使用GPU對研究和就業都是一個好主意。GPU現在已經是成熟的技術。
美國的學術任期問題也被提出(如Htun,2020)。是維持傳統的終身制?還是會轉向像職業體育那樣的合同模式,五年或十年的合同? 或者,我們是否會採用美國醫學院的模式,支付基本工資,高於基本工資的部分必須由計算科學或地球物理學教授主動提出(例如,額外津貼)。在過去的幾年裡,同樣的關於終身職位的問題在中國科學院已經被提出,那裡很少有人有終身職位,大多數是領導職位。終身教職是留住人才的一種手段,但這種模式下的人們在轉向新的研究方向時有很多猶豫,因為太多的地球動力學家和地震學家囿於已有的成績和知識結構,不願在新的角色中重塑自己。
02
改變已經在進行
自2012年以來,大數據已經顯著地進入了我們的社會 (Lohr 2012;Mayer-Schönberger and Cukier 2013)。這是一個發展速度非常快的領域,因為大數據在商業、醫學和科學方面都有廣泛應用,大數據研究經歷了高速發展。直到最近(Bergen at al.,2019),地球科學家在地球領域科學研究在大數據研究方面一直進展緩慢(Bergen at al.,2019),包括幾年前流行的一些研究的計算算法很快就過時了。這裡我們要強調的是,三年前學習的機器學習,如現在地學領域還在使用的Hadoop Python, PyTorch, Keras等在工業界找工作的時候已經是過時了。但是對於那些仍然在使用這些數學模型的練習的學者來說,還是有機會的。只是我們會再次強調地球物理各種不同研究方向的數學模型的綜合,如使用衛星數據研究冰期後回彈,不僅需要了解基本的數學知識,也要了解機器學習最新發展(Vadapalli2020; von Rueden et al. 2020; Bergen et al. 2019; Morra et al. 2021 (in press))
其次,我們將在這裡強調,我們應該在HPC中加入一個更加平衡實際應用和理論研究的和數值方法的教育包。包括用於建模、數據分析和數據同化的雲計算資源(Huang, Dongarra和Fox, 2012)。我們必須強調加強大規模的,大數據量的即時數據的快速傳輸和遠程雲存儲需要,比如地幔對流機器學習中使用的數值模擬視頻(Shahnas, 2018))或X射線和中子束的實驗圖像流。
三是我們也支持加強在職培訓。涉及虛擬化的大型實驗就是一個很好的例子。我們鼓勵用戶使用例如NCARCSEM用於參數搜索,或其他軟體如ASPECT, Pylith (CIG產品),Underworld(Australian product), LavaVu(多尺度現象的可視化工具,這是由澳大利亞SteveQuenette在莫納什大學開發的)。澳大利亞政府支持LavaVu這個項目已有17年多。因此,我們希望各國政府能夠理解軟體開發需要較長的時間,這包括軟體開發長時間開發周期和長時間軟體應用維護。我們也需要研究設計出一種工作軟體能夠利用人工智慧方法可以自動修正輸入參數,可以優化工作流程。例如,為特定的工業過程設計工作流程的智能代理,如飛機或醫藥產品的設計。我們相信,這類技能能夠讓學生在不同行業找到適合自己的崗位。
現在流行的在線遠程交流在地學領域研究中也存在各種問題。我們看到了在線遠程交流方面的種種問題。人們使用WebEx和Zoom等類似的通信工具進行日常語音和視頻交流,但在大數據交互式可視化方面卻沒有太多可用的工具。交互式可視化是24年前由麻省理工學院的Bob Haimes和IBM的Kirk E. Jordan首創的(Jordanet al.,1996)。我們需要可視化專家來繼續這一工作,因為在演示和教學中可視化太有用了,尤其是今天5 G手機和邊緣計算、雲計算技術的發展,完全具備了交互式可視化實現的軟硬體條件。如前所述,科學數據或各種演化現象的可視化(如金融、地球物理或全球災難事件),是另一個很好的就業領域。
很多地球科學中的物理模型需要通過實際數據驗證而進行進行模型優化,以找到更好的的數據模型參數。因此,我們必須解數據反演問題的非確定性Tenorio, 2018,Aster等,2018年)。在解決這些數據反演問題時需要地球科學專業的學生熟悉高性能HPC對處理複雜的大數據以及大數據反演問題所涉及的軟體的基礎架構以及各種算法。因此,地球科學專業的學生學習一些現有的、已經可以使用的各種軟體平臺和計算引擎的知識,以及可以使用其平臺的腳本語言進行多線程和多GPU的並行計算工具。他們應該知道如何通過使用HPC、數據云和源程序解決地球科學之外的各種實際問題的大規模建模現成的流程。比如我們在處理大型分布式數據時可以應用機器學習算法,尤其是大型計算機的深度神經網絡,這和處理小規模數據具有根本的不同。
03
未來的科學計算的發展
雲計算已經存在很長時間,並且已經成熟,而且是未來計算平臺發展趨勢。開放堆棧模式下的雲計算對於處理多種環境的事務也很重要: 市政、區域、國家和全球環境。當今,由於Zoom、亞馬遜和微軟的努力,雲計算領域變得更加突出。雲計算表明,現在它可以在高性能計算和數據分析中發揮重要作用。人們現在很欣賞它存儲大數據集的能力,這在大學或NSF中心是不容易得到的。
量子計算(QC)和量子信息在過去幾年它們一直是熱門話題,因為QC在速度和內存容量方面可以在許多學科中取代傳統計算(Nielsen and Chuang2010)。量子計算,特別是量子機器學習算法,可以在不久的將來比今天人們想像的更早地解決實際問題,現在人們對量子計算和信息的興趣非常濃厚。為了吸引優秀學生的注意,即使是在高中,也應該向年輕人傳授一些基本而紮實的量子計算知識,當然在本科階段也應該如此。幾年之後,他們應該會順利地掌握編碼技能,以便利用量子計算解決深度學習問題或進行材料特性建模。
另外量子計算QC和量子信息對未來大學教育以及科研研究方向產生很大的影響。可以肯定的是,世界各地都有新的資金投入到QC中。在美國的四個NSF中心和能源部中心都將有量子計算的教育部分,甚至到了本科水平。量子計算和量子信息正在興起 (National Academy of Science, 2019, 2020)。社會各階層都對這一現象產生了濃厚的興趣,就像淘金熱一樣,未來十年將掀起一場量子計算和量子信息運動。在過去很多年,美國政府按部就班的計劃推進網絡基礎設施建設(Bader et al, 2018,Dunning et al. 2018),但最近這一動力轉向了人工智慧、量子計算和信息。我們已經看到量子計算和量子信息對教育的影響,新的投資無處不在。美國的NSF中心都將在本科階段開設量子計算課程。
04
討論
在不久的將來,我們能看到美國和中國的年輕地球科學研究學者們將面臨什麼?兩國都在量子計算和雲計算領域全速前進。這些領域——包括基於雲平臺的計算、量子計算和量子信息。年輕的地球物理學家們可以考慮不用繼續在學術領域發展,而是學習重新塑造自己,成為研究波動現象或可視化的量子計算程式設計師。其他人可以進入GPU計算領域,這些領域還有很長的路要走。現在有許多由美國國家科學基金會和能源部慷慨資助的長期多學科項目,旨在為與人工智慧相關的量子計算和信息科學培養科學技術人才。在中國,我們預計類似的趨勢很快就會發生。
我們預測到2025年量子計算將和深度學習(Beer et al. 2020)結合。年輕的研究人員應該在雲計算、大數據和深度學習,以及量子計算和量子信息不同研究方向連結以及研究途徑有深度的理解(見圖2)。量子計算是這些方向中比較艱難的一個環節。我們應該將這些新信息計算方向整合在一起,在對社會有用的新技術領域培養新的科技研究人員,而不僅僅是寫論文證明這些NSF和DOE作為美國科學研發中心的偉大名聲的而存在。
綜上所述,我們對地球科學領域的研究人員有如下建議:
1. 至少在未來5年,年輕人要想獲得學術職位將會很困難。這在任何黨派政府領導下的美國都將是如此,在澳大利亞、加拿大和歐洲等西方國家也是如此。然而,學術研究在中國有一個更光明的未來,因為它的教育投資理念是長期的。另外,即使你能夠獲得終身教職,終身教職和終身工作的概念也在迅速消失。這種穩定的教職制度本身是用來平衡低收入的教授職位和穩定工作之間的關係,既包括終身教職較低的薪水,也包括讀研、讀博,以及甚至那些不得不做博士後而失去的在其他領域的工作機會,直到出現一個教職空缺的長期等待時間。
2. 在大數據時代,傳統的直接計算方程數值模擬已經過時,這個情況和十年前那種流行的研究方法有很大的不同。但是研究者還是可以在學術界之外找到傳統的數值模擬工作。
圖2 新信息科技時代高性能計算的遠景
3. 對於想繼續在科學和技術領域繼續工作的年輕研究者來說,高性能計算工作是一個相對很好的從事研究方向。在高性能計算研究方向中有很多機會,其中包括:(a) 基於GPU編程的雲計算的一個成熟研究方向。(b) 虛擬實境可視化和增強現實可視化算法和技術也日益成熟,特別是在地質領域,未來的殺手級應用將是增強現實 (c) 量子計算和量子信息在在不遠的將來,到2028年左右,也將是很成熟的研究以及應用方向。年輕學者最好能意識到這一點,並為它做好準備。
4. 其他,下面各項不分先後。
a. 在大多數情況下由個人編寫的軟體所展示的實際應用應被更多的考慮,在評估研究人員的貢獻和實際能力方面比論文更重要。
b. 大學的單一學科組織和發展(系、研究所和學院)不利於基於多學科多領域協作研究的資金和項目的發展。
c. 當今很多研究都需要一流的高性能網絡基礎設施的支持。但實際上這個在實際研究中很多還是基於本地計算機上。
d. 當前的複雜的全球經濟和政治形勢將使無國界的科研合作變得很艱難。
e. 很多美國政府主導的科研資助機構已經不能很好地領導學術研究了。資金的缺乏(除了國立衛生研究院)以及缺乏有效的政府機構的研究管理機制是主要問題;
f. 美國政府在研發方面投入逐年減少,學術研究難以持續。同時很多工業界的基礎研發預算也被減少,更多的研究轉向能帶來短期利益的工業產品開發。過去那些偉大的實驗室,貝爾實驗室,IBM沃森實驗室,埃克森研究公司等,都只是過去的影子。最近幾年穀歌、微軟、FACEBOOK等公司也轉向了能更實用的能帶來經濟效益的研究。
05
致謝
我們感謝Witek Dzwinel, Wim Spakman, Steve Quenet,Yingchun Liu和Danny Loegering的討論,感謝Arthur Zhong和Yingchun Liu的文章修改和圖片製作。這項研究得到了美國國家科學基金會(NSF)和美國能源部(DOE)的資助,資助對象為HenryM. Tufo、David A. Yuen,和MatthewG. Knepley。
參考文獻
1. Bader, D.A., G. Tech, H. M. Berman, M. Parashar, T. H. Dunning,G. Jacobs, T. Agerwala, M. Hildreth, R. Loft, and S. Ruggles, 「CI2030: Future Advanced Cyberinfrastructure A report of the NSF Advisory Committee for Cyberinfrastructure Transmittal letter from the NSF Office of Advanced Cyberinfrastructure Report CI2030: Future Advanced Cyberinfrastructure NSFAdvisory Committee for Cyberinfrastructure 1 Cyberinfrastructure Ecosystem Working Group,」 Tech. Rep., 2018. [Online].
Available: https://www.nsf.gov/cise/oac/ci2030/.
2. Beer, K., Bodarenko, D. et al., Training Deep Quantum Neural Networks, Nature Communications, 11, article Number 8, 2020
3. Bergen, K. Johnson, P.A., DeHoop, M.V. and G. Beroza, Machine learning for data-driven discovery in solid-earth geosciences, Science, 363,2019
4. Dongarra, J., Getov, V. and K. Walsh, Bringing the future closer-Supercomputing History and the Immortality of Now, IEEE Society,Society, October 2018
5. Dunning, ThomH., Chair Jr., Gwen Jacobs, Tilak Agerwala, David A. Bader, Helen M. Berman,Michael Hildreth, Rich Loft, and Steven Ruggles. 2018. 「CI2030: Future Advanced Cyberinfrastructure, A Report of the NSF Advisory Committee for Cyberinfrastructure.」
https://www.nsf.gov/cise/oac/ci2030/ACCI_CI2030Report_Approved_Pub.pdf.
6. Easter, R. C., Borchers, B. and C.H. Thurber, Parameter Estimation and Inverse Problems, Second Edition,450 pp., 2013
7. Htun,M., Tenure and Promotion after the Pandemic, Science, vol.368, issue 6495, pp 1075, DOI:10.1126/science.abc7469 , 2020
8. Huang, K., Dongarra, J. and G. C. Fox, Distributed and Cloud Computing,578 pp Morgan and Kaufmann, 2013
9. Jordan, K.E., D.A. Yuen, D.M. Reuteler, S. Zhang and R. Haimes,Parallel Interactive Visualization of 3D Mantle Convection, IEEE Computational Science and Engineering, Vol. 3, 29-37,1996.
10. Nielsen, M.A. and I. L. Chuang, Quantum Computation and Quantum Information, Cambridge University Press, 2010
11. Quantum Computing, Progress and Prospects, National Academy ofSciences, 2019
12. Shahnas, H., Yuen, D.A., R., Pysklewec, Inverse Problems in Geodynamics Using Machine Learning Algorithms J. Geophys Res., Vol, 123,
https://doi.org/10.1002/2017JB014846,2018
13. Tenorio, L., An Introduction to Data Analysis and Uncertainty Quantification for Inverse Problems, 265pp, SIAM Press, 2017
看完論文,是不是意猶未盡?!
加入ASC超算競賽,挑戰頂尖前沿科學難題,同全球各路高手一較身手。
ASC20-21報名現已開啟!!
各國高校的同學和老師可通過大賽官網提交報名申請,報名截止日期為2020年11月15日。