科學家藉助RTX驅動的惠普Z系列數據科學工作站,過去需要數年才能完成的CPU數據分析和計算如今僅需不到一周時間。
美國航空航天局(NASA)正在使用Quadro RTX GPU提高數據分析的速度。
NASA的太陽動力學天文臺(Solar Dynamics Obser-vatory)通過收集太陽圖像幫助科學家和研究者深入了解各種類型的太陽變化及其對地球生命的影響。
這些數據對於研究者而言價值連城,但由於所收集的圖像超過18 PB,因此分析這些信息的難度極大。
藉助Quadro RTX驅動的惠普Z系列數據科學工作站,NASA團隊可以輕鬆地對數據進行分類並分析圖像,而且速度比CPU快150倍。
NASA所面臨的大數據挑戰
該天文臺收集數據的方式是每1.3秒拍攝一次太陽圖像。研究者開發了一種算法,可以消除不良像素等圖像中的錯誤,然後將圖像放入每天都在增加的檔案中。
該算法非常精確,但由於具有近20 PB的圖像,有數十億像素被誤當成錯誤。因此,NASA團隊需要梳理1.5億個錯誤文件(總共需要進行約1000億次單獨檢測)並尋找一種方法來對良好像素與不良像素進行分類和標記。
使用常規計算幾乎不可能完成這項工作。如果使用CPU,則要花費數年時間才能得到結果。即便使用目前可以創建的最佳多線程CPU算法,也要花費大約一年的時間對所有數據進行計算和分析。
NASA戈達德太空飛行中心(Goddard Space Flight Center)的太陽天文學家Raphael Attie表示:「一年時間對科學家來說是不夠的,因為我們還要探索和迭代所發現的結果。即便計算需要一年時間,我們仍然需要長達十年的時間才能得到具體的結果。」
為了在更短的時間內得到結果,NASA團隊開始研究NVIDIA GPU提供的並行處理功能。
海量數據需要更優解決方案
NASA的超級計算資源受到嚴格限制。研究者需要提供有關需要多少計算資源以及需要使用多長時間的詳細信息。但當團隊不確定使用多少計算資源才能使用大量數據進行實驗時,就很難提供詳細信息。
藉助內置兩個Quadro RTX 8000 GPU的惠普Z系列數據科學工作站,NASA研究者自己就能獲得超級計算資源。他們已開始使用大數據分析技術和NVIDIA的加速計算庫來研究該項目,將NVIDIA GPU的性能發揮得淋漓盡致。
該數據科學工作站使該團隊在不到一周的時間內就完成了圖像分析並獲得結果。
NASA主管科研的天體物理學家Michael Kirk表示:「該數據科學工作站給我們的研究帶來了巨大的可能性。我們現在可以進行這些以前無法想像的計算,而且速度比我們想像的還要快10-150倍。」
NASA團隊運用AI、機器學習和數據分析對太陽進行了廣泛的研究。他們的大多數數據科學工作流程都基於Python,並使用TensorFlow、Dask、CuPy和其他應用完成繁重的數據處理工作;使用Pandas、RAPIDS和CuDF進行統計研究;並且還會用到各種2D和3D可視化工具。
憑藉該數據科學工作站,NASA團隊充分發揮GPU的性能增強其分析工作流程,使研究者能夠探索和迭代計算並更快獲得結果。
NASA團隊過濾和分析當前數據之後,就會使用這些信息來分析最初被標記為「良好」的其他像素,確認它們是否真的「良好」,從而對整個數據集進行驗證。
工欲善其事,必先利其器
在AI和大數據分析中,如果雲環境中的工作流不作出響應,就可能會嚴重影響項目。從長遠來看,此類中斷會破壞趨勢、工作效率和動力。因此,Attie建議使用本地GPU驅動的工作站或筆記本電腦。此類工作站或筆記本電腦應具有足夠的內存來處理部分數據處理工作,方便用戶進行模型研究。
Attie認為:「我發現讓工作流作出響應的必要條件是讓GPU設備能夠快速訪問輸入數據。當無法將數據保存在GPU設備所在機器的本地位置時,由於AI應用通常需要快速訪問數據,因此必須有非常快速和靈活的網絡。」
Attie和Kirk通過出版物和專業期刊分享項目成果。在研討會和會議期間,他們將與同事進行討論,並展示如何使用特定框架或自定義代碼獲取數據。隨著居家辦公人數的日益增加,NASA團隊也越來越熟悉如何使用遠程工具與他人聯繫並分享最新項目發現。