自2009年浪潮推出了國內首款萬億次桌面超級計算機——「倚天」以來,兼具低成本、高性能特點的「倚天」受到了廣大高性能用戶的普遍青睞。近日,浪潮 「倚天」寶劍再度出鞘,推出搭載了NVIDIA Tesla最新Fermi架構20系列GPU的升級版桌面超級計算機——NF5588。該產品採用目前業界最先進的雙路四核 CPU+GPU異構計算架構,是一款最高計算能力可達4萬億次每秒的高性能超級計算機,同時也是一款高端工作站產品。目前,NF5588已經成功應用於國防科技大學、西交大電信學院、井岡山大學等全國各大知名科研研究單位。
本測試報告將利用分子動力學經典軟體NAMD及快速傅立葉變換FFT就這款產品進行全方位性能實測,同時針對上一代倚天桌面超算進行性能對比測試。
浪潮「倚天」NF5588
測試方案1:
選擇典型高性能應用NAMD軟體及Nanopore算例來進行實測。NAMD是分子動力學領域最為經典及最早支持CUDA架構計算的軟體之一,它基於Charm++並行支持庫,實現了動態負載平衡,在高端硬體平臺上可以保持較高並行效率直到數千個處理器規模。Nanopore算例是通過分子動力學的方法,利用NAMD軟體進行模擬計算,對矽納米孔柱陣列的排列結構進行研究。
本次對Nanopore算例進行10000個step的計算來進行計算時間對比。測試軟體是官網下載的NAMD_2.7b3_Linux-x86_64-CUDA.tar.tar與NAMD_2.7b2_Linux-x86_64-CUDA.tar.tar兩個不同版本。運行的命令為:./charmrun ++local +p8 ./namd2 +idlepoll +devices 0,2 /root/apoa1/apoa1.namd,其中+p參數指的是系統CPU運行的核數,+devices參數指的是系統GPU運行的設備號碼,此設備號碼可由CUDA SDK中的devicequery程序運行得來。
測試方案1對比的是NF5588分別搭載Tesla C2050與Tesla C1060時的性能對比情況,對應Tesla C2050 GPU安裝了cuda3.1版本驅動,Tesla C1060 GPU安裝了cuda2.3版本及cuda3.1版本驅動,都分別對同樣的算例進行了測試,測試平臺配置信息及測試結果分別如下。
硬體
機型
Inspur NF5588
CPU
2*Intel Xeon E5520 @ 2.27GHz
GPU
2*Nvidia Tesla C1060
2* Nvidia Tesla C2050
內存
4*4G DDR3 1333MHz
硬碟
500GB SATA
系統
OS
Red Hat Enterprise Linux Server release 5.4
驅動
CUDA
NVIDIA-Linux-x86_64-190.53-pkg2.run (cuda2.3)
devdriver_3.1_linux_64_256.40.run (cuda3.1)
NAMD版本
CUDA驅動版本
測試時間(秒)
NAMD_2.7b3_Linux
-x86_64-CUDA
2.3-drv
1*C1060
2*C1060
3*C1060
277.630463
156.488815
128.077164
3.1-drv
1*C1060
2*C1060
3*C1060
407.601776
221.654938
176.371780
1*C2050
2*C2050
205.011581
129.603073
NAMD_2.7b2_Linux
-x86_64-CUDA
2.3-drv
1*C1060
2*C1060
3*C1060
394.606384
216.176727
174.694672
3.1-drv
1*C1060
2*C1060
3*C1060
534.408508
287.990723
233.471939
1*C2050
2*C2050
357.576599
210.960190
上表中的測試時間均為記錄系統運行算例的Wall Clock Time,由上表的數據分析可得出以下結論:
1. 驅動版本對性能的影響
對於相同的軟體版本在不同驅動版本情況下的測試時間可知,在NF5588平臺上安裝cuda2.3驅動較cuda3.1的驅動對於C1060 GPU更適合(如下表),這是因為cuda2.3驅動是在Tesla 10系列的cuda架構下開發的;而Tesla 20系列的「Fermi」架構GPU,則需要 cuda3.1的驅動支持,不存在驅動版本的影響。
2. 軟體版本對性能的影響
對比不同版本軟體運行時間可知,更高版本的軟體性能更優,這也是軟體逐步優化版本更替的結果。如下表中的提取數據,說明NF5588在搭載C1060時NAMD_2.7b3的運行時間較NAMD_2.7b2減少25%—30%;在搭載C2050時NAMD_2.7b3的運行時間較NAMD_2.7b2減少38%—43%。
3. 多GPU加速比的分析
如下表,不難看出NF5588對於搭載多GPU的情況下,加速比值都不錯。
4. 搭載C2050與C1060的性能對比
分別取兩個版本NAMD軟體在GPU卡適合的驅動(C1060取2.3driver;C2050取3.1driver)下得到對比圖表,及性能對比數據:
對比情況
1*GPU
2*GPU
2.7b3-3.1drv-C2050
VS
2.7b3-2.3drv-C1060
2.7b2-3.1drv-C2050
VS
2.7b2-2.3drv-C1060
2.7b3-3.1drv-C2050
VS
2.7b3-2.3drv-C1060
2.7b2-3.1drv-C2050
VS
2.7b2-2.3drv-C1060
性能提升
35.42%
10.36%
20.74%
2.47%
從測試結果來看, NF5588搭載C2050對比搭載C1060,都有不同程度的提升,最好時能高出35%。但是受軟體版本及GPU運行數目的影響,性能提升略有不同。如受軟體版本影響,對於2.7b3版本的NAMD_CUDA軟體,在C2050對比C1060上的運行性能提升更高,說明新版本軟體對C2050新架構的支持更好。
測試方案2:
快速傅立葉變換(Fast Fourier Transform FFT)在高性能的應用十分廣泛,它在聲學、電信、電力系統、圖像與信號處理、物探、天線、雷達、衛星 、醫療等應用領域有廣泛的應用。凡是可以利用傅立葉變換來進行分析、綜合、變換的地方,都可以利用FFT算法及運用數字計算技術來加以實現。
CUFFT 是NIVIDA CUDA的快速傅立葉變換庫。是NVIDIA公司專為其CUDA架構計算設備開發的FFT加速庫。CUFFT庫支持以下功能:
可以對實數或複數進行一維,二維和三維的離散傅立葉變換。 可以同時並行處理一批一維的離散傅立葉變換; 對二維、三維傅立葉變換,每一維可以在[2,16384]中任意取值; 對一維傅立葉變換,能處理最大數組尺寸為8M; 對實數或者複數進行的FFT,結果輸出位置可以和輸入位置一致(原地變換),也可以不同(異址變換)。本次測試採用CUFFT庫版本:libcufft.so.3.0.14,測試分別在「倚天」NF5588(搭載Tesla C2050)和第一代「倚天」桌面超算上進行,對不同長度的信號(雙精度一維數組)先後進行正、負FFT變換,並截取FFT計算的精確時間,測試平臺配置如下:
對比平臺
升級版「倚天」NF5588
第一代「倚天」桌面超算
硬體
CPU
2*Intel E5520 @ 2.27GHz
2* Intel E5420 @ 2.5GHz
GPU
2* Nvidia Tesla C2050
2*Nvidia Tesla C1060
內存
16G DDR3 1333MHz
8G DDR3
硬碟
500GB SATA
500GB SATA
系統
OS
Red Hat Enterprise Linux Server release 5.4
Red Hat Enterprise Linux Server release 5.4
驅動
CUDA
devdriver_3.1_linux_64_256.40.run (cuda3.1)
devdriver_3.1_linux_64_256.40.run (cuda3.1)
對比測試結果如下:
Double Inplace FFT Batch enabled
signal_length
第一代「倚天」桌面超算
升級版「倚天」NF5588
性能提升
1024
0.24
0.247
0.971
2048
0.192
0.208
0.923
4096
0.216
0.212
1.019
8192
0.21
0.211
0.995
16384
0.27
0.248
1.089
32768
0.418
0.432
0.968
65536
0.792
0.44
1.800
131072
1.244
0.57
2.182
262144
2.161
0.865
2.498
524288
4.433
1.458
3.040
1048576
8.545
2.694
3.172
2097152
17.337
5.697
3.043
4194304
36.219
11.577
3.129
8388608
75.363
24.666
3.055
隨信號長度的增加, 「倚天」NF5588的性能優勢明顯體現出來,當信號長度增加到最大8M(數組總大小為64MB)時, NF5588的cufft計算時間僅為第一代產品的三分之一。同時也說明「Fermi」架構的Tesla 20系列GPU在雙精度計算上較其上一代平臺有了較大性能提升。
測試結論:
浪潮升級版「倚天」NF5588較上代產品進行了全面的升級,它支持NVIDIA Tesla最新的20系列GPU,採用雙路Intel Xeon 5500/5600系列CPU,及最新的DDR3 ECC Unbuffered/DDR3 ECC Register內存,最大容量可至48GB,並且具有更高的系統可靠性、更強的海量存儲能力、更強I/O擴展能力及更卓越的散熱技術。
一系列的實測證明了NF5588超強的計算能力,它的計算能力甚至超越了一個小型的高性能集群,浪潮高性能產業將繼續努力滿足HPC行業對性能無休止的追求,努力滿足HPC應用對計算能力最苛刻要求,努力使浪潮的HPC產品勝任於包括生命、金融、證券、動漫、電信、大中型企業、能源等各種關鍵性應用。