【IT168 評論】7月12日,浪潮發布了新一代M5伺服器家族,其中最引人矚目的莫過於號稱全球首款2U8 NVLink? GPU密度最高、性能最強的AI伺服器NF5288M5。這款產品是浪潮與NVDIA聯合研發的創新計算平臺,能滿足AI雲、深度學習模型訓練和線上推理等各類AI應用場景對計算架構性能、功耗的不同需求。
每U搭載4顆GPU的密度、960TFlops的性能、ns級的延遲等性能參數都讓人眼前一亮。但是或許你還有些疑問,為什麼要設計如此強大的AI計算設備?會帶來怎樣的價值?如此大功率和高密度的設計還能保證穩定性嗎?本文將為大家解答這些疑惑。
▲AI超級計算機NF5288M5
AI訓練的「三座大山」——效率、彈性和密度
人工智慧發端於上世紀五十年代,經歷了幾次繁榮與低谷,直到AlphaGo贏得世界圍棋比賽,「人工智慧」寫進今年的政府工作報告中,人工智慧熱潮徹底爆發。就在昨天,國務院首次印發《新一代人工智慧發展規劃》,將人工智慧提到了國家戰略高度。AI訓練的快速發展對計算力的需求呈井噴式發展,然而當前市場上的AI計算平臺普遍面臨著通訊效率低下、平臺架構僵化、計算密度低等問題。
異構通訊開銷嚴重影響計算效率:在AI訓練中,採用CPU+GPU異構計算架構,通常需要以CPU為訓練模型下發指令,給GPU「餵」數據,控制計算過程,提供邏輯判斷,控制外部設備等。而GPU則需要接收來自CPU的數據,提供高性能的並行計算,將結果返回給CPU。這一來一回看似合理,但是實際上CPU和GPU分擔著整個計算任務中不同的部分,他們之間需要頻繁的通訊,而一旦通訊頻次過高,CPU和GPU就需要花費大量的時間進行相互通訊,嚴重影響整個計算架構的效率。
多樣化AI場景亟需彈性異構平臺:目前市面上成熟的AI框架有十多種,像標準的圖像、語音、語意理解等神經模型的數量則更為龐大。不同的AI框架包含了不同的模型和算法,比如SoftMax回歸、聚類、決策樹或梯度策略等,產生不同規模的訓練數據。如針對大規模被標記的圖片、語音信息,有文字信息的圖片等,訓練場景會變得十分多樣化。多樣化的AI訓練場景對異構計算的伺服器要求必然也各不相同,有的需要更多的GPU介入進行加速,有的則更依賴CPU和GPU進行相互迭代,有的需要大量的數據並行,有的需要進行模型並行,由此產生了對CPU和GPU計算架構的多樣化需求。
計算密度沒有最高只有更高:普通的AI圖片聚類訓練通常需要幾十萬個樣本進行十幾萬次訓練迭代,而面向自動駕駛或人員行為分析識別等應用時,訓練量會呈幾何數增加。為了保證模型能在有限的時間內做到足夠收斂,某些模型甚至需要超過200片GPU卡以AI伺服器集群的方式並行。為節省寶貴的數據中心空間,提高伺服器的密度成為不二手段,更高密度的AI伺服器不但節約了數據中心的基礎設施,更大規模的機內互連也對網絡等設備的依賴大大降低。
浪潮NF5288M5——AI計算加速器
為了提升計算效率、滿足多樣化AI場景需求,浪潮NF5288M5另闢蹊徑,變異構為同構,消除了異構通信帶來降低計算效率的煩惱。此外,為了更大幅度地提升伺服器計算效率,滿足AI應用對計算力的需求,NF5288M5在架構設計中將計算密度做到了極致。而為了滿足客戶對彈性架構平臺的需求,NF5288M5創新地採用PCIe連接資源,實現更加靈活的拓撲。
▲浪潮NF5288M5
極致效率、異構變同構:NF5288M5拋棄傳統異構計算架構模式,在2U空間內支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依賴CPU的前提下,實現機內點到點通訊,減少了異構通訊的次數;並在業界率先支持NVLink 2.0和最新發布的NVIDIA? Tesla?系列GPU,可以實現GPU間高達300GB/s的互連帶寬,並提供極低的延遲,讓多塊GPU並行的效率大幅提升超過60%。將GPU同構,把NF5288M5的並行計算效率儘可能推到極限。
▲NF5288M5性能對比
極緻密度、更高計算力:與浪潮支持2U4卡的NF5288M4對比測試,NF5288M5採用P100的Linpack浮點運算性能達29.33TFLOPS,是同樣採用P100 NF5288M4的2.47倍;在AI深度學習模型訓練上,當採用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度為每秒1165幅圖片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在實現了性能和效率雙提升的同時,機箱仍然保持了和上一代一樣的2U高度,實現了最高的GPU卡部署密度。在超大規模AI訓練集群或HPC集群引用時,可以幫助客戶節省數據中心的基礎設施資源,更有利於數據中心的空間分配。
極致靈活、彈性計算拓撲:NF5288M5採用PCIe線纜的方式連接CPU和GPU資源,可以靈活調整CPU的連接帶寬和連接數量,在應對不同的AI應用時,更好的做到PCIe資源按需分配。靈活的計算架構可以讓一顆或兩顆CPU管理8顆GPU,也可以通過GPU擴展box的方式,實現最大16GPU的縱向擴展。而伺服器提供的PCIe I/O,8個U.2插槽, 或多達4塊100Gbps InfiniBand網卡,都可以根據計算靈活調整拓撲。NF5288M5彈性的異構平臺,足以支撐多樣化的AI場景。
極致設計背後帶來的極限挑戰
NF5288M5通過優秀的設計,實現了性能、靈活性和密度的多維度增強,然而這背後帶來的卻是對互連、供電和散熱設計的三大極限挑戰。如何在一個系統中實現GPU卡的靈活配置,滿足高達3000W的供電需求,並在有限的空間內解決散熱,成為了開發這款產品的三大難題 。在此就給大家一一揭秘NF5288M5是如何做到的。
▲300GB/s聚合帶寬的Cube Mesh拓撲
互連挑戰:有別於業界異構伺服器CPU和GPU緊耦合的互連方式,NF5288M5採用解耦式設計,不但提供靈活性,同時還支持高達300GB/s的NVIDIA? NVLink?GPU互連帶寬。浪潮結合刀片伺服器的設計思路,把這些組件緊湊的布局到2U空間中,並基於8路伺服器的設計經驗,確保NVLink?的走線長度、信號都處在最佳狀態,以保證GPU的性能發揮。
供電挑戰:8塊功耗高達300W的GPU,以及伺服器內其他的計算、存儲和I/O資源,整機的功耗需求達到3000W,供電如何走線成為最大的挑戰。NF5288M5借鑑了浪潮在整機櫃伺服器的供電設計方式,對單伺服器內部採用無線纜供電設計,減少了供電線纜對空間的佔用以及對散熱氣流的影響。在保證供電能力的同時,對空間、散熱的影響降到最低。
▲NF5288M5散熱風道設計
散熱挑戰:3000W的供電,意味著3000W的峰值發熱量,6倍於傳統的2U伺服器,散熱成為一個繞不過的難題。NF5288M5在設計之初,從布局、風道和氣流多個方面統籌進行考慮。低發熱量組件前置,高發熱量組件後置,避免局部熱點,讓空氣在伺服器的內部均衡的升溫,再通過高速風扇將熱量快速帶出伺服器,最終NF5288M5可以和傳統伺服器一樣工作在35℃的環溫下。並且為了支持低PUE數據中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環溫運行。
100%的計算密度提升、960TFlops的計算力、200倍的單機AI訓練性能,NF5288M5無愧是一款最高密度、最高性能的AI伺服器,無論是在面向人工智慧訓練還是HPC應用時,都將為用戶提供極致性能體驗。和傳統概念的高性能集群相比,GPU同構、靈活拓撲和超高密度的整體架構,讓應用和硬體的結合,變得更為高效和緊密。