看浪潮AI伺服器NF5288M5如何做到全球密度最高

2020-12-15 IT168

  【IT168 評論】7月12日,浪潮發布了新一代M5伺服器家族,其中最引人矚目的莫過於號稱全球首款2U8 NVLink? GPU密度最高、性能最強的AI伺服器NF5288M5。這款產品是浪潮與NVDIA聯合研發的創新計算平臺,能滿足AI雲、深度學習模型訓練和線上推理等各類AI應用場景對計算架構性能、功耗的不同需求。

  每U搭載4顆GPU的密度、960TFlops的性能、ns級的延遲等性能參數都讓人眼前一亮。但是或許你還有些疑問,為什麼要設計如此強大的AI計算設備?會帶來怎樣的價值?如此大功率和高密度的設計還能保證穩定性嗎?本文將為大家解答這些疑惑。


▲AI超級計算機NF5288M5

  AI訓練的「三座大山」——效率、彈性和密度

  人工智慧發端於上世紀五十年代,經歷了幾次繁榮與低谷,直到AlphaGo贏得世界圍棋比賽,「人工智慧」寫進今年的政府工作報告中,人工智慧熱潮徹底爆發。就在昨天,國務院首次印發《新一代人工智慧發展規劃》,將人工智慧提到了國家戰略高度。AI訓練的快速發展對計算力的需求呈井噴式發展,然而當前市場上的AI計算平臺普遍面臨著通訊效率低下、平臺架構僵化、計算密度低等問題。

  異構通訊開銷嚴重影響計算效率:在AI訓練中,採用CPU+GPU異構計算架構,通常需要以CPU為訓練模型下發指令,給GPU「餵」數據,控制計算過程,提供邏輯判斷,控制外部設備等。而GPU則需要接收來自CPU的數據,提供高性能的並行計算,將結果返回給CPU。這一來一回看似合理,但是實際上CPU和GPU分擔著整個計算任務中不同的部分,他們之間需要頻繁的通訊,而一旦通訊頻次過高,CPU和GPU就需要花費大量的時間進行相互通訊,嚴重影響整個計算架構的效率。

  多樣化AI場景亟需彈性異構平臺:目前市面上成熟的AI框架有十多種,像標準的圖像、語音、語意理解等神經模型的數量則更為龐大。不同的AI框架包含了不同的模型和算法,比如SoftMax回歸、聚類、決策樹或梯度策略等,產生不同規模的訓練數據。如針對大規模被標記的圖片、語音信息,有文字信息的圖片等,訓練場景會變得十分多樣化。多樣化的AI訓練場景對異構計算的伺服器要求必然也各不相同,有的需要更多的GPU介入進行加速,有的則更依賴CPU和GPU進行相互迭代,有的需要大量的數據並行,有的需要進行模型並行,由此產生了對CPU和GPU計算架構的多樣化需求。

  計算密度沒有最高只有更高:普通的AI圖片聚類訓練通常需要幾十萬個樣本進行十幾萬次訓練迭代,而面向自動駕駛或人員行為分析識別等應用時,訓練量會呈幾何數增加。為了保證模型能在有限的時間內做到足夠收斂,某些模型甚至需要超過200片GPU卡以AI伺服器集群的方式並行。為節省寶貴的數據中心空間,提高伺服器的密度成為不二手段,更高密度的AI伺服器不但節約了數據中心的基礎設施,更大規模的機內互連也對網絡等設備的依賴大大降低。

  浪潮NF5288M5——AI計算加速器

  為了提升計算效率、滿足多樣化AI場景需求,浪潮NF5288M5另闢蹊徑,變異構為同構,消除了異構通信帶來降低計算效率的煩惱。此外,為了更大幅度地提升伺服器計算效率,滿足AI應用對計算力的需求,NF5288M5在架構設計中將計算密度做到了極致。而為了滿足客戶對彈性架構平臺的需求,NF5288M5創新地採用PCIe連接資源,實現更加靈活的拓撲。


▲浪潮NF5288M5

  極致效率、異構變同構:NF5288M5拋棄傳統異構計算架構模式,在2U空間內支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依賴CPU的前提下,實現機內點到點通訊,減少了異構通訊的次數;並在業界率先支持NVLink 2.0和最新發布的NVIDIA? Tesla?系列GPU,可以實現GPU間高達300GB/s的互連帶寬,並提供極低的延遲,讓多塊GPU並行的效率大幅提升超過60%。將GPU同構,把NF5288M5的並行計算效率儘可能推到極限。


▲NF5288M5性能對比

  極緻密度、更高計算力:與浪潮支持2U4卡的NF5288M4對比測試,NF5288M5採用P100的Linpack浮點運算性能達29.33TFLOPS,是同樣採用P100 NF5288M4的2.47倍;在AI深度學習模型訓練上,當採用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度為每秒1165幅圖片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在實現了性能和效率雙提升的同時,機箱仍然保持了和上一代一樣的2U高度,實現了最高的GPU卡部署密度。在超大規模AI訓練集群或HPC集群引用時,可以幫助客戶節省數據中心的基礎設施資源,更有利於數據中心的空間分配。

  極致靈活、彈性計算拓撲:NF5288M5採用PCIe線纜的方式連接CPU和GPU資源,可以靈活調整CPU的連接帶寬和連接數量,在應對不同的AI應用時,更好的做到PCIe資源按需分配。靈活的計算架構可以讓一顆或兩顆CPU管理8顆GPU,也可以通過GPU擴展box的方式,實現最大16GPU的縱向擴展。而伺服器提供的PCIe I/O,8個U.2插槽, 或多達4塊100Gbps InfiniBand網卡,都可以根據計算靈活調整拓撲。NF5288M5彈性的異構平臺,足以支撐多樣化的AI場景。

  極致設計背後帶來的極限挑戰

  NF5288M5通過優秀的設計,實現了性能、靈活性和密度的多維度增強,然而這背後帶來的卻是對互連、供電和散熱設計的三大極限挑戰。如何在一個系統中實現GPU卡的靈活配置,滿足高達3000W的供電需求,並在有限的空間內解決散熱,成為了開發這款產品的三大難題 。在此就給大家一一揭秘NF5288M5是如何做到的。


▲300GB/s聚合帶寬的Cube Mesh拓撲

  互連挑戰:有別於業界異構伺服器CPU和GPU緊耦合的互連方式,NF5288M5採用解耦式設計,不但提供靈活性,同時還支持高達300GB/s的NVIDIA? NVLink?GPU互連帶寬。浪潮結合刀片伺服器的設計思路,把這些組件緊湊的布局到2U空間中,並基於8路伺服器的設計經驗,確保NVLink?的走線長度、信號都處在最佳狀態,以保證GPU的性能發揮。

  供電挑戰:8塊功耗高達300W的GPU,以及伺服器內其他的計算、存儲和I/O資源,整機的功耗需求達到3000W,供電如何走線成為最大的挑戰。NF5288M5借鑑了浪潮在整機櫃伺服器的供電設計方式,對單伺服器內部採用無線纜供電設計,減少了供電線纜對空間的佔用以及對散熱氣流的影響。在保證供電能力的同時,對空間、散熱的影響降到最低。


▲NF5288M5散熱風道設計

  散熱挑戰:3000W的供電,意味著3000W的峰值發熱量,6倍於傳統的2U伺服器,散熱成為一個繞不過的難題。NF5288M5在設計之初,從布局、風道和氣流多個方面統籌進行考慮。低發熱量組件前置,高發熱量組件後置,避免局部熱點,讓空氣在伺服器的內部均衡的升溫,再通過高速風扇將熱量快速帶出伺服器,最終NF5288M5可以和傳統伺服器一樣工作在35℃的環溫下。並且為了支持低PUE數據中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環溫運行。

  100%的計算密度提升、960TFlops的計算力、200倍的單機AI訓練性能,NF5288M5無愧是一款最高密度、最高性能的AI伺服器,無論是在面向人工智慧訓練還是HPC應用時,都將為用戶提供極致性能體驗。和傳統概念的高性能集群相比,GPU同構、靈活拓撲和超高密度的整體架構,讓應用和硬體的結合,變得更為高效和緊密。

相關焦點

  • 全球最高計算密度AI伺服器誕生記|Geek浪漫
    在伺服器設計者手中,產品就像被技術打磨完成的藝術品,被傾注了細心、耐心和想像力。今天我們邀請到「絕不浪費一點空間」的浪潮Geek藝術家張海龍老師,來聊聊全球最高計算密度AI伺服器AGX-2如何挑戰空間極限。
  • 浪潮擁有全球領先的AI伺服器陣列
    浪潮擁有全球領先的AI伺服器陣列 2020年07月10日 14:10作者:黃頁編輯:黃頁 今日,由全球人工智慧頂級學術會議NeurIPS舉辦的自動深度學習AutoDL 2019-2020總決賽公布最終成績,浪潮賽隊以出色成績位列全球第三。
  • 「百變金剛」浪潮NF5280M5 重新定義通用伺服器
    【IT168 評論】近期,浪潮推出了新一代M5伺服器家族,其中NF5280M5被稱為「百變金剛」,憑藉極致、彈性的設計理念,在有限空間內完美展現了高效、可靠、智能、高擴展特性,適應智慧時代下各種應用場景需求,特別是對伺服器有苛刻要求的電信、金融、大型企業等用戶。
  • 智慧計算釐革生態質變 王恩東詳解浪潮五年伺服器全球第一目標如何...
    雷鋒網了解到,浪潮是去年全球銷量增長最快的伺服器供應商,提前三年實現了進入全球前三的目標。全球前十的CSP中有一半成為浪潮的客戶,浪潮雲伺服器的出貨量已經位居全球首位,海外業務也同比增長了3.5倍。2017年浪潮發明專利受理量排名位居國內第一,尤其在AI伺服器方面,浪潮保持了全面領先,其擁有最多種類的AI伺服器,支持多種算法框架的AIStation,全球計算最高密度的GPU伺服器、全球最大規模的GPU加速陣列都是由浪潮研製的,浪潮的AI伺服器發貨增長600%,5倍於全球平均增長。浪潮提出了下一個五年目標——聚力智慧計算,實現伺服器全球第一,做智慧計算領導者。
  • 浪潮AI伺服器NF5488A5的實測數據分享,單機最大推理路數提升88%
    近日,在GTC China元腦生態技術論壇上,中科極限元、趨動科技、睿沿科技等元腦生態夥伴分享了多個場景下浪潮AI伺服器NF5488A5的實測數據,結果表明浪潮NF5488A5大幅提升了智能語音、圖像識別等AI模型的訓練和推理性能,促進了產業AI解決方案的開發與應用。
  • 高效率浪潮 英信NF5280M5伺服器低價中
    浪潮英信NF5280M5(Xeon Silver 4210/16GB*2/2TB*3)伺服器    浪潮NF5280M5採用浪潮空間分層技術,打破傳統伺服器設計邊界,將系統分為基礎組件和可變組件兩部分:在存儲模塊部分,構建了1套標準,3種組合,在實現全快閃記憶體配置的基礎上,實現了31塊普通硬碟的擴展,最大支持20塊大盤擴展
  • 浪潮信息新品發布,5款AI伺服器支持全新NVIDIA® A
    浪潮信息新品發布,5款AI伺服器支持全新NVIDIA® A 作為全球領先的AI計算基礎架構廠商,浪潮一直都在不斷研發新的產品。
  • 十次方:浪潮、戴爾、惠普伺服器命名規則和型號分類
    為了搶佔伺服器市場,浪潮 、戴爾、惠普等大廠商都不斷的豐富自己的產品線和推出全新的伺服器來滿足市場的需求。對於很多不熟悉伺服器的用戶來說,各種型號看得人眼花繚亂不知道如何選擇。今天小編在這裡,就給大家分享「如何看懂浪潮 、戴爾、惠普伺服器命名規則和型號分類?」一、浪潮伺服器,以NF5280M5舉例說明。
  • 浪潮「全球第一」並不是目標,而是用鏡子看到五年後的自己
    以GPU為代表的AI計算成為了浪潮打造差異化競爭力的武器。在去年,浪潮推出全球首款在2U空間內高速互聯集成8顆最高性能GPU的AI伺服器AGX-2,還與百度首創了ABC一體機的AI計算系統的創新交付模式。浪潮這3年從國內市場的步步為營,到全球市場異軍突起,在過去的16個季度中,有10個季度浪潮增速全球第一。同時在美國和歐洲打開了市場,並獲得了非常快速的增長。
  • 【IDCC2020深圳站】浪潮信息殷飛平:新基建新技術打造超高密度數據...
    本次「IDCC2020"融合線下、線上會議優點,首次以現場會議+線上多平臺直播的方式,讓任意地點的觀眾隨時參與,實現了一場真正同時覆蓋全球的行業盛會。在下午的5G主題論壇上,浪潮信息數據中心事業部總經理殷飛平先生為與會嘉賓作出了精彩分享,分享主題為《新基建新技術打造超高密度數據中心》。
  • OCP 2019 浪潮發布Crane Mountain四路新品伺服器
    本次峰會,浪潮攜手英特爾發布了首款專為雲計算場景優化的高密度四路伺服器新品Crane Mountain(NF8260M5),同時可滿足HPC、負載加速、負載均衡等場景應用需求。相比傳統伺服器,NF8260M5的計算密度提升一倍,可提供穩定安全的算力保證。此外,NF8260M5在能耗、密度、運維管理、TCO等方面均進行了優化,可幫助企業減少7%-12%硬體成本,減少5-7%運營成本,並將運維管理效率提升一倍,更方便的管理網絡和數據網絡。
  • 燧原科技進軍AI邊緣領域,攜手浪潮推出邊緣AI推理伺服器
    2020年12月23日,中國上海——燧原科技繼前日發布首款人工智慧推理產品 「雲燧i10」,又宣布攜手浪潮,共同推出基於雲燧i10的浪潮邊緣計算伺服器「NE5260M5」。搭載雲燧i10的浪潮邊緣計算伺服器NE5260M5雲燧i10是一款面向雲端數據中心的高性能推理卡,單槽位標準卡,支持PCIe 4.0,FP32算力達到17.6TFLOPS,BF16/FP16算力70.4TFLOPS。
  • MWC2019上海:數據中心新選擇 浪潮1U雙路伺服器NF5180M5
    浪潮攜手合作夥伴發布首款VCO整體解決方案近年來,數據中心伺服器數量增多,規模日益變大,如何提高空間利用率成為無法繞過的難題。同時,為對密度及存儲有高要求的客戶提供了很好的解決方案,特別適合對伺服器有苛刻要求的雲計算、CDN緩存、SDS/HCI、HPC等應用場景,為商業智能、金融服務、公有雲及私有雲等提供強勁計算力。
  • ...HGX A100 8-GPU的最高密度4U伺服器及最新8U SuperBlade®
    (納斯達克代碼:SMCI) 是企業級計算、存儲、網絡解決方案和綠色計算技術等領域的全球領導者,今日宣布推出支持 8 張 NVIDIA® HGX A100™ GPU 且擁有雙倍 GPU 功能的全新 4U 伺服器。
  • 浪潮信息發布AI伺服器新品,支持最新NVIDIA A100 PCIe Gen4
    6月22日,浪潮在ISC20大會期間發布支持最新NVIDIA® Ampere架構A100 PCIe Gen4的AI伺服器NF5468M6和NF5468A5,為AI用戶提供兼具超強性能與靈活性的極致AI計算平臺。
  • 2019中國X86伺服器市場出貨量排名 浪潮遠超華為奪得第一
    近日,根據市場研究機構IDC發布的《2019年第四季度中國X86伺服器市場跟蹤報告》顯示:2019年第四季度,中國X86伺服器市場出貨量為939934臺,同比增長5.1%;市場規模52.79億美元(約合368.53億元人民幣),同比增長6.3%。
  • AI產業化浪潮站穩主航道 劉軍解析為何晶片不等於AI計算力
    在第三次人工智慧爆發的上升曲線中,浪潮是人工智慧的B面,處於A面的領先人工智慧公司大秀炫目的操作,背後的浪潮也獲得了長足的發展,2018年浪潮伺服器全球前三,中國第一,浪潮伺服器中國市場份額超過30%,浪潮AI伺服器市佔率超過50%,網際網路行業市佔率超過47%,浪潮海外業務同比增長3.5倍,為6家全球TOP10網際網路企業提供IT基礎設施。
  • 中國芯 浪潮發布飛騰CPU伺服器
    去年在造訪榮膺全球第一超級計算機的天河一號A的過程中,我們就看到了國防科技大學自主研發的「中國新」飛騰FT-1000的身影。而據新浪科技報導,浪潮今天發布了搭載飛騰FT-1000處理器的通用伺服器,實現了從整機架構、核心部件處理器到作業系統的全自主化研製。
  • 實戰寶典:浪潮K1 Power伺服器在企業ERP建設中的作用
    今天分享的議題是伺服器,尤其是浪潮K1 Power伺服器在企業ERP建設中的作用,圍繞企業信息化或者數位化轉型的需求,以ERP應用最廣泛的核心信息系統為例來看企業ERP建設的應用場景和優化部署,什麼樣的伺服器平臺能夠更好地支撐企業的實際應用需求,還會介紹有比較明顯優勢的浪潮K1 Power伺服器平臺的案例的相關部署經驗。
  • 淺談天梭TS860高可用設計_浪潮伺服器_伺服器評測與...
    高可用是伺服器設計研發工作者首先考慮的問題,伺服器是一個龐雜的系統,可靠性再強的系統都難免出錯,一個能夠容忍各類錯誤的伺服器才能稱得上是高可用系統。  從一個體驗來講,高可用技術都是研發難度最大、複雜度最高的技術類別之一。