【51CTO.com原創稿件】6月19日,英特爾數據創新峰會暨新品發布會如期舉行。受新冠病毒疫情影響,本次發布會採用了線上直播的形式進行。會上,英特爾全球同步發布第三代至強可擴展處理器。通過前兩代產品的發布周期不難發現,第三代至強可擴展處理器的發布節奏比前幾代要快了許多,這不僅能夠讓用戶受益,也有助於推動行業的快速迭代。
加入Bfloat16數據格式,AI能力全面強化
從第一代至強可擴展處理器開始,英特爾就開始重視CPU的AI能力。在第一代至強可擴展處理器上,英特爾加入了AVX-512指令,優化了FP32計算能力。在2019年發布的第二代可擴展處理器中,引入了深度學習加速技術(Intel Deep Learning Boost),提升了Int8推理能力。這次,英特爾在第三代至強可擴展處理器在深度學習加速技術中加入了Bfloat16數據格式,進一步增強了AI能力。
據介紹,BFloat最早出現在谷歌的TPU中,是一種越來越流行的加速機器學習的浮點格式,英特爾和ARM以及許多新的AI晶片公司也都將其視為AI加速架構的核心功能之一,可見其重要性。對比BFloat16與FP32,BFloat16大多數情況下有FP32的準確性,而效率要高於FP32,可以看做是FP32的改良版。
上圖,是英特爾公布的第三代至強可擴展處理器在AI性能方面的成績。可以看到,BFloat16的加入,讓第三代可擴展處理器提升了訓練和推理方面的能力, CPU在推理方面的提升更多一些。與第二代可擴展處理器上使用的FP32格式相比,訓練性能最高能提升1.96倍,推理性能最高能提升1.9倍。另外,與上代相比,在圖像分類的訓練性能提升了1.93倍,推理性能提升了1.7倍。
此次發布的第三代至強可擴展處理器包括白金8300系列,黃金6300和5300系列,其中8300系列有四路和八路兩種配置,最高28核心,6內存通道,最大支持單路4.5TB內存,標稱TDP最高達250瓦。黃金6300和5300系列只有四路配置。
第三代至強可擴展處理器主要強化了安全性和多核計算性能,適用於業務關鍵性負載,實時分析,機器學習以及混合雲等工作負載。與五年前的平臺相比,平均性能提升1.9倍,跑資料庫的性能最高提升1.98倍,運行的虛擬機的數量達到前者的2.2倍,作為市場上唯一可提供八路x86伺服器處理器的平臺,至強同時還集成了深度學習加速的功能。
對開發者來說,需要極少的代碼改動就能用上新平臺,所以,目前包括阿里雲,螞蟻金服,騰訊雲,東軟等國內廠商都已經用上了帶有Bfloat16的處理器,在推理和訓練性能方面有近兩倍的提升。
第二代傲騰持久內存亮相:性能更強,容量更高
在發布會上,英特爾還終於公布了新一代的傲騰產品——Optane Persistent Memory 200系列,以更好的提供對第三代至強可擴展處理器的支持。顯然,與第三代至強可擴展處理器相比,傲騰產品的發布節奏明顯要變得慢了很多。
據英特爾介紹,Optane Persistent Memory 200系列不但讓容量變得更大,而且性能也更高。與上一代傲騰持久內存配合第二代至強可擴展處理器相比,性能方面帶寬平均比上代提升了25%,與主流的NAND SSD相比,可以把數據傳輸訪問效率提升225倍。
另外,在容量方面,單路最高能放6條512GB持久內存,最大3TB持久內存。200系列能在單路第三代至強可擴展處理器上提供最高4.5TB內存,包括3TB的傲騰持久內存和普通的DRAM內存,單條可用容量沒變,有128GB,256GB和512GB三個型號,支持與普通DRAM公用內存插槽,支持兩種內存的混插。
值得一提的是,傲騰持久內存掉電不丟數據,能加速系統故障之後重新啟動的時間,未來可能會有越來越多的利用這一特性的應用出現。大容量內存的好處毋庸置疑,能更好地支持內存資料庫,能減少伺服器數量,進而還能減少License授權費用,對TCO的好處是許多用戶選傲騰的重要原因。
當然,發布會上英特爾還發布了D7-P5500和P5600兩個系列的NAND SSD,它採用了96層的TLC而不是QLC,接口協議方面,支持PCIe 4.0和NVMe 1.3c,4K隨機讀最高一百萬IOPS,4K隨機寫IOPS最高能達到26萬,延遲也有大幅降低,作為一款強調性能的產品,該系列SSD主要用在全快閃記憶體陣列當中,支持人工智慧和大數據分析等IO密集型場景。2019年下半年以來,市場上開始出現PCIe 4.0 SSD,有消費級的,也有企業級的SSD,這次應該是英特爾首款PCIe 4.0 SSD,CPU平臺也會有一些支持,英特爾平臺對於PCIe 4.0的支持,標誌著市場真正開始轉向4.0了。
面向AI優化,新品FPGA-Stratix 10 NX大幅提升
除了第三代至強可擴展處理器和第二代傲騰持久內存這些英特爾的核心產品之外,會上還最新發布的FPGA-Stratix 10 NX FPGA新產品。由於英特爾在其中嵌入了AI優化模塊AI Tensor,數據顯示,與現有的Stratix 10 MX相比,前者的Int8計算性能要高出十五倍。
Stratix 10 NX在定位上是作為至強處理器的補充,專門針對特定應用提供定製,為了進一步優化性能,英特爾重新設計了計算模塊(DSP模塊)。在自然語言處理,在欺詐檢測,在智慧城市等場景中,Stratix 10 NX的表現都幾倍於英偉達顯卡V100的表現。
儘管GPU是AI計算領域應用的最為廣泛,但許多新的面向AI場景設計的晶片,包括Stratix 10 NX這類FPGA還有一些IPU之類的,在一些場景下的表現都優於GPU,AI晶片會隨著AI計算負載的變化還繼續演進。
【51CTO原創稿件,合作站點轉載請註明原文作者和出處為51CTO.com】
【責任編輯:
張誠TEL:(010)68476606】