芯東西(ID:aichip001)
文 | 心緣
芯東西6月19日報導,剛剛,英特爾推出一系列面向AI和分析的戰略及最新產品組合。
第三代至強可擴展處理器Cooper Lake、首款針對AI進行優化的FPGA英特爾Stratix 10 NX、新一代英特爾傲騰持久內存200系列、全新英特爾3D NAND固態盤D7-P5500和P5600紛紛首秀。
阿里巴巴、騰訊、百度、Facebook等大型雲服務提供商及浪潮等IT基礎架構產品及方案提供商均已宣布採用英特爾新一代處理器。
除了雲端新品頻發,邊緣AI產品也有新動向。第三代英特爾Movidius VPU(Keem Bay)正處於搶先體驗階段。
在去年年底收購Habana後,今天,英特爾已整合和強化AI產品路線圖,調整了軟體資源,並向大型CSP採樣了Habana的第一個深度學習訓練處理器。
而在對用戶體驗至為重要的軟體上,英特爾oneAPI跨架構工具生態系統已取得重大進展。
英特爾還推出了其OpenVINO發行版工具包的新的長期支持(LTS)版本,提供了一致、穩定的版本,針對關鍵錯誤修復(為期一年)和安全補丁(為期兩年)進行了更新。
此外,英特爾與13個合作夥伴宣布了針對AI和分析的3個新精選解決方案以及4個經過修訂的精選解決方案。
為支持對遠程工作和學習的需求,英特爾與VMware擴大合作夥伴關係,並在vSAN上提供適用於VMware Horizon VDI的新的精選解決方案,該解決方案可以以更低的單臺成本支持多達87%的遠程桌面。
人工智慧(AI)和分析將是未來十年起決定性作用的工作負載,推動以數據為中心的領域從雲到邊緣的顛覆性創新。
IDC預測,2023年AI系統的支出將達到979億美元,是2019年375億美元支出的2.5倍多。
英特爾的目標是通過其產品組合為每個以數據為中心的工作負載提供支持,其中包括塑造技術的未來的幾類轉折性技術:
(1)雲架構:帶給數據中心的效率和和擴展性現已擴展至網絡和邊緣;
(2)5G:從根本上改變對計算的看法,並要求所有網絡轉型,帶來豐富的新體驗和服務;
(3)AI:能在所有應用中普及的基礎,將數據從負擔變為機遇,賦能千行百業;
(4)邊緣:要求更多計算能靠近創建和使用數據的地方,推動多功能的計算設備發展。
英特爾的AI和分析產品組合主要圍繞3大核心來構建:硬體、軟體、生態系統。
1、硬體
(1)持續將AI訓練和推理加速功能引入至強,確保至強是運行AI的最佳CPU;
(2)提供CPU、GPU、FPGA和專用加速器插槽中部署的標量、矢量、空間和矩陣架構的各種組合,使客戶能在需要的時間和地點使用最合適的計算類型;
(3)通過處理、內存、I/O、封裝、內部和外部IP、互連、安全性等前沿技術,將上述產品集成到一個通用平臺中。
2、軟體
(1)持續優化常用軟體,包括流行的開源框架、定製拓撲結構等;
(2)通過應用程式工程和支持開源社區,使AI開發人員能在英特爾平臺上進行編程;
(3)通過開源oneAPI建立一個統一的編程模型,為開發人員提供統一的體驗,同時使英特爾所有AI產品的性能得以最大化。
3、生態系統
(1)從公有雲提供商到OEM平臺以及英特爾AI Builders社區(SI、ISV等),已用英特爾AI技術建立了蓬勃發展的合作夥伴生態系統;
(2)通過生態系統驅動的解決方案、客戶用例POC和精選解決方案產品,使AI易採用部署。
以此為基礎,今天,英特爾推出一系列面向AI和分析晶片&軟體基礎的新品。
英特爾至強可擴展處理器是業界唯一具有集成深度學習加速功能的主流數據中心CPU,隨著近3500萬顆晶片得到部署已成為全球以數據為中心基礎設施的基石。
今日推出的第三代至強可擴展處理器Cooper Lake,專為深度學習、虛擬機(VM)密度、內存資料庫、任務關鍵型應用及分析密集型工作負載而設計。
Cooper Lake支持4和8插槽設計,是當前唯一最多可提供8插槽可擴展性的x86平臺。每個處理器最多28核,在8插槽配置中每個平臺最多224核,英特爾在該平臺上提供四路、八路的伺服器。
相比擁有5年壽命的標準基礎安裝平臺相比,企業、雲服務提供商、通訊服務提供商平均可獲得1.9倍的性能提升和1.98倍的資料庫性能提升。
第三代至強可擴展處理器內置AI加速功能,並引入了最新傲騰持久內存200系列,可在四路系統中提供多達18TB的內存數據,非常適合應對最大的數據分析挑戰。
此前在第一代和第二代至強可擴展處理器,英特爾持續優化AI訓練及AI推理功能:第一代至強加入AVX-512,並優化了FP32;第二代至強引入英特爾深度學習加速技術,顯著提高基於INT8推理的性能,並將至強拓撲優化的數量從24個增加到44個。
如今第三代至強可擴展處理器是首款具有內置bfloat16(BF16)支持的主流伺服器處理器,進一步增強其深度學習優化能力。
bfloat16是一個精簡的數據格式,與32位浮點數(FP32)相比,bfloat16只通過一半的比特數且僅需對軟體做出很小程度的修改,就可達到與FP32同等水平的模型精度。
英特爾工程師已使用支持bfloat16的AI框架和工具為AI生態系統做好了準備。英特爾針對TensorFlow和PyTorch等領先的深度學習框架優化過的版本將支持bfloat16,同時為OpenVINO工具包和ONNX Runtime環境提供bfloat16優化,以簡化推理的部署工作。
在英特爾深度學習加速DL Boost技術支持下,相較上一代FP32,第三代至強可擴展處理器通過支持bfloat16將訓練性能提升1.93倍,推理性能提升1.9倍。
例如基於該平臺,阿里雲NLP模型BERT推理性能提升1.83倍,螞蟻金服視頻分析訓練性能提升1.72倍,海鑫科金生物識別吞吐量提升1.97倍,東軟醫學影像分析吞吐量提升1.91倍,騰訊雲TTS模型Parallel WaveNet的推理性能提升1.89倍。
阿里雲率先發布第七代高主頻實例,搭載第三代英特爾至強可擴展處理器及阿里雲自研的第三代神龍計算平臺,可提供3.8Ghz的全核睿頻和4.2GHz的單核最高睿頻。新一代實例最大支持192個vCPU,整機算力是第六代高主頻實例的2.5倍以上,AI訓練和推理性能提升1.5-1.8倍。
騰訊雲聯手英特爾打造了星星海首款四路自研伺服器,高密度提升116%,散熱能力提升22%,風扇節能30%,容機率下降50%。
浪潮也宣布推出兩款支持最新英特爾第三代至強可擴展處理器的M6系列四路伺服器,其中面向雲場景優化的2U4路伺服器NF8260M6相比2U2路產品,可節省50%機房空間、降低40%運維成本、降低7%功耗,從而降低整體TCO。
該通用平臺支持跨處理器、內存、存儲和I/O的更高資源利用率,可幫助企業提高配置的靈活性,優化空間、電源、冷卻和維護成本,進而提高TCO。
與上一代相比,第三代至強可擴展處理器最多6個英特爾UPI通道增加了平臺可伸縮性,並提高了I/O密集型工作負載的CPU間帶寬,在提高吞吐量和能源效率之間提供了很好的平衡。
其DDR4內存速度及容量亦增強,包括最多支持6通道的DDR4-3200 MT/s和16Gb DIMM,每個插槽最多支持256GB DDR4 DIMM。
在安全方面,英特爾硬體增強的安全技術能阻止惡意利用,提供具有高度可用性和加密效果的可信服務交付,保持工作負載的完整性並降低性能開銷。
英特爾至強可擴展路線圖也於現場公布,支持1-2路的第三代可擴展處理器Ice Lake將在今年晚些時候發布。
2021年代號為Sapphire rapids的至強可擴展處理器也已啟動,將包含一項名為Advanced Matrix Extensions(AME)的全新AI功能,進一步進化深度學習加速指令集。
此外,第三代英特爾Movidius(Keem Bay)正處於搶先體驗階段,它將計算機視覺、相機圖像處理和深度學習推理結合到一個獨立SoC中。
在存儲產品線,英特爾推出下一代持久內存模塊英特爾傲騰持久內存200系列和全新英特爾3D NAND固態盤D7-P5500和P5600。
英特爾傲騰技術是建立在獨特架構上的全新技術,實現了在密集、無電晶體、可堆棧式設計中對每個內存單元進行獨立編址。這一創新在內存與存儲金字塔中建立了新的層級,可提供多種外形規格的持久內存、非易失性內存以及持久存儲。
傲騰持久內存200系列已搭載於英特爾第三代至強可擴展處理器Cooper Lake中,帶寬較上一代提升25%,Cooper Lake搭配的內存容量可達到4.5TB。
在意外斷電的情況下,傲騰持久內存200系列提供的CPU對持久性數據的訪問速度比主流NAND SSD讀取數據快225倍以上。
與DRAM不同,英特爾傲騰持久內存技術可提供高性能智能,以更低的成本提供比DRAM高的容量,並且即使斷電也可以保留其數據,重啟後數據不必重新加載到內存中。
傲騰持久內存自去年交付以來,《財富》 500強公司中有200多個進行了傲騰持久內存的POC或部署,POC到銷售的轉化率超85%,有超過270項生產交易達成。
英特爾傲騰SSD通過快速緩存和存儲加速應用程式,提升了每個伺服器的規模,並減少延遲敏感工作負載的交易成本。
今日新推出的英特爾3D NAND固態盤D7-P5500和P5600是英特爾3D PCIe系列的擴展,已被所有主流OEM所採用,基於英特爾最新三層單元(TLC)3D NAND技術而打造。
英特爾3D NAND技術在浮柵結構上進行設計,通過採用更小的單元尺寸和高效的存儲陣列,實現了業內領先的96層TLC面密度,在該面密度下具有領先的寫入性能以及領先的數據保留能力,具有跟高容量、高可靠性、對於電荷損失有高保護性的特點。
與上一代NVMe NAND相比,這些驅動器具有全新的PCIe控制器、固件,可部署第3代和第4代PCIe,可將延遲降低40%,並將性能提高33%。
AI模型的大小和複雜性在不斷增加,其複雜度每3.5個月翻倍或呈現一年10次翻倍的趨勢。
為應對這一新興趨勢,英特爾在其FPGA架構上進行創新,以實現性能的指數級提升。
英特爾首款針對AI優化的FPGA英特爾Stratix 10 NX嵌入了一種新型的AI優化塊(AI Tensor Block),包含AI模型算法常用的低精度乘法器密集陣列,可為自然語言處理和欺詐檢測等應用提供高帶寬、低延遲的AI加速。
AI Tensor Block針對AI中常見的矩陣-矩陣或矩陣-矢量乘法進行了調整,旨在有效地處理小的和大的矩陣面積。
與當前用於AI推理工作負載的Stratix 10 MX FPGA DSP塊相比,AI Tensor Block提供的INT8計算性能高出多達15倍。
Stratix 10 NX還有其他一些封裝內功能支持高性能AI推理,包括高帶寬存儲(HBM)和57.8G的PAM4高速收發器,另外基於英特爾小晶片的架構策略,該設備得以快速開發。
相較NVIDIA V100,使用Stratix 10 NX進行加速,自然語言處理任務中BERT性能快2.3倍,欺詐檢測任務中LSTM性能快9.5倍,計算機視覺任務中ResNet50性能快3.8倍。
除了AI之外,英特爾FPGA的應用範圍還有一個重點是提高FPGA設計流程的整體生產力。
英特爾開發了一種方法,使開發人員能在包括FPGA在內的各種英特爾產品組合中快速部署AI解決方案。
例如,數據科學家可藉助OpenVINO,在不了解FPGA的情況下用英特爾FPGA做推理,可在TensorFlow、Caffe或MXNet等標準AI框架中進行訓練,並通過OpenVINO進行一些函數調用,從而在幾秒鐘內部署該解決方案。
英特爾也不斷通過oneAPI跨架構工具組合,幫助開發者簡化異構編程的流程、加速性能、提升生產力。
藉助這些工具,開發者可在英特爾CPU、GPU、FPGA上實現AI工作負載的加速,並使代碼可在現有及未來的英特爾處理器及加速器上得以兼容。
第三代英特爾至強可擴展處理器及英特爾傲騰持久內存200系列目前已開始陸續交付,其通用OEM系統配置以及英特爾Stratix 10 NX FPGA都將在今年下半年交付。
從近三年的英特爾至強可擴展處理器路線圖可以看到,英特爾計劃今年推出的產品功能更為聚焦,拆分成了專注於4/8路伺服器市場的Cooper Lake和專注於1/2路的Ice Lake。
另外無論是第三代至強還是新一代Stratix 10 NX FPGA,英特爾都特意針對AI性能做了相當程度的優化。
隨著單一晶片越來越難以滿足日趨豐富的算力需求,異構計算已成為業界公認的計算發展方向,而英特爾的遠見體現於早早洞察到這一技術趨勢,並通過一系列收購和技術研發形成了完整覆蓋CPU、GPU、FPGA及專用處理器的組合陣容,並持續地降低一系列軟硬體及前沿算法的應用門檻。
今天發布的重點是AI和數據中心,但英特爾的硬體、軟體、生態布局已經延伸於遠遠超出AI的整個數據處理與計算範疇。