最強AI加速CPU來了!英特爾推第三代至強,阿里雲騰訊雲同臺首發

2020-11-25 智東西

芯東西(ID:aichip001)
文 | 心緣

芯東西6月19日報導,剛剛,英特爾推出一系列面向AI和分析的戰略及最新產品組合。

第三代至強可擴展處理器Cooper Lake、首款針對AI進行優化的FPGA英特爾Stratix 10 NX、新一代英特爾傲騰持久內存200系列、全新英特爾3D NAND固態盤D7-P5500和P5600紛紛首秀。

阿里巴巴、騰訊、百度、Facebook等大型雲服務提供商及浪潮等IT基礎架構產品及方案提供商均已宣布採用英特爾新一代處理器。

除了雲端新品頻發,邊緣AI產品也有新動向。第三代英特爾Movidius VPU(Keem Bay)正處於搶先體驗階段。

在去年年底收購Habana後,今天,英特爾已整合和強化AI產品路線圖,調整了軟體資源,並向大型CSP採樣了Habana的第一個深度學習訓練處理器。

而在對用戶體驗至為重要的軟體上,英特爾oneAPI跨架構工具生態系統已取得重大進展。

英特爾還推出了其OpenVINO發行版工具包的新的長期支持(LTS)版本,提供了一致、穩定的版本,針對關鍵錯誤修復(為期一年)和安全補丁(為期兩年)進行了更新。

此外,英特爾與13個合作夥伴宣布了針對AI和分析的3個新精選解決方案以及4個經過修訂的精選解決方案。

為支持對遠程工作和學習的需求,英特爾與VMware擴大合作夥伴關係,並在vSAN上提供適用於VMware Horizo​​n VDI的新的精選解決方案,該解決方案可以以更低的單臺成本支持多達87%的遠程桌面。

一、英特爾AI和分析最新戰略:圍繞三大核心

人工智慧(AI)和分析將是未來十年起決定性作用的工作負載,推動以數據為中心的領域從雲到邊緣的顛覆性創新。

IDC預測,2023年AI系統的支出將達到979億美元,是2019年375億美元支出的2.5倍多。

英特爾的目標是通過其產品組合為每個以數據為中心的工作負載提供支持,其中包括塑造技術的未來的幾類轉折性技術:

1)雲架構:帶給數據中心的效率和和擴展性現已擴展至網絡和邊緣;

25G從根本上改變對計算的看法,並要求所有網絡轉型,帶來豐富的新體驗和服務;

3AI能在所有應用中普及的基礎,將數據從負擔變為機遇,賦能千行百業;

4)邊緣:要求更多計算能靠近創建和使用數據的地方,推動多功能的計算設備發展。

英特爾的AI和分析產品組合主要圍繞3大核心來構建:硬體、軟體、生態系統。

1、硬體

(1)持續將AI訓練和推理加速功能引入至強,確保至強是運行AI的最佳CPU;

(2)提供CPU、GPU、FPGA和專用加速器插槽中部署的標量、矢量、空間和矩陣架構的各種組合,使客戶能在需要的時間和地點使用最合適的計算類型;

(3)通過處理、內存、I/O、封裝、內部和外部IP、互連、安全性等前沿技術,將上述產品集成到一個通用平臺中。

2、軟體

(1)持續優化常用軟體,包括流行的開源框架、定製拓撲結構等;

(2)通過應用程式工程和支持開源社區,使AI開發人員能在英特爾平臺上進行編程;

(3)通過開源oneAPI建立一個統一的編程模型,為開發人員提供統一的體驗,同時使英特爾所有AI產品的性能得以最大化。

3、生態系統

(1)從公有雲提供商到OEM平臺以及英特爾AI Builders社區(SI、ISV等),已用英特爾AI技術建立了蓬勃發展的合作夥伴生態系統;

(2)通過生態系統驅動的解決方案、客戶用例POC和精選解決方案產品,使AI易採用部署。

以此為基礎,今天,英特爾推出一系列面向AI和分析晶片&軟體基礎的新品。

二、第三代至強可擴展處理器支持bfloat16,秀三年路線圖

英特爾至強可擴展處理器是業界唯一具有集成深度學習加速功能的主流數據中心CPU,隨著近3500萬顆晶片得到部署已成為全球以數據為中心基礎設施的基石。

今日推出的第三代至強可擴展處理器Cooper Lake,專為深度學習、虛擬機(VM)密度、內存資料庫、任務關鍵型應用及分析密集型工作負載而設計。

Cooper Lake支持4和8插槽設計,是當前唯一最多可提供8插槽可擴展性的x86平臺。每個處理器最多28核,在8插槽配置中每個平臺最多224核,英特爾在該平臺上提供四路、八路的伺服器。

相比擁有5年壽命的標準基礎安裝平臺相比,企業、雲服務提供商、通訊服務提供商平均可獲得1.9倍的性能提升和1.98倍的資料庫性能提升。

第三代至強可擴展處理器內置AI加速功能,並引入了最新傲騰持久內存200系列,可在四路系統中提供多達18TB的內存數據,非常適合應對最大的數據分析挑戰。

此前在第一代和第二代至強可擴展處理器,英特爾持續優化AI訓練及AI推理功能:第一代至強加入AVX-512,並優化了FP32;第二代至強引入英特爾深度學習加速技術,顯著提高基於INT8推理的性能,並將至強拓撲優化的數量從24個增加到44個。

如今第三代至強可擴展處理器是首款具有內置bfloat16(BF16)支持的主流伺服器處理器,進一步增強其深度學習優化能力。

bfloat16是一個精簡的數據格式,與32位浮點數(FP32)相比,bfloat16只通過一半的比特數且僅需對軟體做出很小程度的修改,就可達到與FP32同等水平的模型精度。

英特爾工程師已使用支持bfloat16的AI框架和工具為AI生態系統做好了準備。英特爾針對TensorFlowPyTorch等領先的深度學習框架優化過的版本將支持bfloat16,同時為OpenVINO工具包和ONNX Runtime環境提供bfloat16優化,以簡化推理的部署工作。

在英特爾深度學習加速DL Boost技術支持下,相較上一代FP32,第三代至強可擴展處理器通過支持bfloat16將訓練性能提升1.93倍,推理性能提升1.9倍。

例如基於該平臺,阿里雲NLP模型BERT推理性能提升1.83倍,螞蟻金服視頻分析訓練性能提升1.72倍,海鑫科金生物識別吞吐量提升1.97倍,東軟醫學影像分析吞吐量提升1.91倍,騰訊雲TTS模型Parallel WaveNet的推理性能提升1.89倍。

阿里雲率先發布第七代高主頻實例,搭載第三代英特爾至強可擴展處理器及阿里雲自研的第三代神龍計算平臺,可提供3.8Ghz的全核睿頻和4.2GHz的單核最高睿頻。新一代實例最大支持192個vCPU,整機算力是第六代高主頻實例的2.5倍以上,AI訓練和推理性能提升1.5-1.8倍。

騰訊雲聯手英特爾打造了星星海首款四路自研伺服器,高密度提升116%,散熱能力提升22%,風扇節能30%,容機率下降50%。

浪潮也宣布推出兩款支持最新英特爾第三代至強可擴展處理器的M6系列四路伺服器,其中面向雲場景優化的2U4路伺服器NF8260M6相比2U2路產品,可節省50%機房空間、降低40%運維成本、降低7%功耗,從而降低整體TCO。

該通用平臺支持跨處理器、內存、存儲和I/O的更高資源利用率,可幫助企業提高配置的靈活性,優化空間、電源、冷卻和維護成本,進而提高TCO。

與上一代相比,第三代至強可擴展處理器最多6個英特爾UPI通道增加了平臺可伸縮性,並提高了I/O密集型工作負載的CPU間帶寬,在提高吞吐量和能源效率之間提供了很好的平衡。

其DDR4內存速度及容量亦增強,包括最多支持6通道的DDR4-3200 MT/s和16Gb DIMM,每個插槽最多支持256GB DDR4 DIMM。

在安全方面,英特爾硬體增強的安全技術能阻止惡意利用,提供具有高度可用性和加密效果的可信服務交付,保持工作負載的完整性並降低性能開銷。

英特爾至強可擴展路線圖也於現場公布,支持1-2路的第三代可擴展處理器Ice Lake將在今年晚些時候發布。

2021年代號為Sapphire rapids的至強可擴展處理器也已啟動,將包含一項名為Advanced Matrix Extensions(AME)的全新AI功能,進一步進化深度學習加速指令集。

此外,第三代英特爾Movidius(Keem Bay)正處於搶先體驗階段,它將計算機視覺、相機圖像處理和深度學習推理結合到一個獨立SoC中。

三、存儲更多:新傲騰持久內存較主流NAND SSD讀取數據快225倍以上

在存儲產品線,英特爾推出下一代持久內存模塊英特爾傲騰持久內存200系列和全新英特爾3D NAND固態盤D7-P5500和P5600。

英特爾傲騰技術是建立在獨特架構上的全新技術,實現了在密集、無電晶體、可堆棧式設計中對每個內存單元進行獨立編址。這一創新在內存與存儲金字塔中建立了新的層級,可提供多種外形規格的持久內存、非易失性內存以及持久存儲。

傲騰持久內存200系列已搭載於英特爾第三代至強可擴展處理器Cooper Lake中,帶寬較上一代提升25%,Cooper Lake搭配的內存容量可達到4.5TB

在意外斷電的情況下,傲騰持久內存200系列提供的CPU對持久性數據的訪問速度比主流NAND SSD讀取數據快225倍以上。

與DRAM不同,英特爾傲騰持久內存技術可提供高性能智能,以更低的成本提供比DRAM高的容量,並且即使斷電也可以保留其數據,重啟後數據不必重新加載到內存中。

傲騰持久內存自去年交付以來,《財富》 500強公司中有200多個進行了傲騰持久內存的POC或部署,POC到銷售的轉化率超85%,有超過270項生產交易達成。

英特爾傲騰SSD通過快速緩存和存儲加速應用程式,提升了每個伺服器的規模,並減少延遲敏感工作負載的交易成本。

今日新推出的英特爾3D NAND固態盤D7-P5500和P5600是英特爾3D PCIe系列的擴展,已被所有主流OEM所採用,基於英特爾最新三層單元(TLC)3D NAND技術而打造。

英特爾3D NAND技術在浮柵結構上進行設計,通過採用更小的單元尺寸和高效的存儲陣列,實現了業內領先的96TLC面密度,在該面密度下具有領先的寫入性能以及領先的數據保留能力,具有跟高容量、高可靠性、對於電荷損失有高保護性的特點。

與上一代NVMe NAND相比,這些驅動器具有全新的PCIe控制器、固件,可部署第3代和第4PCIe,可將延遲降低40%,並將性能提高33%。

四、首款針對AI進行優化的FPGAAI推理性能提升15

AI模型的大小和複雜性在不斷增加,其複雜度每3.5個月翻倍或呈現一年10次翻倍的趨勢。

為應對這一新興趨勢,英特爾在其FPGA架構上進行創新,以實現性能的指數級提升。

英特爾首款針對AI優化的FPGA英特爾Stratix 10 NX嵌入了一種新型的AI優化塊(AI Tensor Block),包含AI模型算法常用的低精度乘法器密集陣列,可為自然語言處理和欺詐檢測等應用提供高帶寬、低延遲的AI加速。

AI Tensor Block針對AI中常見的矩陣-矩陣或矩陣-矢量乘法進行了調整,旨在有效地處理小的和大的矩陣面積。

與當前用於AI推理工作負載的Stratix 10 MX FPGA DSP塊相比,AI Tensor Block提供的INT8計算性能高出多達15

Stratix 10 NX還有其他一些封裝內功能支持高性能AI推理,包括高帶寬存儲(HBM)和57.8G的PAM4高速收發器,另外基於英特爾小晶片的架構策略,該設備得以快速開發。

相較NVIDIA V100,使用Stratix 10 NX進行加速,自然語言處理任務中BERT性能快2.3倍,欺詐檢測任務中LSTM性能快9.5倍,計算機視覺任務中ResNet50性能快3.8倍。

除了AI之外,英特爾FPGA的應用範圍還有一個重點是提高FPGA設計流程的整體生產力。

英特爾開發了一種方法,使開發人員能在包括FPGA在內的各種英特爾產品組合中快速部署AI解決方案。

例如,數據科學家可藉助OpenVINO,在不了解FPGA的情況下用英特爾FPGA做推理,可在TensorFlow、Caffe或MXNet等標準AI框架中進行訓練,並通過OpenVINO進行一些函數調用,從而在幾秒鐘內部署該解決方案。

英特爾也不斷通過oneAPI跨架構工具組合,幫助開發者簡化異構編程的流程、加速性能、提升生產力。

藉助這些工具,開發者可在英特爾CPUGPUFPGA上實現AI工作負載的加速,並使代碼可在現有及未來的英特爾處理器及加速器上得以兼容。

結語

第三代英特爾至強可擴展處理器及英特爾傲騰持久內存200系列目前已開始陸續交付,其通用OEM系統配置以及英特爾Stratix 10 NX FPGA都將在今年下半年交付。

從近三年的英特爾至強可擴展處理器路線圖可以看到,英特爾計劃今年推出的產品功能更為聚焦,拆分成了專注於4/8路伺服器市場的Cooper Lake和專注於1/2路的Ice Lake。

另外無論是第三代至強還是新一代Stratix 10 NX FPGA,英特爾都特意針對AI性能做了相當程度的優化。

隨著單一晶片越來越難以滿足日趨豐富的算力需求,異構計算已成為業界公認的計算發展方向,而英特爾的遠見體現於早早洞察到這一技術趨勢,並通過一系列收購和技術研發形成了完整覆蓋CPU、GPU、FPGA及專用處理器的組合陣容,並持續地降低一系列軟硬體及前沿算法的應用門檻。

今天發布的重點是AI和數據中心,但英特爾的硬體、軟體、生態布局已經延伸於遠遠超出AI的整個數據處理與計算範疇。

相關焦點

  • 英特爾發布地表最強AI加速的CPU——第三代至強可擴展處理器
    2020年6月19日,英特爾發布多款數據中心級產品和方案,包括第三代至強可擴展處理器,第二代傲騰和PCIe 4.0 SSD,以及一款為AI設計的FPGA新品。第三代可擴展處理器:最懂AI的CPU今年2月,英特爾發布了幾款二代至強可擴展處理器的升級版,當時提到,這次發布在性價比上有較大提升。
  • 英特爾發布最懂AI的CPU——第三代至強可擴展處理器
    第三代可擴展處理器:最懂AI的CPU今年2月,英特爾發布了幾款二代至強可擴展處理器的升級版,當時提到,這次發布在性價比上有較大提升。四個月之後,北京時間6月19日,英特爾全球同步發布第三代至強可擴展處理器,發布節奏明顯比前幾年要快了許多,要知道第一代至強可擴展處理器是2017年發布的。
  • CPU也支持AI加速,英特爾發布第3代至強處理器,推理速度提升80%,阿里騰訊雲都在用
    現在英特爾的新一代CPU也帶來了全新的AI加速能力。今天,英特爾發布了三款硬體產品,都是為了AI而準備:第三代至強(Xeon)可擴展處理器、新一代的傲騰(Optane)存儲器以及Stratix AI FPGA。
  • 英特爾發布第三代至強擴展處理器 首款針對AI進行優化
    來源:鳳凰網科技鳳凰網科技訊 2020年6月19日, 英特爾公司在北京正式發布了第三代英特爾至強擴展處理器及全新的AI軟硬體產品組合,旨在進一步助力客戶在數據中心、網絡及智能邊緣環境中加速開發和部署AI及數據分析工作負載。
  • 英特爾與騰訊發布星星海四路伺服器:搭載第三代至強可擴展處理器
    IT之家 9 月 11 日消息 根據英特爾官方的消息,在今日舉行的 2020 騰訊全球數字生態大會上,英特爾與騰訊共同宣布了一系列創新合作:雙方聯合開發並推出騰訊雲首款星星海四路伺服器,搭載第三代至強可擴展處理器。
  • 強化AI加速技術 英特爾發布第三代至強可擴展處理器等眾多新品
    【天極網筆記本頻道】6月19日英特爾召開數據創新峰會暨新品發布,推出最新的數據平臺產品組合,包括集成AI加速的英特爾第三代至強可擴展處理器、英特爾首個人工智慧優化FPGA Stratix 10 NX、第二代英特爾傲騰持久內存、最新英特爾 3D NAND SSD及相關軟體解決方案。
  • 英特爾攜手阿里雲創新容器、AI 共推智能化變革
    阿里雲資深技術專家劉獎表示,阿里雲沙箱容器是基於沙箱技術運行的容器服務,沙箱技術要求在保證資源供給的前提下,保障安全、穩定、效率以及彈性。為此,阿里雲基於硬體虛擬化自研了輕量級虛擬化技術,以此來提供沙箱隔離能力,並把沙箱隔離技術應用到容器服務,滿足容器服務的快速彈性、高效運行以及能快速拉起業務的需求。
  • 傲騰持久內存,第二代;至強可擴展處理器,第三代
    2020年6月19日,英特爾發布多款數據中心級產品和方案,包括第三代至強可擴展處理器,第二代傲騰和PCIe 4.0 SSD,以及一款為AI設計的FPGA新品。第三代可擴展處理器:最懂AI的CPU今年2月,英特爾發布了幾款二代至強可擴展處理器的升級版,當時提到,這次發布在性價比上有較大提升。
  • 英特爾發布第三代至強可擴展處理器/傲騰持久內存等新品,全面強化...
    【51CTO.com原創稿件】6月19日,英特爾數據創新峰會暨新品發布會如期舉行。受新冠病毒疫情影響,本次發布會採用了線上直播的形式進行。會上,英特爾全球同步發布第三代至強可擴展處理器。通過前兩代產品的發布周期不難發現,第三代至強可擴展處理器的發布節奏比前幾代要快了許多,這不僅能夠讓用戶受益,也有助於推動行業的快速迭代。
  • 第三代英特爾至強可擴展處理器來了!傲騰200系列也來了!
    2020年6月19日,北京 —— 英特爾公司今日正式發布第三代英特爾至強可擴展處理器及全新的AI軟硬體產品組合,旨在進一步助力客戶在數據中心、網絡及智能邊緣環境中加速開發和部署AI及數據分析工作負載。
  • 英特爾下一代10nm至強處理器點亮騰訊雲星星海,強強聯手助力騰訊雲...
    英特爾下一代10nm至強處理器點亮騰訊雲星星海,強強聯手助力騰訊雲拓展伺服器市場 2020年12月22日來源:南方企業新聞網
  • AI性能Up Up!第三代英特爾至強可擴展處理器年中見分曉
    2020年1月6日,在CES 2020英特爾的「智能驅動創新」(Innovation through intelligence)為主題的新聞發布會上, 英特爾公司執行副總裁、數據平臺事業部總經理孫納頤(Navin Shenoy)宣布,2020年上半年推出的第三代英特爾至強可擴展處理器
  • 英特爾第三代至強可擴展CPU提供16位FPU處理
    英特爾第三代至強可擴展CPU提供16位FPU處理 歡迎收看風火輪技術團隊第一前沿資訊,我是本文報導員小風風。 英特爾今天宣布了其第三代至強可擴展處理器(分別是金牌和白金牌)處理器以及新一代的Optane持久存儲器(極低延遲,高耐久性SSD)和Stratix AI FPGA產品。 除了硬體加速的AI 之外,AMD目前幾乎在所有可能的性能指標上都擊敗了英特爾 ,這並不是新聞。
  • 揭秘英特爾第三代至強處理器中的「黑科技」
    6月中旬,英特爾推出一系列面向AI和分析的戰略及最新產品組合。其中,第三代至強處理器和傲騰200系列產品是英特爾面向數據中心業務推出的新品。一、第三代至強處理器:最多支持8插槽,集成多種「黑科技」第三代至強可擴展處理器專為植入AI的數據密集型服務而設計,有Cooper Lake和Ice Lake兩個系列產品。
  • 共建智慧雲基石,阿里雲攜手英特爾走向數智未來
    此外,今年6月阿里雲伺服器ECS發布的第七代高主頻實例,更是集成了第三代英特爾至強處理器,具備DL boost的深度學習加速指令,可支持INT8以及BF16在AI場景中的實現,其中BF16加速指令可有效增加AI訓練以及推理的能力。
  • 英特爾聯合騰訊發布基於至強IceLake-SP的星星海自研雙路伺服器
    2020年12月21日,於近日舉行的2020騰訊雲Techo Park開發者大會期間,英特爾聯合騰訊正式發布搭載下一代英特爾至強可擴展處理器(代號「Ice Lake」)的騰訊雲星星海新一代自研雙路伺服器。該伺服器作為雲服務的硬體基礎,採用英特爾10nm工藝處理器,在核心數、單核性能上較上一代基於英特爾至強可擴展處理器的伺服器有大幅提升。
  • 騰訊雲首發Intel Skylake版至強!性能大爆發
    騰訊雲昨天下午宣布,在國內率先使用英特爾下一代至強處理器(代號Skylake),推出國內最新一代雲伺服器。新一代雲伺服器在計算性能、內存帶寬、網絡時延等方面擁有顯著優勢,最高可提供96 vCPU,可滿足企業對雲伺服器高規格高配置的廣泛需求,尤其在人工智慧等高性能計算領域將發揮更大價值。
  • Intel發布第三代可擴展至強:八路224核心、唯一數據中心AI CPU
    今天,Intel正式發布了第三代至強可擴展處理器,代號「Cooper Lake」,頻率、核心數、內存等提升的同時,重點強化了DLBoost深度學習能力,是當今全球唯一內置AI的主流數據中心處理器。Cooper Lake主要面向四路、八路市場,今年晚些時候還將有基於10nm Ice Lake的至強,針對單路、雙路市場,二者互補構成完整的第三代家族。
  • 英特爾第三代至強可擴展CPU提供16位FPU處理
    英特爾今天宣布了其第三代至強可擴展處理器(分別是金牌和白金牌)處理器以及新一代的Optane持久存儲器(極低延遲,高耐久性SSD)和Stratix AI FPGA產品。除了硬體加速的AI 之外,AMD目前幾乎在所有可能的性能指標上都擊敗了英特爾 ,這並不是新聞。
  • 英特爾:從 "芯" 加速AI世界
    AI正在如"金手指"一樣點亮人類生產生活的方方面面,為了讓世界能更好地沉浸於"AI",處理器巨頭英特爾在2020年已經為產業帶來了新的數據平臺產品組合,包括集成AI加速的英特爾第三代至強可擴展處理器、英特爾首個人工智慧優化FPGA Stratix 10 NX、第二代英特爾傲騰持久內存、最新英特爾3D NAND SSD及相關軟體解決方案,以在數據中心、雲和智能邊緣領域支持用戶進一步加快人工智慧和數據分析等工作負載的開發和部署