CXL、CCIX 和 SmartNIC 下的 PCIe 5 將如何影響解決方案加速

2020-11-27 電子產品世界

與普通的 NIC 不同,SmartNIC 將會對 PCIe 總線提出更高的要求。CXL CCIX 等第五代 PCIe 和協議在此背景下應運而生。不久之後,我們將能共享一致性存儲器、高速緩存,並建立多主機點對點連接。

本文引用地址:http://www.eepw.com.cn/article/202011/420681.htm

 

正文:

過去三十年間,基於伺服器的計算曆經多次飛躍式發展。上世紀 90 年代,業界從單插槽獨立伺服器發展到伺服器集群。緊接著在千禧年,產業首次看到雙插槽伺服器,再後來,多核處理器也問世了。進入下一個十年,GPU 的用途遠遠超出了處理圖形的範疇,我們見證了基於FPGA的加速器卡的興起。

隨著邁入 2020 年,網絡接口卡( SmartNIC ),也即數據處理單元( DPU )開始風靡。它們大量採用 FPGA 或多核 Arm 集群或是兩者混搭,每種做法都能大幅提高求解性能。從股票交易到基因組測序,計算正在以更快的速度求解答案。在機箱內部,數據通道是 PCI Express PCIe )。雖然幾經變革,但它仍然是無可爭議的選擇。

 

PCIe 的演進發展

高速外圍組件互連 PCIe 2003 年首次亮相,恰逢網絡準備開始從以千兆位乙太網 GbE 為主要互聯的時代向更高網速的時代躍進。此時,Myrinet Infiniband 等高性能計算 HPC 網絡剛剛超越 GbE,數據速率分別達到 2Gb/s 8Gb/s。此後不久,10-GbE 網絡接口控制器 NIC 嶄露頭角,而且性能優異。它們在每個方向上的速率接近 1.25GB/s,這種 8 通道 x8 PCIe 總線的誕生恰逢其時。

第一代 PCIe x8 總線在每個方向上的速率為 2GB。當時 16 通道 x16 的插槽尚未問世,伺服器主板一般只提供一些 x8 插槽和幾個 x4 插槽。為了節省成本,部分伺服器廠商甚至使用了 x8 連接器,但卻僅將它們連接成 x4,這確實十分有趣。

大部分人(像我一樣的架構師)都知道,PCIe 每發展一代,速度就會提高一倍。今天的第四代 PCIe x8 插槽的速率大約為 16GB/s,因此,下一代速率將在 32GB/s 左右。如果第五代 PCIe 皆能達到這一水平,那確實也不錯。不過它還像阿拉丁神燈那樣神奇,能以 CXL CCIX 兩種新協議的形式允諾在 CPU SmartNIC 或協處理器等加速器之間實現高效的通信。

 

CXL

我們先談 CXL。它提供了定義清晰的主從模式。在這種模式下,CPU 的根聯合體能通過與加速器卡的高帶寬連結來共享高速緩存和主系統存儲器(圖 1

 


1.       通過 CXL 與處理器相連的加速器的概念圖。(來源:Compute Express Link Specification July 20200.9 版第 2 次修訂,第 31 頁)

 

這有助於主機 CPU 高效地向加速器分派工作並接收處理結果。部分此類加速器使用 DRAM 或高帶寬存儲器 HBM )來配備大容量高性能本地存儲器。藉助 CXL,現在可將這些高性能存儲器與主機 CPU 共享,從而更便捷地在共享存儲器中處理數據集。

此外,對於原子事務,CXL 能在主機 CPU 和加速器卡之間共享高速緩存存儲器。CXL 在改善主機與加速器間的通信方面有了長足的發展,但未能解決 PCIe 總線上的加速器之間的通信問題。

2018 年,Linux 內核最終加入了可支持 PCIe 點對點 P2P )模式的代碼。從而更方便在 PCIe 總線上的不同設備之間共享數據。雖然 P2P 早在本次內核更新前就已經存在,但它需要精心調試才能運行,往往要求用戶能夠通過編程就對等設備進行控制。更新內核後,加速器與 PCIe 總線上的 PCIe/NVMe 存儲器或另一個加速器間的通信方式相對簡化。

隨著解決方案變得日益複雜,簡單的 P2P 已不敷使用,而且會成為解決方案性能的制約因素。今天我們使用 DIMM 插槽中的永久存儲器、NVMe 存儲和直接插在 PCIe 總線上的智能存儲( SmartSSD ),配以各種加速器卡和 SmartNIC DPU(其中一些本身就具有很大的存儲容量)。由於在這些設備之間必須實現通信,因此我們昂貴的伺服器處理器將化身為成本高昂的流量燈,並且成為海量數據流的瓶頸。CCIX 在此情形下就能大顯身手了,其環境適合在 PCIe 總線上的設備之間建立對等關係。

 

加速器緩存一致性互聯

有人認為 CCIX 標準與 CXL 大同小異,但事實並非如此。在實現總線上點對點連接方面,CCIX 的方法與 CXL 截然不同(圖 2。此外,它還能利用不同設備上的存儲器,每個設備具有不同的性能特徵,對這些存儲器進行池化,並映射到單一的非統一存儲器訪問 (NUMA) 架構。隨後它建立 Virtual Address 空間,使池中的所有設備都能訪問 NUMA 存儲器的完整範圍。這已經遠遠超出簡單的 PCIe P2P 存儲器間複製或是由 CXL 實現的主從模式。

 


2.       三種樣本 CCIX 配置包括直接附加、交換拓撲和混合菊花鏈。(來源:An Introduction to CCIX White Paper,第 5 頁)

 

作為一種概念,NUMA 自上世紀 90 年代以來一直存在,所以業界對它的理解也十分深入。以此為基礎,當今的大多數伺服器都能輕鬆地擴展到太字節( TB )或更大容量的 DRAM 存儲器。不僅如此,能映射名為永久存儲器(PMEM)或存儲級存儲器( SCM )的新型存儲器的驅動程序業已存在,它能與真實存儲器搭配,創建「海量存儲器」。綜合運用 PCIe 5 CCIX,將會進一步幫助系統架構師利用 SmartSSD 擴展這一概念。

 

計算存儲

SmartSSD 也叫計算存儲,它將計算器件(通常為 FPGA 加速器)與固態驅動器中的存儲控制器緊密布局,或在控制器中嵌入計算功能。從而使 SmartSSD 中的計算器件能夠在數據出入驅動器的過程中處理數據,進而重新定義數據的訪問和存儲方式。

雖然 SmartSSD 最初被視為塊設備,但在 FPGA 中安裝適當的未來驅動程序後,可以當作可按字節尋址的存儲使用。現今生產的 SmartSSD 有數太字節的容量,而且容量還會暴增。因此,只有通過 NUMASmartSSD 才能用於擴展大容量存儲器概念,這樣一來主機 CPU 和加速器應用就能跨大量設備訪問數太字節容量的存儲器,且無需使用該存儲器重新寫入應用。此外,通過實現內聯壓縮與加密,SmartSSD 還能提供更佳的 TCO 解決方案。

 

引入 SmartNIC

具體該如何使 SmartNIC 與該架構匹配呢?SmartNIC 是一種特殊類型的加速器,位於 PCIe 總線和外部網絡之間的連接處。SmartSSD 將計算放在緊挨數據的位置上,而 SmartNIC 則讓計算緊臨網絡。為什麼這一點如此重要?簡單地說,我們很少關注伺服器應用自身的網絡時延、擁塞、丟包、協議、加密、疊加網絡或安全政策等問題。

為了解決這些問題,創建了 QUIC 等低時延協議,用於改善時延問題、緩解擁塞,以及實現丟包恢復。我們已經開發出了 TLS 並採用內核 TLSkTLS)加以擴展,以加密運行中的數據,保障數據安全。我們現在看到正在將 kTLS 當作 SmartNIC 的一項卸載功能添加進來。

為了支持虛擬機(VM)和容器的編排,我們創建了疊加網絡。隨後又開發出 Open vSwitch OvS )等技術,用於對疊加網絡進行定義和管理。SmartNIC 正在開始卸載 OvS

最終,我們按照政策進行管理以確保安全。這些政策有望反映在 Calico Tigera 等形式的編排框架中。這些政策很快也將通過使用 P4 等編程匹配動作框架被卸載到 SmartNIC。所有這些任務都應該卸載到名為 SmartNIC 的這類專用加速器上。

藉助 CCIX,架構師可以構建出一個解決方案,作為有單一虛擬地址空間的單個超量存儲器空間,使多個加速器直接訪問真實存儲器和 SmartSSD 中的存儲。例如,可使用四個不同的加速器來構建解決方案(圖 3


3.       圖中所示的是樣本 CCIX 應用,它使用了修改的 CCIX 4c-混合菊花鏈模型。

 

SmartNIC 能加載視頻解碼器,視頻從攝像頭導入後,就能轉換回未經壓縮的幀,存儲在 NUMA 虛擬地址空間的共享幀緩存中。在這些幀可用後,運行在人工智慧( AI )圖像識別應用上的第二個加速器能掃描這些幀,識別人臉或車牌。與此同時,第三個加速器可以對這些幀進行轉碼,用於顯示和長期存儲。最後,運行在 SmartSSD 上的第四個應用負責在 AI 和轉碼任務成功完成後從幀緩存中刪除這些幀。這裡我們用四個高度專業的加速器協作運行,形成所謂的「Smartworld」應用。

行業開始添加了更多內核,以解決與摩爾定律相關的問題。如今,雖然內核的數量相當充裕,但 CPU NIC、存儲和加速器等外部器件間的帶寬不足。PCIe Gen5 是我們的下一個關鍵發展點。它能大幅提高帶寬,開啟在 CPU 上進行高性能計算的時代。

例如,典型的 CPU 核心能處理 1Gb/s+,如果你採用雙 128 CPU,那麼 PCIe Gen4x16 是不夠用的。對於需要在 CPU 核心和加速器之間進行密切交互的應用來說,CXL CCIX 協議提供的高速緩存一致性具有諸多優勢。資料庫、安全性和多媒體等主要應用工作負載現在正開始利用這些優勢。

 

編排

這個問題的最後一個環節是編排。這項功能指 Kubernetes 等框架能自動發現並管理加速硬體,並在編排資料庫中將其標記為在線可用。它隨後還需要知道該硬體是否支持上述一個或多個協議。隨後,隨著新求解實例請求的進入以及動態啟動,能夠由這些高級協議感知並加速的容器實例就可以使用該硬體。

賽靈思已開發出賽靈思資源管理器(XRM),能夠與 Kubernetes 協同工作,管理池中的多個 FPGA 資源,從而提升加速器的整體利用率。這樣一來,就能自動分派新發布的應用實例,使其在基礎設施中最適當的高性能資源上執行,同時遵守既定的安全政策。

SmartNIC DPU 使用了 PCIe 5 CXL CCIX,將為我們提供高度互聯的加速器,有助於開發複雜、高性能的解決方案。這類 SmartNIC 將在我們的數據中心內乃至整個世界範圍內,向其他系統提供計算密集型連接。甚至可以構想這樣一個未來:命令一旦進入 Kubernetes 控制器,就在 SmartNIC 資源上以原生運行的方式啟動容器或 POD。這個新工作負載的大量計算隨後可能會在伺服器中某處的加速器器件上進行,甚至完全不需要伺服器主機 CPU 的直接參與。

要正確發揮這樣的功能,我們就需要進一步強化安全,使安全水平遠遠高於 Calico Tigera。此外,我們也需要新的加速器感知安全框架來將安全環境(通常稱為安全飛地)擴展到多個計算平臺上。這樣就使得 Confidential Computing 有了用武之地。它應該同時提供所需架構和 API,從而為單個安全飛地內多個計算平臺上的在用數據提供保護。

所有敏感信息隔離設施(SCIF)都是如此。計算機中的安全飛地應能覆蓋多個計算平臺,而激動人心的時刻就在眼前。


相關焦點

  • 無息配資配資開戶嘉匯優配:cci買入信號是什麼 CCI參數設置方法如何
    不同指標的應用是值得了解的,因為炒股的人增多,大家都會應用一些指標來分析股市的,cci指標就是其中之一,順勢指標又叫CCI指標,專門測量股價、外匯或者貴金屬交易是否已超出常態分布範圍。
  • 華為雲攜手峰科發布FPGA基因加速雲解決方案,基因測序性能提升5倍
    近期,華為雲攜手峰科計算(以下簡稱「峰科」)發布基於FPGA的基因加速雲解決方案,該方案採用GATK(The Genome Analysis Toolkit)標準分析流程,將全基因組測序(WGS)性能提升5倍,比傳統模式提升3~5倍,同時測序精度可達99.95%以上,在大幅縮短測序時間的同時實現TCO大幅降低。
  • LG能源解決方案成立 將加速全固態電池和鋰硫電池等技術開發
    【TechWeb】12月1日消息,LG化學電池事業分拆完成,LG Energy Solution(LG能源解決方案)正式成立。LG能源解決方案今日召開公司成立大會和董事會,原LG化學電池事業本部總裁金鐘現出任公司CEO。
  • 國內首個X射線高壓衍射實驗室解決方案驗證實驗成功完成
    日前國內首個x射線高壓衍射實驗室解決方案驗證實驗取得進展。在中國科學院物理研究所、同步輻射光源高壓科學線站及x射線光學領域的多位專家指導下,北京眾星聯恆科技有限公司通過多方交流合作,逐步解決了高壓衍射實驗中的技術難點,取得了很好的初步實驗數據。項目專家和用戶對實驗結果表示高度認可,接下來即將全面實施基於金剛石對頂砧(dac)的x射線高壓衍射實驗室驗證實驗。
  • Supermicro(R)展出伺服器和存儲解決方案
    (美超微電腦股份有限公司)(納斯達克交易代碼:SMCI)將在本周於華盛頓特區舉行的微軟全球合作夥伴大會 (WPC) 上重點展出通過 Windows Server 2012 R2 認證的 MicroBlade、SuperBlade® SuperServer® 和 SuperStorage 系列解決方案。
  • Dialog和TDK聯合打造全球尺寸最小的負載點DC-DC轉換器解決方案
    領先的電源管理、充電、AC/DC電源轉換、Wi-Fi、低功耗藍牙(BLE)技術供應商 Dialog半導體公司 今日宣布,與全球領先智慧社會電子解決方案廠商TDK開展合作,將在TDK最新的µPOL™電源解決方案系列中結合Dialog的GreenPAK技術,共同打造全球首款單片集成系統電源時序解決方案
  • 如何將Numpy加速700倍?用 CuPy 呀
    藉助於 Numpy,數據科學家、機器學習實踐者和統計學家能夠以一種簡單高效的方式處理大量的矩陣數據。那麼 Numpy 速度還能提升嗎?本文介紹了如何利用 CuPy 庫來加速 Numpy 運算速度。就其自身來說,Numpy 的速度已經較 Python 有了很大的提升。
  • ​研華攜手偉薩科技,發布一體化DNA基因排序加速解決方案
    該解決方案解決了大中華區和北美地區對非侵入性產前檢查(NIPT)和癌症和疾病診斷市場日益增長的需求。下一代測序(NGS)是近年來備受關注的基因技術。通過比較和分析DNA序列,NGS根據人類基因組資料庫精確定製治療方案。NGS通過定位存儲與潛在原因相關的信息來幫助醫療人員防止傳播和感染,對抗癌症和罕見疾病。
  • 小滿科技全新推出智能CRM解決方案,品牌更名OKKI加速國際化步伐
    7月18日,小滿科技在北京舉辦了以「智連全球,慧聚無限」 為主題的新品牌和新產品發布會,小滿科技創始人兼執行長文博亮宣布旗下品牌小滿正式更名為OKKI,小滿科技聯合創始人兼營運長周滔則發布了五大AI新產品及三大智能CRM解決方案。
  • 用於精密測試和測量系統的雙極性電源解決方案
    為了確保高精度,精密測試和測量系統需要具有低紋波和輻射噪聲的電源解決方案,從而不會降低高解析度轉換器信號鏈的性能。在這些測試和測量應用中,生成雙極和/或隔離系統電源給系統設計人員帶來了電路板面積、開關紋波、EMI和效率方面的挑戰。數據採集系統和數字萬用表需要低噪聲電源,以便提供高解析度ADC信號鏈的性能,而不被開關電源產生的紋波噪聲所影響。
  • 歐盟創新型自然解決方案加速海水油漬汙染清除
    世界海岸廣泛分布的渡假聖地進入旅遊旺季,沿岸海水的汙染物清除,除利用傳統的物理化學隔絕方法外,特別是浮在海水表面的洩漏油漬薄層的清除,因為需要花費太多時間,必須找到行之有效的快速解決方案。歐盟第七研發框架計劃(FP7)提供900萬歐元資助,總研發投入1250萬歐元,由歐盟11個成員國及聯繫國希臘(總協調)、英國、德國、義大利、西班牙、丹麥、比利時、捷克、挪威、瑞士和冰島,以及美國科技人員組成的國際KILL?SPILL研發團隊。從2013年1月開始,致力於加速沿岸海水洩漏油漬汙染自清潔過程的研發創新活動,項目截止日期2016年12月。
  • 應用於大功率雷射器單管和Bar條晶片封裝的貼片解決方案
    在這裡,MRSI-H-LD 1.5μm全自動貼片機提供了很好的解決方案。   1.5 μm High-speed Die Bonder 1.5μm高速貼片機   MRSI設計的針對HPLD貼片工藝應用的MRSI-H-LD 1.5μm全自動貼片機, 機器精度在3Sigma下為±1.5μm。
  • 解決當前醫學成像解決方案中攝像頭尺寸和解析度之間的矛盾
    聯合解決方案將豪威科技的晶圓級 CameraCubeChip 技術與 Almalence 獨特的超解析度算法相結合,可提供最小解剖部位的最高質量圖像。展上宣布了一項聯合解決方案,該解決方案能夠解決當前醫學成像解決方案中攝像頭尺寸和解析度之間的矛盾。
  • 疫情加速險企線上化 因數雲發布「因數方舟」系列解決方案
    來源:經濟日報-中國經濟網經濟日報-中國經濟網北京7月2日訊 隨著新冠肺炎疫情防控進入常態化,越多越多的保險業務從線下轉移到線上。2020年6月30日,因數雲發布因數方舟系列解決方案,打造五大系列產品,助力保險公司實現健康險全流程線上化運營。
  • 數據存儲洪流下 PCIe快閃記憶體緣何脫穎而出?
    【IT168 評論】當今形勢下,企業要保持競爭力,其應用的性能變得至關重要。數據需要能夠被即時訪問,以便其能夠被實時的處理、分析和解析。為滿足這樣的需要,企業客戶正主動將快閃記憶體加入到其存儲基礎設施中。
  • 矽晶片解決方案將可以實現高解析度和高精度
    矽晶片解決方案將可以實現高解析度和高精度 亞德諾半導體 發表於 2021-01-07 15:56:41 電子行業對精度的要求越來越高,溫度檢測也不例外。目前市面上有許多溫度檢測解決方案,每一種都有其優缺點。
  • 手機瀏覽器下載完美解決方案 迅雷雲加速UC應用端
    手機瀏覽器下載完美解決方案 迅雷雲加速UC應用端  隨著移動網際網路時代的到來,手機下載已經成為人們在線生活中的重度需求。近日,繼與91手機助手達成深度合作後,迅雷再次與國內手機瀏覽器領軍廠商UC達成合作,對UC手機瀏覽器開放其雲加速技術。
  • 古今數學思想:大數學家費馬是如何解決曲線X^n下的面積的?
    如下是X^2,X^3,X^4的函數圖形,現在要求這些曲線下的面積,這是早期數學家要面對的問題,都知道冪函數等於我們需要計算冪函數圖形下的面積。用現代數學符號表示在牛頓和萊布尼茲發明微積分之前,即數學家理解積分與導數之間的關係之前,就已經解決了這個問題。在發現微積分之後,即現在所說的微積分基本定理,答案很簡單在阿基米德(死於公元前212年)之後,卡瓦列裡(Cavalieri)(約1630年)是第一個成功解決類似問題的人。
  • 經濟恢復期,如何按下中小企業復產復工「加速鍵」
    國家發改委近期對此表示,這次疫情對經濟社會的影響是短期的、可控的,有信心也有能力將疫情對經濟社會的影響降到最低。國家發改委將陸續出臺有針對性的減稅降費措施,同時發揮大企業的帶動作用,進一步推動大中小企業的融通發展,通過大型企業和中小企業共享創新的資源、共建產業鏈、供應鏈,促進企業儘快恢復正常經營。
  • 線性匹配獨立電流源與傳統白光LED 驅動器解決方案之間的對比
    對於大多數應用而言,TPS7510x 是一款上述解決方案的高效替代解決方案。由於減少或省去了許多外部部件,與其它任何替代解決方案相比,TPS7510x 實現了更多的成本節約。這不但減少了材料清單成本,而且還降低了放置更多組件所需的額外生產成本。