GPU over Fabrics和U.2轉接PCIe,哪個快?

2021-01-12 騰訊網

PowerEdge MX7000 + Liqid PCIe擴展機箱

我在國外網站看到一條新聞消息《Liqiddiet boosts Dell MX7000 composable system》https://blocksandfiles.com/2020/08/14/dell-liqid-mx7000-composable-upgrade,討論的就是下面這個參考架構。

關於Dell PowerEdgeMX7000模塊化伺服器機箱,如果看過下面3篇我寫的東西應該不陌生了。如上方圖例,在「刀箱」中的一個伺服器Sled節點使用PCIe連接到Liqid PCIe擴展機箱——最多可以容納20個全高全長GPU卡。

有點意思的是MX伺服器節點引出PCIe的方式,通過一個U.2 PCIe Adapter,插在前端的NVMe SSD驅動器位上,也就是起到一個PCIe 3.0 x4 Retimer的作用。

眾所周知,傳統刀片伺服器屬於相對昂貴一些的Cluster-in-Box方案,裡面通常集成網絡交換模塊、FC光纖通道交換模塊,乃至SAS交換機,為其中的伺服器節點連接標準PCIe插卡的情況不太多。也有些針對HPC高性能計算的高密度「變種」刀片伺服器,把InfiniBand網卡接口設計在了機箱前端。參考下面的主板圖:

上圖是當初在2U機箱中的8節點雙路伺服器方案,Dell PowerEdge FC430的主板。可以看到用於連接x16 IB Mezz夾層卡的連接器特別設計在機箱前端,而傳統上為了把PCIe擴展引到機箱後端設計的PCIe Switch還是在後側。

相比之下,在U.2 SSD槽位把PCIe信號引出,應該算是更討巧的一種設計,甚至不用涉及到協議信號的轉換。這樣擴展連接GPU應該說是更加高效的。

PowerEdge MX + Liqid PCIe擴展機箱的方案,在7U伺服器裡最多安裝8個計算節點(MX740c)。與GPU直連的PCIe Gen3 x4通道也可以有多條鏈路,因為在MX機箱中的伺服器節點可以支持6個NVMe SSD盤位。

Liqid PCIe機箱恰好也是7U高度,其中20個全尺寸GPU,已經可以支持最新的NVIDIA安培A100等,同時也能兼容FPGA和NVMe存儲(AIC標準插卡)等。

圖片點開後雙擊可放大,以下同

不難看出Liqid機箱的核心硬體應該是PCIeSwitch。上圖列出了GPU之間的2種通信方式——在沒有點對點的情況下需要經過伺服器端的CPU;而點對點的I/O則在PCIe擴展機箱內部的PCIeSwitch之間完成,效率對比如下:

儘管有多鏈路PCIe3.0 x4,但沒有Peer-To-Peer時數據還需要經過伺服器CPU的PCIe控制器,多少會有一些影響。我們看到測得的帶寬為8.59GB/s,延時33.65微秒。

Peer-To-Peer啟用之後,GPU之間帶寬提高到25.01 GB/s,延時降低到3.1微秒。按道理這個應該是PCIe 3.0 x16雙向(全雙工)測得的,不過看數字怎麼有點像NVLINK呢?

Liqid LQD300x20X擴展機箱的管理處理器使用了一個ARM晶片

如上表,我找Liqid的資料印證了一下,應該就是純PCIe交換結構。除了我們在前面參考架構中提到的PCIe主機連接之外,這款擴展機箱還有一種100GbE乙太網接口的配置,而後者沒有看到用在Dell合作方案中(原因我在下文中會講)。

PCIe vs. 100GbE連接GPU性能對比

我們來看看PowerEdgeMX + Liqid PCIe擴展機箱的性能。AI機器學習/深度學習方面不是我的特長,從圖表中看到Inception V3、ResNet152、VGG16和ResNet50這幾項測試,從1-8塊Quadro RTX 8000基本都達到了線性提升。

下面對比一下乙太網連接GPU擴展的方案。

也就是說,當「計算刀片」+GPU伺服器之間換成乙太網連接之後,有少數測試項目變化不大,但整體上性能還是比PCIe連接有小幅降低。

GPU-oF參考架構:MX7000+ DSS 8440

這就是本文介紹的第二種參考架構——GPU-oF(GPU over Fabrics,不是NVMe-oF哈)仍然是使用Liqid Command Center軟體來管理,但硬體上從GPU擴展機箱換成了Dell EMC自己的DSS8440伺服器,中間的連接是100GbE。

GPU Expansion OverEthernet方案裡的計算節點OS支持,當前限制在Linux估計是Liqid軟體的原因。GPUover Fabrics我理解也要跑在RDMA(RoCE)網絡上的。

為了給PowerEdgeMX7000機箱提供100GbE乙太網口,這裡配置了Fabric MX9116n交換模塊。DSS 8440伺服器可以支持10塊全尺寸雙寬GPU,或者16個像Tesla T4那樣的半高半長卡。2個機箱的整體高度為11U(7U+4U)。

以我的理解,由於DSS8440是通用伺服器並使用乙太網連接,把LiqidCommand Center軟體換成本文開頭提到的VMwareBitfusion是不是也可以?這種修改後的方案DSS 8440上要運行VMware ESXi,對前端支持CUDA應用,可以實現細粒度的池化。

理論上來講,乙太網連接的方案,通過交換機的擴展規模可以大很多,所以這裡寫每個MX7000計算刀箱可以連接多節點16x GPU(DSS 8440)。在DSS 8440伺服器內部也有GPU Peer-2-Peer能力。

PowerEdge MX7000內部GPU支持方案

最後再帶大家回顧下MX7000自身內部對GPU的支持,算是一個參考吧。

如上圖,2塊NVIDIA T4 GPU先組成一個CoreCartrideg,然後4個CoreCartrideg再組成一個CoreModule。8個GPU的模塊加起來不到600W TDP。

在MX7000機箱背部偏下的第2對網絡交換模塊槽位,就可選安裝1-2個GPUCoreModule。

相關焦點

  • OWC推3.5英寸U.2 SSD轉接產品
    打開APP OWC推3.5英寸U.2 SSD轉接產品 cnBeta.COM 發表於 2021-01-15 15:20:24 CES
  • Data Fabrics與知識圖譜之間的共生關係
    Datafabrics 與知識圖譜的運行有著獨特的共生關係。Datafabrics極大地簡化了從這些平臺浩如煙海的原始資料中提取數據的過程;反過來,知識圖譜提供了一些基本功能,使Datafabrics能夠實現這一目標。因此,Data fabrics相當重要,它被認為是協調和集成數據的最成熟的手段。
  • 抖音就像是失去神經我感覺不到呼吸是什麼歌 U U U歌詞
    就像是失去神經我感覺不到呼吸什麼歌  歌名:U U U  歌手:潘瑋柏  《U U U》是潘瑋柏演唱的一首歌曲,由李念和作詞,潘瑋柏作曲,收錄於潘瑋柏2011年發行的專輯《808》中。  陷入夢幻催眠的魔術  So baby baby tell me baby I love u love u love u  愛情在潛意識被徵服  I’m crazy over u u u u u  如此瘋狂的中了毒毒毒毒毒  I’m going crazy over u u u u u  觸控的心被啟動
  • CES 2021:OWC推出3.5英寸U.2 SSD轉接方案
    CES 2021 期間,知名外設配件製造商 OWC 推出了包括雷電 4 擴展塢和 Envoy Pro FX 雙模移動固態硬碟在內的新品。不過文本要為大家介紹的,卻是一款有趣的 3.5 英寸 U.2 SSD 轉接產品。
  • GPU上的隨機森林:比Apache Spark快2000倍
    隨機森林是一種機器學習算法,以其魯棒性、準確性和可擴展性而受到許多數據科學家的信賴。該算法通過bootstrap聚合訓練出多棵決策樹,然後通過集成對輸出進行預測。由於其集成特徵的特點,隨機森林是一種可以在分布式計算環境中實現的算法。樹可以在集群中跨進程和機器並行訓練,結果比使用單個進程的訓練時間快得多。
  • 亞馬遜加持,英偉達A100 GPU將無人匹敵?
    單個NVIDIA DGX A100系統(帶有8個A100 gpu)在某些AI應用上可以提供與近1000臺雙插槽CPU伺服器相同的性能。 英偉達負責加速計算的副總裁伊恩 巴克(Ian Buck)在公布基準業績後表示:「每個行業都在尋求更好的方式,應用人工智慧來提供新的服務,並擴大業務,我們正處於一個歷史的轉折點。」
  • 盤點:GPU加速的神經網絡與JavaScript的交叉
    根據拉取請求的數量來衡量,JavaScript的活躍度與Python、Java和Go之和相當。JavaScript已經徵服了網絡,並「滲入」了伺服器、移動端、桌面和其他平臺。與此同時,GPU加速的使用已經遠遠超出了計算機圖形領域,現在已經成為機器學習的一個必需組成部分。
  • 基於RTX2060構建TensorFlow-gpu(keras)學習平臺
    一、conda命令1. onda env list 或 conda info -e 查看當前存在哪些虛擬環境2. conda create --name tf36gpu python=3.6 anaconda3. conda remove -n
  • 索尼發布新A卡口鏡頭轉接環LA-EA5
    2020年9月1日,索尼(中國)有限公司正式發布了新的轉接環LA-EA5,通過新的轉接環,用戶可以輕鬆地將A卡口鏡頭*1轉接到E卡口微單™機身*1上使用,從而體驗到索尼微單™相機更加出色的自動對焦性能。
  • 剪映和快剪輯哪個好用 功能區別對比哪個更適合新手
    剪映和快剪輯都是現在很多人在用的視頻剪輯工具,擁有很多的功能,可以剪輯出非常個性的視頻。而對於新手來說,剪映和快剪輯哪個好用呢?  剪映和快剪輯哪個好用  快剪輯  1、體積小,佔的內存小  2、沒有強制要求片頭,界面的,剪輯觀看視頻時視覺效果要好一點
  • 紅移消失 索尼a7RII轉接廣角鏡頭測試
    【IT168 資訊】3D-Kraft對索尼a7RII和a7S轉接廣角鏡頭進行了簡單的測試,測試中採用的蔡司Carl Zeiss Hologon 16mm F8鏡頭。
  • 超算安裝GPU-based軟體 (以pytorch為例)
    已有共性軟體如下:Vasp和Gaussian是算力消耗的大頭,但是超算用戶覆蓋幾十個學院的幾百個方向,不可能面面俱到,把所有人需要的軟體都裝在/opt 也是不現實的。所以如果我的計算依賴的是比較小眾的軟體,那麼我可以把軟體安裝在共享存儲上,在程序運行的時候可以訪問共享存儲調用相關文件運行。
  • pull up和pull over
    Baba began topull over, but I didn't make it.Baba began topull over, but I didn't make it.這裡給大家介紹一下美語中pull up,pull over的意思及區別。pull up:讓行駛中的車輛停下。
  • 所有進入您的iPhone的電話都會在轉接號碼上振鈴
    近期涉及所有進入您的iPhone的電話都會在轉接號碼上振鈴內容備受矚目,很多讀者對此也很有興趣,現在給大家羅列關於所有進入您的iPhone的電話都會在轉接號碼上振鈴最新消息。2)選擇呼叫轉移。設置電話轉接iPhone3)移動滑塊以啟用「 呼叫轉移」。4)點擊轉發到。5)輸入電話號碼,然後點擊返回。輸入的號碼將顯示在「呼叫轉移」屏幕上,供您再次檢查。在iPhone上設置呼叫轉移現在,所有進入您的iPhone的電話都會在轉接號碼上振鈴。
  • 一年級語文上冊第二單元第2課《i u ü y w》教學設計
    藉助情境圖、模仿練讀、編兒歌等方式可以幫助學生讀準韻母的音,也可以激發學生學習拼音的興趣;聯繫生活實際,將學習拼音和已有知識相結合,由舊知到新知,提高學習效率。(2)識記形在識記單韻母的形方面,這部分內容的重點是正確識記 i u ü的字母的形。
  • 開心時刻:"Pull over" and "pull-over"
    新東方網>英語>英語學習>語法詞彙>流行語>正文開心時刻:"Pull over" and "pull-over" 2006-12-21 09:59 來源:中國日報網站 作者:
  • 英語中的「上面」和「下面」:above 和 over,under 和 below
    文/陳德永今天要說的這幾個副詞,above 和 over 是「在上方」的意思,under 和 below 是在「在下面」的意思,是討論副詞哦。老師給我們說過:介詞的話後面會跟名詞代詞動名詞,副詞後面就不用了。先看一個圖吧:
  • 每日英語:Come over and taste this
    新東方網>英語>英語學習>口語>每日一句英語>正文每日英語:Come over and taste this 2013-02-16 16:05 來源:恆星英語 作者: