GPU over Fabrics和U.2轉接PCIe,哪個快?

2021-01-12 騰訊網

PowerEdge MX7000 + Liqid PCIe擴展機箱

我在國外網站看到一條新聞消息《Liqiddiet boosts Dell MX7000 composable system》https://blocksandfiles.com/2020/08/14/dell-liqid-mx7000-composable-upgrade，討論的就是下面這個參考架構。

關於Dell PowerEdgeMX7000模塊化伺服器機箱，如果看過下面3篇我寫的東西應該不陌生了。如上方圖例，在「刀箱」中的一個伺服器Sled節點使用PCIe連接到Liqid PCIe擴展機箱——最多可以容納20個全高全長GPU卡。

有點意思的是MX伺服器節點引出PCIe的方式，通過一個U.2 PCIe Adapter，插在前端的NVMe SSD驅動器位上，也就是起到一個PCIe 3.0 x4 Retimer的作用。

眾所周知，傳統刀片伺服器屬於相對昂貴一些的Cluster-in-Box方案，裡面通常集成網絡交換模塊、FC光纖通道交換模塊，乃至SAS交換機，為其中的伺服器節點連接標準PCIe插卡的情況不太多。也有些針對HPC高性能計算的高密度「變種」刀片伺服器，把InfiniBand網卡接口設計在了機箱前端。參考下面的主板圖：

上圖是當初在2U機箱中的8節點雙路伺服器方案，Dell PowerEdge FC430的主板。可以看到用於連接x16 IB Mezz夾層卡的連接器特別設計在機箱前端，而傳統上為了把PCIe擴展引到機箱後端設計的PCIe Switch還是在後側。

相比之下，在U.2 SSD槽位把PCIe信號引出，應該算是更討巧的一種設計，甚至不用涉及到協議信號的轉換。這樣擴展連接GPU應該說是更加高效的。

PowerEdge MX + Liqid PCIe擴展機箱的方案，在7U伺服器裡最多安裝8個計算節點（MX740c）。與GPU直連的PCIe Gen3 x4通道也可以有多條鏈路，因為在MX機箱中的伺服器節點可以支持6個NVMe SSD盤位。

Liqid PCIe機箱恰好也是7U高度，其中20個全尺寸GPU，已經可以支持最新的NVIDIA安培A100等，同時也能兼容FPGA和NVMe存儲（AIC標準插卡）等。

圖片點開後雙擊可放大，以下同

不難看出Liqid機箱的核心硬體應該是PCIeSwitch。上圖列出了GPU之間的2種通信方式——在沒有點對點的情況下需要經過伺服器端的CPU；而點對點的I/O則在PCIe擴展機箱內部的PCIeSwitch之間完成，效率對比如下：

儘管有多鏈路PCIe3.0 x4，但沒有Peer-To-Peer時數據還需要經過伺服器CPU的PCIe控制器，多少會有一些影響。我們看到測得的帶寬為8.59GB/s，延時33.65微秒。

Peer-To-Peer啟用之後，GPU之間帶寬提高到25.01 GB/s，延時降低到3.1微秒。按道理這個應該是PCIe 3.0 x16雙向（全雙工）測得的，不過看數字怎麼有點像NVLINK呢？

Liqid LQD300x20X擴展機箱的管理處理器使用了一個ARM晶片

如上表，我找Liqid的資料印證了一下，應該就是純PCIe交換結構。除了我們在前面參考架構中提到的PCIe主機連接之外，這款擴展機箱還有一種100GbE乙太網接口的配置，而後者沒有看到用在Dell合作方案中（原因我在下文中會講）。

PCIe vs. 100GbE連接GPU性能對比

我們來看看PowerEdgeMX + Liqid PCIe擴展機箱的性能。AI機器學習/深度學習方面不是我的特長，從圖表中看到Inception V3、ResNet152、VGG16和ResNet50這幾項測試，從1-8塊Quadro RTX 8000基本都達到了線性提升。

下面對比一下乙太網連接GPU擴展的方案。

也就是說，當「計算刀片」+GPU伺服器之間換成乙太網連接之後，有少數測試項目變化不大，但整體上性能還是比PCIe連接有小幅降低。

GPU-oF參考架構：MX7000+ DSS 8440

這就是本文介紹的第二種參考架構——GPU-oF（GPU over Fabrics，不是NVMe-oF哈）仍然是使用Liqid Command Center軟體來管理，但硬體上從GPU擴展機箱換成了Dell EMC自己的DSS8440伺服器，中間的連接是100GbE。

GPU Expansion OverEthernet方案裡的計算節點OS支持，當前限制在Linux估計是Liqid軟體的原因。GPUover Fabrics我理解也要跑在RDMA（RoCE）網絡上的。

為了給PowerEdgeMX7000機箱提供100GbE乙太網口，這裡配置了Fabric MX9116n交換模塊。DSS 8440伺服器可以支持10塊全尺寸雙寬GPU，或者16個像Tesla T4那樣的半高半長卡。2個機箱的整體高度為11U（7U+4U）。

以我的理解，由於DSS8440是通用伺服器並使用乙太網連接，把LiqidCommand Center軟體換成本文開頭提到的VMwareBitfusion是不是也可以？這種修改後的方案DSS 8440上要運行VMware ESXi，對前端支持CUDA應用，可以實現細粒度的池化。

理論上來講，乙太網連接的方案，通過交換機的擴展規模可以大很多，所以這裡寫每個MX7000計算刀箱可以連接多節點16x GPU（DSS 8440）。在DSS 8440伺服器內部也有GPU Peer-2-Peer能力。

PowerEdge MX7000內部GPU支持方案

最後再帶大家回顧下MX7000自身內部對GPU的支持，算是一個參考吧。

如上圖，2塊NVIDIA T4 GPU先組成一個CoreCartrideg，然後4個CoreCartrideg再組成一個CoreModule。8個GPU的模塊加起來不到600W TDP。

在MX7000機箱背部偏下的第2對網絡交換模塊槽位，就可選安裝1-2個GPUCoreModule。

相關焦點

OWC推3.5英寸U.2 SSD轉接產品

打開APP OWC推3.5英寸U.2 SSD轉接產品 cnBeta.COM 發表於 2021-01-15 15:20:24 CES
Data Fabrics與知識圖譜之間的共生關係

Datafabrics 與知識圖譜的運行有著獨特的共生關係。Datafabrics極大地簡化了從這些平臺浩如煙海的原始資料中提取數據的過程；反過來，知識圖譜提供了一些基本功能，使Datafabrics能夠實現這一目標。因此，Data fabrics相當重要，它被認為是協調和集成數據的最成熟的手段。
抖音就像是失去神經我感覺不到呼吸是什麼歌 U U U歌詞

就像是失去神經我感覺不到呼吸什麼歌　　歌名：U U U　　歌手：潘瑋柏　　《U U U》是潘瑋柏演唱的一首歌曲，由李念和作詞，潘瑋柏作曲，收錄於潘瑋柏2011年發行的專輯《808》中。　　陷入夢幻催眠的魔術　　So baby baby tell me baby I love u love u love u　　愛情在潛意識被徵服　　I’m crazy over u u u u u　　如此瘋狂的中了毒毒毒毒毒　　I’m going crazy over u u u u u　　觸控的心被啟動
CES 2021:OWC推出3.5英寸U.2 SSD轉接方案

CES 2021 期間，知名外設配件製造商 OWC 推出了包括雷電 4 擴展塢和 Envoy Pro FX 雙模移動固態硬碟在內的新品。不過文本要為大家介紹的，卻是一款有趣的 3.5 英寸 U.2 SSD 轉接產品。
GPU上的隨機森林:比Apache Spark快2000倍

隨機森林是一種機器學習算法，以其魯棒性、準確性和可擴展性而受到許多數據科學家的信賴。該算法通過bootstrap聚合訓練出多棵決策樹，然後通過集成對輸出進行預測。由於其集成特徵的特點，隨機森林是一種可以在分布式計算環境中實現的算法。樹可以在集群中跨進程和機器並行訓練，結果比使用單個進程的訓練時間快得多。
亞馬遜加持,英偉達A100 GPU將無人匹敵?

單個NVIDIA DGX A100系統(帶有8個A100 gpu)在某些AI應用上可以提供與近1000臺雙插槽CPU伺服器相同的性能。英偉達負責加速計算的副總裁伊恩巴克(Ian Buck)在公布基準業績後表示:「每個行業都在尋求更好的方式，應用人工智慧來提供新的服務，並擴大業務，我們正處於一個歷史的轉折點。」
盤點:GPU加速的神經網絡與JavaScript的交叉

根據拉取請求的數量來衡量，JavaScript的活躍度與Python、Java和Go之和相當。JavaScript已經徵服了網絡，並「滲入」了伺服器、移動端、桌面和其他平臺。與此同時，GPU加速的使用已經遠遠超出了計算機圖形領域，現在已經成為機器學習的一個必需組成部分。
基於RTX2060構建TensorFlow-gpu(keras)學習平臺

一、conda命令1. onda env list 或 conda info -e 查看當前存在哪些虛擬環境2. conda create --name tf36gpu python=3.6 anaconda3. conda remove -n
索尼發布新A卡口鏡頭轉接環LA-EA5

2020年9月1日，索尼（中國）有限公司正式發布了新的轉接環LA-EA5，通過新的轉接環，用戶可以輕鬆地將A卡口鏡頭*1轉接到E卡口微單™機身*1上使用，從而體驗到索尼微單™相機更加出色的自動對焦性能。
剪映和快剪輯哪個好用功能區別對比哪個更適合新手

剪映和快剪輯都是現在很多人在用的視頻剪輯工具，擁有很多的功能，可以剪輯出非常個性的視頻。而對於新手來說，剪映和快剪輯哪個好用呢？　　剪映和快剪輯哪個好用　　快剪輯　　1、體積小，佔的內存小　　2、沒有強制要求片頭，界面的，剪輯觀看視頻時視覺效果要好一點
紅移消失索尼a7RII轉接廣角鏡頭測試

【IT168 資訊】3D-Kraft對索尼a7RII和a7S轉接廣角鏡頭進行了簡單的測試，測試中採用的蔡司Carl Zeiss Hologon 16mm F8鏡頭。
超算安裝GPU-based軟體 (以pytorch為例)

已有共性軟體如下：Vasp和Gaussian是算力消耗的大頭，但是超算用戶覆蓋幾十個學院的幾百個方向，不可能面面俱到，把所有人需要的軟體都裝在/opt 也是不現實的。所以如果我的計算依賴的是比較小眾的軟體，那麼我可以把軟體安裝在共享存儲上，在程序運行的時候可以訪問共享存儲調用相關文件運行。
pull up和pull over

Baba began topull over, but I didn't make it.Baba began topull over, but I didn't make it.這裡給大家介紹一下美語中pull up，pull over的意思及區別。pull up：讓行駛中的車輛停下。
所有進入您的iPhone的電話都會在轉接號碼上振鈴

近期涉及所有進入您的iPhone的電話都會在轉接號碼上振鈴內容備受矚目，很多讀者對此也很有興趣，現在給大家羅列關於所有進入您的iPhone的電話都會在轉接號碼上振鈴最新消息。2)選擇呼叫轉移。設置電話轉接iPhone3)移動滑塊以啟用「呼叫轉移」。4)點擊轉發到。5)輸入電話號碼，然後點擊返回。輸入的號碼將顯示在「呼叫轉移」屏幕上，供您再次檢查。在iPhone上設置呼叫轉移現在，所有進入您的iPhone的電話都會在轉接號碼上振鈴。
一年級語文上冊第二單元第2課《i u ü y w》教學設計

藉助情境圖、模仿練讀、編兒歌等方式可以幫助學生讀準韻母的音，也可以激發學生學習拼音的興趣；聯繫生活實際，將學習拼音和已有知識相結合，由舊知到新知，提高學習效率。（2）識記形在識記單韻母的形方面，這部分內容的重點是正確識記 i u ü的字母的形。
開心時刻:"Pull over" and "pull-over"

新東方網>英語>英語學習>語法詞彙>流行語>正文開心時刻："Pull over" and "pull-over" 2006-12-21 09:59 來源：中國日報網站作者：
英語中的「上面」和「下面」:above 和 over,under 和 below

文/陳德永今天要說的這幾個副詞，above 和 over 是「在上方」的意思，under 和 below 是在「在下面」的意思，是討論副詞哦。老師給我們說過：介詞的話後面會跟名詞代詞動名詞，副詞後面就不用了。先看一個圖吧：
每日英語:Come over and taste this

新東方網>英語>英語學習>口語>每日一句英語>正文每日英語：Come over and taste this 2013-02-16 16:05 來源：恆星英語作者：

GPU over Fabrics和U.2轉接PCIe,哪個快?

相關焦點

OWC推3.5英寸U.2 SSD轉接產品

Data Fabrics與知識圖譜之間的共生關係

抖音就像是失去神經我感覺不到呼吸是什麼歌 U U U歌詞

CES 2021:OWC推出3.5英寸U.2 SSD轉接方案

GPU上的隨機森林:比Apache Spark快2000倍

亞馬遜加持,英偉達A100 GPU將無人匹敵?

盤點:GPU加速的神經網絡與JavaScript的交叉

基於RTX2060構建TensorFlow-gpu(keras)學習平臺

索尼發布新A卡口鏡頭轉接環LA-EA5

剪映和快剪輯哪個好用 功能區別對比哪個更適合新手

紅移消失 索尼a7RII轉接廣角鏡頭測試

超算安裝GPU-based軟體 (以pytorch為例)

pull up和pull over

所有進入您的iPhone的電話都會在轉接號碼上振鈴

一年級語文上冊第二單元第2課《i u ü y w》教學設計

開心時刻:"Pull over" and "pull-over"

英語中的「上面」和「下面」:above 和 over,under 和 below

每日英語:Come over and taste this

剪映和快剪輯哪個好用功能區別對比哪個更適合新手

紅移消失索尼a7RII轉接廣角鏡頭測試