[工作站] 2020 年 10 月的多 GPU 深度學習工作站配置指南

2021-12-31 花解語NLP

本文接上一篇《2020 年 10 月的單 GPU 深度學習工作站配置指南》,探討多 GPU 工作站的搭建。很多在單 GPU 工作站中不甚重要的因素在多 GPU 工作站中變得舉足輕重。

本文主要參考了以下文章:

Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning[1]A Full Hardware Guide to Deep Learning[2]Deep Learning Hardware Deep Dive – RTX 3090, RTX 3080, and RTX 3070[3]What’s the Difference Between a Blower and an Open-Air GPU Cooler?[4]

搭建多 GPU 工作站的要點是避免顯卡過熱與電源過載,其它很多方面與單 GPU 工作站的原則相似,沒有提到的方面(包括顯卡的選擇)請參考《2020 年 10 月的單 GPU 深度學習工作站配置指南》。

雙 GPU 工作站PCI-E 帶寬

隨著 GPU 的增加,模型訓練的並行程度和 GPU 之間的數據傳輸增加,PCI-E 帶寬變得越來越重要。然而對於雙 GPU 工作站來說,PCI-E 帶寬的重要性仍然有限。已經有人對 PCI-E 3.0 下 x16 和 x8 通道進行過測試[5],結論是影響非常小。那麼在 x4 甚至 x2 或 x1 時帶寬對深度學習有影響嗎?目前還不清楚。

一個現實是 CPU 擁有的 PCI-E 通道是有限的:

CPU支持 PCI-E 等級通道數Ryzen 3000/50004.024Core3.020

而有限的通道中至少要給 NVME 存儲器分配 4~8 個通道。既然 x8 通道對深度學習沒什麼影響,雙 GPU 完全可以使用雙 x8 通道。這裡支持 PCI-E 4.0 的優勢顯示出來了,一個 x8 PCI-E 4.0 通道相當於一個 x16 PCI-E 3.0 通道(30 系列顯卡才支持 PCI-E 4.0)。雙 x8 PCI-E 通道並聯被 NVIDIA 稱為 SLI 技術,高端晶片組 X570 和 Z490 都支持 SLI,所以在買主板的時候留意是否支持 SLI 就可以了。根據我的經驗,只要主板上的兩個 PCI-E 插槽都有金屬包裝,很可能就支持 SLI:

GIGABYTE X570 AORUS PRO:請注意上面兩個 PCI-E x16 插槽有金屬包裝

支持 SLI 的主板上如果還有第三個 PCI-E x16 插槽,這個插槽的通道要麼走主板晶片要麼與第二個插槽平分通道。比如上圖,如果在最上面的兩個插槽的任意一個中插一張卡,則為 x16 通道;在上面兩個插槽插兩張卡,則為 8-8 通道;三個插槽都插卡,則為 8-8-4 或 8-4-4 通道。

X570 主板中支持雙路 x8 PCI-E 的型號有:

ASRock X570 Phantom Gaming XASUS AMD AM4 ROG Crosshair VIII HeroASUS ROG Strix X570-E GamingASUS ROG Strix X570-F GamingGIGABYTE X570 AORUS ULTRAGIGABYTE X570 AORUS MASTERGIGABYTE X570 AORUS XTREME

MSI MEG X570 GODLIKE 有 4 個 x16 PCI-E 插槽,前三個可以以 8-4-4 通道數連接;第四個 PCI-E 插槽走主板晶片以 4 條通道連接(8-4-4-4)。

MSI MEG X570 GODLIKE

Z490 主板中支持雙路 x8 PCI-E 的型號有:

ASUS ROG STRIX Z490-E GAMINGASUS ROG MAXIMUS XII APEXASUS ROG MAXIMUS XII FORMULAGIGABYTE Z490 AORUS PRO AXGIGABYTE Z490 AORUS ULTRAGIGABYTE Z490 AORUS MASTERGIGABYTE Z490 AORUS ULTRAMSI MPG Z490 GAMING CARBON

X570 和 Z490 晶片組是最高端的晶片組,比 B550 和 B460 貴一些;支持 SLI 的功能算是進階設計,價格要更貴一些。

CPU、內存、電源的選擇理論上 4 核 CPU 足夠,如果有很多預處理任務也可以買 6 核的 3600 和 10400F 或者 8 核的 3700x 和 10700F,再多就沒有必要。內存的大小看實際需求和 pipeline 設計,要麼不小於單卡顯存 + 6~8G,要麼不小於顯存之和 + 6~8G。如果使用 4 核 CPU 配兩張 3070 顯卡,可選 750W 或 850W 電源;如果使用 6 核 CPU 配兩張 3080/3090 顯卡,至少要使用 1000W 電源。散熱

如果安裝兩塊 3070,發熱與兩塊 2080 Ti 差不多,散熱應該不是大問題;如果安裝兩塊 3080 或 3090,請參考下面的散熱部分。

三 GPU 工作站PCI-E 帶寬

如果希望三張卡都有至少 x8 帶寬,Core 和 Ryzen 就不能滿足了,必須是 Core X-Series,Xeon,Threadripper 或者 EPYC。我對 Xeon 和 EPYC 完全不了解,此處略。

CPU支持 PCI-E 等級通道數Threadripper4.06410 代 Core X-Series3.048

若主板上有三個 PCI-E 插槽,Intel X299 和 AMD sTRX40 主板都支持 16-8-16 分配;若有第四個插槽,sTRX40 可以支持 16-8-16-8 分配,而 X299 支持 8-8-8-8 分配。此處 AMD 的優勢又體現出來了,不要說 Threadripper 支持更多的 PCI-E 通道,而且 PCI-E 4.0 x8 已經相當於全速 PCI-E 3.0 x16。Threadripper 唯二的缺點是貴和功耗大(然而未必比 Core X-Series 的滿載功耗更大)。

ASRock TRX40 TAICHI 主板支持 16-16-16 通道分配,是 Threadripper 的最佳搭配。

供電

常見的 CPU 與 GPU 的熱設計功率(TDP)為:

CPUTDPThreadripper280WCore X-Series165W

新 30 系列 GPU 的熱設計功率為:

GPUTDPRTX 3090350WRTX 3080320WRTX 3070220W

如果使用 Core 10920X 搭配三塊 3070,推薦 1000W 電源;其它搭配推薦 1500W 電源。

散熱

GPU 到了三塊,散熱開始需要重視,不然顯卡會因為過熱自動降頻。顯卡的散熱方式有風冷和水冷兩種,風冷又分渦輪式散熱(blower)和開放式兩種(open-air)兩種。

開放式散熱:由風扇吸入冷空氣,冷空氣在散熱片上進行熱交換,熱空氣在 GPU 的周圍排出。渦輪式散熱:整個 PCB 板被包裹起來,冷空氣被風扇吸入後在散熱片上進行熱交換後在 GPU 後擋板處排出。水冷散熱:冷水被水泵抽到晶片上吸收晶片的熱量,熱水隨後被抽到散熱片與冷空氣進行熱交換。

使用開放式散熱的顯卡會面臨熱空氣被其它顯卡吸收的問題,會降低散熱的效果,極端情況下會造成顯卡過熱自動降頻,從而降低性能。如果顯卡之間有超過 1 個 PCI-E 空位,則基本不會存在散熱的問題,但是這樣由於空間的限制可能僅可以使用雙卡;對於三卡工作站而言,渦輪式散熱顯卡或水冷散熱顯卡是必需的,然而是否可行仍需實踐。

風道與機箱的選擇

當使用了 3 塊以上的 GPU 以後,機箱的風道變得很重要,否則熱空氣會在機箱內積累,一樣會造成顯卡過熱。一款合適的深度學習伺服器機箱應該有充足的內部空間和足夠多放風扇的位置。我推薦兩款機箱:

Thermaltake Core X71

這個機箱的優點是可以裝下足夠多的風扇(上面 3 個,前面 2 個,下面 3 個,後面 1 個),非常適合多個水冷設備。

Corsair Carbide Series Air 540

這個機箱的優點是內部空間非常充足,可以安裝風扇的位置也不少(上面 3 個,前面 2 個,後面 1 個)。

顯卡選擇

如果顯卡之間有足夠的空間,那麼可以使用開放式散熱顯卡;3 塊以上顯卡空間有限,需要使用渦輪式散熱顯卡或水冷顯卡。現在各個廠商只發布了開放式散熱設計的顯卡,下面的型號可能還沒有公開發布:

GIGABYTE MSI GeForce RTX 3090 TURBO 24GColorful iGame Neptune GeForce RTX 30 系列EVGA GeForce RTX 3080 10GB HYDRO COPPEREVGA GeForce RTX 3090 KINGPIN Hybrid四 GPU 工作站供電

如果使用四張顯卡,應該把主機放在專業機房內;在普通民用環境中目前只可能使用四張 3070 顯卡,推薦 1500W 電源。

美國電腦供應商 Puget Systems 近期發表了一篇研究搭建一臺擁有 1~4 張 GIGABYTE MSI GeForce RTX 3090 TURBO 24G 顯卡的工作站[6]的可能性的博客。當使用 4 塊 3090 顯卡時,使用了雙 1600W 供電。在美國,3 塊 3090 已經接近了普通民用電路的供電極限。

主板的選擇

如果使用四張顯卡,最好每張顯卡都有 8 條通道。對於 Threadripper 來說,目前唯一的選擇是 Gigabyte TRX40 DESIGNARE Motherboard:

而對於 Core X-Series 來說,可以選擇以下主板:

GIGABYTE X299X AORUS MASTER(8-8-8-8 通道)MSI Creator X299 LGA(8-8-16-8 通道)MSI MEG X299 CREATION(8-8-16-8 通道)EVGA X299 DARK(8 x 3 + 16 x 2 通道)

還有兩張主板有 7 個 PCI-E 插槽,因為有橋接晶片,支持 4 路 x16 PCI-E 通道:

GIGABYTE X299-WU8ASUS WS X299 SAGECPU 與內存

Threadripper 是 24 核起,Core X-Series 是 12 核起,配 4 張 GPU 足夠用了。

內存請參考雙 GPU 部分。

現在是購買 RTX 30 系列顯卡的好時候嗎?我認為不是。

深度學習框架對新 CUDA 和 CuDNN 的支持還不夠;

NVIDIA 已經說了,目前的缺貨會延續到 2021 年。我們還是耐心等待吧。另外也希望 Big Navi 的性能和供貨給力,讓本來打算買 N 卡的人去買 A 卡,給我們深度學習民工一條生路啊。

參考資料[1]

Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning: https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/

[2]

A Full Hardware Guide to Deep Learning: https://timdettmers.com/2018/12/16/deep-learning-hardware-guide/

[3]

Deep Learning Hardware Deep Dive – RTX 3090, RTX 3080, and RTX 3070: https://lambdalabs.com/blog/deep-learning-hardware-deep-dive-rtx-30xx/#blower-gpus

[4]

What’s the Difference Between a Blower and an Open-Air GPU Cooler?: https://www.howtogeek.com/365215/what’s-the-difference-between-a-blower-and-an-open-air-gpu-cooler/

[5]

PCIe X16 vs X8 with 4 x Titan V GPUs for Machine Learning: https://www.pugetsystems.com/labs/hpc/PCIe-X16-vs-X8-with-4-x-Titan-V-GPUs-for-Machine-Learning-1167/

[6]

Quad GeForce RTX 3090 in a desktop - Does it work?: https://www.pugetsystems.com/labs/articles/Quad-GeForce-RTX-3090-in-a-desktop---Does-it-work-1935/

相關焦點

  • [工作站] 2020 年 10 月的單 GPU 深度學習工作站配置指南
    隨著電腦硬體的性能提升、價格下降,搭建個人用深度學習工作站的支出越來越低,需求也會越來越大。因此從今年開始,每年的 5、10 月份均會發布最新的深度學習工作站的配置指南。隨著 NVIDIA 的新一代 Ampere 架構的 GeFore 30 系列顯卡的發布,在算力得到了極大提升的同時價格也大幅下降,花費不到 $1000 搭建一臺性能強大的深度學習工作站已經成為了可能。適逢 AMD 的新一代 Ryzen 處理器也在 10 月 8 日發布,硬體性能的提升毫無疑問會再次推動深度學習的熱潮。
  • 保姆級教程:個人深度學習工作站配置指南
    來源丨https://zhuanlan.zhihu.com/p/3364298880 前言工作原因一直想配置一臺自己的深度學習工作站伺服器
  • 7000美元,搭建4塊2080Ti的深度學習工作站
    來自 MIT 的 Curtis Northcutt 繼「6200 美元搭建 3-GPU 工作站」之後,又推出了「7000 美元搭建 4-GPU 深度學習工作站」的教程。在之前的博客中,來自 MIT 的 Curtis Northcutt 分享了構建專業質量的深度學習工作站和購買零件的所有細節,搭建該工作站共花費了 6200 美元,幾乎是 Lambda 和 Bizon 等公司的一半(Lambda 同等工作站需要 12,500 美元)。
  • 如何配置一臺深度學習工作站?
    這篇文章主要介紹的是家用的深度學習工作站,典型的配置有兩種,分別是一個 GPU 的機器和四個 GPU的機器。如果需要更多的 GPU 可以考慮配置兩臺四個 GPU 的機器。如果希望一臺機器同時具備 6~8 個 GPU 需要聯繫專門的供應商進行配置,並且有專業的機房存放,放在家裡噪聲很大並且容易跳閘。
  • 2021年該如何選擇深度學習工具?這款數據科學工作站了解一下
    惠普最近升級的 HP Z8 G4 工作站,不論在開發環境的搭建還是到硬體的布局配置,都為我們帶來了一套完整的解決方案。這是一款搭載英特爾 Xeon 可擴展處理器和英偉達 Quadro RTX 顯卡的高端計算設備。對於 AI 學習和研究者而言,訓練深度學習模型需要耗費不少精力。除了軟體環境和框架,硬體配置的很多方面都會影響到實驗效率。
  • 技術帝指南:打造你自己的C4D GPU渲染工作站
    ,並分享了這篇技術指南。和以往一樣,GPU工作站也需要滿足以下要求:性能強大但是噪音很小。在該文中我們會向大家介紹我們選擇了哪些硬體以及為何選擇它們。開工!你需要知道的是,顯存與內存的使用方式不同,你需要相當多的多邊形才會達到顯存限制。在決定了購入4塊GTX 980 Ti以後,我們又面臨著一個艱難的抉擇:哪種散熱方案是最好的呢?要冷卻GTX 980 Ti有以下4種方法:
  • NVIDIA Quadro Pasca架構 GPU助力新興超算工作站
    這些產品能夠將臺式工作站轉變為具有突破性能力的超級計算機,適用於諸多行業中的專業工作流程。設計、工程和其他領域的工作流程正在快速發展,以滿足照片級真實感的畫質、虛擬實境和深度學習技術所帶動的數據量和數據複雜性的指數級增長。
  • 因買不到RTX 3090,小哥自己搭建了一個專業級機器學習工作站
    它們的性能會有所不同,但是由於機器學習的格局變化如此之快,因此不值得針對特定的工作負載進行過度優化。有關更深入的比較,請閱讀Tim Dettmers的GPU指南。請特別注意Tensor Core、稀疏訓練、限制GPU功率和低精度計算等部分的內容。
  • 從深度學習gpu選擇來談談gpu的硬體架構
    從深度學習在2012年大放異彩,gpu計算也走入了人們的視線之中,它使得大規模計算神經網絡成為可能。
  • 戴爾2020新款移動工作站 Precision 3551 深度測評!
    對於移動工作站,似乎高性能和大重量一定會劃上等號,尤其是在預算不高的情況下。有沒有可能打破魔咒?我們拿到了一款新上市的DELL Precision 3551,給大家做一個深度測評!左右邊框也不是移動工作站上常見的「跑馬邊」,採用了極窄設計,擁有15.6英寸的屏幕但整機的尺寸和傳統的14寸機身一般大小。
  • 雲服務太麻煩,我花9000美元自建深度學習工作站,就要上雙路泰坦RTX!
    創建屬於自己的深度學習工作站大概是很多機器學習從業者的夢想,本文作者 Rahul Agarwal 也不例外。
  • 曙光工作站:專注視覺計算
    2014年,曙光與NVIDIA,Citrix共同發布的「曙光雲圖」(W760)是一款專用於圖形雲計算的專用工作站,相比友商同類產品的發布提前了6個月,是第一款支持vGPU虛擬化的專用設備。以管理集中,數據安全,靈活方便的特點成為設計行業,尤其是政府、重工業和其他對數據安全敏感的設計單位中剛性需求的產品。
  • 深度學習GPU加速,一文搞定所有Windows問題
    大家都知道,深度學習運行耗時漫長,有些任務在GPU上速度也是非常慢,更別提CPU了。
  • 2019視頻工作站組裝及購買指南
    大多數用於視頻編輯的工作站都使用英特爾的處理器,但在這裡推薦AMD RYZEN「線程撕裂者」也是有原因的。戴爾的Precision 7920 Tower工作站提供了單至強或雙至強處理器的選項,GPU方面也可以選擇多達四個AMD Radeon Pro或Nvidia Quadro顯卡。更可配置高達3TB的內存和10個影片。
  • 在2020年1萬元能配怎樣的6K/8K編輯工作站
    關注並標星攝像人網有器材也有技術 有視野也有深度2020年,一個不可忽視的趨勢就是
  • 2020年深度學習如何挑選 GPU?這篇 GPU 最全攻略請查收
    深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU的選擇將從根本上決定深度學習的體驗。
  • 2020 年深度學習如何挑選 GPU?這篇 GPU 最全攻略請查收
    的選擇將從根本上決定深度學習的體驗。那麼2020年,如何選擇合適的GPU呢?這篇文章整合了網絡上現有的GPU選擇標準和評測信息,希望能作為你的購買決策的參考。1 是什麼使一個GPU比另一個GPU更快?有一些可靠的性能指標可以作為人們的經驗判斷。
  • 因買不到RTX 3090,他花19萬搭了一個專業級機器學習工作站
    很多跡象都表明了這一點,比如:3槽寬度、高功率,並且有多家製造商中斷了3090的2寬度鼓風機版本。因此,專業級和企業級Ampere卡的主要賣點是支持3個以上GPU工作站,進行24/7/365的工作負載。
  • 「華為北京博士後工作站」正式揭牌成立
    2020年10月12日14時,「華為北京博士後工作站」正式揭牌成立。
  • 2020年深度學習如何挑選GPU?這篇 GPU 最全攻略請查收
    關注 極市平臺 公眾號 ,回復 加群,立刻申請入群~深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU的選擇將從根本上決定深度學習的體驗。因此,選擇購買合適的GPU是一項非常重要的決策。那麼2020年,如何選擇合適的GPU呢?