深度學習訓練通常需要大量的計算資源。GPU目前是深度學習最常使用的計算加速硬體。相對於CPU來說,GPU更便宜(達到同樣的計算能力GPU一般便宜10倍),而且計算更加密集(一臺伺服器可以搭配8塊或者16塊GPU)。因此GPU數量通常是衡量深度學習計算能力的一個標準,同時Nvidia的創始人Jensen Huang也被人稱深度學習教父。
Nvidia CEO黃教主和他的戰術核武器
本文我們簡要介紹GPU的購買須知。這裡主要針對個人用戶購買一兩臺自用的GPU伺服器。而不是針對需要購買:
選擇GPU
目前獨立GPU主要有AMD和Nvidia兩家廠商。其中Nvidia由於深度學習布局較早,深度學習框架支持更好,因此目前主要會選擇Nvidia的卡。
Nvidia卡有面向個人用戶(例如GTX系列)和企業用戶(例如Tesla系列)兩種。企業用戶卡通常使用被動散熱和增加了內存校驗從而更加適合數據中心。但計算能力上兩者相當。企業卡通常要貴上10倍,因此個人用戶通常選用GTX系列。
Nvidia一般每一兩年會更新一次大版本,例如目前最新的是1000系列。每個系列裡面會有數個不同型號,對應不同的性能。
GPU的性能主要由下面三個主要參數構成:
對於大部分用戶來說,只要考慮計算能力就行了。內存不要太小就好,例如不要小於4GB。如果顯卡同時要用來顯示圖形界面,那麼推薦6G內存。內存帶寬可以讓廠家來糾結。
下圖畫了900和1000系列裡各個卡的32位浮點計算能力和價格的對比(價格是wikipedia的推薦價格,真實價格通常會有浮動)。
我們可以讀出兩點信息:
在同一個系列裡面,通常價格和性能成正比
1000系列性價比900高2倍左右。
如果大家繼續比較GTX前面幾代,也發現規律是類似的。根據這個我們推薦:
整機配置
如果主要是用GPU來做計算,或者說主要是做深度學習訓練,不需要購買高端的CPU。可以將主要預算花費在GPU上。所以整機配置可以參考網上推薦的中高檔就好。
不過由於GPU的功耗,散熱和體積,需要一些額外考慮。
機箱體積
GPU尺寸較大,通常不考慮太小的機箱。而且機箱自帶的風扇要好。(下圖裡我們曾嘗試在一個中等機箱裡塞滿4卡導致散熱不好燒了2塊GPU。)
電源
購買GPU時需要查下GPU的功耗,50w到300w不等。因此買電源時需要功率足夠的。(我們倒是一開始就考慮了這個,但忘了不過載機房供電。下面是5臺機器滿負荷運行時燒掉了一個30A的電源接口。)
主板的PCIe卡槽
推薦使用PCIe 3.0 16x來保證足夠的GPU到主內存帶寬。如果是多卡的話,要仔細看主板說明,保證多卡一起使用時仍然是16x帶寬。(有些主板插4卡時會降到8x甚至4x)
對於更具體的配置可以參考我們走過的一些彎路>>http://mli.github.io/gpu/2016/01/17/build-gpu-clusters/
歡迎來討論區交流大家的機器配置>>https://discuss.gluon.ai/t/topic/1177
你可能還想看:
李沐:來一起動手學深度學習吧
回顧 | 跟李沐一起動手學深度學習第一課:從上手到多類分類
回顧 | 跟李沐一起動手學深度學習第二課:過擬合、多層感知機、GPU和卷積神經網絡
-END-
將門創投
讓創新獲得認可!
微信:thejiangmen
service@thejiangmen.com