深度學習GPU最全對比,到底誰才是性價比之王? | 選購指南

2021-02-15 量子位
邊策 安妮 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

搞AI,誰又沒有「GPU之惑」?

張量核心、顯存帶寬、16位能力……各種紛繁複雜的GPU參數讓人眼花繚亂,到底怎麼選?

從不到1000元1050 Ti到近30000元的Titan V,GPU價格的跨度這麼大,該從何價位下手?誰才是性價比之王?

讓GPU執行不同的任務,最佳選擇也隨之變化,用於計算機視覺和做NLP就不太一樣。

而且,用雲端TPU、GPU行不行?和本地GPU在處理任務時應該如何分配,才能更省錢?

最合適的AI加速裝備,究竟什麼樣?

現在,為了幫你找到最適合的裝備,華盛頓大學的博士生Tim Dettmers將對比凝練成實用攻略,最新的模型和硬體也考慮在內。

到底誰能在眾多GPU中脫穎而出?測評後馬上揭曉。

文末還附有一份特別精簡的GPU選購建議,歡迎對號入座。

最重要的參數

針對不同深度學習架構,GPU參數的選擇優先級是不一樣的,總體來說分兩條路線:

卷積網絡和Transformer:張量核心>FLOPs(每秒浮點運算次數)>顯存帶寬>16位浮點計算能力

循環神經網絡:顯存帶寬>16位浮點計算能力>張量核心>FLOPs

這個排序背後有一套邏輯,下面將詳細解釋一下。

在說清楚哪個GPU參數對速度尤為重要之前,先看看兩個最重要的張量運算:矩陣乘法卷積

舉個慄子🌰,以運算矩陣乘法A×B=C為例,將A、B複製到顯存上比直接計算A×B更耗費資源。也就是說,如果你想用LSTM等處理大量小型矩陣乘法的循環神經網絡,顯存帶寬是GPU最重要的屬性。

矩陣乘法越小,內存帶寬就越重要。

相反,卷積運算受計算速度的約束比較大。因此,要衡量GPU運行ResNets等卷積架構的性能,最佳指標就是FLOPs。張量核心可以明顯增加FLOPs。

Transformer中用到的大型矩陣乘法介於卷積運算和RNN的小型矩陣乘法之間,16位存儲、張量核心和TFLOPs都對大型矩陣乘法有好處,但它仍需要較大的顯存帶寬。

需要特別注意,如果想藉助張量核心的優勢,一定要用16位的數據和權重,避免使用RTX顯卡進行32位運算

下面Tim總結了一張GPU和TPU的標準性能數據,值越高代表性能越好。RTX系列假定用了16位計算,Word RNN數值是指長度<100的段序列的biLSTM性能。

這項基準測試是用PyTorch 1.0.1和CUDA 10完成的。

 GPU和TPU的性能數據性價比分析

性價比可能是選擇一張GPU最重要的考慮指標。在攻略中,小哥進行了如下運算測試各顯卡的性能:

用語言模型Transformer-XL和BERT進行Transformer性能的基準測試。

用最先進的biLSTM進行了單詞和字符級RNN的基準測試。

上述兩種測試是針對Titan Xp、Titan RTX和RTX 2080 Ti進行的,對於其他GPU則線性縮放了性能差異。

借用了現有的CNN基準測試。

用了亞馬遜和eBay上顯卡的平均售價作為GPU的參考成本。

最後,可以得出CNN、RNN和Transformer的歸一化性能/成本比值,如下所示:

 CNN、RNN和Transformer的每美元性能

在上面這張圖中,數字越大代表每一美元能買到的性能越強。可以看出, RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti更具成本效益,甚至是Tesla V100性價比的5倍以上

所以此輪的性價比之王已經確定,是RTX 2060無疑了。

不過,這種考量方式更偏向於小型GPU,且因為遊戲玩家不喜歡RTX系列顯卡,導致GTX 10xx系列的顯卡售價虛高。此外,還存在一定的單GPU偏差,一臺有4個RTX 2080 Ti的計算機比兩臺帶8個RTX 2060的計算機性價比更高。

所需顯存與16位訓練

GPU的顯存對某些應用至關重要,比如常見的計算機視覺、機器翻譯和一部分NLP應用。可能你認為RTX 2070具有成本效益,但需要注意其顯存很小,只有8 GB

不過,也有一些補救辦法。

通過16位訓練,你可以擁有幾乎16位的顯存,相當於將顯存翻了一倍,這個方法對RTX 2080和RTX 2080 Ti同樣適用。

也就是說,16位計算可以節省50%的內存,16位 8GB顯存大小與12GB 32位顯存大小相當。

雲端or本地?TPU or GPU?

搞清楚了參數,還有更眼花繚亂的選項擺在面前:

谷歌雲、亞馬遜AWS、微軟的雲計算平臺都能搞機器學習,是不是可以不用自己買GPU?

英偉達、AMD、英特爾、各種創業公司……AI加速晶片也有不少品牌可選。

面對整個行業的圍攻,Tim分析了各家平臺的優缺點。

英偉達

英偉達無疑是深度學習硬體領域的領導者,大多數深度學習庫都對英偉達GPU提供最佳支持。而AMD的OpenCL沒有這樣強大的標準庫。

軟體是英偉達GPU非常強大的一部分。在過去的幾個月裡,NVIDIA還在為軟體注入更多資源。例如,Apex庫對PyTorch中的16位梯度提供支持,還包括像FusedAdam這樣的融合快速優化器。

但是英偉達現在有一項非常坑爹的政策,如果在數據中心使用CUDA,那麼只允許使用Tesla GPU而不能用GTX或RTX GPU。

由於擔心法律問題,研究機構和大學經常被迫購買低性價比的Tesla GPU。然而,Tesla與GTX和RTX相比並沒有真正的優勢,價格卻高出10倍。

AMD:

AMD GPU性能強大但是軟體太弱。雖然有ROCm可以讓CUDA轉換成可移植的C++代碼,但是問題在於,移植TensorFlow和PyTorch代碼庫很難,這大大限制了AMD GPU的應用。

TensorFlow和PyTorch對AMD GPU有一定的支持,所有主要的網絡都可以在AMD GPU上運行,但如果想開發新的網絡,可能有些細節會不支持。

對於那些只希望GPU能夠順利運行的普通用戶,Tim並不推薦AMD。但是支持AMD GPU和ROCm開發人員,會有助於打擊英偉達的壟斷地位,將使每個人長期受益。

英特爾:

Tim曾經嘗試過至強融核(Xeon Phi)處理器,但體驗讓人失望。英特爾目前還不是英偉達或AMD GPU真正的競爭對手。

至強融核對深度學習的支持比較差,不支持一些GPU的設計特性,編寫優化代碼困難,不完全支持C++ 11的特性,與NumPy和SciPy的兼容性差。

英特爾曾計劃在今年下半年推出神經網絡處理器(NNP),希望與GPU和TPU競爭,但是該項目已經跳票。

谷歌:

谷歌TPU已經發展成為一種非常成熟的雲端產品。你可以這樣簡單理解TPU:把它看做打包在一起的多個專用GPU,它只有一個目的——進行快速矩陣乘法。

如果看一下具有張量核心的V100 GPU與TPUv2的性能指標,可以發現兩個系統的性能幾乎相同。

TPU本身支持TensorFlow,對PyTorch的支持也在試驗中。

TPU在訓練大型Transformer GPT-2上取得了巨大的成功,BERT和機器翻譯模型也可以在TPU上高效地進行訓練,速度相比GPU大約快56%。

但是TPU也並非沒有問題,有些文獻指出在TPUv2上使用LSTM沒有收斂。

TPU長時間使用時還面臨著累積成本的問題。TPU具有高性能,最適合在訓練階段使用。在原型設計和推理階段,應該依靠GPU來降低成本。

總而言之,目前TPU最適合用於訓練CNN或大型Transformer,並且應該補充其他計算資源而不是主要的深度學習資源。

亞馬遜和微軟雲GPU:

亞馬遜AWS和Microsoft Azure的雲GPU非常有吸引力,人們可以根據需要輕鬆地擴大和縮小使用規模,對於論文截稿或大型項目結束前趕出結果非常有用。

然而,與TPU類似,雲GPU的成本會隨著時間快速增長。目前,雲GPU過於昂貴,且無法單獨使用,Tim建議在雲GPU上進行最後的訓練之前,先使用一些廉價GPU進行原型開發。

初創公司的AI硬體:

有一系列初創公司在生產下一代深度學習硬體。但問題在於,這些硬體需要開發一個完整的軟體套件才能具有競爭力。英偉達和AMD的對比就是鮮明的例子。

小結:

總的來說,本地運算首選英偉達GPU,它在深度學習上的支持度比AMD好很多;雲計算首選谷歌TPU,它的性價比超過亞馬遜AWS和微軟Azure。

訓練階段使用TPU,原型設計和推理階段使用本地GPU,可以幫你節約成本。如果對項目deadline或者靈活性有要求,請選擇成本更高的雲GPU。

最終建議

總之,在GPU的選擇上有三個原則:

1、使用GTX 1070或更好的GPU;
2、購買帶有張量核心的RTX GPU;
3、在GPU上進行原型設計,然後在TPU或雲GPU上訓練模型。

針對不同研究目的、不同預算,Tim給出了如下的建議:

最佳GPU:RTX 2070

避免的坑:所有Tesla、Quadro、創始人版(Founders Edition)的顯卡,還有Titan RTX、Titan V、Titan XP

高性價比:RTX 2070(高端),RTX 2060或GTX 1060 (6GB)(中低端)

窮人之選:GTX 1060 (6GB)

破產之選:GTX 1050 Ti(4GB),或者CPU(原型)+ AWS / TPU(訓練),或者Colab

Kaggle競賽:RTX 2070

計算機視覺或機器翻譯研究人員:採用鼓風設計的GTX 2080 Ti,如果訓練非常大的網絡,請選擇RTX Titans

NLP研究人員:RTX 2080 Ti

已經開始研究深度學習:RTX 2070起步,以後按需添置更多RTX 2070

嘗試入門深度學習:GTX 1050 Ti(2GB或4GB顯存)

傳送門

http://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

除了教你選GPU之外,作者Tim Dettmers之前還寫過一篇包含了全套硬體的深度學習裝機指南,歡迎繼續閱讀:

深度學習裝機指南:從GPU到顯示器,全套硬體最新推薦

量子位AI社群開始招募啦,量子位社群分:AI討論群、AI+行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI+行業群需經過審核,審核較嚴,敬請諒解)

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

相關焦點

  • 深度學習GPU最全對比,到底誰才是性價比之王?
    搞AI,誰又沒有「GPU之惑」?張量核心、顯存帶寬、16位能力……各種紛繁複雜的GPU參數讓人眼花繚亂,到底怎麼選?從不到1000元1050 Ti到近30000元的Titan V,GPU價格的跨度這麼大,該從何價位下手?誰才是性價比之王?
  • 魅族16T對比紅米K20 Pro 誰才是年度性價比之王
    當然,在性價比這塊兒,除了看價格還要看配置和使用體驗,所以這裡我們通過一系列對比,來看看兩款手機誰才是性價比之王。在對比開始前,我們先看一下兩款手機的主要參數:4500mAh VS 4000mAh 手機續航能力之戰手機作為人們最常使用的電子設備,續航問題同樣是很多人關注的重點,因此我們也對兩款手機進行了續航測試。在測試開始前,我們看一下兩款手機的電池容量。魅族16T搭載了4500mAh的大電池,在今年的手機市場中這一電池電量也是排在前排。
  • 深度學習裝機指南:從GPU到顯示器,全套硬體最新推薦
    GPU顯卡(GPU)是深度學習的重要部件,甚至比CPU更重要。做深度學習不用GPU只用CPU顯然是不明智的,所以作者Tim先介紹了GPU的選擇。選購GPU有三大注意事項:性價比、顯存、散熱。使用16bit的RTX 2070或者RTX 2080 Ti性價比更高。
  • 2020性價比高洗衣機選購指南,建議收藏
    洗衣機,可以說是家庭和諧的必備電器,家裡可以沒有空調,但是必須要有洗衣機,洗衣機的出現除了解放勞動力以外,還大大促進了家庭的和諧,避免因為「誰洗衣服」而產生的家庭矛盾。作為回收上萬臺洗衣機的回收專家,愛博綠將綜合品牌、用戶反饋、回收情況、使用情況等因素,為大家做出獨具特色的洗衣機選購指南,希望大家購買洗衣機參考愛博綠,回收家電選擇愛博綠。一、選擇新機還是二手機?許多人認為二手機只有破損機,老舊機。
  • 《使命召喚16戰區》gpu滿閃退怎麼辦 gpu滿閃退解決方法介紹
    玩法技巧 | 常見問題 | 新手指南 使命召喚戰區gpu滿閃退怎麼辦?
  • 小米11與IQOO 7該選誰?兩者詳細對比!來看看誰才是性價比之王
    要說近期銷售火爆的手機,估計非小米11莫屬了,它以超高的性價比俘獲了不少消費者,但是現在不一樣了,它的最強對手來了,那就是IQOO 7,兩者性能參數幾乎都是頂級,今天讓我們來對比一下誰才是性價比之王。外觀之所以把外觀單獨拿出來講,是因為兩者一個是曲面屏一個是直屏。
  • 300元價位電動牙刷選購,BYCOO如何做到性價比之王?
    因此,一提起選購電動牙刷,想必對電動牙刷市場了解少的人,都有點不知道該如何下手,而買到一隻平價好用的電動牙刷更是難上加難。今天就給大家做一個三百元左右的平價電動牙刷的性能對比,看看哪款牙刷的性能和性價比更加符合大家的需求。
  • 2019年小白選購ipad指南(3)選購時的十七個問題
    而且全貼合屏幕,看起來也舒服,關鍵價格還便宜,64g也不到1500.一千多元的ipad還可以戰個幾年,挺值得購買的非全貼合屏幕會不會影響使用體驗如果你沒用過全貼合屏幕,那麼非全貼合不會對你有任何影響就好比你看劇,看1080p你可能覺得已經非常清晰了,當你看過藍光高清以後,你才會覺得1080p會有點模糊,就算是非全貼合屏幕,ipad依舊是全世界最優秀的平板之一
  • 「大川的指南」2020 年初 iPad 選購指南
    之所以會那麼說,就是因為接下來的選購指南可以非常清晰的給你一條選擇路徑。這條路徑有以下幾個判斷依據:娛樂性、功能性、觀賞性、便攜性。因為它可以顯示全尺寸網頁、因為它可以更爽快的玩遊戲、因為手機聊著天之外還有一個設備可以刷劇、因為它還有新的iPadOS。最重要的是,蘋果讓它滿血般出現(當然,拼夕夕能讓滿血版更便宜了一些)。
  • 銳龍5 5600X對比酷睿i7-10700K:誰才是性價比之王?
    不過在單線程以及遊戲性能上並不完美,也讓遊戲玩家在選購AMD處理器時有所顧慮。 同時人氣網遊《魔獸世界:暗影國度》已經正式降臨國服,吸引了一大批老玩家回歸,這兩顆處理器誰才是《魔獸世界:暗影國度》的最佳搭檔呢? 參數解析 AMD信誓旦旦地表示全新一代的銳龍5 5600X處理器在遊戲性能上比Intel酷睿i7-10700K強得多,那麼我們看一下銳龍5000處理器在性能上究竟有何提升。
  • 五款耳機強勢對比,誰才是性價比之王
    我想絕非全部;同理價格高昂也未必是精美產品,今天小編通過對比幾款耳機,讓大家買耳機少入雷區,買到性價比高的耳機。 首先我們來聊聊降噪能力:漫步者TWS NB2這款產品,作為一款無線降噪耳機,對比相同價位的OPPO W51,它不僅具備普通和降噪兩種聲音模式,更有遊戲和環境聲兩種極佳功能體驗
  • 七夕送禮選購指南,千元內性價比高的入耳式耳機推薦
    七夕送禮選購指南,千元內性價比高的入耳式耳機推薦在這炎熱的天氣中,真無線簡直就是我們的最愛!!頭戴式太悶!太熱!不透氣!不舒服!而有線的耳機又太!麻!煩!!!我們的標配就是它啦~~根據自身對耳機的經驗下來,以下是降噪效果比較佳的,千元內的入耳式降噪耳機一、Nank南卡A1降噪耳機藍牙:5.0防水:IPX5續航:☆☆☆音質:☆☆☆☆降噪:☆☆☆☆舒適度:☆☆☆☆開蓋即連,雙耳主耳,觸控式智能檢測外界的噪音,然後耳機發出與之相當的抗噪聲波來中和這部分噪音
  • 5款卸妝油測評,到底誰是性價比之王?
    下面這5款卸妝油,都是網上比較熱門的,通過測評,看看誰才是性價比之王。植村秀卸妝油這款大名鼎鼎的卸妝油一共有6個顏色,這款琥珀卸妝油是其中相對不油的,不僅能夠卸妝,還能養膚抗氧化。性價比超高,攫奪性價比之王,買買買!DHC卸妝油這款卸妝油知名度比較高,成分是橄欖油+迷迭香葉油,很溫和,就是膚感真的蠻油膩的,油皮使用可能會悶痘。這款卸妝油橄欖油分子小,滲透能力強,卸妝力中等,滋潤感足,溫和度極佳。
  • 雙十一平板選購指南:高端依然選iPad最香,但這幾款也值得買
    好像那句說了多年的「兩千以下看安卓,兩千以上看蘋果」在平板選購裡依然適用,但其實目前來看安卓平板的實力也開始在高端型號慢慢展現。那麼在雙十一預售開啟之際,也想為針對大家的選購需求,幫大家解讀並且推薦一些值得入手的型號。一些選購的注意事項1.關於選擇蘋果還是安卓,比預算更重要的是和自己手機系統配套。
  • 廚房家電品牌太多,請收好這份選購指南,都是性價比高的產品
    說起家電選購,買家電最省事的方法,就是認品牌。但是到真正選購時還是一臉蒙圈,找不到重點。很多家電使用起來都不順,讓生活處處有著不方便性,所以總結出來廚房家電選購指南,幫大家「避雷」。而在這些家電選購時,可以說被大多數家庭直接踩坑,針對這些問題,暢談裝修也是先給出品牌再選型號的解決方案,幫助你們少踩坑!
  • 對比GoPro,大疆和影石,到底誰才是現在最適合入手的運動相機?
    而隨著GoPro一家獨大的時代逐漸過去,現在的主流運動相機,哪一款現在最值得買呢?對比GoPro和大疆從外形我們就可以直觀地看出,大疆的這款運動相機,就是來「狙擊」GoPro的,所以自打發布也就受到了廣泛的關注。那麼到底osmo action到底成為比GoPro還要值得買的運動相機呢?我覺得是可以的。
  • 史上最全衝鋒衣選購指南,新手入坑,老司機補課
    這裡限於篇幅,暫時不展開對比每家面料的特點和優劣。那麼到底如何給這些千奇百怪的面料進行排序呢?這個對於初次選購衝鋒衣的小白來說幾乎無解,其實只要達到環境和運動的使用需求,就足夠了。 而重量也是一個不可迴避的問題,過於輕薄的極限衝鋒衣耐候性和耐磨度會相對較差,通常只用做應急品。
  • 新春GPU超值福袋!RTX3090包周/月特權0元搶!
    儘管追逐之路曲折,貨源短缺or經濟緊張,但擁有它,一定是大多數煉丹師們的小目標,沒辦法,誰讓RTX3090渾身透露著凡爾賽。比如,CUDA核心居然有10492個,顯存24GB,皆是RTX2080ti的兩倍多,至於架構和張量核心,直接向太上皇A100看齊,採用了安培架構以及第三代張量核心。
  • 【大的才爽!】大屏電視選購指南
    突然想到大家或許還會有這個需求,所以專門打算寫幾期,首先這一期為大家介紹一下選購電視需要注意的地方,後面會給大家推薦一些性價比不錯的電視,價位從千元到萬元不等。估計會寫個幾期吧,希望大家看著開心。那麼進入正題吧。19年可以說是電視爆發的一年,很多我們熟知的完全沒有涉獵的企業也開始加入戰局,比如華為。
  • 雙十一2020多價位高性價比筆記本電腦推薦!學生黨選購指南
    2、除此之外,大部分專業對學生的筆記本電腦配置沒什麼特別要求,在預算範圍內,選擇一款高性價比的品牌主流機子就行,足以應付大學生活中的作業、娛樂等需求。3、不少同學在選購時,會遇到選擇遊戲本還是輕薄本的糾結。其實同價位進行對比,遊戲本的配置普遍比商務本好很多,體驗更好,輕薄本的優勢是輕便、精緻。