【經驗】深度學習如何挑選GPU?

2021-02-21 機器學習研究組訂閱

深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU的選擇將從根本上決定深度學習的體驗。因此,選擇購買合適的GPU是一項非常重要的決策。那麼2020年,如何選擇合適的GPU呢?這篇文章整合了網絡上現有的GPU選擇標準和評測信息,希望能作為你的購買決策的參考。

1 是什麼使一個GPU比另一個GPU更快?有一些可靠的性能指標可以作為人們的經驗判斷。以下是針對不同深度學習架構的一些優先準則:Convolutional networks and Transformers: Tensor Cores > FLOPs > Memory Bandwidth > 16-bit capability
Recurrent networks: Memory Bandwidth > 16-bit capability > Tensor Cores > FLOPs2 如何選擇NVIDIA/AMD/GoogleNVIDIA的標準庫使在CUDA中建立第一個深度學習庫變得非常容易。早期的優勢加上NVIDIA強大的社區支持意味著如果使用NVIDIA GPU,則在出現問題時可以輕鬆得到支持。但是NVIDIA現在政策使得只有Tesla GPU能在數據中心使用CUDA,而GTX或RTX則不允許,而Tesla與GTX和RTX相比並沒有真正的優勢,價格卻高達10倍。
AMD功能強大,但缺少足夠的支持。AMD GPU具有16位計算能力,但是跟NVIDIA GPU的Tensor內核相比仍然有差距。Google TPU具備很高的成本效益。由於TPU具有複雜的並行基礎結構,因此如果使用多個雲TPU(相當於4個GPU),TPU將比GPU具有更大的速度優勢。因此,就目前來看,TPU更適合用於訓練卷積神經網絡。3 多GPU並行加速卷積網絡和循環網絡非常容易並行,尤其是在僅使用一臺計算機或4個GPU的情況下。TensorFlow和PyTorch也都非常適合併行遞歸。但是,包括transformer在內的全連接網絡通常在數據並行性方面性能較差,因此需要更高級的算法來加速。如果在多個GPU上運行,應該先嘗試在1個GPU上運行,比較兩者速度。由於單個GPU幾乎可以完成所有任務,因此,在購買多個GPU時,更好的並行性(如PCIe通道數)的質量並不是那麼重要。4 性能評測1)來自Tim Dettmers的成本效益評測[1]https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/卷積網絡(CNN),遞歸網絡(RNN)和transformer的歸一化性能/成本數(越高越好)。RTX 2060的成本效率是Tesla V100的5倍以上。對於長度小於100的短序列,Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10進行基準測試。從這些數據可以看出,RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores進行16位計算的能力比僅僅擁有更多Tensor Cores內核要有價值得多。https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/ 以 Quadro RTX 8000 為基準的針對Quadro RTX 8000的圖像模型訓練吞吐量3) 來自知乎@Aero的「在線」GPU評測[4]https://www.zhihu.com/question/299434830/answer/1010987691大家用的最多的可能是Google Colab,畢竟免費,甚至能選TPU免費版主要是K80,有點弱,可以跑比較簡單的模型,有概率分到T4,有歐皇能分到P100。付費就能確保是T4或者P100,一個月10美元,說是僅限美國。Colab畢竟是Google的,那麼你首先要能連得上google,並且得網絡穩定,要是掉線很可能要重新訓練,綜合來看國內使用體驗不太好。免費送V100時長非常良心,以前很多人自己裝tensorflow用,但是現在已經不允許了,實測tensorflow pytorch都不給裝,必須得用paddlepaddle。那麼習慣paddlepaddle的用戶完全可以選這個,其他人不適合。不過似乎GPU不太夠,白天一直提醒高峰期,真到了22點後才有。5 建議

總體最佳GPU:RTX 2070 GPU

避免使用 :任何Tesla;任何Quadro;任何Founders Edition;Titan RTX,Titan V,Titan XP

高效但價格昂貴:RTX 2070

高效且廉價:RTX 2060,GTX 1060(6GB)

價格實惠:GTX 1060(6GB)

價格低廉:GTX 1050 Ti(4GB)。或者:CPU(原型設計)+ AWS / TPU(培訓);或Colab。

適合Kaggle比賽:RTX 2070

適合計算機視覺研究人員:GTX 2080 Ti,如果訓練非常大的網絡,建議使用RTX Titans

截至2020年2月,以下GPU可以訓練所有SOTA語言和圖像模型:

RTX 8000:48 GB VRAM

RTX 6000:24 GB VRAM

Titan RTX:24 GB VRAM

RTX 2060(6 GB):適合業餘時間探索深度學習。

RTX 2070或2080(8 GB):適合深度學習專業研究者,且預算為4-6k

RTX 2080 Ti(11 GB):適合深度學習專業研究者,而您的GPU預算約為8-9k。RTX 2080 Ti比RTX 2080快40%。

Titan RTX和Quadro RTX 6000(24 GB):適合廣泛使用SOTA型號,但沒有用於RTX 8000足夠預算的研究者。

Quadro RTX 8000(48 GB):價格相對較高,但性能卓越,適合未來投資。

[1] https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/[2] https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/[3] https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/[4] https://www.zhihu.com/question/299434830/answer/1010987691

想要了解更多資訊,請掃描下方二維碼,關注機器學習研究會

                                          

轉自:深度學習自然語言處理

相關焦點

  • 2020年深度學習如何挑選 GPU?這篇 GPU 最全攻略請查收
    深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU的選擇將從根本上決定深度學習的體驗。
  • 2020 年深度學習如何挑選 GPU?這篇 GPU 最全攻略請查收
    深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU
  • 2020年深度學習如何挑選GPU?這篇 GPU 最全攻略請查收
    關注 極市平臺 公眾號 ,回復 加群,立刻申請入群~深度學習是一個對計算有著大量需求的領域,從一定程度上來說,GPU的選擇將從根本上決定深度學習的體驗。因此,選擇購買合適的GPU是一項非常重要的決策。那麼2020年,如何選擇合適的GPU呢?
  • 深度學習中GPU和顯存分析
    ,耗資源,在本文,我將來科普一下在深度學習中:何為「資源」不同操作都耗費什麼資源如何充分的利用有限的資源如何合理選擇顯卡並糾正幾個誤區:0 預備知識nvidia-smi是Nvidia顯卡命令行管理套件,基於NVML庫,旨在管理和監控Nvidia GPU設備。
  • 一文教你如何挑選深度學習GPU
    1700 美元預算搭建深度學習機器(參見:教程 | 從硬體配置、軟體安裝到基準測試,1700 美元深度學習機器構建指南)。在今年 5 月,我在組裝自己的深度學習機器時對市面上的所有 GPU 進行了評測。
  • 實踐經驗分享:在深度學習中餵飽GPU
    ,但是 gpu 的使用率非常低,這基本可以確定瓶頸是在 cpu 的處理速度上了。後來查了一些資料發現 nvidia 有一個庫叫 dali 可以用 gpu 來做圖像的前處理,從輸入,解碼到 transform 的一整套 pipeline,看了下常見的操作比如 pad/crop 之類的還挺全的
  • 居然有免費的GPU可以跑深度學習代碼!
    後臺回復【入門資料】送你十本Python電子書作者:凌逆戰原文:https://www.cnblogs.com/LXP-Never/p/11614053.html從事深度學習的研究者都知道,深度學習代碼需要設計海量的數據,需要很大很大很大(重要的事情說三遍)的計算量,以至於CPU算不過來,需要通過GPU幫忙,但這必不意味著CPU的性能沒GPU強,CPU是那種綜合性的,GPU是專門用來做圖像渲染的,這我們大家都知道,做圖像矩陣的計算GPU更加在行,應該我們一般把深度學習程序讓GPU來計算,事實也證明GPU的計算速度比CPU塊,但是(但是前面的話都是廢話
  • 使用GPU和Theano加速深度學習
    摘要:Theano是主流的深度學習Python庫之一,亦支持GPU,然而Theano入門較難,Domino的這篇博文介紹了如何使用
  • 業界 | AMD的GPU現在可以加速TensorFlow深度學習了
    AMD 稱,這是該公司在實現深度學習加速上的重要裡程碑。ROCm 即 Radeon Open Ecosystem,是 AMD 在 Linux 上的開源 GPU 計算基礎環境。這次的 TensorFlow 實現使用了 MIOpen——一個適用於深度學習的優化 GPU 例程庫。目前,AMD 的深度學習加速解決方案已經官方支持 TensorFlow 和 Caffe 兩種框架。
  • 深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫
    首先得到知乎上一位朋友的文章啟發:從零開始組裝深度學習平臺(GPU散熱)。  一、如果你有顯示器(X server)可以完全按照上面提到的文章《從零開始組裝深度學習平臺》操作,這裡貼出關鍵步驟為:1.感謝原文知乎作者:張三  二、如果你沒有顯示器一般在ubuntu上搭建完深度學習環境後,許多朋友習慣把ubuntu的X桌面服務禁用掉,然後通過另一臺windows系統的電腦通過ssh來連接GPU機器使用。
  • 深度學習 | 介紹深度學習如何配置帶GPU電腦環境
    最近開始學習深度學習(Deep Learning)技術,特別是google的Tensorflow深度學習包開源後,深度學習已經成為大數據領域的重大計算革命
  • 教程 | 如何使用深度學習硬體的空餘算力自動挖礦
    如果沒有 GPU,現代深度學習是不可能發展到今天的水平的。即使是 MNIST 數據集上的簡單示例算法在 GPU 和 CPU 上運行速度的差別也有 10-100 倍。但是,當你沒有優化所有設置時,GPU 空閒的算力該作何用?
  • 深度學習環境搭建
    如果要學習如何在Linux作業系統中下載和安裝CUDA9.0、cudnn7.3、tensorflow_gpu1.10,請瀏覽本文作者的另外一篇文章《在谷歌雲伺服器上搭建深度學習平臺》,連結:https://www.jianshu.com/p/893d622d1b5a《在谷歌雲伺服器上搭建深度學習平臺》這篇文章中有部分內容是如何建立和連接雲虛擬機,這部分內容對於擁有Linux主機的讀者是無用的
  • 深度學習與LabVIEW(一)
    主要講述如何將深度學習模型應用在LabVIEW環境中,並修改深度學習模型訓練自己的數據集。
  • 一鍵搭建深度學習平臺,基於Docker/Mesos和NVIDIA GPU詳細教程
    NVIDIA GPU 可以大大加快 Deep Learning 任務的運行速度;同時, GPU 資源又是十分昂貴的,需要儘可能提高 GPU 資源的利用率。
  • 【CTO講堂】如何用Python一門語言通吃高性能並發、GPU計算和深度...
    本期邀請極驗驗證CTO黃勝藍帶來「如何用Python一門語言通吃高性能並發、GPU計算和深度學習 」的主題分享。歡迎加入CTO講堂微信群與業界大咖零距離溝通,1月7日本期講堂報名方式拖至文末查看。
  • 學深度學習的你有GPU了嗎
    可以說GPU是一種讓計算機視覺領域的從業者和無數遊戲玩家為之瘋狂的處理器,目前GPU是研發強大深度學習算法必備的硬體。了解完什麼是GPU後,我們說下GPU始祖——Geforce256。想要搞好深度學習,GPU是必備的,其適合深度學習的有三大理由,分別是高寬帶的內存、多線程並行下的內存訪問隱藏延遲和數量多且速度快的可調整的寄存器和L1緩存。接下來,我們詳細說說GPU與深度學習完美搭配的三大理由。首先,我們需要知道CPU是基於延遲優化的,而GPU是基於帶寬優化的。
  • 自建GPU伺服器:搭建自己的深度學習PC
    搭建自己的GPU伺服器並不困難,這樣做還可以輕鬆地降低在雲中訓練深度學習模型的成本。 很多深度學習的實踐者們渴望在有生之年搭建自己的深度學習機器,擺脫雲的魔掌,這樣的時代就到來了。雲計算是開展深度學習的理想選擇,它往往是訓練大規模深度學習模型的最佳答案。
  • 用GPU加速深度學習: Windows安裝CUDA+TensorFlow教程
    背景在Windows上使用GPU進行深度學習一直都不是主流,我們一般都首選Linux作為深度學習作業系統。但很多朋友如果只是想要了解深度學習,似乎沒有必要專門裝雙系統或者改用Linux。現實生活中,很多使用學校或者公司電腦的朋友也沒有操作權限改換系統。
  • 【深度分析】深度學習選GPU,RTX 20系列值不值得?
    如何選擇適合你的GPU?本文章深入分析這個問題,並提供建議,幫你做出最合適的選擇。深度學習常被戲謔為「煉丹術」,那麼,GPU於深度學習研究人員而言就是不可或缺的「煉丹爐」。深度學習是一個計算要求很高的領域,選擇什麼 GPU、選擇多少個 GPU 將從根本上決定你的深度學習體驗。如果沒有 GPU,可能需要好幾個月等待實驗完成,或者實驗運行一整天下來只是看到失敗的結果。