首個Titan RTX深度學習評測結果出爐:2019年你該選擇哪款GPU?

2021-02-14 機器之心

選自 Lambda

作者:Michael Balaban

機器之心編譯

參與:李亞洲、李澤南

英偉達的新一代 GPU 旗艦 Titan RTX 用來跑深度學習速度如何?近日,AI 硬體供應商 Lambda Labs 對 Titan RTX,以及 RTX 2080 Ti 等常見 GPU 在各種深度學習訓練任務上的訓練速度進行了測試。

結果喜人,由於新一代的英偉達 GPU 使用了 12 納米製程的圖靈架構和 Tensor Core,在深度學習圖像識別的訓練上至少能比同級上代產品提升 30% 的性能,如果是半精度訓練的話最多能到兩倍。看起來,如果用來做深度學習訓練的話,目前性價比最高的是 RTX 2080Ti 顯卡(除非你必須要 11G 以上的顯存)。

Lambda 藉助 TensorFlow 對以下 GPU 進行了測試:

Titan RTX

RTX 2080 Ti

Tesla V100 (32 GB)

GTX 1080 Ti

Titan Xp

Titan V

注意,作者只對單 GPU 對常見神經網絡的訓練速度進行了測試。

結果總結

我們測試了在訓練神經網絡 ResNet50、ResNet152、Inception3、Inception4、VGG16、AlexNet 和 SSD 時,以下每個 GPU 每秒處理的圖像數量。

在 FP 32 單精度訓練上,Titan RTX 平均:

在 FP 16 半精度訓練上,Titan RTX 平均:

比 RTX 2080 Ti 快 21.4%;

比 GTX 1080 Ti 快 209.7%;

比 Titan Xp 快 192.1%;

比 Titan V 慢 1.6%;t

和 v100(32 GB)的對比還有待調整。

結論:2019 年最合適深度學習/機器學習的 GPU 是?

如果 11 GB 的 GPU 內存足夠滿足你的訓練需求(能滿足大部分人),RTX 2080 Ti 是最適合做機器學習/深度學習的 GPU。因為相比於 Titan RTX、Tesla V100、Titan V、GTX 1080 Ti 和 Titan Xp,2080Ti 有最高的性價比。

如果 11GB 的 GPU 內存滿足不了你的訓練需求,Titan RTX 是最適合做機器學習/深度學習的 GPU。但是,在下結論之前,試試在半精度(16 bit) 上的訓練速度。損失一定的訓練準確率,能有效地把 GPU 內存翻倍。如果在 FP16 半精度和 11GB 上的訓練還是不夠,那就選擇 Titan RTX,否則就選擇 RTX 2080 Ti。在半精度上,Titan RTX 能提供 48GB 的 GPU 內存。

如果不在乎價錢且需要用到 GPU 的所有內存,或者如果產品開發時間對你很重要,Tesla V100 是最適合做機器學習/深度學習的 GPU。

方法

所有模型都是在一個綜合數據集上訓練的,從而把 GPU 的表現與 CPU 預處理的表現隔離開,且降低偽 I/O 瓶頸的影響。

作者對每個 GPU/模型對進行了 10 組訓練實驗,然後取平均值。

每個 GPU 的「歸一化訓練表現」均為在特定模型上每秒處理圖像數量的表現與 1080Ti 在同樣模型上每秒處理圖像數量表現的比值。

Titan RTX、2080Ti、Titan V 和 V100 基準測試用到了 Tensor Cores。

硬體平臺

測試中採用的硬體平臺為 Lambda Dual 雙 Titan RTX 桌面平臺,包含英特爾 Core i9-7920X 處理器,64G 內存,看起來已經是最強桌上型電腦配置了。在測試時,Lambda 僅更換 GPU 配置。

Batch-sizes

系統軟體環境

Ubuntu 18.04

TensorFlow: v1.11.0

CUDA: 10.0.130

cuDNN: 7.4.1

NVIDIA Driver: 415.25

初始結果

下表顯示了在 FP32 模式(單精度)和 FP16 模式(半精度)下訓練時每個 GPU 的初始性能。注意,數字表示的是每秒處理的圖片數量,對數量進行了四捨五入。

FP32 - 每秒鐘處理的圖像數量

FP16 - 每秒鐘處理的圖像數量

自己運行基準測試

目前,Lambda Lab 的 GitHub 庫中已經提供了所有基準測試的代碼,你可以測試自己的機器了。

第一步:克隆基準測試的 Repo

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

第二步:運行基準測試

輸入正確的 gpu_index (default 0) 和 num_iterations (default 10)

cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

第三步:報告結果

./report.sh <cpu>-<gpu>.logs num_iterations

原文連結:https://lambdalabs.com/blog/titan-rtx-tensorflow-benchmarks/

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • 2020年深度學習最佳GPU一覽,看看哪一款最適合你!
    那麼如果你準備進入深度學習,什麼樣的GPU才是最合適的呢?下面列出了一些適合進行深度學習模型訓練的GPU,並將它們進行了橫向比較,一起來看看吧!使用Quadro RTX 8000結果進行標準化後的表現語言模型比圖像模型受益於更大的GPU內存。注意右圖的曲線比左圖更陡。這表明語言模型受內存大小限制更大,而圖像模型受計算力限制更大。具有較大VRAM的GPU具有更好的性能,因為使用較大的批處理大小有助於使CUDA內核飽和。
  • 時代變了,大人:RTX 3090時代,哪款顯卡配得上我的煉丹爐?
    近日,曾經拿到過斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在華盛頓大學讀博的知名評測博主 Tim Dettmers 發布了一篇新文章,就深度學習從業者如何選擇 GPU 發表了他的看法。眾所周知,深度學習是一個很吃算力的領域,所以,GPU 選得好不好直接決定了你的煉丹體驗。那麼,哪些指標是你在買 GPU 時應該重視的呢?RAM、core 還是 tensor core?
  • Nvidia RTX2080 Ti 是否值得入手?看看性能評測就明白了
    本文將分別在 Turing 2080 Ti 和 Pascal 1080 Ti 上用 TensorFlow 運行若干深度學習模型訓練任務,對兩種型號 GPU 性能進行評測。,然後取平均值;對特定模型,將兩種 GPU 上得到的每秒處理圖片數相除得到(2080 Ti 相比 1080 Ti 的)加速比;2080 Ti 具備 Tensor Core 硬體,我們在評測時也考慮並使用了該硬體加速;評測結果
  • 2020年搞深度學習需要什麼樣的GPU:請上48G顯存
    2020 年,什麼樣的 GPU 才是人工智慧訓練的最佳選擇?本文給出的結論似乎告訴我們,開發深度學習距離「普通人」越來越遠了。
  • 深度學習訓練時GPU溫度過高?幾個命令,為你的GPU迅速降溫
    首先得到知乎上一位朋友的文章啟發,文章點擊這裡:從零開始組裝深度學習平臺(GPU散熱)。一、如果你有顯示器(X server)可以完全按照上面提到的這篇文章來設置:從零開始組裝深度學習平臺(GPU散熱 )https://zhuanlan.zhihu.com/p/27682206這裡貼出關鍵步驟為:1.
  • 如何使用keras,python和深度學習進行多GPU訓練
    然而,它非常強大,能夠實施和訓練最先進的深度神經網絡。然而,我們對keras最感到受挫的一個原因,是在多GPU環境下使用,因為這是非常重要的。如果你使用Theano,請忽略它——多GPU訓練,這並不會發生。
  • 如何使用 Keras,Python 和深度學習進行多 GPU 訓練
    然而,它非常強大,能夠實施和訓練最先進的深度神經網絡。然而,我們對keras最感到受挫的一個原因,是在多GPU環境下使用,因為這是非常重要的。如果你使用Theano,請忽略它——多GPU訓練,這並不會發生。
  • 英偉達RTX 2080 Ti值得買麼?深度學習測試來了!
    Lambda Lab 出品 伊瓢 編譯 量子位 報導 | 公眾號 QbitAI英偉達新發布的RTX 2080 Ti跑深度學習怎麼怎麼樣
  • 基於TensorFlow使用RTX 2080 Ti深度學習基準(2020年)
    然後取平均結果。RTX 2080 Ti的縮放比例如下:2個RTX 2080 Ti GPU的訓練速度將比1個RTX 2080 Ti快1.8倍4個RTX 2080 Ti GPU的訓練速度將比1個RTX 2080 Ti快約3.3倍8個RTX 2080 Ti GPU的訓練速度將比1個RTX 2080 Ti快約5.1倍
  • 基於tensorflow的深度學習MultiGPU訓練實戰
    深度學習多卡訓練常見有兩種方式,一種是數據並行化(data parallelism),另外一種是模型並行化(model parallelism)。模型並行化:當一個模型非常複雜,非常大,達到單機的內存根本沒法容納的時候,模型並行化就是一個好的選擇。直觀說就多多個GPU訓練,每個GPU分別持有模型的一個片。它的優點很明顯,大模型訓練,缺點就是模型分片之間的通信和數據傳輸很耗時,所以不能簡單說,模型並行就一定比數據並行要快。
  • 為什麼深度學習和神經網絡需要GPU?
    研究深度學習和神經網絡大都離不開GPU,在GPU的加持下,我們可以更快的獲得模型訓練的結果。使用GPU和使用CPU的差別在哪裡?
  • 種草指南|2020深度學習GPU最全對比,哪款你最偏愛?
    下面列出了一些適合進行深度學習模型訓練的GPU,並將它們進行了橫向比較,一起來看看吧!CPU是一個有多種功能的優秀領導者。它的優點在於調度、管理、協調能力強,計算能力則位於其次。而GPU相當於一個接受CPU調度的「擁有大量計算能力」的員工。
  • 30系列顯卡搶不到,為了訓練大型CNN,我該不該入手2080 Ti?
    作者 | 青暮截至2020年11月,NVidia RTX
  • 深度學習模型訓練時如何優化GPU顯存?(附TF和Paddle優化方式)
    不知道大家在訓練深度學習模型時有沒有遇見過這種情況:設置的batch_size明明不大,譬如32或者16,但是怎麼一跑模型,GPU的顯存就佔滿了呢?原來我使用Tensorflow的訓練的時候發現是這樣,後來我使用PaddlePaddle的時候也是這樣,我以為是框架本身出了問題,但是仔細研究後才發現,其實這兩種框架都是在跑模型的時候,默認設置會把你的GPU顯存佔滿,需要手動去調整。
  • 假若你是狙擊手,給你四種狙擊槍選擇一款,你會選擇哪一款?
    導語:假若你是狙擊手,給你四種狙擊槍選擇一款,你會選擇哪一款?
  • 使用深度學習的單一圖像超解析度
    該示例演示了如何訓練vdsr網絡,並提供了預先培訓的vdsr網絡。如果您選擇培訓vdsr網絡,強烈建議使用具有cvida功能的nvidia™仇均,該網絡具有3.0或更高的計算能力。使用gpu需要並行計算工具箱™。
  • 【深度學習】基於TensorFlow + LabVIEW的工業缺陷檢測
    【新課上線】TensorFlow+目標檢測:龍哥教你學視覺—LabVIEW深度學習教程1、全網第一套LabVIEW進行深度學習訓練和模型部署的完整教程,滿足從業人員使用LabVIEW完成相關編程的需求;2、該套課程不需要有很強的LabVIEW視覺編程基礎,小白學員即可進行學習;3、該套課程不需要有很強的Python語言編程基礎,小白學員即可進行學習;4、LabVIEW對CPU上推理深度學習模型進行了優化,其運行速度和效率優於
  • 風雲MOD評測之RTX TITAN
    這一次,NVIDIA為Titan RTX起了個暱稱「T-Rex(霸王龍)」,代表當今地球最強的桌面顯卡。規格方面,Titan RTX集成了一顆完整的TU102核心(12nm工藝),內建4608個CUDA核心、576個Tensor張量核心、72個RT光線追蹤核心、288個紋理單元、96個ROP單元、24GB GDDR6顯存(384bit)。
  • 配置深度學習主機與環境(TensorFlow+1080Ti) | 第一章:硬體選購與主機組裝
    京東上就有使用雙路E5配合4路1080Ti所搭建的深度學習主機。不得已選擇上淘寶代購,結果大部分代購商家都拿不到貨,難怪大家都盼望著礦難。另外海淘顯卡推薦選擇EVGA,在臺灣有維修點,方便保修。 在風冷和水冷的選擇上糾結了很久,總擔心水冷過保之後會漏水,最終還是選擇了風冷。直接選擇京東上貓頭鷹最貴的一款(NOCTUA NH-D15 CPU散熱器),後期使用情況看,散熱不錯,噪音也不大。如果選擇水冷的話建議將冷排安裝在AIR540機箱的頂端,這樣可以避免頂端進灰。i7-6850K默認主頻2400MHz,開啟XMP之後,自動超頻為3200MHz。
  • tensorflow+目標檢測:龍哥教你學視覺—LabVIEW深度學習教程
    但是隨著數據增強技術,無監督學習的不斷進步,在某些應用場景上,這些缺點漸漸被隱藏了。例如學術界正在研究的,自動網絡結構設計,自動數據標註等等。所以作者認為隨著技術的發展,這個領域將會得到很大的提升,人工檢測終將會被機器檢測替代。然後你看到的無人工廠更加會無人化~目前深度學習從業人員薪資處於高位,且屬於人才緊缺的行業,就業前景廣闊。