英偉達Volta架構深度解讀:專為深度學習而生的Tensor Core到底是...

2021-01-18 機器之心Pro

機器之心報導編輯:CZ、Jenny Huang、李澤南、吳攀、蔣思源

當地時間 5 月 8-11 日,英偉達在加州聖何塞舉行了 2017 年的 GPU 技術大會(GTC 2017)。機器之心作為本次大會的特邀媒體,也來到了現場。昨天,英偉達 CEO 黃仁勳在大會上正式發布了目前最先進的加速器 NVIDIA Tesla V100。之後,英偉達開發博客又更新了一篇深度解讀文章,剖析了 Tesla V100 背後的新一代架構 Volta,其在提供了更好的高性能計算支持之外,還增加了專門為深度學習所設計的 Tensor Core。機器之心在本文中對這篇博客文章進行了編譯介紹,同時還在文中加入了一些機器之心對英偉達應用深度學習研究副總裁 Bryan Catanzaro 的採訪內容。

在 2017 GPU 技術大會(GTC 2017)上,英偉達 CEO 黃仁勳正式發布了新一代處理器架構 Volta,以及使用新架構的第一款設備——適用於深度學習任務的加速卡 Tesla V100,英偉達將這塊顯卡稱為全球最先進的數據中心 GPU。

從語音識別到訓練虛擬助理進行自然交流,從探測車道線到讓汽車完全自動駕駛,數據科學家們在技術的發展過程中正一步步攀登人工智慧的新高度。而解決這些日益複雜的問題則需要日益複雜的深度學習模型,為深度學習提供強大的計算硬體是英偉達努力的目標。

圖 1. Tesla V100 加速卡內含 Volta GV100 GPU,以及 SXM2 Form Factor。

高性能計算設備(HPC)是現代科學的基礎,從預測天氣、發明新藥到尋找新能源,大型計算系統能為我們模擬和預測世界的變化。這也是英偉達在新一代 GPU 架構推出時選擇優先發布企業級計算卡的原因。黃仁勳在發布會上表示,全新的 Tesla V100 專為 HPC 和 AI 的融合而設計,同時採用了具有突破性的新技術。英偉達的新架構能否讓 GPU 再上一個臺階?讓我們隨著 Tesla V100 一探究竟。

揭秘新架構與 GPU 特性

Volta 並不是 Pascal 的升級,而是一個全新的架構!——NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro。

在 Nvdia GTC 2017 第三天下午,Nvidia CUDA 軟體首席工程師 Luke Durant 與 Nvidia 首席構架師 Oliver Giroux 進行了一個名為 Inside Volta 的技術講座,解讀了 Volta 構架的設計。此後機器之心作為不到五家受邀參與 Volta 深度採訪的亞洲媒體之一,成為了第一批深入了解 Volta 與 Tesla V100 的機構。

英偉達認為,硬體的可編程性正在驅動深度學習的發展。談到 Volta 對人工智慧帶來的影響時,英偉達副總裁 Bryan Catanzaro 表示,「Volta 提供大量的 FLOP,基於 Volta,人們就可以使用需要更多 FLOP 的模型。如今很多流行的模型都需要很大的計算資源,例如卷積,我個人認為架構上將會有一定的轉向,既更多地來利用更多地利用我們已有的大量的 FLOP。當然,構架的進化也會經過一個『達爾文』過程,最終最適應的會成為終極形態」

在本次 GTC 中,我們沒有看到聯網移動端晶片的身影或為移動端人工智慧計算性能提升進行的構架設計,關於這個問題,Volta 設計團隊表示,對於可以聯網的設備,通過 CPU 結合 GPU 的混合雲進行大量計算是必然趨勢;而對於無法聯網的應用場景,SOC 是更好的選擇。

Tesla V100:人工智慧計算和 HPC 的助推器

毫無疑問,全新的英偉達 Tesla V100 加速器是世界上性能最高的並行處理器,旨在為計算量最大的 HPC 設備、人工智慧和圖形工作任務提供支持。它的核心 GV100 GPU 包含 211 億個電晶體,而晶片面積為前所未有的 815 平方毫米(Tesla GP100 為 610 平方毫米)。它採用了臺積電(TSMC)的 12nm FFN 專屬工藝打造。與其前身 GP100 GPU 及其他 Pascal 架構的顯卡相比,GV100 提供了更強的計算性能,並增加了許多新功能。它進一步減小了 GPU 編程和應用程式移植難度,也通過製程的升級提高了 GPU 資源利用率。另外,GV 100 也是一款能效極高的處理器,其在單位功耗的性能上表現卓越。圖 2 給出了 ResNet-50 深度神經網絡在 Tesla V100 上進行訓練的性能表現。

對於 12nm 製程的選擇(AMD 準備在 2018 年推出使用 7nm 製程的顯卡),英偉達的首席工程師表示他們已在功耗和性能之間做出了最佳選擇。

圖 2. Tesla V100 在 ResNet-50 深度神經網絡訓練任務中的速度比 Tesla P100 快 2.4 倍。如果每張圖像的目標延遲是 7ms,那麼 Tesla V100 使用 ResNet-50 深度神經網絡進行推理的速度比 P100 快 3.7 倍(參與測試的 V100 為原型卡)。

Tesla V100 的主要計算特徵包括:

為深度學習優化過的新型流式多處理器(SM)架構。Volta 對 GPU 核心的 SM 處理器架構進行了重要的重新設計。新的 Volta SM 架構比前代 Pascal 設計能效高 50%,在同樣的功率範圍下 FP32 和 FP64 性能有重大提升。新的 Tensor Core 是專門為深度學習設計的,為浮點運算速度帶來了 12 倍的提升。有了獨立的、並行的整型和浮點型數據通路,Volta SM 在負載上也更高效,混合了計算與地址運算。Volta 新的獨立線程調度能力使得並行線程之間的細粒度同步協同(finer-grain synchronization and cooperation)成為可能。最終,新型的 L1 Data Cache 與 Shared Memory 子系統的結合也能極大地提升性能,同時還簡化了編程。第二代 NVLink。第二代英偉達 NVLink 高速互連技術能提供更高的帶寬、更多連接,同時還改進了多 GPU 和多 GPU/CPU 系統配置的延展性。HBM2 顯存:更快、更高效。Volta 高度調整的 16GB HBM2 顯存子系統提供了 900 GB/s 的峰值顯存帶寬。來自三星的新一代 HBM2 顯存和 Volta 中的新一代顯存控制器的組合實現的顯存帶寬是 Pascal GP100 的 1.5 倍,而且在許多負載上的顯存帶寬效率更高。Volta 多處理服務。Volta 多服務處理(MPS:Multi-Process Service)是 Volta GV100 的一項新特性,能夠為 CUDA MPS 伺服器的關鍵組件提供硬體加速,從而能為共享該 GPU 的多個計算應用提供更高的性能、隔離和更好的服務質量(QoS)。Volta MPS 還將 MPS 客戶端的最大數量從 Pascal 的 16 提升到了 Volta 的 48。增強統一存儲和地址轉換服務。Volta GV100 中的 GV100 統一存儲(GV100 Unified Memory)技術包括新型訪問計數器,讓訪問網頁最頻繁的處理器能更準確的遷移存儲頁。協作組(Cooperative Groups)和新的 Cooperative Launch API。協作組是 CUDA 9 中新的編程模型,用來組織通信線程組。Volta 增加了對新型同步模式的支持。最大性能和最大效率模式。在最大性能模式下,Tesla V100 加速器將不受限制的把 TDP(熱設計功耗)水平提高到 300W,從而加速需要最快計算速度和最高數據吞吐的應用。最大效率模式下,數據中心管理員可以調整 Tesla V100 加速器的功率使用,從而用單位功耗下最優的性能進行運算。為 Volta 優化過的軟體。Caffe2、MXNet、CNTK、TensorFlow 等這樣的深度學習框架的新版本,能夠利用 Volta 的性能來獲得更快的訓練速度、更高的多節點訓練性能。GPU 加速庫(比如 cuDNN、cuBLAS 等)的 Volta 優化版本利用 Volta GV100 架構的新特性能為深度學習和高性能計算應用提供更高的性能。

GV100 GPU 硬體架構

裝備有 Volta GV100 GPU 的英偉達 Tesla V100 加速器是目前世界上速度最快的並行計算處理器。GV100 的硬體創新十分顯著,除了為 HPC 系統和應用提供遠比現在更強的計算能力(如圖 3 所示)之外,它還可以大大加快深度學習算法和框架的運行速度。

圖 3:在各種 HPC 任務中,Tesla V100 平均比 Tesla P100 快 1.5 倍。(該性能基於 Tesla V100 原型卡)

Tesla V100 可以提供業界領先的浮點和整型計算性能。峰值計算速度(基於 GPU Boost 時鐘頻率):

雙精度浮點(FP64)運算性能:7.5 TFLOP/s;單精度(FP32)運算性能:15 TFLOP/s;混合精度矩陣乘法和累加:120 Tensor TFLOP/s。

與前一代 Pascal GP100 GPU 類似,GV100 GPU 由多個圖形處理集群(Graphics Processing Cluster,GPC)、紋理處理集群(Texture Processing Cluster,TPC)、流式多處理器(Streaming Multiprocessor,SM)以及內存控制器組成。一個完整的 GV100 GPU 由 6 個 GPC、84 個 Volta SM、42 個 TPC(每個 TPC 包含了 2 個 SM)和 8 個 512 位的內存控制器(共 4096 位)。每個 SM 有 64 個 FP32 核、64 個 INT32 核、32 個 FP64 核與 8 個全新的 Tensor Core。同時,每個 SM 也包含了 4 個紋理處理單元。

圖 4:帶有 84 個 SM 單元的完整 Volta GV100。

加上 84 個 SM,一個完整的 GV100 GPU 總共有 5376 個 FP32 核、5376 個 INT32 核、2688 個 FP64 核、672 個 Tensor Core 與 336 個紋理單元。每塊內存控制器都連接了一個 768 KB 的 2 級緩存,每個 HBM2 DRAM 堆棧都由一對內存控制器控制。一個完整的 GV100 GPU 包括了總共 6144 KB 的二級緩存。圖 4 展示了一個帶有 84 個 SM 單元的完整 GV100 GPU(不同產品可以使用不同的 GV100 配置)。Tesla V100 加速器使用了 80 個 SM 單元。

表 1. Tesla V100 與過去五年曆代 Tesla 加速器的參數對比

Volta SM(流式多處理器)

為提供更高的性能而設計的架構,Volta SM 比過去的 SM 設計有更低的指令與緩存延遲,也包括加速深度學習應用的新特性。

主要特性包括:

為深度學習矩陣計算建立的新型混合精度 FP16/FP32 Tensor Core。為更高的性能、更低的延遲而增強的 L1 數據緩存。為更簡單的解碼而改進的指令集,並減少了指令延遲。更高的速度和能效。

圖 5: Volta GV100 SM

Tensor Core:深度學習專用核心

新的 Tensor Core 是 Volta GV100 最重要的特徵,有助於提高訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 能夠為訓練、推理應用的提供 120 Tensor TFLOPS。相比於在 P100 FP 32 上,在 Tesla V100 上進行深度學習訓練有 12 倍的峰值 TFLOPS 提升。而在深度學習推理能力上,相比於 P100 FP16 運算,有了 6 倍的提升。Tesla V100 GPU 包含 640 個 Tensor Core:每個流式多處理器(SM)包含 8 個。

Tensor Core 非常省電,電力消耗大有可能將不再是深度學習的一大瓶頸。Bryan Catanzaro 表示:「通過底層數學計算的優化,Tensor Core 相較之前的構架要省電很多。深度學習的一個重要的限制是 energy efficiency,Tensor Core 在解決這個問題的方面相當突出。」

矩陣-矩陣乘法運算(BLAS GEMM)是神經網絡訓練和推理的核心,被用來獲得輸入數據和權重的大型矩陣的乘積。如下圖 6 所示,相比於基於 Pascal 的 GP100,Tesla V100 中的 Tensor Core 把這些運算的性能提升了至少 9 倍。

圖 6:Tesla V100 Tensor Core 和 CUDA 9 對 GEMM 運算有了 9 倍的性能提升。(在 Tesla V100 樣機上使用預發布的 CUDA 9 軟體進行的測試)

Tensor Core 和與它們關聯的數據通道進行了精心的定製,從而極大地提升了極小區域和能量成本下浮點計算的吞吐量。它也廣泛地使用了時鐘門控來儘可能節能。

每個 Tensor Core 包含一個 4x4x4 的矩陣處理陣列來完成 D=A x B + C 的運算,其中 A、B、C、D 是 4×4 的矩陣,如下圖 7 中所示。矩陣相乘的輸入 A 和 B 是 FP16 矩陣,相加矩陣 C 和 D 可能是 FP16 矩陣或 FP32 矩陣。

圖 7:Tensor Core 的 4x4x4 矩陣乘法與累加。

每個 Tensor Core 每個時鐘可執行 64 次浮點 FMA 混合精度運算(FP16 乘法與 FP32 累加),一個 SM 單元中的 8 個 Tensor Core 每個時鐘可執行共計 1024 次浮點運算。相比於使用標準 FP32 計算的 Pascal GP100 而言,單個 SM 下的每個深度學習應用的吞吐量提升了 8 倍,所以這最終使得 Volta V100 GPU 相比於 Pascal P100 GPU 的吞吐量一共提升了 12 倍。Tensor Core 在與 FP32 累加結合後的 FP16 輸入數據之上操作。FP16 的乘法得到了一個全精度結果,該結果在 FP32 和其他給定的 4x4x4 矩陣乘法點積的乘積運算之中進行累加。如圖 8 所示。

圖 8. Volta GV100 Tensor Core 流程圖

在程序執行期間,多個 Tensor Core 通過一組 warp 線程的執行而同時使用。warp 內的線程提供了 Tensor Core 來處理大型 16×16×16 矩陣運算。CUDA 將這些操作作為 Warp-Level 矩陣運算在 CUDA C++ API 中公開。這些 C++接口提供了專門化的矩陣負載,如矩陣乘法和累加,矩陣存儲操作可以有效地利用 CUDA C++程序中的 Tensor Core。

除 CUDA C++接口可直接編程 Tensor Core 外,CUDA 9 cuBLAS 和 cuDNN 庫還包含了使用 Tensor Core 開發深度學習應用和框架的新庫接口。英偉達已經和許多流行的深度學習框架(如 Caffe2 和 MXNet)合作以使用 Tensor Core 在 Volta 架構的 GPU 系統上進行深度學習研究。英偉達將繼續與其他框架開發人員合作以便在整個深度學習生態系統更廣泛地使用 Tensor Core。

增強的 L1 數據緩存和共享顯存

Volta SM 的 L1 數據緩存和共享顯存子系統的組合能顯著提高性能,同時也簡化了編程並減少了達到或接近峰值應用性能所需的時間成本。

在共享顯存塊中進行集成可確保 Volta GV100 L1 緩存具有比過去英偉達 GPU 中的 L1 高速緩存更低的延遲和更高的帶寬。L1 Volta 作為流式數據的高吞吐量導管(conduit),同時為經常復用的數據提供高帶寬和低延遲訪問,這兩個性能都是目前最好的。英偉達表示,這一特性是 Volta 獨有的,其提供比以往更強大的性能。

圖 9. 在 Volta 上,這些代碼在沒有使用共享顯存的情況下只有 7%的性能損失,而 Pascal 的性能下降了 30%。雖然共享顯存仍然是最佳選擇,但新 Volta L1 設計使程式設計師能夠以更少的編程工作而快速獲得足夠出色的性能。

表 2. 全新 GV100 與此前各代架構 GPU 的形式比較,GV100 GPU 支持全新的 Compute Capability 7.0。

獨立的線程調配

Volta 架構旨在設計為比以前的 GPU 更容易編程,令用戶能在更複雜和多樣的應用程式上高效地工作。Volta GV100 是第一款支持獨立線程調配的 GPU,其在並行線程指令中可以實現細粒度(finer-grain)的同步和協作。Volta 主要的設計目標是減少在 GPU 中運行指令所需的工作量,並在線程合作中實現更大的靈活度,這樣從而為細粒度並行算法提供更高的效率。

英偉達同時也展示了他們如何對 SIMT(單指令多線程)做出重大改進以推進 Volta 架構。32 線程內單個獨立的 CUDA 核現在只有有限的自主性;線程現在可以在一個細粒度層面上進行同步,並且仍然處於 SIMT 範式下,所以這就意味著更高的整體效率。更重要的是,獨立的線程現在可以放棄再重新安排在一起。這就意味著英偉達的 GPU 有一定數量的調度硬體(scheduling hardware)。

圖 10:Pascal 和早期的英偉達 GPU 在 SIMT warp 執行模式下的線程調配。大寫字母代表指令偽代碼中的語句。在一個 warp 中不同的分支是序列化的,這樣在分支一邊的所有語句一起執行以在另一邊語句執行前完成。在 else 語句後,warp 中的線程通常會重新映射。

圖 11:Volta(下方)獨立線程調配架構圖與 Pascal 和早期的架構(上方)相比較。Volta 會維持每個線程調配的資源,就像程序計數器(PC)和調用堆棧(S)那樣,而早期的架構以每個 warp 為單位維持。

圖 12:Volta 獨立線程調配令其可以交叉執行發散分支(divergent branches)的語句。這就允許執行細粒度並行算法,而 warp 內的線程也就能同步和通信。

圖 13:程序可以使用顯式同步來重新令 warp 中的線程收斂

圖 14:具有細粒度鎖(fine-grained locks)的雙向鍊表。在插入結點 B 到鍊表(右)前,需要獲取每一個結點鎖(左)

總結

根據目前公布的數字,Tesla V100 可以提供 15 TFLOPS 的 FP32、30 TFLOPS FP16、7.5 TFLOPS FP64 和高達 120 TFLOPS 的專用 Tensor 運算性能。由於 1455 MHz 的峰值運算速度,它相比前一代的 CUDA 理論 FLOPS 數據增長了 42%。Tesla V100 配備了 16G 的 HBM2 顯存,它的內存時鐘速度從 1.4 Gbps 提升至 1.75 Gbps,提升了 25%。

在 GTC 大會上,黃仁勳表示英偉達在研發 Tesla GV100 的過程中投入了 30 億美元的巨資,這是迄今為止英偉達投資最大的單個項目。第一塊量產型加速卡預計將在今年第三季度通過新一代超算模塊 DGX-1V 的形式進入市場,售價不菲(DGX-1V 售價 149,000 美元,內含 8 塊 Tesla V100,換算下來每塊 V100 約為 18,000 美元)。但因為其強大的計算能力,屆時必將出現不少買家。

相關焦點

  • TensorFlow與PyTorch之爭,哪個框架最適合深度學習
    那麼究竟哪種框架最適宜自己手邊的深度學習項目呢?本文作者從這兩種框架各自的功能效果、優缺點以及安裝、版本更新等諸多方面給出了自己的建議。如果你在讀這篇文章,那麼你可能已經開始了自己的深度學習之旅。如果你對這一領域還不是很熟悉,那麼簡單來說,深度學習使用了「人工神經網絡」,這是一種類似大腦的特殊架構,這個領域的發展目標是開發出能解決真實世界問題的類人計算機。
  • 日報| 英偉達發布兩款基於Pascal的深度學習晶片
    英偉達發布兩款基於Pascal的深度學習晶片9 月 13 日,NVIDIA(英偉達)在北京國際飯店會議中心召開 GTC China 2016 大會。同時,Pascal 架構能助推深度學習加速 65 倍,最新一代的架構 Pascal 是首個專為深度學習而設計的 GPU。
  • 深度解讀TensorFlow,了解它的最新發展!
    在前段時間的TensorFlow峰會上,TensorFlow 發布了面向 JavaScript 開發者的全新機器學習框架 TensorFlow.js。  TensorFlow.js 是一個開源的用於開發機器學習項目的 WebGL-accelerated JavaScript 庫。
  • 教程| 如何用TensorFlow在安卓設備上實現深度學習推斷
    對於個人和公司來說,存在許多狀況是更希望在本地設備上做深度學習推斷的:想像一下當你在旅行途中沒有可靠的網際網路連結時,或是要處理傳輸數據到雲服務的隱私問題和延遲問題時。邊緣計算(Edge computing)是一種在物理上靠近數據生成的位置從而對數據進行處理和分析的方法,為解決這些問題提供了方案。
  • 資料|白話深度學習與TensorFlow
    基礎篇(第1~3章),講解了機器學習、深度學習與實踐的上下文知識,如基本的機器學習與深度學習算法,TensorFlow框架的安全與配置,簡單的深度學習實踐。該篇是閱讀和實踐的基石。原理與實踐篇(第4~8章),介紹「老牌」的深度學習網絡的數學原理和工程實現原理,尤其是第4章,如果能基本讀懂,後面的網絡實現層面的問題基本都可以迎刃而解。
  • 外媒稱 NVIDIA 新架構 Volta 專為 AI 而生,對圖形性能並無幫助
    NVIDIA在今年發布了Volta架構,並陸續推出Tesla V100以及Titan V,此外還將推出針對車載的版本並用於DRIVE PX Pegasus上,然而根據外媒消息表示,由於Volta本身的架構是以深度學習與人工智慧需求所規劃,雖然同樣能用於消費級,但額外增加的架構對於
  • 英偉達Turing架構Quadro系列GPU國內首次亮相
    DoNews8月24日消息(記者 程侃如)8月23日,英偉達在第二十七屆北京國際廣播電影電視展覽會上介紹了採用全新Turing架構的全球首款光線追蹤GPU:NVIDIA? Quadro? RTX? GPU,並演示適用於廣電傳媒娛樂領域各類專業工作流程的技術與應用。
  • 除了實時光線追蹤,英偉達圖靈架構還有這些AI圖像處理能力
    前些天,英偉達發布全新GPU架構——Turing(圖靈),被黃仁勳視為十二年來英偉達GPU的最大飛躍,無疑是計算機圖形領域的遊戲改變者。圖靈架構最大核心亮點在於即時光線追蹤(Real Time Ray Tracing),能夠計算光線反射、折射、散射等路線,渲染出逼真的畫面,可為遊戲開發者提供電影級畫質的實時渲染,也就是讓遊戲看起來更像電影。據悉,這些新GPU依靠自身的一個特殊部分來快速呈現高解析度圖形,完成圖像的大部分成像工作後,使用人工智慧技術來猜測未完成的像素。
  • 最熱門的深度學習框架TensorFlow入門必備書籍
    但進入機器學習和人工智慧領域並不是一件簡單的事情,目前市場上有許多大量的學習資源,許多開發者和想要進入的愛好者往往很難找到適合自己的發展路徑。其實,早在 2015 年底,谷歌就開源了內部使用的深度學習框架 TensorFlow 。眾多研究表明,Tensorflow 是研究深度學習的首選平臺。
  • 自建GPU伺服器:搭建自己的深度學習PC - CIO頻道 - 企業網D1Net...
    搭建自己的GPU伺服器並不困難,這樣做還可以輕鬆地降低在雲中訓練深度學習模型的成本。 很多深度學習的實踐者們渴望在有生之年搭建自己的深度學習機器,擺脫雲的魔掌,這樣的時代就到來了。雲計算是開展深度學習的理想選擇,它往往是訓練大規模深度學習模型的最佳答案。
  • 程式設計師1小時完成深度學習Resnet,谷歌tensorflow多次圖像大賽冠軍
    閱前須知:為了使本文結構精簡,理解簡單,所以會儘量少涉及到有關數學公式,降低學習門檻,帶領讀者快速搭建ResNet-34經典模型並投入訓練。plain而言精度更高在以往的學習之中,我們知道深度網絡隨著層數的增加,很容易造成「退化」和「梯度消失」的問題,訓練數據的過擬合。
  • 專家解讀阿法狗原理:是「深度學習」
    它的致命法寶就是模仿人類的「深度學習」工作原理。機器到底是怎樣像人類一樣學習的?有一天它無所不能,人類的未來又將怎樣?北京晨報記者採訪了國內專家進行解讀。  阿法狗原理是「深度學習」  AlphaGo(阿法狗)由位於英國倫敦的谷歌旗下DeepMind公司開發。它的主要工作原理是「深度學習」。
  • 深度學習筆記8:利用Tensorflow搭建神經網絡
    作者:魯偉 一個數據科學踐行者的學習日記。
  • 為AI而生 「智」臻架構激活企業AI新潛能
    如何搶佔以人工智慧技術為引領的信息產業革命的高地,為企業布局未來人工智慧工作負載的需求提供堅實基礎架構平臺支持,市場呼喚一款真正專為AI設計優化的伺服器。浪潮FP5295G2伺服器應時而生,作為首個真正意義上基於POWER9晶片專為AI而生的基礎架構平臺,助力企業充滿信心地部署深度學習框架和加速資料庫等數據密集型工作負載。
  • python應用之基於tensorflow的數據擬合:深度學習之預測入門篇
    實驗目的:1、了解python在深度學習領域的應用2、學習安裝python第三方依賴庫實驗環境:已正確安裝python3.5以及依賴庫tensorflow、matplotlib預測過程展示:1、應用領域python是一種高級面向對象的動態類型語言,具有開發高效,學習簡單的特點,主要應用於大數據、深度學習、
  • 作為TensorFlow的底層語言,你會用C++構建深度神經網絡嗎?
    很多人都知道 TensorFlow 的核心是構建在 C++之上的,但是這種深度學習框架的大多數功能只在 Python API 上才方便使用。在本文中,我將展示如何使用 TensorFlow 在 C++ 上構建深度神經網絡,並通過車齡、公裡數和使用油品等條件為寶馬 1 系汽車進行估價。目前,我們還沒有可用的 C++ 優化器,所以你會看到訓練代碼看起來不那麼吸引人,但是我們會在未來加入的。
  • 雙倍的性能,雙倍的快樂:英偉達RTX 30系顯卡架構解析
    英偉達官方表示RTX 3080擁有2倍的RTX 2080的性能,而RTX 3070則超過了RTX 2080 Ti,至於最旗艦的RTX 3090更是能夠滿足8K解析度和60幀的終極目標,而第三代深度學習單元,第二代的RTX光追處理單元又讓新一代顯卡更加出色,那麼為什麼今年的30系顯卡如此給力,它又有什麼黑科技呢?
  • TensorFlow和Caffe、MXNet、Keras等其他深度學習框架的對比
    表 2-1 和圖 2-1 所示為對主流的深度學習框架 TensorFlow、Caffe、CNTK、Theano、Torch 在各個維度的評分,本書 2.2 節會對各個深度學習框架進行比較詳細的介紹。它可以同時運行多個大規模深度學習模型,支持模型生命周期管理、算法實驗,並可以高效地利用 GPU 資源,讓 TensorFlow 訓練好的模型更快捷方便地投入到實際生產環境」。除了 TensorFlow 以外的其他框架都缺少為生產環境部署的考慮,而 Google 作為廣泛在實際產品中應用深度學習的巨頭可能也意識到了這個機會,因此開發了這個部署服務的平臺。
  • 數據科學家必須知道的 10 個深度學習架構
    近年來,深度學習的發展勢頭迅猛,要跟上深度學習的進步速度變得越來越困難了。幾乎每一天都有關於深度學習的創新,而大部分的深度學習創新都隱藏在那些發表於ArXiv和Spinger等研究論文中。不同類型的計算機視覺任務各種深度學習架構何為深度學習「高級架構」?與一個簡單的機器學習算法相比,深度學習算法包含了更加多樣的模型。其中的原因是在建立一個完整的模型時,神經網絡具有很大的靈活性。有時,我們還可以把神經網絡比作樂高積木,可以用它搭建任何簡單或者複雜的小建築。
  • 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習
    人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 2018-06-05 11:36:53  來源:今日頭條