NVIDIA CUDA 4.0 RC版發布新特性解析

2021-01-11 快科技

首次宣布一周之後，NVIDIA今天公開發布了GPU通用計算開發包的CUDA 4.0 RC候選版，並提供給開發人員下載使用。

如果你是一位GPU計算開發人員，或者對這方面有興趣，可以在NVIDIA官方網站上註冊並獲得這個新的開發包，地址為：
http://developer.nvidia.com/object/cuda_4_0_RC_downloads.html

CUDA 4.0作為一個全新版本，功能特性自然增加了不少，主要涉及應用程式移植的簡化、多GPU編程的加速、開發工具的增加和改進三個方面。下邊我們就結合NVIDIA的官方演示文稿，一起看看CUDA 4.0的新特性。

從超級手機到超級計算機：NVIDIA正在將自己定位成一家「超級」計算公司，CUDA 4.0就是這條路上的重要裡程碑。

CUDA發展之路：2007年1.0版，只有研究人員和一些嘗鮮者體驗；次年升級為2.0版，吸引了科學家和高性能計算領域；2009年3.0版，掀起了應用程式創新的風潮；如今4.0版誕生，意味著將有更廣泛的開發人員加入CUDA陣營。

CUDA 4.0三大進步：應用程式移植的簡化、多GPU編程的加速、開發工具的增加和改進。

為了簡化應用程式的移植，CUDA 4.0帶來了統一虛擬尋址(UVA)、GPUDirect 2.0、Thrust C++模板化算法與數據結構。

CUDA 4.0支持多個線程共享一個或者多個GPU，同時單個主線程也可以訪問所有GPU，可以充分發揮多GPU的聯合優勢，即使是單線程程序也能從多GPU中獲得更好性能。

無需拷貝的映射機制(No-copy Pinning)，減少系統內存佔用、避免過載，並且支持Windows、Linux系統和所有CUDA GPU。

相關焦點

NVIDIA發布CUDA 3.2正式版

在9月份推出CUDA Toolkit 3.2 RC發布候選版進行測試後，NVIDIA今天發布了最終正式版本的CUDA 3.2工具包。新版本在性能上有了明顯的提升，同時擴展了函數庫，改進了集群管理特性，當然還包括對新硬體的支持。
全新英偉達(NVIDIA)CUDA 4.0版本令並行編程更輕鬆

英偉達CUDA 4.0工具包旨在讓並行編程變得更加容易，並且讓更多開發人員能夠將應用程式移植到GPU上來。因此，該版本軟體包含下列三大特性: •英偉達™（NVIDIA®）GPUDirect™ 2.0技術 – 支持一臺伺服器或工作站內多GPU之間的點對點通信。這讓多GPU編程更加輕鬆並且能夠提升應用程式性能。
深度學習主機環境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0

下載頁面提供了很詳細的系統選擇和安裝說明，這裡選擇了Ubuntu16.04系統runfile安裝方案，千萬不要選擇deb方案，前方無數坑：下載的「cuda_8.0.27_linux.run」有1.4G，按照Nivdia官方給出的方法安裝CUDA8：sudo sh cuda_8.0.27_linux.run --tmpdir=/opt/temp/
centos7筆記本雙顯卡安裝nvidia並成功安裝cuda

事情是這樣發生的，一天下午下了班，我想在linux下開發和研究神經網絡模型，我通過gpuz發現我的筆記本nvidia顯卡是支持cuda的，那為何不用呢？所以我產生了一個需求，使用nvidia跑caffe模型。
開源之系統:Ubuntu誤刪nvidia驅動後安裝顯卡驅動和CUDA

不過由於3D建模軟體裡一個渲染問題，讓自己納悶，在想是不是驅動版本問題，於是從nvidia官網下載了一個驅動安裝，還提示錯誤。就試著卸載nvidia驅動一不小心sudo apt-get remove --purge nvidia*一個命令都清了。再看軟體和更新裡附加驅動裡啥都沒了。只能手動重新安裝。東拉西扯折騰一圈沒進展。官網下載的總是安裝錯誤。
開源之系統:Ubuntu20.04下誤刪nvidia驅動後安裝顯卡驅動和CUDA

不過由於3D建模軟體裡一個渲染問題，讓自己納悶，在想是不是驅動版本問題，於是從nvidia官網下載了一個驅動安裝，還提示錯誤。就試著卸載nvidia驅動一不小心sudo apt-get remove --purge nvidia*一個命令都清了。再看軟體和更新裡附加驅動裡啥都沒了。只能手動重新安裝。東拉西扯折騰一圈沒進展。官網下載的總是安裝錯誤。
QEMU 2.4.0-rc3 版發布,開源模擬器

2015年7月29日 QEMU 2.4.0-rc3 版發布，更多信息請參照下載頁面：http://wiki.qemu-project.org/download/qemu-2.4.0
GTX 1080+Ubuntu16.04+CUDA8.0+cuDNN5.0+TensorFlow

SM951 256GB SSD + WD Blue 4TB Desktop Hard Disk DriveMemory Kingston HyperX Fury 64GB (4 x 16G) DDR4 2400 RAM HX424C15FBK4/64……The system is Ubuntu16.04 64-bit, after the system ready,
Linux(Ubuntu18.04)NVIDIA顯卡驅動安裝和cuda安裝

lspci | grep -i nvidia輸入下行代碼可以查找對應的驅動程序。ubuntu-drivers devices安裝驅動可以用以下代碼：sudo apt-get install nvidia-driver-390或者下面的：sudo add-apt-repository ppa:graphics-drivers/ppasudo apt updatesudo ubuntu-drivers
官方下載:CUDA 4.1 GPU通用計算開發包

面向註冊開發者提供兩個多月之後，NVIDIA官方終於在官網上提供了新版本GUDA 4.1 GPU通用計算開發包的下載，而且版本也由之前的RC1版升級到4.1正式版（變化不大）。根據NVIDIA介紹，新版本的GUDA並行計算平臺使用起來將會更加簡單，通用性更強而且更快，新特性方面主要包含以下三點提升：1、重新設計的可視化分析器，具備自動性能分析及專家指導功能，為應用程式加速帶來更加便捷的途徑。
英偉達 (NVIDIA) 發布編譯器原始碼開放 CUDA 平臺

LLVM 是一款應用廣泛、採用模塊化設計的開源編譯器基礎架構，這種設計使其能夠輕鬆地支持新的程式語言和處理器架構。諸多領先企業將 LLVM 用於各種編程需求，這類企業包括 Adobe、蘋果、克雷以及美國藝電等等。基於 LLVM 的新款 CUDA 編譯器在架構方面增強了對英偉達並行 GPU 的支持。現已上市的最新版本 CUDA Toolkit (v4.1) 包含該編譯器。
Windows平臺搭建CUDA開發環境

nvidia顯卡不僅能用於玩大型遊戲，其並行計算模型CUDA在視頻領域也有非常廣泛的應用。像素格式轉換、視頻編解碼等需要大量計算的算法放入GPU中運行，可以大幅提高運行速度，降低CPU的使用率。要開發基於CUDA的應用，首先必須得先搭建開發環境。
手把手教你在 Ubuntu16.04 安裝 GPU 驅動 + CUDA9.0 + cuDNN7

4、在正式安裝驅動之前，請記住你的驅動的 .run 文件的下載路徑和完整的文件名。二、安裝 CUDA9.01、首先，登錄 CUDA 的下載網站：https://developer.nvidia.com/cuda-downloads由於現在 CUDA 的版本已經更新到 10 了，我們需要安裝 9.0 版本。因此，點擊 Legacy Releases，進入之前的版本列表。
katago安裝之nvidia篇

上一篇講了katago安裝之AMD篇，接下來我將分享cuda（nvidia）版的katago安裝。象nvidia的rtx顯卡系列，需要安裝這個版本。而且cuda版應該比opencl版執行效率高。為什麼呢，這是因為cuda是nvidia專有的，而opencl是一種標準。既然nvidia的cuda已經深入人心了，公司在支持opencl方面就不那麼積極。
NVIDIA正式發布CUDA 11工具包:專為安培架構優化

作為GPU加速應用領域最強大的軟體開發平臺，NVIDIA近日了發布全新的CUDA 11版本工具包，特別為新誕生的安培架構進行了優化。CUDA 11完全支持在安培新架構上進行開發，包括A100 GPU，以及基於它的DGX A100、HGX A100等多路系統，並支持安培架構的第三代Tensor張量核心，可針對不同數據類型加速混合精度矩陣計算，比如TF32、Bfloat16。
NVIDIA顯卡深度學習環境配置教程

以下操作均在ubuntu 16.04.4 下測試通過，其他發行版本可作參考。本文特別感謝@JIANGYP42、@449057978的編輯工作。CUDA官方安裝文檔：https://docs.nvidia.com/cuda/cuda-installation-guide-linux/cuDNN官方安裝文檔：https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html安裝NVIDIA顯卡驅動NVIDIA顯卡驅動一般有三種安裝方法:
英偉達(NVIDIA)發布CUDA Toolkit 3.2

英偉達™(NVIDIA®)CUDA Toolkit 3.2正式版(Production Release)包含諸多改進的全新數學庫，性能最高可達最新MKL的30倍。　　2010年11月17日 – 美國加利福尼亞州聖克拉拉市 –英偉達™(NVIDIA®)正式發布英偉達™(NVIDIA®)CUDA Toolkit 3.2正式版(Production release)。
Linux環境下安裝Nvidia顯卡驅動及深度學習組件

：在線安裝和本地安裝2.1cuda在線安裝CUDA在線下載連結:https://developer.nvidia.com/cuda-10.0-download-archive?安裝過程： sudo wget:https://developer.nvidia.com/cuda-10.0-download-archive?
英偉達™(NVIDIA®)發布CUDA Toolkit 3.2

2010年11月17日 – 美國加利福尼亞州聖克拉拉市 –英偉達™（NVIDIA®）於今日正式發布英偉達™（NVIDIA®）CUDA Toolkit 3.2正式版（Production release）。該版本軟體可實現大幅的性能提升、包含全新的數學庫以及先進的集群管理特性，適合這些開發新一代GPU加速應用程式的開發者使用。
CUDA系列(7) 使用MPS技術提升GPU利用率及多進程CUDA程序的性能

MPS服務開啟的步驟如下：1) 只可見需要運行MPS服務的GPU，例如0號設備：export CUDA_VISIBLE_DEVICES=02) 設置GPU為exclusive process計算模式（需要sudo權限）：sudo nvidia-smi -i 0 -c EXCLUSIVE_PROCESS

NVIDIA CUDA 4.0 RC版發布 新特性解析

相關焦點

NVIDIA發布CUDA 3.2正式版

全新英偉達(NVIDIA)CUDA 4.0版本令並行編程更輕鬆

深度學習主機環境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0

centos7筆記本雙顯卡安裝nvidia並成功安裝cuda

開源之系統:Ubuntu誤刪nvidia驅動後安裝顯卡驅動和CUDA

開源之系統:Ubuntu20.04下誤刪nvidia驅動後安裝顯卡驅動和CUDA

QEMU 2.4.0-rc3 版發布,開源模擬器

GTX 1080+Ubuntu16.04+CUDA8.0+cuDNN5.0+TensorFlow

Linux(Ubuntu18.04)NVIDIA顯卡驅動安裝和cuda安裝

官方下載:CUDA 4.1 GPU通用計算開發包

英偉達 (NVIDIA) 發布編譯器原始碼 開放 CUDA 平臺

Windows平臺搭建CUDA開發環境

手把手教你在 Ubuntu16.04 安裝 GPU 驅動 + CUDA9.0 + cuDNN7

katago安裝之nvidia篇

NVIDIA正式發布CUDA 11工具包:專為安培架構優化

NVIDIA顯卡深度學習環境配置教程

英偉達(NVIDIA)發布CUDA Toolkit 3.2

Linux環境下安裝Nvidia顯卡驅動及深度學習組件

英偉達™(NVIDIA®)發布CUDA Toolkit 3.2

CUDA系列(7) 使用MPS技術提升GPU利用率及多進程CUDA程序的性能

NVIDIA CUDA 4.0 RC版發布新特性解析

英偉達 (NVIDIA) 發布編譯器原始碼開放 CUDA 平臺