RTX 30系列GPU支持直連SSD,它會是AI「大殺器」嗎

2020-09-04 量子位

曉查 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

花將近一半的錢,買性能2倍的顯卡,真香。

在本周的產品發布會上,英偉達推出了RTX 30系列顯卡,只要5499元的價格,就能買到比1萬元RTX 2080Ti性能高出一倍的顯卡。

更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。

但發布會上另一項功能引起了機器學習社區的注意,那就是RTX IO,有了它以後你「煉丹」的速度可能更快了。

什麼是RTX IO?

RTX IO技術允許GPU在不使用CPU的情況下,將遊戲素材數據直接從SSD加載到GPU的顯存中。

過去,系統讀取固態硬碟(SSD)裡的數據時,需要由CPU來處理,然後釋放到內存(RAM)中,再由CPU交給GPU。

這樣一來一回,浪費了大量的時間不說,也浪費了GPU自身的解壓能力。如果以14GB/s來全速讀取PCIe 4.0 SSD的壓縮數據,需要消耗24個CPU核心。

尤其是個人開發者,一般不會用到這麼高規格的CPU。

RTX IO的作用就是解放CPU,用GPU來加速讀取壓縮數據。數據不會流過CPU和系統內存,而是直接交給GPU解壓,再放入顯存(VRAM)中。

英偉達表示,這項技術最多可以將數據I/O性能提升100倍。甚至PCIe 4.0 SSD的讀取極限已經跟不上GPU的解碼能力了。

雖然該功能主要是面向遊戲玩家,但對AI開發者來說也有重大意義。

因為AI的訓練和推理一般都是在GPU上進行的,傳統的數據讀取方式已經制約了「煉丹」的速度。

對於訓練大型數據模型,通常將數據加載和卸載到顯存上是AI工作負載的最大瓶頸。從CPU切換到GPU計算時,加載訓練數據通常是pipeline中最慢的部分。

一位開發者表示,在TensorFlow或PyTorch中運行AI模型時,從GPU加載和卸載數據會消耗大量時間。

這導致對於較小的模型,用GPU實際計算的時間反而比CPU更長

雖然GPU訓練和更新參數的速度要更快,但是向GPU加載和卸載數據比CPU慢得多,導致CPU訓練速度反而更快的現象。

專業卡技術首次下放

其實英偉達的GPU直連技術早已有之,在RTX 30系列顯卡發布以前,英偉達就有一個叫做GPUDirect的技術。

這也是在SSD和GPU之間建立直連通道,但是GPUDirect僅支持TeslaQuadro專業級顯卡。

英偉達過去的測試數據表明了這項技術對計算速度的巨大提升。

  • 直接在存儲設備與GPU之間傳輸數據,帶寬提高了2到8倍。
  • 降低延遲,讀取帶寬更平滑,實測端到端延遲降低了3.8倍。

  • 對CPU負載的侵入較小,不會干擾GPU負載。GPU佔用率接近零。
  • GPU的I/O帶寬提高到215GB/s,而過去的CPU僅有50 GB/s。

還有,在去年的GPU技術大會上,英偉達展示RAPIDS開源軟體項目中,通過數據直連,讓GPU處理數據幀加速了1.5至8倍。

 Output: 82.2 ms per loop%timeit pandas_df.a.mean() Output: 5.12 ms per loop%timeit cudf_df.a.mean()

RTX IO的推出,意味著3000系列可能是我們在消費級GPU中首次數據直連的技術。

如果你從事計算機視覺的研究,那麼RTX IO也許可以充分利用GPU解壓圖像的能力。

而且RTX IO現在僅支持Windows作業系統,未來何時支持Linux還是未知數。

像Keras,PyTorch或TensorFlow之類的通用庫也沒有提供支持,只有等到這些庫更新後,才能方便直接調用。

不過,RTX 30系列的性價比已經足夠高,即使短期內看不到RTX IO對機器學習的支持,也值得購。

那麼,你期待RTX IO功能嗎?你覺得它會對「AI煉丹」產生重大影響嗎?

參考連結:

https://www.reddit.com/r/MachineLearning/comments/ilvkyi/d_nvidias_rtx_3000_series_and_direct_storage_for/

https://developer.nvidia.com/gpudirect


— 完 —

量子位 QbitAI · 頭條號籤約

關注我們,第一時間獲知前沿科技動態

相關焦點

  • RTX 30系列GPU支持直連SSD,它會是AI煉丹「大殺器」嗎?
    在本周的產品發布會上,英偉達推出了RTX 30系列顯卡,只要5499元的價格,就能買到比1萬元RTX 2080Ti性能高出一倍的顯卡。 更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。
  • RTX30系列GPU支持直連SSD,它會是AI煉丹「大殺器」嗎?
    在本周的產品發布會上,英偉達推出了RTX 30系列顯卡,只要5499元的價格,就能買到比1萬元RTX 2080Ti性能高出一倍的顯卡。更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。但發布會上另一項功能引起了機器學習社區的注意,那就是RTX IO,有了它以後你「煉丹」的速度可能更快了。
  • AI如何讓瑞芯微展現特長?
    嵌入式ai簡稱邊緣籌劃,對比邊緣籌劃與ai籌劃,諸多的公司會多做些籌劃在pc,顯卡上,能力強的雲上籌劃就受到公司的重用,被允許平滑的做事情,但ai運算的及時性,運算速度,成本等都受到局限。此刻的問題是,各家npu的不同,讓以前在pc上的邊緣計算出現很多問題,浪費大量的時間熟悉不同的平臺,重點講一下vcap這個平臺,它是新設立的,能夠很好的為開發者提供快速運用ai計算,快速部署等一些列服務,讓用戶體驗差異化帶來的美好。在此期間,開發的過程充滿了困難,時間上也會久一些。雲開發平臺會為開發者提供一些經典案例,讓他們發揮創造力,成功率,效率,讓產品儘快面市。
  • 尚未發布的華碩和技嘉Ampere RTX 30系列GPU上市
    雙系列將會不同。根據ECC列表,Dual系列僅適用於RTX 3070 GPU(至少目前如此),並未提及華碩何時或是否會生產RTX 3080及更高版本的SKU。可能是因為RTX 3080和3090的高瓦數TDP額定值。
  • GPU-Z 2.34.0大更新:完整支持RTX 30、Intel 11代酷睿
    著名顯卡識別工具GPU-Z今天發布了最新的2.34.0版本,加入了對最新發布的NVIDIA RTX 30系列顯卡、Intel 11代酷睿的完整支持,可識別最新的GDDR6X顯存,並支持TU106/TU116核心版的新款GTX 1650。
  • RTX 3090 AI性能實測:FP32訓練速度提升50%
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAINVIDIA最近發布了備受期待的RTX 30系列顯卡。其中,性能最強大的RTX 3090具有24GB顯存和10496個CUDA核心。而2018年推出的旗艦顯卡Titan RTX同樣具有24GB顯存。
  • RTX 3090 AI性能實測:FP32訓練速度提升50%
    曉查 發自 凹非寺 量子位 報導 | 公眾號 QbitAINVIDIA最近發布了備受期待的RTX 30系列顯卡。RTX 3090在深度學習訓練任務中,性能表現究竟如何,它能否取代但是用於處理FP16的張量核心數量明顯減少,這可能會影響FP16性能。即便如此,張量核心更少的RTX 3090在很多FP16任務上,性能依然有小幅提升。
  • 微星承諾為所有400系列主板提供Zen 3支持
    AMD先前確認Zen 3將與400系列晶片組兼容。 但是,需要注意的是,那些主板的所有者感到非常緊張。 因為Ryzen 5000兼容性取決於主板製造商是否使用更新的BIOS來實現。並不是所有的主板製造商都承諾將他們的400系列主板與Zen 3兼容,但有一家已經宣布將對每一款機型都這樣做。微星將帶來Ryzen 5000系列的支持,以及其整個產品線的主板,無一例外。微星仍在確定發布細節,但公司計劃在2021年1月發布新固件。
  • 英偉達將發布RTX 3080 GPU 售價699美元
    來源:新浪VRNvidia今天發布了新的GeForce rtx3000系列顯卡。Nvidia已經對這些新卡進行了數周的測試,RTX 3080在正式發布之前也有大量的信息洩露。基於Nvidia新的安培架構,RTX 3080被設計用來繼承RTX 2080和2080 Ti卡,提高性能並支持光線跟蹤。Nvidia承諾RTX 3080的性能非常好,是RTX 2080的兩倍,甚至比Nvidia的RTX 2080 Ti卡更快。這款卡將配備10GB的GDDR6X內存,9月17日上市時售價為699美元。
  • 硬體加速渲染時代到來,RTX ON到底有多香?
    熟悉三維渲染的朋友都知道,cpu渲染是賊慢賊慢的,gpu的渲染效率大大降低了成本。
  • NVIDIA Studio驅動現已正式發布,支持RTX 30系列GPU
    9月NVIDIA Studio驅動(版本456.38)現已正式發布,它通過全新的GeForce RTX 30系列GPU支持創作者,NVIDIA DLSS技術也已應用於3D創意應用中。
  • 新HDMI數據線問世 Type—C可直連HDMI
    隨著Type-C接口的數碼設備越來越多,和傳統的僅支持HDMI接口的數碼設備的連接則成為了一個棘手的問題。    為解決這個問題,最近HDMI授權組織發布了一種新的HDMI Alternate Mode(Alt Mode),可以讓擁有USB Type-C接口的設備直連HDMI顯示器、電視,而不再需要轉接器。
  • NVIDIA CES特別直播:30系筆記本&桌面級RTX 3060登場
    GeForce RTX 30系列筆記本電腦將於本月底發布NVIDIA宣布推出70多款搭載GeForce RTX 30系列筆記本電腦GPU的機型,包括NVIDIA Ampere架構RTX 3080、3070和3060。售價999美元起的新一代筆記本電腦有著高達2倍的性能提升,並為輕薄筆記本電腦引入第三代Max-Q技術。
  • RTX 30系列顯卡發布:性能成倍提升,20系用戶已哭暈
    就在今天凌晨,英偉達終於召開了發布會,發布了全新一代RTX 30系顯卡,搭載全新的Ampere(安培)架構GPU。跳過不重要的部分,直接進入主題,大家期待已久的,RTX30系列顯卡,新一代GPU,擁有280億個電晶體,基於三星的8nm,英偉達定製工藝,三大處理核心均為圖靈GPU的兩倍速率,顯存則採用鎂光的G6X;老黃表示,不管是性能還是能效,Ampere(安培)都是過去圖靈的兩倍……兩倍?
  • RTX30顯卡加入SSD直連技術提升硬碟效率 提供API支持
    NVIDIA在昨天晚上發布的Ampere架構的30系顯卡中,加入了一項「黑科技」——NVIDIA RTX IO,這項技術能夠讓顯卡直連SSD數據傳輸,利用顯卡強大的並行性能,提升NVMe固態硬碟的性能效率。
  • 英偉達推出GeForce RTX系列遊戲筆記本電腦 都將具備VR功能
    由於所有筆記本電腦都配備了RTX 2060、2070或2080移動gpu,英偉達表示,從性能角度來看,它們都將達到「VR Ready」標準,但埠則是另一回事。雖然最近建立的VirtualLink標準旨在簡化事情,允許未來的VR頭顯從一個USB-C埠操作,但它不能只是任何USB-C埠,它必須連接到GPU;主板上的USB-C埠不會切斷它。
  • 首個Titan RTX深度學習評測結果出爐:2019年你該選擇哪款GPU?
    結果喜人,由於新一代的英偉達 GPU 使用了 12 納米製程的圖靈架構和 Tensor Core,在深度學習圖像識別的訓練上至少能比同級上代產品提升 30% 的性能,如果是半精度訓練的話最多能到兩倍。看起來,如果用來做深度學習訓練的話,目前性價比最高的是 RTX 2080Ti 顯卡(除非你必須要 11G 以上的顯存)。
  • PCIe SSD支持的ASPM是什麼?
    加nanoarch為微信好友,拉你進ssdfans微信群 。 ‍歡迎給ssdfans投稿,投稿就能加入ssdfans作者群,和冬瓜哥,蛋蛋等大咖切磋武藝,還有稿酬拿。做消費級SSD的廠商辣麼多,常見的PCIe主控就那麼幾款:SMI 2260,PS5007-E7,88SS1093和88NV1140 (三星這個大流氓就不提了)這些個主控都支持一個叫ASPM的功能,ASPM的全稱是Active State Power Management.
  • 英偉達的RTX Super GPU筆記本電腦已經到來
    英偉達宣布了其新的RTX 2080超級和RTX 2070超級移動gpu。這些是該公司針對筆記本電腦的頂級(也是最貴的)RTX卡,其性能優於該公司的標準RTX 2070和2080卡。去年7月,RTX超級卡首次出現在臺式機上,而標準的RTX移動gpu在2019年消費電子展後不久才推出。英偉達還將提供Max-Q配置(適用於輕薄遊戲筆記本電腦),並稱許多即將推出的筆記本電腦都將採用該配置。