低端卡也猖狂!GT220玩轉CUDA軟體指南

2020-12-17 泡泡網

低端卡也猖狂!GT220玩轉CUDA軟體指南

2009年10月30日 00:56作者:邱大川編輯:邱大川文章出處:泡泡網原創

    泡泡網顯卡頻道10月28日 半個月前,NVIDIA正式發布了其新一代低端顯卡產品GT220/GT210這兩款產品,其中的GT220由於具備了高規格、高性能以及諸多NVIDIA最新技術,受到了廣大消費者的關注。關於GT220顯卡的遊戲性能,我們從《滅殺老卡!NVIDIA新架構40nmGT220首測》這篇文章的實測中可以看到。

    我們之前已經對GT220的遊戲性能以及高清特性做了相應的文章,但並沒有太多的介紹GT220另一大特性——CUDA通用計算架構。實際上,GT220在通用計算方面也相對於前一代的低端產品9500、9600系列產品有很大的改進。本文,我們主要就是要介紹一下GT220在通用計算方面的改進,並且對目前常用的一些CUDA軟體進行實測介紹,如何使用GT220玩轉CUDA。

● 第二代統一架構 更加適合通用計算

    在G80以前,顯卡(GPU)的規格主要用管線(Shader,著色器)來形容,分為像素管線(Pixel Shader)和頂點管線(Vertex Shader)。到了第一代DX10顯卡G80時代,NVIDIA首次採用了「統一渲染架構」,將傳統的管線統一起來,每個Shader既可以處理原本像素管線的工作,也可以處理頂點管線的工作,並且這些流處理器還可以通過NVIDIA的CUDA處理非圖形運算。G8x以及G9x的核心都採用的是第一代統一渲染架構。

    到了GTX200時代,NVIDIA引入了「第二代統一架構」,細心的朋友可以看出這一代架構特地在名稱中去掉了「渲染」這兩個字,NVIDIA也正是通過這樣的方式來證明在這一代的產品中,「圖形渲染」和「通用計算」已經具有等同的重要性,GPU已經不單單是為了圖形渲染而生。

    GT220正是採用GTX200架構的產品,而且這是NVIDIA第一次將這種先進的架構普及到低端卡上。大家知道,GT220到來之前,低端市場主要是9600GSO、9500GT甚至9400GT等,而這些顯卡都採用的是和G80一樣的第一代統一渲染架構。雖然第一代統一渲染架構也能很好的處理通用計算,但NVIDIA認為該架構仍然有改進的潛力,於是改進後的GTX200核心出現了。GT220就是首款採用GTX200核心的低端顯卡。

    通過核心架構圖可以看到,GTX200總共擁有十個流處理器陣列,每個陣列內部擁有8×3=24個流處理器,其中每8個為一組構成SIMT(單指令多任務架構),並共享16K指令緩存,三組SIMT共享一級緩存。這樣的標量流處理器設計適合執行高度並行化指令,無論對於傳統的圖形渲染,還是物理加速運算、大規模數據處理都遊刃有餘。

    除了這些之外,GTX200核心相對於G80/G9x核心來說,還具備有以下特性:

1. 每個SM可執行線程上限提升
2. 每個SM的指令寄存器翻倍:
3.紋理單元和光柵單元都得到進一步改進
4.幾何著色性能增強

.....

    因此,第二代統一架構的主要含義,就是將圖形處理架構和並行計算架構完美的結合起來,成為一顆真正意義上的通用處理器,超越圖形處理器的概念!所以,在基於GTX200架構的產品中,如果你只看遊戲性能的話,你只看到了該產品一半的功能。

    自進入DX10時代以來,在GPU內集成高清硬體解碼單元已經成為了顯卡的標配,不過這方面的技術在之前一直是AMD領先。到了GT220這一代,高清方面的功能終於不再比A卡落後了。不僅僅可以完美硬體解碼H.264、VC-1等格式的高清視頻,並且GPU內還集成了音頻單元,可以直接通過顯卡輸出音頻。

    我們使用TotalMedia Theatre這款軟體簡單的測試了一下GT220顯卡在高清解碼方面的能力。上圖是未開啟GPU硬體解碼時(未使用GT220解碼)播放高清的情況,我們可以看到CPU佔用率為36%,而且極不穩定,遇到碼率高的場景CPU佔用率會急速上升。

    開啟這款軟體的硬體加速非常簡單,直接通過設置菜單中的視頻——啟用硬體加速,便可以使用NVIDIA顯卡進行硬體解碼高清視頻。下面是開啟硬體解碼加速(也就是使用GT220硬體解碼)之後CPU佔用率的變化情況。

    我們可以看到,當開啟GT220的GPU硬體加速之後,CPU佔用率馬上降到了12%左右,並且非常穩定,並沒有因為場景而導致CPU佔用率出現了很大的波動。可以看出,GT220的高清解碼性能確實非常不錯。

    BadaBoom是NVIDIA聯合Elemetal推出的一款視頻轉碼軟體,也是業內最早對NVIDIA CUDA提供支持的軟體,甚至可以說是專門為NVIDIA的CUDA技術開發出的一款商業軟體。通過這款軟體,用戶可以非常方便的利用NVIDIA GPU的計算能力為主流的設備轉換視頻,比如iphone、ipod touch、黑莓、youtube等等。

    BadaBOOM的界面簡單,不需要像其他軟體一樣首先要進行複雜的設置,而是選擇需要壓制的視頻和需要生成的格式即可。中間的滾動條可以設定轉換品質。不過,請記得的首先給NVIDIA的顯卡安裝最新的驅動程序,這樣才能更好的發揮GPU的各種功能。

    當然,如果你有一些比較特殊的要求,也可以點擊界面上的「高級」按鈕進入高級選項設置界面,其中可以設置解碼器、編碼器、解析度以及音頻設置等等。

    根據筆者的測試,使用標準版GT220顯卡將NVIDIA長度為1分50秒的720P高清視頻轉換成iPhone格式的mp4視頻,一共只花費了32秒。而且,如果視頻更長的話,性能提升的比例會更高。

相關評測:PSP/iPhone片友必看!GPU視頻編碼測試

下載:Badaboom Media Converter

    暴風轉碼是暴風網際公司推出的一款視頻轉碼軟體,其全中文化的界面以及幾乎支持所有視頻格式的特性受到了國人的喜愛。從1.0正式版開始,暴風轉碼就加入了CUDA技術,使得這款軟體轉碼的效率大幅度提升。

    使用暴風轉碼首先需要在設置中開啟CUDA編碼加速功能,很多新用戶可能找不到「設置」按鈕在哪兒,其實軟體界面右上角最小化按鈕左邊的倒三角中就是這款軟體的主菜單,其中就有「設置」這個項目。這樣做主要是為了使整個界面看起來更加簡潔。

    暴風轉碼不僅僅對源視頻格式幾乎全部支持,而且輸出的目標視頻也同樣如此,軟體預設可以給各大品牌的手機、MP4播放器以及其他設備轉碼,同樣用戶還可以完全自定義,將視頻轉換成自己喜歡的格式、解析度等。

    筆者測試了使用GT220顯卡將前一頁中我們提到的NVIDIA動畫片轉換成諾基亞N9x系列手機所支持的格式,從截圖中我們看出,僅僅19秒的時間就完成了這個視頻的轉換,效率之高令人咂舌。

    vReveal是來自MotionDSP公司推出的一款視頻增強、修復軟體,這款軟體號稱採用了《犯罪現場調查》級別的超解析度技術(super-resolution),該技術的原型是執法和情報部門所採用的法庭專用應用程式。該技術的算法原理其實也很簡單,就是通過分析連續多個視頻幀來重建單一幀畫面的細節,直至完整對整個視頻的修復和增強。

    很顯然,這款軟體同樣支持NVIDIA CUDA技術。軟體的幾大功能就是提升視頻的解析度、清晰度、抗抖動、抗噪點等等功能。

    使用這款軟體同樣需要開啟NVIDIA GPU加速功能,不過如果軟體檢測到系統使用的是NVIDIA顯卡,同時安裝好了驅動程序,會自動啟用CUDA相關加速功能。

    根據我們的測試,即使同時開啟這款軟體中的所有功能,GT220顯卡也完全可以流暢的實時計算並生成圖像,可以看出48個流處理器的GT220在通用計算方面的性能還是非常不錯的。

下載:vReveal


    以上我們僅僅列出了一些比較常用的CUDA視頻應用軟體,其實目前支持CUDA加速的軟體已經非常多,並且已經滲透到各行各業,沒有辦法做一一的介紹。總之,和上一代的低端顯卡相比,GT220擁有48個流處理器,CUDA加速完全沒有瓶頸。即使相對於同為48個流處理器的9600GSO來說,GT220採用的GTX200架構仍然可以獲得更好的表現。

    AIC索泰顯卡旗下一款GT220-1GD2激戰版已經到達賣場,報價499元,感興趣的可以關注一下。

    這款索泰GT220-1GD2激戰版採用GT220顯示核心,基於40nm製造工藝。內建48個Streaming Processor處理單元。特效方面,該顯卡支持DirectX 10.1與Shader Moder 4.1的技術。

    供電方面,索泰GT220-1GD2激戰版擁有核心兩相+顯存一相獨立供電,全部採用全封閉磁屏鐵素體電感、FP電容以及8pin貼片超低內阻MOS管,保證了顯卡穩定運行。

    顯存方面,索泰GT220-1GD2激戰版搭載了三星GDDR2顯存顆粒,組成了1024MB/128bit的顯存規格,顯卡默認核心/SP/顯存頻率為625/1000/1360MHz。

    索泰GT220-1GD2激戰版提供了HDMI 1.3a(HDCP、7.1聲道數字音頻輸出)+DVI+VGA輸出接口設計,滿足大部分用戶的使用需要。

● 映眾GT220至尊海量版 599元

  映眾(Inno3D)Geforce GT220至尊海量版為映眾慣用的綠色PCB設計,採用NVIDIA公版P681 PCB。該卡基於GT216核心,核心編號為GT216-300-A2。規格方面擁有48個流處理器,顯存方面位寬為128Bit,從規格上來看GT220除了在製程上要優於9500GT外,在流處理器和頻率上也高於9500GT。

    供電部分,由於核心採用40nm工藝製程,其對於供電的要求並不高,因此顯卡配備的1+1相供電已經足以滿足GT220的供電需求。可以看到,映眾(Inno3D)Geforce GT220至尊海量版採用的是全固體電容用料,壽命更長,穩定性也更強!顯存部分提供了獨立的一相供電,能夠明顯提升顯存的使用穩定性,超頻能力。

    顯存部分,映眾(Inno3D)Geforce GT220至尊海量版採用的是三星SDDR3顯存顆粒,一共八顆組成了1GB/128Bit的規格。核心顯存頻率為公版的625/1580MHz,還有相當大的超頻空間。

  製程的改進使GT216-300-A2核心功耗與發熱量大減,而映眾(Inno3D)Geforce GT220至尊海量版還是採用散熱性能非常出色的鰭片式散熱器對核心進行散熱,在靜音與散熱方面也可以取得較好的平衡。

  視頻輸出方面採用了非常實用的DVI+HDMI+VGA組合。值得注意的是,GT220首次核心集成了音頻單元,可以輕鬆實現HDMI音/畫一線輸出,對於HTPC玩家來言,HDMI接口更是為欣賞高清提供了最大的方便。

  目前這款映眾(Inno3D)Geforce GT220至尊海量版的報價為599元,在現有的GT220中來看,價格不算便宜。但一分錢一分貨,該卡配置強大,從做工用料來看,這款映眾(Inno3D)Geforce GT220至尊海量版的表現還是相當不錯的。近期想要購買主流級顯卡的用戶而言,不妨關注下。

    來自紅魔耕昇顯卡旗下的GT220紅纓版上市,現在僅售499元。GT220採用40nm工藝製造,在和9系列顯卡同性能的情況下,功耗只有9系列顯卡的30%。

    顯卡核心代號GT216,提供48個流處理器,輸出接口包括VGA、DVI、HDMI和DisplayPort。GeForce GT 220支持DirectX 10.1、OpenGL 3.0、PureVideo、PhysX、CUDA、PCI-E 2.0等技術,通過了Windows Vista認證,並支持Windows 7各項新特性。

    散熱方面,由於該顯卡功耗不高,散熱器只是採用普通的鋁熱擠壓工藝製成的散熱片,再搭配一個低噪音風扇,完全可以達到良好的散熱效果。

    供電方面,產品採用2+1相封閉式供電,配合使用全固態電容,有效提升了產品的品質,產品超頻潛力也得到了提升。

    顯存方面,採用GT216核心,核心頻率、Shader頻率分別為650MHz、1414MHz,板載512M 128bit DDR3存,顯存頻率為1800MHz。

    接口部分,顯卡提供了HDMI、D-Sub和DVI-I接口,NVIDIA本次在GT220顯卡上集成了Audio解碼單元,高清用戶觀看HDMI影視採用顯卡直接連接液晶電視,就可以實現視頻和音頻同步輸出的功能。

    銘瑄顯卡旗下的GT220變形金剛版正式上市,並打出了499元的報價。銘瑄「變形金剛」系列已經在市場上傳承了幾代顯卡。其以不俗的散熱和優異的性價比打動了很多朋友。

  

    它在顯存方面則採用奇夢達的1.0ns GDDR3顯存,組成512M/128bit的顯存規格,默認顯存頻率為1800MHz,核心頻率/流處理器頻率為625/1800MHz。

    從我們之前的測試結果來看,對於主流的DX9遊戲,這款銘瑄GT220變形金剛高清版都能達到流暢運行的標準,而DX10和DX10.1遊戲則相對有些吃力。不過從市場定位來看,這款顯卡主要面向日常辦公和高清用戶,除了CUDA解碼與編碼、PhysX等原有功能外,顯卡還加入了對DX10.1的支持以及Flash硬體加速功能。所以拋開純粹的遊戲性能不談,豐富的功能以及較低功耗和高清播放方面的優勢,才是這款顯卡的賣點所在。■

0人已贊

相關焦點

  • CUDA優化的冷知識 8 |GPU顯存的特色
    )大家可以訪問:https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html 來閱讀原文。例如說, 低端的只有幾個TFlops或者TIOPS的卡, 可能往往配備128-bit的GDDR5/6的顯存, 帶寬本身就較低. 一般這種搭配, 對於很多算法實現, 總是計算性能夠, 而訪存帶寬不夠的. 所以出現了這種現象。
  • 從零開始:深度學習軟體環境安裝指南
    本文將向你解釋如何在一臺新裝的 Ubuntu 機器上安裝 Python 和 Nvidia 硬體驅動、各類庫和軟體包。為了進行強化學習研究,我最近購置了一臺基於 Ubuntu 和英偉達 GPU 的深度學習機器。儘管目前在網絡中能找到一些環境部署指南,但目前仍然沒有全面的安裝說明。
  • CUDA之CUDA編程模型概述(一)
    所以我們要區分一下兩種設備的內存:注意這兩個內存從硬體到軟體都是隔離的(CUDA6.0 以後支持統一尋址),我們目前先不研究統一尋址,我們現在還是用內存來回拷貝的方法來編寫調試程序,以鞏固大家對兩個內存隔離這個事實的理解。一個完整的CUDA應用可能的執行順序如下圖:
  • 讓 Windows 的 R 用上 CUDA
    R 是一個統計學經常用到的軟體,提供了非常多的統計學函數。 但是它是一個單線程解釋語言,面對大數據量的時候,往往性能跟不上,可以利用 Rcpp 編寫 C++ 包提供給 R 使用,可以大大提高性能。 而對於大規模數據的處理,使用 CUDA 則是一個非常好的解決方案。
  • 系統性學習CUDA編程的推薦資料
    https://developer.nvidia.com/blog/even-easier-introduction-cuda/針對初學者,對統一內存的說明。https://developer.nvidia.com/blog/unified-memory-cuda-beginners/如果在1基礎上對CUDA產生濃厚興趣了,那麼下一步動手實踐。
  • 推薦幾個不錯的CUDA入門教程(非廣告)
    NVIDIA CUDA C++ Programming Guide「地址:」https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html這是英偉達官方的CUDA編程教程,但是我英文一般
  • CUDA系列學習(二)(轉)
    所以很多算法基本上不是卡在計算瓶頸,而是傳輸帶寬。(三)、CUDA Context一個CUDA Context類似於一個CPU進程。程序在Initialization的時候,runtime給每個device創建一個CUDA context,這個context在所有host threads中共享。
  • Numba:用CUDA加速的高性能Python編譯器
    import numpy as np  from numba import vectorize  @vectorize(['float32(float32, float32)'], target='cuda')  def Add(a, b):  return a + b  # Initialize arrays
  • cuda 安裝 小記.
    linux 桌面安裝:https://aws.amazon.com/cn/premiumsupport/knowledge-center/connect-to-linux-desktop-from-windows/教訓: cuda
  • 【CUDA學習筆記】第八篇:源碼編譯OpenCV+CUDA模塊(完整源碼打包一次成功編譯)
    1、OpenCV+CUDA+Contrib的源碼編譯2、OpenCV+CUDA+Contrib的測試3、源碼級相關難下載文件的集成下載(附連結)1、OpenCV+CUDA+Contrib的源碼編譯1、cmake軟體打開,選擇opencv源碼文件夾
  • CUDA編程學習系列1
    float *x, *y; cudaMallocManaged(&x, N*sizeof(float)); cudaMallocManaged(&y, N*sizeof(float)); ...
  • 夢幻西遊:CBG輔助真猖狂!自動撿漏少零貨,年收入可過百萬!
    廢話不多說,讓我們先進入本期的夢幻精選資訊吧~TOP1:破爛莊神器,160封印+不磨的槍,就差雙加了五莊觀這個門派從遠古時期到現在,一直都是最強的封印門派,就是打造成本有些偏高,跟女兒村一樣並不適合中低端的平民玩家去玩。
  • 寫CUDA到底難在哪?
    之間交互,有時需要採用異步編程,從而隱藏Host的延時;有時需要考慮如何對任務進行拆分,充分利用Host和Device各自處理能力4、在Device內存受限時,也有多種選擇:有時候需要將這個算子計算放到Host上;有時候需要將部分內存先放置到Host上,在合適的時間再搬回Device上;有時候將之前的結果丟棄,從而讓渡一部分空間,在需要的時候再重新計算5、再進一步在大規模並行訓練中,多機、多卡分布式調優面臨更多的問題
  • 解讀CUDA C Programming Guide 第三章第2節之Initialization
    cuda initializaiton的作用其中一個就是創建 cuda context。cuda context 非常重要,它是管理所有對象的生命周期的容器,大多數的CUDA函數調用需要context。這些對象如下:調用這些函數的時候,需要已經有context存在了。
  • 【CUDA學習筆記】第一篇:一個基本的CUDA C程序(附配置方法和安裝包下載方式)
    它只支持NVIDIA GPU卡。OpenCL則用來為其他類型的GPU編寫並行代碼,比如AMD和英特爾,但它比CUDA更複雜。CUDA可以使用簡單的編程API在圖形處理單元(GPU)上創建大規模並行應用程式。    使用C和C++的軟體開發人員可以通過使用CUDA C或C++來利用GPU的強大性能來加速他們的軟體應用程式。
  • CUDA在MFC中的聯調方法實例
    d:\programming\cuda\sdk\common\inc  Library files:  d:\programming\cuda\toolkit\lib  d:\programming\cuda\sdk\common\lib  Source files:d:\programming\cuda\sdk\common
  • 手把手教你安裝深度學習軟體環境(附代碼)
    本文向你解釋如何在一臺新裝的 Ubuntu 機器上安裝 Python 和 Nvidia 硬體驅動、各類庫和軟體包。為了進行強化學習研究,我最近購置了一臺基於 Ubuntu 和英偉達 GPU 的深度學習機器。儘管目前在網絡中能找到一些環境部署指南,但目前仍然沒有全面的安裝說明。另外,我也不得不閱讀了很多文檔來試圖理解安裝細節——其中的一些並不完整,甚至包含語法錯誤。
  • 10個深度學習軟體的安裝指南(附代碼)
    本文長度為2385字,建議閱讀4分鐘本文為你介紹10個深度學習軟體安裝指南