如何利用稀疏性提高AI推理速度?

2020-09-03 廣州直通車

如果你玩過疊疊樂,那麼就可以把AI稀疏性(sparsity)想像成是疊疊樂。

遊戲參與者首先將積木塊交錯堆疊成一座積木塔。然後,每名玩家輪流取出一塊積木,過程中玩家必須小心翼翼的,不能讓積木塔倒塌。

遊戲開始的時候,抽取積木很容易,但越往後進行就會變得越驚險,最後必定會有一名玩家在取出積木時碰倒整個積木塔。

多年來,研究人員們一直在研究如何通過稀疏性加速AI,其過程就像是在玩兒數字版的「疊疊樂」。他們嘗試著儘可能多地從神經網絡中抽出多餘參數,同時又不破壞AI的超高精度。

這樣做是為了減少深度學習所需的矩陣乘法堆,從而縮短取得準確結果的時間。但到目前為止,還沒有出現「大贏家」。

過去,研究人員嘗試了多種技術,抽出部分的權重甚至達到了神經網絡的95%。但是,在整個過程中,他們所花的時間要遠多於他們所節省的時間,而且他們還需要付出巨大的努力來彌補精簡後的模型精度。此外,適用於一種模型的精簡方法往往並不適用於其他模型。

但如今,這一問題得到了解決。

數字稀疏

NVIDIA Ampere架構為NVIDIA A100 GPU帶來了第三代Tensor Core核心,其可以充分利用網絡權值下的細粒度稀疏優勢。相較於稠密數學計算(dense math),最大吞吐量提高了2倍,而且不會犧牲深度學習的矩陣乘法累加任務的精度。

測試表明,這種稀疏方法在許多AI任務(包括圖像分類、對象檢測和語言翻譯)中使用,都能保持與使用稠密數學計算相同的精度。該方法還已在卷積神經網絡和遞歸神經網絡以及基於attention的transformer上進行了測試。

A100使用稀疏矩陣加速AI推理任務

內部數學加速能夠對應用層面產生重大影響。A100 GPU可以利用稀疏性運行BERT(BERT是最新的自然語言處理模型),其運行速度比稠密數學計算快50%。

NVIDIA Ampere架構利用了神經網絡中小值的普遍性,讓儘可能多的AI應用受益。具體而言,該架構定義了一種可以減少一半權值(50%稀疏)來訓練神經網絡的方法。

少即是多,但前提是正確

一些研究人員使用粗粒度的剪枝方法從神經網絡層中切斷整個通道,這往往會降低網絡精度。而NVIDIA Ampere架構中的方法採用了結構化稀疏和細粒度修剪技術,因此不會明顯降低精度,用戶可以在重訓練模型時進行驗證。

在將網絡修剪到合適狀態後,A100 GPU將自動完成其餘工作。

A100 GPU中的Tensor Core核心能夠有效地壓縮稀疏矩陣以實現合適的稠密數學計算。跳過矩陣中的實際值為零的位置能夠減少計算量,從而節省功耗和時間。壓縮稀疏矩陣還可以減少佔用寶貴的內存和帶寬。

我們對稀疏性的支持是NVIDIA Ampere架構中的眾多新功能之一,它將AI和HPC性能推向新的高度。

相關焦點

  • 如何利用稀疏性提高AI推理速度
    NVIDIA Ampere架構使數學運算速度加倍,為各種神經網絡處理提速。如果你玩過疊疊樂,那麼就可以把AI稀疏性(sparsity)想像成是疊疊樂。遊戲參與者首先將積木塊交錯堆疊成一座積木塔。多年來,研究人員們一直在研究如何通過稀疏性加速AI,其過程就像是在玩兒數字版的「疊疊樂」。他們嘗試著儘可能多地從神經網絡中抽出多餘參數,同時又不破壞AI的超高精度。這樣做是為了減少深度學習所需的矩陣乘法堆,從而縮短取得準確結果的時間。但到目前為止,還沒有出現「大贏家」。過去,研究人員嘗試了多種技術,抽出部分的權重甚至達到了神經網絡的95%。
  • 模擬內存計算如何解決邊緣AI推理的功耗挑戰
    權重和輸入數據需要移動到MAC引擎進行推理。如下圖所示,這種方法在獲取模型參數和將數據輸入到實際MAC操作發生的算術邏輯單元(ALU)時消耗了大部分能量。該存儲技術利用一種智能算法來調整存儲單元的浮動門(FG) Vt,以實現輸入電壓的一定電流響應。根據最終應用的需要,我們可以在線性或閾下工作區域對單元進行編程。下圖演示了在內存單元上存儲和讀取多個級別的功能。假設我們試圖在內存單元中存儲一個2位整數值。
  • AI是如何檢測色情片的?
    就像Stripe and Square為不想在內部處理支持的企業提供現成的支付解決方案一樣,而AWS已經確立了自己作為託管網站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等創業公司正在爭相成為在線內容審核的一站式解決方案提供商。
  • 事業單位行測如何提高速度_職業能力測試怎麼提升能力
    事業單位行測如何提高速度_職業能力測試怎麼提升能力 事業單位行測考試一般也是120分鐘140道題目,考生需要51.3秒/題。所以提高行測考試做題速度就能提高行測成績,從而拿到。下面如何提高行測做題速度的四大原則。
  • 當隨機採樣遇見插值,微軟亞研提出節省推理計算量的新範式
    如何利用這種特性來節省模型推理的計算量呢?在一篇 ECCV 2020 Oral 論文中,來自微軟亞洲研究院等機構的研究者提出了一種隨機採樣與插值相結合的新方法,可以有效降低節省推理的計算量。近年來,隨著深度學習的不斷發展,視覺領域出現了越來越多的高精度模型,但這些模型所需的計算量也越來越大。因此,如何在推理階段避免冗餘的計算在近年來成為研究熱點。
  • 如何在統一架構的同時高效處理各種稀疏度人工神經網絡矩陣?
    由清華大學電子工程系劉勇攀教授團隊提出的 Sticker 系列人工智慧處理器系統性探索了在晶片架構層次利用網絡稀疏性和低位寬表示以提升晶片推理能效的可能性。團隊遵循「非規則化稀疏-規則化稀疏-稀疏量化協同」的技術路線,自 2018 年相繼發布了 Sticker-I、Sticker-T 等晶片,在晶片推理和片上訓練操作的能效上實現了極大突破。
  • 怎麼利用ai繪畫出3D立體三角形?具體操作方法
    同學們知道使用ai如何繪畫出3D立體三角形嗎?不知道的話可以去下文看看利用ai繪畫出3D立體三角形的具體操作方法。上文就是小編講解的利用ai繪畫出3D立體三角形的具體操作方法,大家都知道了嗎?
  • 如何快速提高計算速度?
    如何提高計算速度?這是家長們問得比較多的問題。 有位一年級的家長說,孩子在幼兒園學的是手指算,上了一年級之後一直改不過來。 手指算也是一種計算方法,不過速度可能比較慢。那麼如何才能提高計算速度?如果對10以內的分成和湊十法不太熟悉的話,可以做下面這份練習: 此外,每天做100道口算題,堅持兩個星期,也能有效提高計算速度。 下面來說說二年級,首先要背熟乘法口訣,如果一直背不下來,說明不理解乘法口訣的意義。
  • 如何做偵探推理題
    做偵探推理題很有意思,特別是經過分析推理,解出答案那一刻,你會很有成就感。但是成就感往往和推理題難度成正比,如何才能順利解答謎底,享受遊戲樂趣,讓小編教你方法。不要依賴答案你在讀完一道推理題時,要克制自己想看答案的衝動,為了預防自己管不住眼睛,最好用厚厚的紙遮住答案。
  • 跑動速度該如何提高?
    作者 |馬明浩審核 |邵蘇編輯 |汪洋圖片來源 |網絡/古德體育我們之前分享了影響跑動速度的因素,在這一基礎上,我們今天來講一下跑動速度的訓練該如何安排。所以可以通過下肢蹬伸能力以及水平方向上發力能力的訓練,如深蹲、半蹲、推阻力橇、抗阻立定跳遠、拖重物跑等等,來提高加速階段的表現。在最高速度階段,由於速度已經達到極限,而速度的極限使得步頻也達到了極限,而步頻加快必然導致的觸地時間減小,觸地時間的縮短必然導致用來產力的時間變短,影響發力能力。
  • 利用相對論效應,提高速度可以前往未來,那如何才能回到過去呢?
    根據狹義相對論和廣義相對論中所描述的時間膨脹效應,不同個體的時間流逝速度是不同的,而造成這種差異的原因主要在於兩個方面,一是速度,二是引力。物體的運動速度越快,其時間流逝就越慢,物體所受的引力越大,引力源越近,時間流逝速度就越慢。廣義相對論中所描述的時間膨脹效應已經在現實中得到了廣泛的應用。
  • 歸納推理與演繹推理:如何讓自己更有說服力?
    ——《愛麗絲鏡中世界奇遇記》,劉易斯·卡羅爾(Lewis Carroll) 推理的本質,就在於尋找真理。然而,真理卻並不是我們認為的那般簡單。 很早以前,哲學家就曾討論過「世上到底有沒有絕對真理?」這個話題。雖然目前並沒有明確答案,但這也不應該阻擋我們通過了解更多知識,來提高思維方式的做法。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    智能結構化方案全新上線;智能庭審輔助解決方案開放邀測;視頻分析邊緣計算盒 EM-BOX 上新5項技能,分析功能更豐富;百度飛槳推出工業級目標檢測模型 PP-YOLO,精度45.9%,推理速度>>查看詳情mp.weixin.qq.com/s/6ZwuJlO22pDLxuLf40YGFQ 精度45.9%,推理速度 72.9FPS,百度飛槳推出工業級目標檢測模型 PP-YOLO
  • Roadstar.ai又添砝碼:自建模擬器,邁向運營深水區
    此前在深圳、矽谷等等地進行了多次路測的Roadstar.ai,在攻克了現實路測的難題後,又往前邁進一步——自建模擬模擬器。雷鋒網新智駕對話近期加盟Roadstar.ai 的劉軒,了解這家年輕的無人駕駛銳意進軍模擬器背後的意圖以及更深層次的技術理解和技術如何轉化為商業的思路。此前劉軒在百度、景馳都曾負責自動駕駛仿真器的相關研發。
  • 如何提高三極體的開關速度?
    如何提高三極體的開關速度?   電晶體的開關速度即由其開關時間來表徵,開關時間越短,開關速度就越快。BJT的開關過程包含有開啟和關斷兩個過程,相應地就有開啟時間ton和關斷時間toff,電晶體的總開關時間就是ton與toff之和。   如何提高電晶體的開關速度?——可以從器件設計和使用技術兩個方面來加以考慮。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。谷歌翻譯服務平均每天翻譯1500億個單詞。
  • 速度耐力的提高,需要如何加強跑步訓練?
    那我們在日常訓練中,如何注意這兩者能力的結合,達到目標呢?速度耐力的三個重要影響因素要實現速度耐力的提高,要關注對速度耐力有影響的三個生理因素。1.氧氣攝入能力。指的是跑者身體能夠運輸和吸收氧氣的最大量,通常用最大攝氧量來表示有氧能力的潛在上限。2.乳酸閾。有的跑者會在比較早的時間點就開始積累乳酸。
  • 精度45.9%,推理速度72.9FPS,百度飛槳推出工業級目標檢測模型
    而實際生產環境對檢測算法的精度、速度、體積等要求往往十分苛刻。例如工業質檢,生產線上往往需要毫秒級別的圖片檢測速度,而為了確保使用廠商收益最大化,還需要儘量平衡硬體成本和性能。因此,如何在保持高檢測精度的前提下,儘量提高檢測速度、減小模型體積,成為這項技術真正深入工業實際應用的關鍵。
  • 學點心理學:歸納推理和演繹推理
    歸納推理——利用可獲得的證據,產生可能卻並不確定的結論。人們利用以圖式的形式儲存起來的信息來產生些關於目前和將來的期望。例如,如果你根據空氣中的某種氣味來推斷某人正在做爆米花。歸納推理的使用情景在現實生活環境中,你的很多問題解決的能力都依賴於歸納推理。比如:你不小心把自己鎖到住宅、房間或汽車外面。你應該做什麼?最好第一步從記憶中回憶過去曾經奏效的解決辦法。
  • 怎樣利用ai製作出鯨魚?詳見詳細操作步驟
    想知道ai製作出鯨魚的詳細操作嗎?下面就是小編整理的利用ai製作出鯨魚的操作教程,趕緊來看看吧,希望能幫助到大家哦!ai系列軟體最新版本下載Adobe Illustrator(AI設計軟體)軟體版本:10.0.3 Update圖形圖像立即查看Free AI Viewer(AI文件打開查看器)軟體版本:3.2 免費版圖形圖像立即查看1、我們雙擊AI的快捷圖標將AI這款軟體打開,進入到該軟體的操作界面如圖所示:2、打開AI之後我們在其工具箱內找到鋼筆工具