ISSCC 2019 | 清華大學團隊研製高能效通用神經網絡處理器晶片...

2021-01-10 機器之心Pro

機器之心發布

湃方科技

2 月 20 日,來自清華大學線路所的劉勇攀副教授團隊在美國舊金山舉辦的第 66 屆國際固態電路會議(簡稱 ISSCC 2019)發表了基於循環矩陣壓縮方法的通用神經網絡加速器晶片 STICKER-T。該晶片在算法,架構和電路三方面進行了聯合優化,在變換域進行神經網絡加速,並使用可轉置存儲器復用數據,使得晶片的能效和面積相較於之前的研究都有顯著的提升。

隨著 AI 技術的不斷發展,單一的網絡結構已經很難滿足不同領域的任務需求。常見的應用諸如圖像識別或機器翻譯分別需要卷積神經網絡或循環神經網絡的支持。而不同網絡意味不同的計算模式,在帶寬和計算資源上也會有各自的限制。因此,通用加速器的核心挑戰是如何聯合優化各種網絡下的晶片能效。

不同架構的通用加速器比較

在以 STICKER 和 Thinker 為代表的先前設計中,研究者通常採用的解決方案是為卷積和全連接操作分別設計專用的加速核,或者將卷積重構為矩陣乘法。其中異構多核的設計雖然能夠分別將卷積和全連接優化至最佳的能效,但是晶片整體卻需要承擔額外的面積開銷,並且多核的利用率受工作量比例的限制很難達到 100%,帶來不可避免的浪費。而重構卷積的思路則意味著能效的下降和編譯器與控制邏輯的複雜性。另一方面以 TPU 為代表的工業屆晶片雖然有著更強的通用性和靈活性,卻在晶片能效上受到限制。

循環矩陣壓縮方法(CirCNN)原理圖

該團隊針對以上問題,採用了基於循環矩陣的神經網絡壓縮技術,從算法和硬體聯合優化的角度提出全新的通用加速器設計。算法上,使用 CirCNN 方法訓練出的神經網絡,無論是全連接還是卷積的權重矩陣都可以劃分成多個子塊,每個子塊的內部都是循環矩陣,將矩陣向量乘轉換為循環卷積。進而可以使用 fft+頻域點乘+ifft 的方法對卷積操作進行加速。

基於轉置 SRAM(TRAM)的數據復用方法

轉置 SRAM(TRAM) 結構圖

硬體上,為了滿足 fft 的高效計算並儘可能的減少面積開銷,採用了全局並行位串行的 fft 設計。同時為了提升頻域點乘的數據復用性,晶片使用了轉置 SRAM(TRAM)存儲 fft 的計算結果,如此按行存儲的來自不同批次的頻譜可以按列方向取出同一個頻點的值,和相同的權重相乘時大大提升了數據的復用率,減少了對帶寬的需求。

晶片照片

綜上,高效的算法和高性能的架構與電路實現,使得 STICKER-T 相比於之前的晶片在能效和面積兩個方面都有著顯著的提升,該晶片的峰值能效 140TOPS/W 為之前工作的 2.7 倍,而 7.5mm^2 的面積僅為前者的 60%。此外,Sticker-T 的通用架構可以同時高效支持包括 CNN,RNN 和 FC 在內的主流網絡結構,滿足了不同應用場景的需求。

基於在人工智慧晶片領域的豐富科研成果,劉勇攀副教授創辦了以人工智慧晶片和工業智能算法為核心技術的湃方科技,旨在賦能工業領域人工智慧的更大發展。

性能對比

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 清華制人工神經網絡晶片,能效比GPU高兩個數量級
    (原標題:清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級)
  • 清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級
    近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該存算一體系統在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級,可以說在一定程度上突破了「馮諾依曼瓶頸」的限制:大幅提升算力的同時,實現了更小的功耗和更低的硬體成本。基於憶阻器晶片的存算一體系統 來源:清華大學什麼是憶阻器?
  • 如何在統一架構的同時高效處理各種稀疏度人工神經網絡矩陣?
    由清華大學電子工程系劉勇攀教授團隊提出的 Sticker 系列人工智慧處理器系統性探索了在晶片架構層次利用網絡稀疏性和低位寬表示以提升晶片推理能效的可能性。團隊遵循「非規則化稀疏-規則化稀疏-稀疏量化協同」的技術路線,自 2018 年相繼發布了 Sticker-I、Sticker-T 等晶片,在晶片推理和片上訓練操作的能效上實現了極大突破。
  • 能效比GPU高兩個數量級,清華大學研製首款多陣列憶阻器存算一體系統
    集微網消息,近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的首款基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現以更小的功耗和更低的硬體成本完成複雜的計算。
  • ...研製出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級
    簡言之,憶阻器(memristor)可以在斷電之後,仍能「記憶」通過的電荷,其所具備的這種特性與神經突觸之間的相似性,使其具備獲得自主學習功能的潛力。因此,基於憶阻器的神經形態計算系統能為神經網絡訓練提供快速節能的方法,但是,圖像識別模型之一 的卷積神經網絡還沒有利用憶阻器交叉陣列的完全硬體實現。
  • ...全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級
    撰文 | 四月2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。
  • 清華大學錢鶴、吳華強團隊研製出人工樹突器件,實現新型神經網絡
    ,研製出一種具有豐富動態特性的人工樹突器件,構建了包含突觸、樹突、胞體三種基本計算單元的新型神經網絡,樹突功能顯著提升了網絡的準確率,同時大幅降低了系統的功耗,增強了網絡處理複雜任務的能力。當前的人工神經網絡大多將神經元用簡單的點模型表示,將其計算功能簡化成積分-發放(integrate-and-fire),而忽略了樹突的信息處理功能。這樣的簡化使得人工神經網絡在功耗、靈活性上與生物神經網絡相比仍存在很大的差距。
  • 清華造人工神經網絡晶片,憶阻器陣列效能高過GPU兩個數量級
    近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「Fully hardware-implemented memristor convolutional neural network」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華大學計算機系張悠慧團隊首次提出「類腦計算完備性」
    相對於通用計算機,這一定義放鬆了對系統計算過程和精度的約束。團隊進一步提出相應的類腦計算機層次結構和確保類腦計算完備性的硬體原語(相當於通用處理器的機器指令)來充分利用這一新完備性帶來的優勢。類腦計算機層次結構(左)與現有通用計算機(右)的對比在上述理論與算法基礎上,構建支持通用圖形處理器、類腦天機晶片和基於阻變存儲器的神經形態晶片(仿真)這三類硬體的軟體工具鏈示例
  • ...出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級
    簡言之,憶阻器(memristor)可以在斷電之後,仍能「記憶」通過的電荷,其所具備的這種特性與神經突觸之間的相似性,使其具備獲得自主學習功能的潛力。因此,基於憶阻器的神經形態計算系統能為神經網絡訓練提供快速節能的方法,但是,圖像識別模型之一 的卷積神經網絡還沒有利用憶阻器交叉陣列的完全硬體實現。
  • 深度學習進入晶片領域,揭秘寒武紀神經網絡處理器
    陳雲霽(左)和陳天石(右)兄弟寒武紀神經網絡處理器廬山真面目目前,寒武紀系列已包含三種原型處理器結構:寒武紀1號(英文名DianNao,面向神經網絡的原型處理器結構);寒武紀2號(英文名DaDianNao,面向大規模神經網絡);寒武紀3號(英文名PuDianNao,面向多種機器學習算法)。
  • 清華大學的存算一體化架構和並行加速方法專利
    集微網消息,近日來,清華大學微電子學研究所、未來晶片技術高精尖創新中心的錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「Fully hardware-implemented memristor convolutional neural network」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華「天機芯」團隊再發重磅研究!以全新類腦計算系統實現通用人工智慧
    去年8月,施路平領銜的科研團隊,在《自然》雜誌第一周封面上發布全球首款異構融合類腦計算芯——「天機芯」,並由該晶片驅動了一臺實驗中的「無人駕駛自行車」,實現了中國在晶片和人工智慧兩大領域《自然》論文零的突破。這一成果被兩院院士選為2019年中國十大科技進展、科技部中國十大科學進展。
  • Imagination 的神經網絡加速器在邊緣計算領域的應用
    打開APP Imagination 的神經網絡加速器在邊緣計算領域的應用 發表於 2019-08-08 10:59:51 今天,2019 SiFive Tech workshop在深圳舉行,IC晶片領域的兩百多位設計人員到場參會交流目前最熱門的RISC-V處理器開發,作為SiFive的DesignShare生態系統合夥夥伴,Imagination Technologies不僅在現場演示了最新新神經網絡加速演示,公司高級技術專家李安也發表《神經網絡加速賦能端側智能》介紹了Imagination
  • 清華大學研發「類腦計算機」填補科技領域空白
    (右)的對比在上述理論與算法基礎上,構建支持通用圖形處理器、類腦天機晶片和基於阻變存儲器的神經形態晶片(仿真)這三類硬體的軟體工具鏈示例,並以智能自行車(作為神經網絡應用代表)、鳥群模擬、QR分解(後兩者作為非神經網絡的通用計算應用代表)為示範應用,證實了設計的可行性,同時測試顯示這一設計能夠大幅提升系統優化空間,進而顯著提升系統效能
  • 科學家研製出人工樹突器件,實現新型神經網絡
    近日,清華大學微電子所、未來晶片技術高精尖創新中心的錢鶴、吳華強教授團隊與合作者在《自然•納米科技》(Nature Nanotechnology)在線發表了題為「基於人工樹突的高效神經網絡」(Power-Efficient Neural Network with Artificial Dendrites)的研究論文,通過引入具有豐富動態特性的人工樹突計算單元,構建了包含突觸、樹突以及胞體的新型人工神經網絡
  • 清華大學微電子所錢鶴、吳華強團隊研製出人工樹突器件,實現新型...
    清華新聞網6月30日電 近日,清華大學微電子所、未來晶片技術高精尖創新中心的錢鶴、吳華強教授團隊與合作者在《自然•納米科技》(Nature Nanotechnology)在線發表了題為「基於人工樹突的高效神經網絡」(Power-Efficient Neural Network with Artificial Dendrites
  • 我國研製出全球神經元規模最大的類腦計算機
    該計算機使用了792顆由浙江大學研製的達爾文2代類腦晶片,神經元數量規模相當於小鼠大腦,典型運行功耗只需要350-500瓦,這是目前國際上神經元規模最大的類腦計算機。與此同時,團隊還研製了專門面向類腦計算機的作業系統——達爾文類腦作業系統,實現對類腦計算機硬體資源的有效管理與調度,支撐類腦計算機的運行與應用。
  • 英特爾很嚇人AI技術:神經網絡處理器及VPU性能飆升3-4倍
    也正因如此,Nervana神經網絡處理器(Nervana Neural Network Processor,NNP)才獲得巨大提升。事實上,NNP也是英特爾醞釀已久的「殺手鐧」。在本次AI開發者大會上,Rao就爽快公開了英特爾新一代AI芯——英特爾Nervana NNP-L1000,代號為「Spring Crest」的專用人工智慧晶片,而這款晶片也即將成為英特爾第一款商用神經網絡處理器產品,並計劃在2019年發布。儘管Rao並沒有再多透露新代AI晶片的細節,但同為Nervana創始團隊的Carey Kloss卻掌握著機密——我們當然不會放過他。
  • 清華大學博士生塗鋒斌:設計神經網絡硬體架構時,我們在思考些什麼...
    神經網絡作為實現人工智慧任務的有效算法之一,已經在各種應用場景獲得廣泛的應用。從雲端到移動端,不同應用場景也對神經網絡的計算能力提出了不同的需求。神經網絡的廣泛應用離不開核心計算晶片。目前的主流通用計算平臺包括CPU和GPU,存在著能效較低的問題(能效即能量效率,是性能與功耗的比值)。為了獲得更高的能效,我們需要設計一種專用的神經網絡計算晶片來滿足要求。