...研製出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級

2020-12-06 雷鋒網

有很多童鞋可能不知道憶阻器是什麼?在開始今天的話題之前,雷鋒網編輯先為大家普及下憶阻器是什麼。

所謂憶阻器,全稱記憶電阻器(Memristor),是繼電阻、電容、電感之後的第四種電路基本元件,表示磁通與電荷之間的關係,這種組件的的電阻會隨著通過的電流量而改變,而且就算電流停止了,它的電阻仍然會停留在之前的值,直到接受到反向的電流它才會被推回去,等於說能「記住」之前的電流量。

簡言之,憶阻器(memristor)可以在斷電之後,仍能「記憶」通過的電荷,其所具備的這種特性與神經突觸之間的相似性,使其具備獲得自主學習功能的潛力。因此,基於憶阻器的神經形態計算系統能為神經網絡訓練提供快速節能的方法,但是,圖像識別模型之一 的卷積神經網絡還沒有利用憶阻器交叉陣列的完全硬體實現。

不過,最近雷鋒網了解到,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「 Fully hardware-implemented memristor convolutional neural network 」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。

他們提出用高能效比、高性能的均勻憶阻器交叉陣列實現 CNN,該實現共集成了 8個 PE ,每個 PE 包含2048 個單元的憶阻器陣列,以提升並行計算效率。此外,研究者還提出了一種高效的混合訓練方法,以適應設備缺陷,改進整個系統的性能。研究者構建了基於憶阻器的五層 CNN 來執行 MNIST 圖像識別任務,識別準確率超過 96%。

除了使用不同卷積核對共享輸入執行並行卷積外,憶阻器陣列還複製了多個相同卷積核,以並行處理不同的輸入。相較於當前最優的圖形處理器(GPU),基於憶阻器的 CNN 神經形態系統的能效要高出一個數量級,且實驗證明該系統可擴展至大型網絡,如殘差神經網絡。該結果或可促進針對深度神經網絡和邊緣計算提供基於憶阻器的非馮諾伊曼(non-von Neumann)硬體解決方案,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。

首個完全基於憶阻器的 CNN 硬體實現

據介紹,當前國際上的憶阻器研究還停留在簡單網絡結構的驗證,或者基於少量器件數據進行的仿真。基於憶阻器陣列的完整硬體實現仍然有很多挑戰。

比如,器件方面,需要製備高一致、可靠的陣列;系統方面,憶阻器因工作原理而存在固有缺陷(如器件間波動、器件電導卡滯、電導狀態漂移等),會導致計算準確率降低;架構方面,憶阻器陣列實現卷積功能需要以串行滑動的方式連續採樣、計算多個輸入塊,無法匹配全連接結構的計算效率。

在這些研究成果的基礎之上,錢鶴、吳華強團隊逐漸優化材料和器件結構,製備出了高性能的憶阻器陣列。

在器件方面,該研究成功實現了一個完整的五層 mCNN,用於執行 MNIST 手寫數字圖像識別任務。優化後的材料堆棧(material stack)能夠在 2048 個單電晶體單憶阻器(one-transistor–one-memristor,1T1R)陣列中實現可靠且均勻的模擬開關行為。使用該研究提出的混合訓練機制後,實驗在整個測試集上的識別準確率達到了 96.19%。

利用混合訓練方法得到 mCNN

此外,該研究在三個並行憶阻器卷積器中複製了卷積核,從而將 mCNN 的延遲降低約 2/3。該研究得到的高度集成神經形態系統彌補了基於憶阻器的卷積運算和全連接 VMM 之間的吞吐量差距,從而為大幅提升 CNN 效率提供了可行的解決方案。

架構方面,之前基於憶阻器的 demo 依賴於單一陣列,其主要原因是生成高度可重複的陣列面臨巨大挑戰。憶阻器設備的易變性和不完美特性被認為是神經形態計算應用的主要瓶頸。該研究提出了一種基於憶阻器的靈活計算架構,適用於神經網絡。

存算一體系統架構

憶阻器單元使用 TiN/TaO_x/HfO_x/TiN 的材料堆疊,通過調節電場和熱,在增強(SET)和抑制(RESET)這兩種情況下均展現出連續電導率調節能力。材料和製造流程與傳統的 CMOS 流程兼容,從而使憶阻器陣列可以方便地內置在晶圓的後段製程中,以減少流程變動,實現高復現性。得到的交叉陣列在同等的編程條件下具備均勻的模擬開關行為。因此,多憶阻器陣列硬體系統基於自定義印刷電路板(PCB)和 FPGA 評估板(ZC706, Xilinx)構建。

系統方面,該系統主要包含八個基於憶阻器的處理元件(PE)。每個 PE 集成了 2048 個單元的憶阻器陣列。每個憶阻器與電晶體的漏級端相連,即 1T1R 配置。核心 PCB 子系統具備八個憶阻器陣列晶片,每個憶阻器陣列具備 128 × 16 個 1T1R 單元。在水平方向上共有 128 條並行字線和 128 條源線,在垂直方向上共有 16 條位線。

基於憶阻器的硬體系統具備可靠的多級電導率狀態

該陣列展示了極具可重複性的多級電導率狀態,成功證明了存算一體架構全硬體實現的可行性。

有何優勢?

眾所周知,CNN 是最重要的深度神經網絡之一,在圖像處理相關任務中發揮關鍵作用,如圖像識別、圖像分割和目標檢測。

CNN 的典型計算步驟需要大量滑動卷積操作。從這個方面來看,CNN 需要支持並行乘積累加運算(MAC)的計算單元。而這需要重新設計傳統的計算系統,以便以更高的性能、更低的能耗來運行 CNN,這些計算系統包括通用應用平臺(如 GPU)、應用特定的加速器等。

但是,計算效率的進一步提升最終受限於系統的馮諾伊曼架構,該架構中的內存和處理單元是物理分離的,從而導致大量能耗,以及不同單元之間數據搬運的高延遲。

與之相反,基於憶阻器的神經形態計算可以提供非馮諾伊曼計算範式,即存儲數據,從而消除數據遷移的消耗。憶阻器陣列直接使用歐姆定律進行加法運算,使用基爾霍夫定律(Kirchhoffs law)進行乘法運算,因而能夠實現並行存內(in-memory)MAC 運算,從而模擬存內計算(in-memory computing),並實現速度和能效的大幅提升,減小誤差。

雷鋒網編譯自Nature:Fully hardware-implemented mermrist or convolutional netural network

相關焦點

  • 能效比GPU高兩個數量級,清華大學研製首款多陣列憶阻器存算一體系統
    集微網消息,近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的首款基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現以更小的功耗和更低的硬體成本完成複雜的計算。
  • ...出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級
    相較於當前最優的圖形處理器(GPU),基於憶阻器的 CNN 神經形態系統的能效要高出一個數量級,且實驗證明該系統可擴展至大型網絡,如殘差神經網絡。該結果或可促進針對深度神經網絡和邊緣計算提供基於憶阻器的非馮諾伊曼(non-von Neumann)硬體解決方案,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。
  • ...全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級
    撰文 | 四月2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。
  • 清華制人工神經網絡晶片,能效比GPU高兩個數量級
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華實現完整硬體CNN,憶阻器陣列效能高過GPU兩個數量級
    該成果所研發的基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。
  • 清華造人工神經網絡晶片,憶阻器陣列效能高過GPU兩個數量級
    eYyednc該存算一體系統在辦理卷積神經網絡(CNN)時能效比前沿的圖形辦理器晶片(GPU)高兩個數質級,可以說在一定程度上衝破了「馮諾依曼瓶頸」的限造:大幅提升算力的同時,實現了以更小的功耗和更低的硬體成本完成複雜的計算。
  • 清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華類腦晶片再登Nature: 全球首款基於憶阻器的CNN存算一體晶片
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。撰文 | 四月2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...
    高教授表示:「近幾年AI對算力的需求是爆炸式的增長。晶片算力的提升與需求增長之間有一個很尖銳的矛盾。」這個尖銳的矛盾主要有兩個原因:摩爾定律放緩以及馮諾依曼架構帶來的存算分離局限。這讓晶片面臨著算力和能效兩大挑戰。要解決矛盾和挑戰,需要三大基石都革新的存算一體計算機。
  • 人工智慧的另一方向:基於憶阻器的存算一體技術
    在報告中吳教授介紹到:當思考未來計算的時候,量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。目前吳老師正在晶片上做電子突觸新器件,做存算一體的架構。新器件方面主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉可以保持阻值,並且它速度很快。
  • 清華大學的存算一體化架構和並行加速方法專利
    清華大學基於多個憶阻器陣列的全硬體完整存算一體系統,能夠高效的運行卷積神經網絡算法,證明了存算一體架構全硬體實現的可行性,對今後AI算力瓶頸的突破有著極大意義。該成果所研發的基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡時的能效遠高於GPU,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。 隨著以人工智慧為代表的信息技術革命興起,基於各種深度神經網絡的算法可以實現圖像識別與分割、物體探測以及完成對語音和文本的翻譯、生成等處理。
  • 中國科學家提出基於憶阻器陣列的新型腦機接口
    清華大學研發的基於憶阻器陣列的腦電信號處理系統正在測試中。圖片由清華大學提供新華社北京9月22日電(記者郭穎)腦機接口技術作為信息科學與神經科學等多學科交叉融合的前沿領域,在康復醫學、醫療電子等領域得到了廣泛關注與應用。來自清華大學的科研團隊提出基於憶阻器陣列的新型腦機接口,相關研究成果日前在線發表於《自然·通訊》。
  • 憶阻器類腦晶片與人工智慧
    清華大學研製上千憶阻器集成陣列並用於人臉識別,可發展成為人工智慧硬體系統中圖像信息識別模塊[14]。華中科技大學課題組基於鈣鈦礦材料的二階憶阻器實現了生物突觸中的三相STDP規則,可以用於更加複雜的模式識別和軌跡追蹤[15]。南京大學課題組基於離子導電介質實現類樹突多端器件[16]。中國科學院微電子研究所實現了三維集成的RRAM集成陣列[17],有望實現三維類腦晶片。