清華類腦晶片再登Nature: 全球首款基於憶阻器的CNN存算一體晶片

2020-12-05 機器之心Pro

傳統計算架構中計算與存儲在不同電路單元中完成,造成大量數據搬運功耗增加和額外延遲,被認為是馮·諾依曼計算架構的核心瓶頸。

人類的大腦卻並非如此,而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。

撰文 | 四月

2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。

該項研究於 1 月 29 日在頂尖學術期刊《自然》雜誌(Nature)在線發表,題為《Fully hardware-implemented memristor convolutional neural network(完全由硬體實現的憶阻器卷積神經網絡)》,詳述了基於憶阻器陣列晶片實現卷積網絡的完整硬體過程。

通過這項工作中開發的陣列晶片集成了 8 個包含 2048 個憶阻器的列陣,並構建了一個五層的卷積神經網絡進行圖像識別,精度高達 96% 以上。

基於多個憶阻器陣列實現的存算一體化開發板

該陣列晶片以憶阻器替代經典計算機底層的電晶體,以更小的功耗和更低的硬體成本大幅提升計算設備的算力,在一定程度上突破了傳統計算框架「馮諾依曼瓶頸」的限制:大幅提升算力的同時,實現了更小的功耗和更低的硬體成本。

清華 LEMON 團隊成員:員高濱、姚鵬、吳華強、張清天、唐建石(從左到右)圖片來源:清華新聞網

目前,何謙教授和吳華強教授領導了清華大學的LEMON實驗室(The Laboratory of Emerging Memory and Novel Computing,新興存儲與新型計算實驗室),在過去的幾年中一直致力於基於憶阻器的神經形態計算。該小組在材料和設備工程,工藝開發,電路和晶片設計以及算法和系統演示方面取得了顯著成就。

01

來自憶阻器的啟發

所謂憶阻器,全稱記憶電阻器(Memristor),是繼電阻、電容、電感之後的第四種電路基本元件,顯示磁通與電荷之間的關係,最早由加州大學伯克利分校教授蔡少棠在 1971 年預言存在,惠普公司在 2008 年研造成功。

簡言之,這種組件的的電阻會隨著通過的電流質而扭轉,而且就算電流進行了,它的電阻依然會停留在之前的值,直到承遭到反向的電流它才會被推回去,就是說能「記住」之前的電流質。

受人腦啟發,憶阻器設備被組織成交叉點陣列,以實現大規模並行的內存計算並提高電源效率。

這種巧妙的機制和我們大腦中的生物突觸和神經元有相仿之處,同時憶阻器還具有尺寸小、操作功耗低、可大規模集成(三維集成)等優點,可以製成高密度交叉點陣列,以通過物理定律實現內存內部大規模並行乘積計算(CIM)。

02

首個基於憶阻器的 CNN 存算一體晶片

基於多個憶阻器陣列的存算一體化計算架構

在該項研究中,清華團隊提出用高能效比、高性能的均勻憶阻器交叉陣列處理神經卷積網絡(CNN),網絡共集成了 8 個 基於憶阻器的處理單元,每個 PE 單元中包含 2048 個單元的憶阻器陣列,以提升並行計算效率。採用基於 ARM 核的動態隨機存取存儲器。

右圖展示了該陣列極具可重複性的多級電導率狀態,成功證明了存算一體架構全硬體實現的可行性。

每個憶阻器與電晶體採用漏級端相連,即 1T1R 結構。核心 PCB 子系統皮遏止八塊憶阻器陣列晶片,每個憶阻器陣列具備 128 × 16 個 1T1R 單元。在水平方向上共有 128 條並行字線和 128 條源線,在垂直方向上共有 16 條位線。

此外,研究者還提出了一種高效的混合訓練方法,以適應設備缺陷,改進整個系統的性能。研究者構建了基於憶阻器的五層 mCNN 來執行 MNIST 圖像識別任務,識別準確率超過 96%。

系統針對 ResNET-56 等大型網絡的可擴展性

除了使用不同卷積核對共享輸入執行並行卷積外,憶阻器陣列還複製了多個相同卷積核,以並行處理不同的輸入。相較於當前最優的圖形處理器(GPU),基於憶阻器的 CNN 神經形態系統的能效要高出兩個數量級以上,並且該系統可擴展至大型網絡,如殘差神經網絡(ResNet)。

該結果或可促進針對深度神經網絡和邊緣計算提供基於憶阻器的非馮諾伊曼(non-von Neumann)硬體解決方案,大幅提升計算設備的算力,成功實現以更小的功耗和更低的硬體成本完成複雜的計算。

03

攻關兩大難點

據清華大學新聞網介紹,當前國際上的憶阻器研究還停留在簡單網絡結構的驗證,或者基於少量器件數據進行的仿真。基於憶阻器陣列的完整硬體實現仍然有很多挑戰。

比如,器件方面,需要製備高一致、可靠的陣列;系統方面,憶阻器因工作原理而存在固有缺陷(如器件間波動,器件電導卡滯,電導狀態漂移等),會導致計算準確率降低;架構方面,憶阻器陣列實現卷積功能需要以串行滑動的方式連續採樣、計算多個輸入塊,無法匹配全連接結構的計算效率。

據《北京日報》報導,攻關期間,材料和工藝集成是最大挑戰,「做這種新的晶片需要觀察大量統計規律,但當時沒有大型代工廠支持,我們只能在實驗室摸索,有段時間有點崩潰,每次做完實驗,結果都很分散。」吳華強在接受採訪時說,後來,他們與中科院微電子所、北京大學等單位共同合作,終於解決了難題。

「我們改變材料上覆蓋層的組分,通過調試熱導率和電導率,調整材料內部導電係數的強弱,來實現優化。」吳華強接受《北京日報》的採訪時說。

目前團隊已經與一家商業矽代工廠合作,開發了一種混合集成途徑,以製造具有優化材料堆棧的大型陣列憶阻器,作為靈活的硬體測試平臺。

另一方面,為解決器件固有缺陷造成的系統識別準確率下降問題,團隊提出了一種新型的混合訓練算法,僅需用較少的圖像樣本訓練神經網絡,並微調了最後一層網絡的部分權重。

基於憶阻器的五層 mCNN 網絡

據論文介紹,團隊成功實現了一個完整的五層 mCNN,用於執行 MNIST 手寫數字圖像識別任務。優化後的材料堆棧(material stack)能夠在 2048 個單電晶體單憶阻器(one-transistor–one-memristor,1T1R)陣列中實現可靠且均勻的模擬開關行為。

使用該研究提出的混合訓練機制後,實驗在整個測試集上的識別準確率達到了 96.19%。

在 mCNN 上進行混合訓練

此外,將卷積內核複製到三個並行的憶阻器卷積器可將 mCNN 延遲大約降低了 1/3。高度集成的神經形態系統通過縮小基於憶阻器之間的卷積計算和全連接 VMM 之間的吞吐量差距,為大幅度提高 CNN 效率提供了一個可行的解決方案。

04

線下實測精度約為 95%

本月,在集成電路領域最重要的會議 ISSCC 上,研究小組針對研究成果進行了報告,晶片實現了多層感知器神經網絡,用於對 MNIST 數據集中的手寫數字圖片進行分類。

用於分類 MNIST 手寫數字圖片的晶片和演示系統

該晶片在晶片上集成了將近 16 萬個憶阻器以及所有外圍電路,並實現了每瓦每秒 78.4 兆兆位(78.4TOPS/W)運算的超高能效。運行功率低至 40 毫瓦,對 MNIST 圖像進行分類的識別精度約 95%。

目前,團隊正在致力於開發更複雜的存算一體化晶片,並擴大憶阻器陣列的尺寸,以進一步利用憶阻器提高系統性能。吳華強在接受《北京日報》採訪時表示,「我們還計劃構建包括憶阻器、存算一體晶片到存算一體編譯器等在內的全新計算機系統。」

展望未來,用憶阻器構建「大腦」計算機還有很長的路要走,因為在硬體和軟體方面仍然存在許多挑戰。而有了體積小、功耗低、算力強的存算一體晶片,手機等移動終端就能運行人工智慧應用,讓人工智慧更懂人類不再遙遠。

錢鶴、吳華強團隊認為,這種跨學科的研究與協作對於突破傳統思維並建立與現有系統完全不同的計算系統至關重要,這將有望通過這種強大的憶阻器徹底改變 AI 硬體。

參考連結:

1.https://news.tsinghua.edu.cn/publish/thunewsen/9671/2020/20200225110757772216750/20200225110757772216750_.html

2.http://bj.people.com.cn/BIG5/n2/2020/0227/c349239-33831801.html

3.https://scihub.bban.top/10.1038/s41586-020-1942-4

相關焦點

  • ...全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。撰文 | 四月2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。
  • 能效比GPU高兩個數量級,清華大學研製首款多陣列憶阻器存算一體系統
    集微網消息,近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的首款基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現以更小的功耗和更低的硬體成本完成複雜的計算。
  • 清華實現完整硬體CNN,憶阻器陣列效能高過GPU兩個數量級
    ,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...
    計算的範式層面,存算一體也從布爾邏輯計算變成了基於物理定律的模擬計算,架構變成存算一體架構。」但新的計算系統因為憶阻器的穩定性、計算誤差累積等問題,2018年以前完整的存算一體晶片和系統並沒有突破。直到高濱所在的清華大學錢鶴、吳華強團隊通過憶阻器件、電路、架構、算法等層面的創新,設計出全球首款全系集成的憶阻器存算一體晶片,用130nm的工藝製造出計算精度與28nm樹莓派CPU相當的準確度,速度快20倍,能效也比GPU高3個數量級。展望未來,高濱教授希望通存算一體技術,可以使計算的能效有百倍到千倍的提升,使單晶片的算力達到500TOPs甚至1POPs。
  • ...出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級
    不過,最近雷鋒網了解到,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「 Fully hardware-implemented memristor convolutional neural network 」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 人工智慧的另一方向:基於憶阻器的存算一體技術
    其中來自清華大學的吳華強老師做了題目為「大腦啟發的存算一體技術」的報告。在報告中吳教授介紹到:當思考未來計算的時候,量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。目前吳老師正在晶片上做電子突觸新器件,做存算一體的架構。新器件方面主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉可以保持阻值,並且它速度很快。
  • ...研製出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級
    不過,最近雷鋒網了解到,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「 Fully hardware-implemented memristor convolutional neural network 」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華造人工神經網絡晶片,憶阻器陣列效能高過GPU兩個數量級
    近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了題為「Fully hardware-implemented memristor convolutional neural network」的研究論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 憶阻器類腦晶片與人工智慧
    憶阻器是一種新型微電子基礎器件,其電阻可通過外場連續調節且具有非易失性、小尺寸、低能耗、高速和CMOS兼容等優良特性,被認為是快速實現存算一體化計算最具潛力的類突觸器件。與此同時,光電子器件和神經元遵從動力學數學同構性,藉助這種同構性可用光電子器件模擬神經元行為並實現類腦計算,基於光子器件的類腦晶片正在往更高集成度、更低功耗、更高性能方向發展,其將會在類腦計算領域發揮越來越重要的作用。
  • 清華類腦計算再登《自然》:張悠慧施路平團隊定義新計算機結構
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI清華類腦計算研究成果,再登Nature。去年8月,清華類腦計算中心施路平團隊自行研發的類腦晶片「天機」,登上了Nature封面。為實現可行性,研究人員提出了一套被主流類腦晶片廣泛支持的基本硬體執行原語(hardware execution primitives)。
  • 新型ANN登《自然》子刊:清華團隊領銜打造基於憶阻器的人工樹突
    基於此,科學家們研製出基於動態憶阻器的人工樹突器件,以全新的方式構建了人工神經網絡。研究人員設計了複雜的互補金屬氧化物半導體(CMOS)電路,並使用三種憶阻器作為關鍵計算組件開發人造樹突,構建了一個包含有突觸、樹突、神經元胞體的完整神經網絡。這裡需要說明的是,所謂憶阻器,是繼電阻、電容、電感後的第四種電路基本元件。
  • 「天機芯」團隊又登Nature,清華類腦計算領域「三連發」
    Tianjic chiparchitecture),這是世界上首款異構融合類腦晶片,並通過自動駕駛自行車成功驗證了通用智能的可行性。這是一年多來,清華大學在繼「天機芯」和「多陣列憶阻器存算一體系統」之後於《自然》正刊發表的第三篇成果,也是計算機系以第一完成單位/通訊單位發表的首篇《自然》論文。
  • ...計算成果再登Nature:張悠慧施路平團隊出品,有望打破馮諾依曼瓶頸
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI清華類腦計算研究成果,再登Nature。新研究的關鍵詞是:類腦計算、新計算機系統框架、通用人工智慧(AGI)。
  • 清華大學的存算一體化架構和並行加速方法專利
    清華大學基於多個憶阻器陣列的全硬體完整存算一體系統,能夠高效的運行卷積神經網絡算法,證明了存算一體架構全硬體實現的可行性,對今後AI算力瓶頸的突破有著極大意義。該成果所研發的基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡時的能效遠高於GPU,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。 隨著以人工智慧為代表的信息技術革命興起,基於各種深度神經網絡的算法可以實現圖像識別與分割、物體探測以及完成對語音和文本的翻譯、生成等處理。
  • 清華制人工神經網絡晶片,能效比GPU高兩個數量級
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 中國科學家提出基於憶阻器陣列的新型腦機接口
    清華大學研發的基於憶阻器陣列的腦電信號處理系統正在測試中。來自清華大學的科研團隊提出基於憶阻器陣列的新型腦機接口,相關研究成果日前在線發表於《自然·通訊》。主流腦機接口中的神經信號分析模塊由基於矽電晶體的集成電路構成,但隨著腦機接口中的信號採集通道數的增加,系統面臨著高功耗和延時等方面的挑戰,這也是制約腦機接口技術在植入式或可攜式醫療系統中應用的重要瓶頸之一。
  • 十問億級神經元類腦計算機:AI領域有望突破,哪些還需火候
    澎湃新聞記者 張唯近日,浙江大學聯合之江實驗室共同研製成功了中國首臺基於自主智慧財產權類腦晶片的類腦計算機(Darwin Mouse)。而硬體或者晶片上模擬複雜神經網絡的完整可用的計算系統則被稱作類腦計算機。Darwin Mouse類腦計算機的「類腦」設計主要體現在兩方面:模仿大腦的信息傳遞方式——達爾文2代類腦晶片通過脈衝傳遞信號,類似於生物的神經元行為;將大腦運算抽象為由神經元連接組成的神經網絡,用晶片直接模仿單個神經元的計算模型。Darwin Mouse是在神經元尺度上模仿大腦。
  • 浙大重磅發布億級神經元類腦計算機:基於 792 顆自研「達爾文 2 代」晶片,可「意念」打字
    類腦計算機將成為未來計算的主要形態和重要平臺。2020 年 9 月 1 日,我國首臺基於自主智慧財產權類腦晶片的類腦計算機重磅發布。我國首臺基於自主智慧財產權類腦晶片的類腦計算機據浙江大學介紹,該類腦計算機是由 3 個高 1.6 米的標準機櫃組成。
  • 打破馮諾依曼架構限制 國內研發存算一體AI晶片
    大家都知道我們現在的電腦——不論是PC還是超算,都是處理器、存儲晶片分離的,這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展,存儲計算分離的架構瓶頸越來越多,日前國內研發出了存算一體的AI晶片,號稱自主智慧財產權,國內首創、國際領先。