...全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級

2020-12-05 澎湃新聞

傳統計算架構中計算與存儲在不同電路單元中完成，造成大量數據搬運功耗增加和額外延遲，被認為是馮·諾依曼計算架構的核心瓶頸。

人類的大腦卻並非如此，而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器，因而成為類腦計算領域的熱門器件，被寄予提高算力，突破技術瓶頸的厚望。

撰文 | 四月

2 月 27 日機器之心獲悉，據清華大學新聞網消息，該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統，在處理卷積神經網絡（CNN）時能效比前沿的圖形處理器晶片（GPU）高兩個數量級。

該項研究於 1 月 29 日在頂尖學術期刊《自然》雜誌（Nature）在線發表，題為《Fully hardware-implemented memristor convolutional neural network（完全由硬體實現的憶阻器卷積神經網絡）》，詳述了基於憶阻器陣列晶片實現卷積網絡的完整硬體過程。

通過這項工作中開發的陣列晶片集成了 8 個包含 2048 個憶阻器的列陣，並構建了一個五層的卷積神經網絡進行圖像識別，精度高達 96% 以上。

基於多個憶阻器陣列實現的存算一體化開發板

該陣列晶片以憶阻器替代經典計算機底層的電晶體，以更小的功耗和更低的硬體成本大幅提升計算設備的算力，在一定程度上突破了傳統計算框架「馮諾依曼瓶頸」的限制：大幅提升算力的同時，實現了更小的功耗和更低的硬體成本。

清華 LEMON 團隊成員：員高濱、姚鵬、吳華強、張清天、唐建石（從左到右）圖片來源：清華新聞網

目前，何謙教授和吳華強教授領導了清華大學的LEMON實驗室（The Laboratory of Emerging Memory and Novel Computing，新興存儲與新型計算實驗室），在過去的幾年中一直致力於基於憶阻器的神經形態計算。該小組在材料和設備工程，工藝開發，電路和晶片設計以及算法和系統演示方面取得了顯著成就。

來自憶阻器的啟發

所謂憶阻器，全稱記憶電阻器（Memristor），是繼電阻、電容、電感之後的第四種電路基本元件，顯示磁通與電荷之間的關係，最早由加州大學伯克利分校教授蔡少棠在 1971 年預言存在，惠普公司在 2008 年研造成功。

簡言之，這種組件的的電阻會隨著通過的電流質而扭轉，而且就算電流進行了，它的電阻依然會停留在之前的值，直到承遭到反向的電流它才會被推回去，就是說能「記住」之前的電流質。

受人腦啟發，憶阻器設備被組織成交叉點陣列，以實現大規模並行的內存計算並提高電源效率。

這種巧妙的機制和我們大腦中的生物突觸和神經元有相仿之處，同時憶阻器還具有尺寸小、操作功耗低、可大規模集成（三維集成）等優點，可以製成高密度交叉點陣列，以通過物理定律實現內存內部大規模並行乘積計算（CIM）。

首個基於憶阻器的 CNN 存算一體晶片

基於多個憶阻器陣列的存算一體化計算架構

在該項研究中，清華團隊提出用高能效比、高性能的均勻憶阻器交叉陣列處理神經卷積網絡（CNN），網絡共集成了 8 個基於憶阻器的處理單元，每個 PE 單元中包含 2048 個單元的憶阻器陣列，以提升並行計算效率。採用基於 ARM 核的動態隨機存取存儲器。

右圖展示了該陣列極具可重複性的多級電導率狀態，成功證明了存算一體架構全硬體實現的可行性。

每個憶阻器與電晶體採用漏級端相連，即 1T1R 結構。核心 PCB 子系統皮遏止八塊憶阻器陣列晶片，每個憶阻器陣列具備 128 × 16 個 1T1R 單元。在水平方向上共有 128 條並行字線和 128 條源線，在垂直方向上共有 16 條位線。

此外，研究者還提出了一種高效的混合訓練方法，以適應設備缺陷，改進整個系統的性能。研究者構建了基於憶阻器的五層 mCNN 來執行 MNIST 圖像識別任務，識別準確率超過 96%。

系統針對 ResNET-56 等大型網絡的可擴展性

除了使用不同卷積核對共享輸入執行並行卷積外，憶阻器陣列還複製了多個相同卷積核，以並行處理不同的輸入。相較於當前最優的圖形處理器（GPU），基於憶阻器的 CNN 神經形態系統的能效要高出兩個數量級以上，並且該系統可擴展至大型網絡，如殘差神經網絡（ResNet）。

該結果或可促進針對深度神經網絡和邊緣計算提供基於憶阻器的非馮諾伊曼（non-von Neumann）硬體解決方案，大幅提升計算設備的算力，成功實現以更小的功耗和更低的硬體成本完成複雜的計算。

攻關兩大難點

據清華大學新聞網介紹，當前國際上的憶阻器研究還停留在簡單網絡結構的驗證，或者基於少量器件數據進行的仿真。基於憶阻器陣列的完整硬體實現仍然有很多挑戰。

比如，器件方面，需要製備高一致、可靠的陣列；系統方面，憶阻器因工作原理而存在固有缺陷（如器件間波動，器件電導卡滯，電導狀態漂移等），會導致計算準確率降低；架構方面，憶阻器陣列實現卷積功能需要以串行滑動的方式連續採樣、計算多個輸入塊，無法匹配全連接結構的計算效率。

據《北京日報》報導，攻關期間，材料和工藝集成是最大挑戰，「做這種新的晶片需要觀察大量統計規律，但當時沒有大型代工廠支持，我們只能在實驗室摸索，有段時間有點崩潰，每次做完實驗，結果都很分散。」吳華強在接受採訪時說，後來，他們與中科院微電子所、北京大學等單位共同合作，終於解決了難題。

「我們改變材料上覆蓋層的組分，通過調試熱導率和電導率，調整材料內部導電係數的強弱，來實現優化。」吳華強接受《北京日報》的採訪時說。

目前團隊已經與一家商業矽代工廠合作，開發了一種混合集成途徑，以製造具有優化材料堆棧的大型陣列憶阻器，作為靈活的硬體測試平臺。

另一方面，為解決器件固有缺陷造成的系統識別準確率下降問題，團隊提出了一種新型的混合訓練算法，僅需用較少的圖像樣本訓練神經網絡，並微調了最後一層網絡的部分權重。

基於憶阻器的五層 mCNN 網絡

據論文介紹，團隊成功實現了一個完整的五層 mCNN，用於執行 MNIST 手寫數字圖像識別任務。優化後的材料堆棧（material stack）能夠在 2048 個單電晶體單憶阻器（one-transistor–one-memristor，1T1R）陣列中實現可靠且均勻的模擬開關行為。

使用該研究提出的混合訓練機制後，實驗在整個測試集上的識別準確率達到了 96.19%。

在 mCNN 上進行混合訓練

此外，將卷積內核複製到三個並行的憶阻器卷積器可將 mCNN 延遲大約降低了 1/3。高度集成的神經形態系統通過縮小基於憶阻器之間的卷積計算和全連接 VMM 之間的吞吐量差距，為大幅度提高 CNN 效率提供了一個可行的解決方案。

線下實測精度約為 95%

本月，在集成電路領域最重要的會議 ISSCC 上，研究小組針對研究成果進行了報告，晶片實現了多層感知器神經網絡，用於對 MNIST 數據集中的手寫數字圖片進行分類。

用於分類 MNIST 手寫數字圖片的晶片和演示系統

該晶片在晶片上集成了將近 16 萬個憶阻器以及所有外圍電路，並實現了每瓦每秒 78.4 兆兆位（78.4TOPS/W）運算的超高能效。運行功率低至 40 毫瓦，對 MNIST 圖像進行分類的識別精度約 95％。

目前，團隊正在致力於開發更複雜的存算一體化晶片，並擴大憶阻器陣列的尺寸，以進一步利用憶阻器提高系統性能。吳華強在接受《北京日報》採訪時表示，「我們還計劃構建包括憶阻器、存算一體晶片到存算一體編譯器等在內的全新計算機系統。」

展望未來，用憶阻器構建「大腦」計算機還有很長的路要走，因為在硬體和軟體方面仍然存在許多挑戰。而有了體積小、功耗低、算力強的存算一體晶片，手機等移動終端就能運行人工智慧應用，讓人工智慧更懂人類不再遙遠。

錢鶴、吳華強團隊認為，這種跨學科的研究與協作對於突破傳統思維並建立與現有系統完全不同的計算系統至關重要，這將有望通過這種強大的憶阻器徹底改變 AI 硬體。

參考連結：

1.https://news.tsinghua.edu.cn/publish/thunewsen/9671/2020/20200225110757772216750/20200225110757772216750_.html

2.http://bj.people.com.cn/BIG5/n2/2020/0227/c349239-33831801.html

3.https://scihub.bban.top/10.1038/s41586-020-1942-4

圖文系網絡轉載，版權歸原作者所有。不代表本公眾號觀點，如涉及作品版權問題，請與我們聯繫，我們將在第一時間協商版權問題或刪除內容！

原標題：《清華類腦晶片再登《Nature》: 全球首款基於憶阻器的CNN存算一體晶片，能效高出GPU兩個數量級》

相關焦點

能效比GPU高兩個數量級,清華大學研製首款多陣列憶阻器存算一體系統

集微網消息，近日，清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者在《自然》在線發表了研究論文，報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的首款基於多個憶阻器陣列的存算一體系統，在處理卷積神經網絡（CNN）時的能效比圖形處理器晶片（GPU）高兩個數量級，大幅提升了計算設備的算力，成功實現以更小的功耗和更低的硬體成本完成複雜的計算。
...出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級

他們提出用高能效比、高性能的均勻憶阻器交叉陣列實現 CNN，該實現共集成了 8個 PE ，每個 PE 包含2048 個單元的憶阻器陣列，以提升並行計算效率。此外，研究者還提出了一種高效的混合訓練方法，以適應設備缺陷，改進整個系統的性能。研究者構建了基於憶阻器的五層 CNN 來執行 MNIST 圖像識別任務，識別準確率超過 96%。
...研製出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級

他們提出用高能效比、高性能的均勻憶阻器交叉陣列實現 CNN，該實現共集成了 8個 PE ，每個 PE 包含2048 個單元的憶阻器陣列，以提升並行計算效率。此外，研究者還提出了一種高效的混合訓練方法，以適應設備缺陷，改進整個系統的性能。研究者構建了基於憶阻器的五層 CNN 來執行 MNIST 圖像識別任務，識別準確率超過 96%。
清華類腦晶片再登Nature: 全球首款基於憶阻器的CNN存算一體晶片

被認為具有「存算一體」潛力的憶阻器，因而成為類腦計算領域的熱門器件，被寄予提高算力，突破技術瓶頸的厚望。撰文 | 四月2 月 27 日機器之心獲悉，據清華大學新聞網消息，該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統，在處理卷積神經網絡（CNN）時能效比前沿的圖形處理器晶片（GPU）高兩個數量級。
清華制人工神經網絡晶片,能效比GPU高兩個數量級

（原標題：清華用憶阻器制人工神經網絡晶片，能效比GPU高兩個數量級）
清華實現完整硬體CNN,憶阻器陣列效能高過GPU兩個數量級

，報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。該成果所研發的基於多個憶阻器陣列的存算一體系統，在處理卷積神經網絡（CNN）時的能效比圖形處理器晶片（GPU）高兩個數量級，大幅提升了計算設備的算力，成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。
清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級

被認為具有「存算一體」潛力的憶阻器，因而成為類腦計算領域的熱門器件。近日，清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌（Nature）在線發表論文，報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
清華造人工神經網絡晶片,憶阻器陣列效能高過GPU兩個數量級

eYyednc該存算一體系統在辦理卷積神經網絡（CNN）時能效比前沿的圖形辦理器晶片（GPU）高兩個數質級，可以說在一定程度上衝破了「馮諾依曼瓶頸」的限造：大幅提升算力的同時，實現了以更小的功耗和更低的硬體成本完成複雜的計算。
清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...

高教授表示：「近幾年AI對算力的需求是爆炸式的增長。晶片算力的提升與需求增長之間有一個很尖銳的矛盾。」這個尖銳的矛盾主要有兩個原因：摩爾定律放緩以及馮諾依曼架構帶來的存算分離局限。這讓晶片面臨著算力和能效兩大挑戰。要解決矛盾和挑戰，需要三大基石都革新的存算一體計算機。
人工智慧的另一方向:基於憶阻器的存算一體技術

在報告中吳教授介紹到：當思考未來計算的時候，量子計算、光計算是向物理找答案，類腦計算、存算一體是向生物找答案，也就是向大腦找答案。目前吳老師正在晶片上做電子突觸新器件，做存算一體的架構。新器件方面主要研究的是憶阻器，它的特點是可以多比特，同時非易失，即把電去掉可以保持阻值，並且它速度很快。
清華大學的存算一體化架構和並行加速方法專利

清華大學基於多個憶阻器陣列的全硬體完整存算一體系統，能夠高效的運行卷積神經網絡算法，證明了存算一體架構全硬體實現的可行性，對今後AI算力瓶頸的突破有著極大意義。該成果所研發的基於多個憶阻器陣列的存算一體系統，在處理卷積神經網絡時的能效遠高於GPU，大幅提升了計算設備的算力，成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。隨著以人工智慧為代表的信息技術革命興起，基於各種深度神經網絡的算法可以實現圖像識別與分割、物體探測以及完成對語音和文本的翻譯、生成等處理。
新基建浪潮下AI晶片的絕佳機遇 | CCF-GAIR 2020

AI晶片技術前沿清華大學高濱：基於憶阻器的存算一體晶片技術形成新的計算系統近幾年，AI的發展對算力需求每年都是幾個數量級的增加，此時，傳統計算機的三大基石難以跟上算力需求的增加，需要創新的技術，但創新技術依舊面臨巨大的挑戰。
新型ANN登《自然》子刊:清華團隊領銜打造基於憶阻器的人工樹突

如果幫助你勾勒出「神經元」形態的，是以字母 D 開頭的單詞指示的、像樹枝一樣的部分，那麼恭喜你，你對今天的主題「樹突」已經有了一定認知了。一個神經細胞可以有多達 1 萬根樹突。可以說，窺探人類之謎，研究樹突是重要一環。
憶阻器類腦晶片與人工智慧

憶阻器是一種新型微電子基礎器件，其電阻可通過外場連續調節且具有非易失性、小尺寸、低能耗、高速和CMOS兼容等優良特性，被認為是快速實現存算一體化計算最具潛力的類突觸器件。與此同時，光電子器件和神經元遵從動力學數學同構性，藉助這種同構性可用光電子器件模擬神經元行為並實現類腦計算，基於光子器件的類腦晶片正在往更高集成度、更低功耗、更高性能方向發展，其將會在類腦計算領域發揮越來越重要的作用。
知存科技致力於開發的基於NOR Flash的存算一體化人工智慧晶片

知存科技致力於開發的基於NOR Flash的存算一體化人工智慧晶片李倩發表於 2018-07-04 16:07:17 知存科技致力於開發的基於NOR Flash的存算一體化人工智慧晶片，其晶片特點是能耗低
打破馮諾依曼架構限制國內研發存算一體AI晶片

大家都知道我們現在的電腦——不論是PC還是超算，都是處理器、存儲晶片分離的，這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展，存儲計算分離的架構瓶頸越來越多，日前國內研發出了存算一體的AI晶片，號稱自主智慧財產權，國內首創、國際領先。
中國科學家提出基於憶阻器陣列的新型腦機接口

清華大學研發的基於憶阻器陣列的腦電信號處理系統正在測試中。來自清華大學的科研團隊提出基於憶阻器陣列的新型腦機接口，相關研究成果日前在線發表於《自然·通訊》。主流腦機接口中的神經信號分析模塊由基於矽電晶體的集成電路構成，但隨著腦機接口中的信號採集通道數的增加，系統面臨著高功耗和延時等方面的挑戰，這也是制約腦機接口技術在植入式或可攜式醫療系統中應用的重要瓶頸之一。
...神經擬態模數混合計算晶片行業的領軍者,開拓感存算一體架構晶片

成立於2018年的九天睿芯，專注高能效神經擬態感存算一體晶片，同時提供高能效感存算一體（生物醫療、語音視覺加速等其他信號）晶片設計、軟體編譯配置等定製化服務。談及神經擬態模數混合計算的發展淵源，九天睿芯介紹，自Carver Mead在90年代提出理論，經由創始人劉洪傑博士在蘇黎世聯邦理工的博士導師，Tobi Delbruck在神經感知計算領域實現的實際應用落地。
有了憶阻器,「超級人工大腦」不再是夢

原標題：有了憶阻器，「超級人工大腦」不再是夢　　「如果把用憶阻器技術開發出的人工智慧晶片應用在手機裡面，晶片功耗會大大降低，手機充一次電就可以用兩天。」10月27日，在接受科技日報記者專訪時，清華大學微電子學研究所教授錢鶴這樣通俗地解釋憶阻器將給普通民眾生活帶來的變化。　　當前，人工智慧發展迅猛。然而，在錢鶴看來，如果要發展更為強大的人工智慧，即像人一樣的機器人，表現出與人類一樣熟練和靈活的行為，憶阻器的作用不可忽視。

...全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級

相關焦點

能效比GPU高兩個數量級,清華大學研製首款多陣列憶阻器存算一體系統

...出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級

...研製出全球首款多陣列憶阻器存算一體系統,能效比GPU高兩個數量級

清華類腦晶片再登Nature: 全球首款基於憶阻器的CNN存算一體晶片

清華制人工神經網絡晶片,能效比GPU高兩個數量級

清華實現完整硬體CNN,憶阻器陣列效能高過GPU兩個數量級

清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級

清華造人工神經網絡晶片,憶阻器陣列效能高過GPU兩個數量級

清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...

人工智慧的另一方向:基於憶阻器的存算一體技術

清華大學的存算一體化架構和並行加速方法專利

新基建浪潮下AI晶片的絕佳機遇 | CCF-GAIR 2020

新型ANN登《自然》子刊:清華團隊領銜打造基於憶阻器的人工樹突

憶阻器類腦晶片與人工智慧

知存科技致力於開發的基於NOR Flash的存算一體化人工智慧晶片

打破馮諾依曼架構限制 國內研發存算一體AI晶片

中國科學家提出基於憶阻器陣列的新型腦機接口

...神經擬態模數混合計算晶片行業的領軍者,開拓感存算一體架構晶片

有了憶阻器,「超級人工大腦」不再是夢

打破馮諾依曼架構限制國內研發存算一體AI晶片