傳統計算架構中計算與存儲在不同電路單元中完成,造成大量數據搬運功耗增加和額外延遲,被認為是馮·諾依曼計算架構的核心瓶頸。
人類的大腦卻並非如此,而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。
撰文 | 四月
2 月 27 日機器之心獲悉,據清華大學新聞網消息,該校微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強教授團隊與合作者成功研發出一款基於多陣列憶阻器存算一體系統,在處理卷積神經網絡(CNN)時能效比前沿的圖形處理器晶片(GPU)高兩個數量級。
該項研究於 1 月 29 日在頂尖學術期刊《自然》雜誌(Nature)在線發表,題為《Fully hardware-implemented memristor convolutional neural network(完全由硬體實現的憶阻器卷積神經網絡)》,詳述了基於憶阻器陣列晶片實現卷積網絡的完整硬體過程。
通過這項工作中開發的陣列晶片集成了 8 個包含 2048 個憶阻器的列陣,並構建了一個五層的卷積神經網絡進行圖像識別,精度高達 96% 以上。
基於多個憶阻器陣列實現的存算一體化開發板
該陣列晶片以憶阻器替代經典計算機底層的電晶體,以更小的功耗和更低的硬體成本大幅提升計算設備的算力,在一定程度上突破了傳統計算框架「馮諾依曼瓶頸」的限制:大幅提升算力的同時,實現了更小的功耗和更低的硬體成本。
清華 LEMON 團隊成員:員高濱、姚鵬、吳華強、張清天、唐建石(從左到右)圖片來源:清華新聞網
目前,何謙教授和吳華強教授領導了清華大學的LEMON實驗室(The Laboratory of Emerging Memory and Novel Computing,新興存儲與新型計算實驗室),在過去的幾年中一直致力於基於憶阻器的神經形態計算。該小組在材料和設備工程,工藝開發,電路和晶片設計以及算法和系統演示方面取得了顯著成就。
01
來自憶阻器的啟發
所謂憶阻器,全稱記憶電阻器(Memristor),是繼電阻、電容、電感之後的第四種電路基本元件,顯示磁通與電荷之間的關係,最早由加州大學伯克利分校教授蔡少棠在 1971 年預言存在,惠普公司在 2008 年研造成功。
簡言之,這種組件的的電阻會隨著通過的電流質而扭轉,而且就算電流進行了,它的電阻依然會停留在之前的值,直到承遭到反向的電流它才會被推回去,就是說能「記住」之前的電流質。
受人腦啟發,憶阻器設備被組織成交叉點陣列,以實現大規模並行的內存計算並提高電源效率。
這種巧妙的機制和我們大腦中的生物突觸和神經元有相仿之處,同時憶阻器還具有尺寸小、操作功耗低、可大規模集成(三維集成)等優點,可以製成高密度交叉點陣列,以通過物理定律實現內存內部大規模並行乘積計算(CIM)。
02
首個基於憶阻器的 CNN 存算一體晶片
基於多個憶阻器陣列的存算一體化計算架構
在該項研究中,清華團隊提出用高能效比、高性能的均勻憶阻器交叉陣列處理神經卷積網絡(CNN),網絡共集成了 8 個 基於憶阻器的處理單元,每個 PE 單元中包含 2048 個單元的憶阻器陣列,以提升並行計算效率。採用基於 ARM 核的動態隨機存取存儲器。
右圖展示了該陣列極具可重複性的多級電導率狀態,成功證明了存算一體架構全硬體實現的可行性。
每個憶阻器與電晶體採用漏級端相連,即 1T1R 結構。核心 PCB 子系統皮遏止八塊憶阻器陣列晶片,每個憶阻器陣列具備 128 × 16 個 1T1R 單元。在水平方向上共有 128 條並行字線和 128 條源線,在垂直方向上共有 16 條位線。
此外,研究者還提出了一種高效的混合訓練方法,以適應設備缺陷,改進整個系統的性能。研究者構建了基於憶阻器的五層 mCNN 來執行 MNIST 圖像識別任務,識別準確率超過 96%。
系統針對 ResNET-56 等大型網絡的可擴展性
除了使用不同卷積核對共享輸入執行並行卷積外,憶阻器陣列還複製了多個相同卷積核,以並行處理不同的輸入。相較於當前最優的圖形處理器(GPU),基於憶阻器的 CNN 神經形態系統的能效要高出兩個數量級以上,並且該系統可擴展至大型網絡,如殘差神經網絡(ResNet)。
該結果或可促進針對深度神經網絡和邊緣計算提供基於憶阻器的非馮諾伊曼(non-von Neumann)硬體解決方案,大幅提升計算設備的算力,成功實現以更小的功耗和更低的硬體成本完成複雜的計算。
03
攻關兩大難點
據清華大學新聞網介紹,當前國際上的憶阻器研究還停留在簡單網絡結構的驗證,或者基於少量器件數據進行的仿真。基於憶阻器陣列的完整硬體實現仍然有很多挑戰。
比如,器件方面,需要製備高一致、可靠的陣列;系統方面,憶阻器因工作原理而存在固有缺陷(如器件間波動,器件電導卡滯,電導狀態漂移等),會導致計算準確率降低;架構方面,憶阻器陣列實現卷積功能需要以串行滑動的方式連續採樣、計算多個輸入塊,無法匹配全連接結構的計算效率。
據《北京日報》報導,攻關期間,材料和工藝集成是最大挑戰,「做這種新的晶片需要觀察大量統計規律,但當時沒有大型代工廠支持,我們只能在實驗室摸索,有段時間有點崩潰,每次做完實驗,結果都很分散。」吳華強在接受採訪時說,後來,他們與中科院微電子所、北京大學等單位共同合作,終於解決了難題。
「我們改變材料上覆蓋層的組分,通過調試熱導率和電導率,調整材料內部導電係數的強弱,來實現優化。」吳華強接受《北京日報》的採訪時說。
目前團隊已經與一家商業矽代工廠合作,開發了一種混合集成途徑,以製造具有優化材料堆棧的大型陣列憶阻器,作為靈活的硬體測試平臺。
另一方面,為解決器件固有缺陷造成的系統識別準確率下降問題,團隊提出了一種新型的混合訓練算法,僅需用較少的圖像樣本訓練神經網絡,並微調了最後一層網絡的部分權重。
基於憶阻器的五層 mCNN 網絡
據論文介紹,團隊成功實現了一個完整的五層 mCNN,用於執行 MNIST 手寫數字圖像識別任務。優化後的材料堆棧(material stack)能夠在 2048 個單電晶體單憶阻器(one-transistor–one-memristor,1T1R)陣列中實現可靠且均勻的模擬開關行為。
使用該研究提出的混合訓練機制後,實驗在整個測試集上的識別準確率達到了 96.19%。
在 mCNN 上進行混合訓練
此外,將卷積內核複製到三個並行的憶阻器卷積器可將 mCNN 延遲大約降低了 1/3。高度集成的神經形態系統通過縮小基於憶阻器之間的卷積計算和全連接 VMM 之間的吞吐量差距,為大幅度提高 CNN 效率提供了一個可行的解決方案。
04
線下實測精度約為 95%
本月,在集成電路領域最重要的會議 ISSCC 上,研究小組針對研究成果進行了報告,晶片實現了多層感知器神經網絡,用於對 MNIST 數據集中的手寫數字圖片進行分類。
用於分類 MNIST 手寫數字圖片的晶片和演示系統
該晶片在晶片上集成了將近 16 萬個憶阻器以及所有外圍電路,並實現了每瓦每秒 78.4 兆兆位(78.4TOPS/W)運算的超高能效。運行功率低至 40 毫瓦,對 MNIST 圖像進行分類的識別精度約 95%。
目前,團隊正在致力於開發更複雜的存算一體化晶片,並擴大憶阻器陣列的尺寸,以進一步利用憶阻器提高系統性能。吳華強在接受《北京日報》採訪時表示,「我們還計劃構建包括憶阻器、存算一體晶片到存算一體編譯器等在內的全新計算機系統。」
展望未來,用憶阻器構建「大腦」計算機還有很長的路要走,因為在硬體和軟體方面仍然存在許多挑戰。而有了體積小、功耗低、算力強的存算一體晶片,手機等移動終端就能運行人工智慧應用,讓人工智慧更懂人類不再遙遠。
錢鶴、吳華強團隊認為,這種跨學科的研究與協作對於突破傳統思維並建立與現有系統完全不同的計算系統至關重要,這將有望通過這種強大的憶阻器徹底改變 AI 硬體。
參考連結:
1.https://news.tsinghua.edu.cn/publish/thunewsen/9671/2020/20200225110757772216750/20200225110757772216750_.html
2.http://bj.people.com.cn/BIG5/n2/2020/0227/c349239-33831801.html
3.https://scihub.bban.top/10.1038/s41586-020-1942-4
圖文系網絡轉載,版權歸原作者所有。不代表本公眾號觀點,如涉及作品版權問題,請與我們聯繫,我們將在第一時間協商版權問題或刪除內容!
原標題:《清華類腦晶片再登《Nature》: 全球首款基於憶阻器的CNN存算一體晶片,能效高出GPU兩個數量級》