作為模擬人類大腦處理信息的計算技術,神經形態計算被認為是實現通用人工智慧的重要方向之一。
它與傳統的計算技術相比,最主要的一個區別在於其擺脫馮·諾依曼架構存算分離的枷鎖,追求人腦神經元的高效整合形式,將數據存儲和處理的功能集中在相同的計算單元上,從而可以能效更高、性能更好、速度更快地進行數據的處理,因此頗受人工智慧領域的關注。
其中,一種名為「憶阻器」的硬體元件是神經形態計算實現的關鍵。簡單來說,憶阻器即同時兼備記憶和電阻的功能。
近日,密西根大學盧偉教授及其團隊邁出了重要一步,成功研發出全球第一款基於憶阻器陣列的通用 AI 晶片。這款新型 AI 晶片的創新之處在於所有的存儲計算功能都集成在同一個晶片上,從而真正實現了存算一體化,而且可以通過編程應用於多種人工智慧算法,進一步提高計算速度,並減少能量損耗。相關研究於 7 月 15 日發表在 Nature Electronics 上。晶片設計的合作者包括密西根大學的張振亞(Zhengya Zhang)教授和 Mike P. Flynn 教授的團隊。
圖丨盧偉、張振亞、Mike P. Flynn(來源:學校官網)
在接受 DeepTech 獨家專訪時,盧偉教授表示,目前來看,基於推理的邊緣計算場景(edge computing)是這種新型 AI 晶片很適合切入的一個應用場景。另外,團隊已經成立了公司以推動下一代產品的商業化。
「我們發表的這個晶片還是用於科研和驗證概念,並沒有深度優化。我們已經開始研究設計更優化和功能更完善的下一代晶片」,盧偉教授表示。
而除了盧偉的團隊,投入到神經形態計算晶片研究中的公司還包括 IBM(TrueNorth 項目)、英特爾(Loihi項目)、高通(Zeroth項目)等行業巨頭,以及知存科技、西井科技等國內外初創公司,上個月刷屏的清華「天機」類腦計算晶片同樣也屬於存算一體方向下的創新突破。隨著越來越多創新突破的實現,下一世代的計算技術正離我們越來越近。
圖丨憶阻器陣列晶片(來源:Robert Coelius,Michigan Engineering)
下一世代的計算趨勢:存算一體
現有的馮·諾依曼計算體系靠不同的單元存儲數據和執行計算,隨著數據量的增加以及算法複雜程度的提升,數據在存儲器和運算器之間存取的時間消耗,是進一步提升計算性能的瓶頸。
尤其是在人工智慧算法的運行過程中,一旦將數據存入硬碟而不是系統內存中,計算速度就會成百倍地降低,電源消耗也會成百倍地增長。即使所有數據都能夠存儲在內存中,現有的中央處理晶片也需要從內存中讀取數據,但是數據在內存和中央處理器之間的來回存取過程,會消耗大量的時間和電力能源。
針對這一問題,諸多的晶片公司、初創公司和科學家們投入了大量的時間和資金,來研究如何將計算機中的運算從中央處理器轉入內存中進行,這種方法也被稱為存算一體化。這一方式不僅可以提升計算速度,也可以減少計算功耗。
圖丨(來源:格羅寧根大學)
盧偉介紹,存算一體架構對於需要處理大量數據的應用場景如 AI 非常有吸引力,理想的存算一體架構能把整個 AI 模型存在晶片上並直接在存儲單元上運行。這樣可以徹底捨棄外置存儲單元如 DRAM,以極大地提高晶片的功耗比和處理量。現有和正在研發的解決方案大概有以下幾種:
1. 使用現有的存儲技術比如 SRAM,這種方案比較成熟,被很多初創公司和科研機構所採用。但是,由於 SRAM 密度和功耗的限制,它只能用在很小的「玩具模型(toy model)」上。大的模型還需要將參數儲存在外置的 DRAM 上,整個系統的功耗比會因此迅速下降。
2. 新型的非易失性存儲器(non-volatile memory, NVM)比如 RRAM、STT-MRAM,這個方向同樣有很多公司感興趣。這類嵌入式 NVM 有希望實現整個模型的片上存儲,但其局限是,模型的運算還需要通過中央處理器 CPU,並不能徹底解決數據傳輸比如總線的堵塞問題。
3. 真正意義上的存算一體結構會儘量避免使用 CPU,而通過嵌入的 NVM 直接做運算。其中的困難在於,怎麼解決使用存儲單元做運算帶來的模擬信號的誤差問題,以及怎麼實現足夠精度和高效的模擬/數位訊號轉換。
「第三種方案理論上最有效率,不過目前的進展還在方案 1,2 的後面」,盧偉教授說。
在這次研究中,團隊則成功驗證了小規模的、真正的存算一體架構(方案 3),實現了包括推理(inference)和在線學習(online learning)等多種功能,同時仔細分析了模擬信號的誤差問題以及模擬/數位訊號轉換電路的影響。
另外,現有的存算一體化晶片,往往是為某個特定的人工智慧問題而設計,或者需要額外的處理器來驅動,這在很大程度上限制了存算一體化晶片的推廣和應用,而由盧偉團隊研究開發的這款晶片,不需要額外的輔助就能實現對於多種算法的存算一體化。
首個基於憶阻器的通用 AI 晶片
憶阻器以及其他非易失性內存器件是實現存算一體化非常合適的選擇。
在人工智慧和深度學習算法中, 核心運算主要是大量的向量-矩陣乘法(Vector-Matrix Multiplication, VMM)。由於基於憶阻器陣列的晶片使用了模擬電路而非數字電路,使得其對於 VMM 的計算是非常高效的,並且已經在多項研究中顯示出在人工智慧計算領域中的潛力。
憶阻器的概念最先由加州大學伯克利分校教授 Leon O. Chua(蔡少棠)於 1971 年提出,並在 2008 年由惠普公司研發出首個固態憶阻器。憶阻器是一個具有兩個埠的被動電子元件,類似於公眾熟知的電阻元件。不同的是,其電阻值可以通過流經這個電阻的電流改變,也就是說這種電阻具有記憶電流和電荷的能力 。憶阻器陣列的電路結構是類似矩陣的縱橫陣列。在 VMM 的運算中,晶片使用縱橫陣列中的電阻值來儲存矩陣數據,通過輸入的電壓值來控制與矩陣相乘的向量,從而可以從輸出的電壓中獲得向量-矩陣相乘的結果。
圖丨電阻、電容和電感器之外,應該還有一種元件,代表著電荷與磁通量,即憶阻器(來源:維基百科)
這款新研發的晶片,就是將 5832 個憶阻器元件和一個 OpenRISC 處理器集成在一起,還添加了486 個特製數字-模擬電路轉換器, 162 個特製模擬-數字電路轉換器,以及兩個混合信號接口用來實現憶阻器模擬電路和中央處理器電路的銜接。
全功率工作下,晶片只需 300 毫瓦的功耗,就能實現每秒每瓦特 1880 億次運算。雖然計算速度相比於英偉達最新推出的人工智慧晶片(每秒每瓦特可達 9.09 萬億次運算)略顯遜色,但這款晶片在功耗和數據存取上有著明顯的優勢。
而在通用性的驗證上,團隊使用憶阻器陣列晶片,實現了三種人工智慧的算法。首先是稱為「感知器」(perceptron)的著名機器學習算法,該算法也是最為常見的用來進行信息分類的機器學習算法之一。團隊用這款晶片成功地實現了單層感知器的運算,並將其用來識別希臘字母的有噪圖片。
這款晶片實現的另一種更複雜的算法是「稀疏編碼」(sparse coding)算法。這種算法通過比較神經元來優化神經網絡,剔除無效的神經元,找出最優的神經元連接方式,進而針對目標找出最優的神經網絡,可以用來有效地進行特徵提取、數據壓縮以及數據分類等工作。
最後,這款晶片實現的是雙層神經網絡的無監督學習算法,用來識別和判斷乳房腫瘤圖像。神經網絡中的第一層使用主成分分析方法,來自主識別圖像中的特徵,第二層使用感知器來進一步判斷圖像中的腫瘤是否是惡性的。這種算法在這款晶片上運行的準確率可以高達 94.6%,這一結果已經非常接近在傳統晶片上運行得到的 96.8% 的準確率。這一細微差距,主要是憶阻器元件在分類邊界上的電荷不確定性造成的。
圖丨憶阻器陣列晶片(來源:Robert Coelius,Michigan Engineering)
當然,這款憶阻器晶片仍有很大的優化和提升空間。IEEE Spectrum 稱,他們在晶片中使用了 40 年前的 180 納米的電晶體,而如果使用 2008 年 40 納米的電晶體技術, 就可以將功耗繼續降低至 42 毫瓦,並可將計算效率提高至每秒每瓦特 1.37 萬億次運算。相較而言,英偉達的最新人工智慧晶片使用的是更為先進的 2014 年的電晶體製造工藝。
盧偉也表示,已經開始研究設計更優化和功能更完善的下一代晶片,會使用更快和更先進的電晶體,以及更多的憶阻器陣列,從而可以通過多個陣列運行更複雜的神經網絡算法。現在,團隊已經成立了一家名為「 MemryX」的初創公司,會進一步將這款晶片商業化。
(來源:MemryX)
「MemryX 的目標是提供成熟的、商用性的存算一體架構解決方案。我們目前已經有了非常實質性的進展」,他說。
值得一提的是,盧偉教授參與創建的另一家初創公司 Crossbar 也專注於憶阻器的研究以及在人工智慧晶片領域的開發。在存儲器行業, Crossbar 向市場推出 Crossbar ReRAM 解決方案,已經成為新型存儲技術的引領者之一,中芯國際早在 2016 年就宣布和 Crossbar 合作,將其 ReRAM技術集成到多種設備上;2018年,Crossbar 也與航空航天晶片製造商 Microsemi 籤訂了合作協議,並且推出了人臉識別和汽車牌照識別的晶片原型。