科學家造全球首個存算一體通用AI晶片,類腦計算關鍵元件再獲驗證

2021-01-08 DeepTech深科技

作為模擬人類大腦處理信息的計算技術,神經形態計算被認為是實現通用人工智慧的重要方向之一。

它與傳統的計算技術相比,最主要的一個區別在於其擺脫馮·諾依曼架構存算分離的枷鎖,追求人腦神經元的高效整合形式,將數據存儲和處理的功能集中在相同的計算單元上,從而可以能效更高、性能更好、速度更快地進行數據的處理,因此頗受人工智慧領域的關注。

其中,一種名為「憶阻器」的硬體元件是神經形態計算實現的關鍵。簡單來說,憶阻器即同時兼備記憶和電阻的功能。

近日,密西根大學盧偉教授及其團隊邁出了重要一步,成功研發出全球第一款基於憶阻器陣列的通用 AI 晶片。這款新型 AI 晶片的創新之處在於所有的存儲計算功能都集成在同一個晶片上,從而真正實現了存算一體化,而且可以通過編程應用於多種人工智慧算法,進一步提高計算速度,並減少能量損耗。相關研究於 7 月 15 日發表在 Nature Electronics 上。晶片設計的合作者包括密西根大學的張振亞(Zhengya Zhang)教授和 Mike P. Flynn 教授的團隊。

圖丨盧偉、張振亞、Mike P. Flynn(來源:學校官網)

在接受 DeepTech 獨家專訪時,盧偉教授表示,目前來看,基於推理的邊緣計算場景(edge computing)是這種新型 AI 晶片很適合切入的一個應用場景。另外,團隊已經成立了公司以推動下一代產品的商業化。

「我們發表的這個晶片還是用於科研和驗證概念,並沒有深度優化。我們已經開始研究設計更優化和功能更完善的下一代晶片」,盧偉教授表示。

而除了盧偉的團隊,投入到神經形態計算晶片研究中的公司還包括 IBM(TrueNorth 項目)、英特爾(Loihi項目)、高通(Zeroth項目)等行業巨頭,以及知存科技、西井科技等國內外初創公司,上個月刷屏的清華「天機」類腦計算晶片同樣也屬於存算一體方向下的創新突破。隨著越來越多創新突破的實現,下一世代的計算技術正離我們越來越近。

圖丨憶阻器陣列晶片(來源:Robert Coelius,Michigan Engineering)

下一世代的計算趨勢:存算一體

現有的馮·諾依曼計算體系靠不同的單元存儲數據和執行計算,隨著數據量的增加以及算法複雜程度的提升,數據在存儲器和運算器之間存取的時間消耗,是進一步提升計算性能的瓶頸。

尤其是在人工智慧算法的運行過程中,一旦將數據存入硬碟而不是系統內存中,計算速度就會成百倍地降低,電源消耗也會成百倍地增長。即使所有數據都能夠存儲在內存中,現有的中央處理晶片也需要從內存中讀取數據,但是數據在內存和中央處理器之間的來回存取過程,會消耗大量的時間和電力能源。

針對這一問題,諸多的晶片公司、初創公司和科學家們投入了大量的時間和資金,來研究如何將計算機中的運算從中央處理器轉入內存中進行,這種方法也被稱為存算一體化。這一方式不僅可以提升計算速度,也可以減少計算功耗。

圖丨(來源:格羅寧根大學)

盧偉介紹,存算一體架構對於需要處理大量數據的應用場景如 AI 非常有吸引力,理想的存算一體架構能把整個 AI 模型存在晶片上並直接在存儲單元上運行。這樣可以徹底捨棄外置存儲單元如 DRAM,以極大地提高晶片的功耗比和處理量。現有和正在研發的解決方案大概有以下幾種:

1. 使用現有的存儲技術比如 SRAM,這種方案比較成熟,被很多初創公司和科研機構所採用。但是,由於 SRAM 密度和功耗的限制,它只能用在很小的「玩具模型(toy model)」上。大的模型還需要將參數儲存在外置的 DRAM 上,整個系統的功耗比會因此迅速下降。

2. 新型的非易失性存儲器(non-volatile memory, NVM)比如 RRAM、STT-MRAM,這個方向同樣有很多公司感興趣。這類嵌入式 NVM 有希望實現整個模型的片上存儲,但其局限是,模型的運算還需要通過中央處理器 CPU,並不能徹底解決數據傳輸比如總線的堵塞問題。

3. 真正意義上的存算一體結構會儘量避免使用 CPU,而通過嵌入的 NVM 直接做運算。其中的困難在於,怎麼解決使用存儲單元做運算帶來的模擬信號的誤差問題,以及怎麼實現足夠精度和高效的模擬/數位訊號轉換。

「第三種方案理論上最有效率,不過目前的進展還在方案 1,2 的後面」,盧偉教授說。

在這次研究中,團隊則成功驗證了小規模的、真正的存算一體架構(方案 3),實現了包括推理(inference)和在線學習(online learning)等多種功能,同時仔細分析了模擬信號的誤差問題以及模擬/數位訊號轉換電路的影響。

另外,現有的存算一體化晶片,往往是為某個特定的人工智慧問題而設計,或者需要額外的處理器來驅動,這在很大程度上限制了存算一體化晶片的推廣和應用,而由盧偉團隊研究開發的這款晶片,不需要額外的輔助就能實現對於多種算法的存算一體化。

首個基於憶阻器的通用 AI 晶片

憶阻器以及其他非易失性內存器件是實現存算一體化非常合適的選擇。

在人工智慧和深度學習算法中, 核心運算主要是大量的向量-矩陣乘法(Vector-Matrix Multiplication, VMM)。由於基於憶阻器陣列的晶片使用了模擬電路而非數字電路,使得其對於 VMM 的計算是非常高效的,並且已經在多項研究中顯示出在人工智慧計算領域中的潛力。

憶阻器的概念最先由加州大學伯克利分校教授 Leon O. Chua(蔡少棠)於 1971 年提出,並在 2008 年由惠普公司研發出首個固態憶阻器。憶阻器是一個具有兩個埠的被動電子元件,類似於公眾熟知的電阻元件。不同的是,其電阻值可以通過流經這個電阻的電流改變,也就是說這種電阻具有記憶電流和電荷的能力 。憶阻器陣列的電路結構是類似矩陣的縱橫陣列。在 VMM 的運算中,晶片使用縱橫陣列中的電阻值來儲存矩陣數據,通過輸入的電壓值來控制與矩陣相乘的向量,從而可以從輸出的電壓中獲得向量-矩陣相乘的結果。

圖丨電阻、電容和電感器之外,應該還有一種元件,代表著電荷與磁通量,即憶阻器(來源:維基百科)

這款新研發的晶片,就是將 5832 個憶阻器元件和一個 OpenRISC 處理器集成在一起,還添加了486 個特製數字-模擬電路轉換器, 162 個特製模擬-數字電路轉換器,以及兩個混合信號接口用來實現憶阻器模擬電路和中央處理器電路的銜接。

全功率工作下,晶片只需 300 毫瓦的功耗,就能實現每秒每瓦特 1880 億次運算。雖然計算速度相比於英偉達最新推出的人工智慧晶片(每秒每瓦特可達 9.09 萬億次運算)略顯遜色,但這款晶片在功耗和數據存取上有著明顯的優勢。

而在通用性的驗證上,團隊使用憶阻器陣列晶片,實現了三種人工智慧的算法。首先是稱為「感知器」(perceptron)的著名機器學習算法,該算法也是最為常見的用來進行信息分類的機器學習算法之一。團隊用這款晶片成功地實現了單層感知器的運算,並將其用來識別希臘字母的有噪圖片。

這款晶片實現的另一種更複雜的算法是「稀疏編碼」(sparse coding)算法。這種算法通過比較神經元來優化神經網絡,剔除無效的神經元,找出最優的神經元連接方式,進而針對目標找出最優的神經網絡,可以用來有效地進行特徵提取、數據壓縮以及數據分類等工作。

最後,這款晶片實現的是雙層神經網絡的無監督學習算法,用來識別和判斷乳房腫瘤圖像。神經網絡中的第一層使用主成分分析方法,來自主識別圖像中的特徵,第二層使用感知器來進一步判斷圖像中的腫瘤是否是惡性的。這種算法在這款晶片上運行的準確率可以高達 94.6%,這一結果已經非常接近在傳統晶片上運行得到的 96.8% 的準確率。這一細微差距,主要是憶阻器元件在分類邊界上的電荷不確定性造成的。

圖丨憶阻器陣列晶片(來源:Robert Coelius,Michigan Engineering)

當然,這款憶阻器晶片仍有很大的優化和提升空間。IEEE Spectrum 稱,他們在晶片中使用了 40 年前的 180 納米的電晶體,而如果使用 2008 年 40 納米的電晶體技術, 就可以將功耗繼續降低至 42 毫瓦,並可將計算效率提高至每秒每瓦特 1.37 萬億次運算。相較而言,英偉達的最新人工智慧晶片使用的是更為先進的 2014 年的電晶體製造工藝。

盧偉也表示,已經開始研究設計更優化和功能更完善的下一代晶片,會使用更快和更先進的電晶體,以及更多的憶阻器陣列,從而可以通過多個陣列運行更複雜的神經網絡算法。現在,團隊已經成立了一家名為「 MemryX」的初創公司,會進一步將這款晶片商業化。

(來源:MemryX)

「MemryX 的目標是提供成熟的、商用性的存算一體架構解決方案。我們目前已經有了非常實質性的進展」,他說。

值得一提的是,盧偉教授參與創建的另一家初創公司 Crossbar 也專注於憶阻器的研究以及在人工智慧晶片領域的開發。在存儲器行業, Crossbar 向市場推出 Crossbar ReRAM 解決方案,已經成為新型存儲技術的引領者之一,中芯國際早在 2016 年就宣布和 Crossbar 合作,將其 ReRAM技術集成到多種設備上;2018年,Crossbar 也與航空航天晶片製造商 Microsemi 籤訂了合作協議,並且推出了人臉識別和汽車牌照識別的晶片原型。

相關焦點

  • 我科學家首次提出「類腦計算完備性」填補腦計算系統領域理論空白
    我科學家首次提出「類腦計算完備性」 為類腦計算提供技術標準與方案 我科學家在類腦計算體系結構領域再獲突破性進展。 類腦計算是借鑑生物神經系統信息處理模式和結構的計算理論、體系結構、晶片設計以及應用模型與算法的總稱。近年來,類腦計算研究受到越來越多的關注。歐盟人腦旗艦研究計劃項目指出:「在未來10到20年內,誰要引領世界經濟,誰就必須在這個領域領先。」
  • 人工智慧的另一方向:基於憶阻器的存算一體技術
    其中來自清華大學的吳華強老師做了題目為「大腦啟發的存算一體技術」的報告。在報告中吳教授介紹到:當思考未來計算的時候,量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。目前吳老師正在晶片上做電子突觸新器件,做存算一體的架構。新器件方面主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉可以保持阻值,並且它速度很快。
  • 專注存算一體晶片研發,「知存科技」如何打破AI晶片困局?
    王紹迪進入加州大學洛杉磯分校攻讀博士學位,研究新型存儲器,而郭昕婕選擇了加州大學聖塔芭芭拉分校,專注研究基於NOR Flash的存算一體晶片技術,並於2016年研發出了全球第一個多層神經網絡的存算一體深度學習晶片技術,首次完成了存算一體的晶片驗證。
  • 重磅講座預告:黃鐵軍、陳雲霽等專家齊聚CCF ADL,分享類腦計算與...
    1998年從華中理工大學模式識別與智能系統專業獲博士學位,曾兩次榮獲國家科學技術進步二等獎,五次榮獲省部級一等獎,並獲得中國科協求是傑出青年成果轉化獎。講座題目:類腦計算—從理念到實踐摘要:類腦計算是Brain Like(仿腦)還是Brain Inspired Computing(腦啟發的計算)?
  • 類腦計算,他們從0到1
    10月14日,清華大學計算機系張悠慧團隊和精儀系施路平團隊與合作者在《自然》雜誌發表題為《一種類腦計算系統層次結構》的論文,填補了類腦計算系統領域完備性理論與相應的類腦計算系統層次結構方面的空白。這是一年多來,清華團隊在類腦計算領域繼「天機芯」和「多陣列憶阻器存算一體系統」之後於《自然》正刊發表的第三篇成果,也是國內計算機體系結構領域首篇《自然》論文。
  • 或讓功耗降低1000倍,存算一體晶片正在突破
    可以預見,這款晶片如果最後能夠實現商用,將會為製造體積更小、更節能、處理速度更快的電腦,以及人工智慧的發展鋪平道路。科學家成功研製存算一體通用AI晶片另外,密西根大學盧偉教授及其團隊在去年也成功研發出過一款基於憶阻器陣列的通用 AI 晶片,憶阻器即同時兼備記憶和電阻的功能,是神經形態計算實現的關鍵。
  • 它是AI的終極答案嗎?類腦晶片簡史
    各大學實驗室以及科技巨頭紛紛拿出了類腦晶片產品,也有不少專家學者認為,人工智慧要經歷簡單人工智慧、深度人工智慧、通用人工智慧三個階段。而今天的深度學習代表了第二階段的開始,類腦計算則是通用智能大門的鑰匙。事已至此,可能給大眾的感覺是,類腦晶片已經是註定的未來,人類已經藉由它找到了通向強人工智慧的門徑。然而果真如此嗎?
  • 知存科技王紹迪:存算一體AI晶片如何打破「內存牆」困局?
    ▲知存科技創始人兼CEO王紹迪知存科技成立於2017年10月,專注於研發設計基於Flash的存算一體AI晶片。其創始團隊已在存算一體領域深耕八年,早在2014年就實現了存算一體晶片的流片,並完成了全球第一款存算一體深度學習晶片驗證。
  • 知存科技王紹迪:存算一體AI晶片如何打破「內存牆」困局?
    其創始團隊已在存算一體領域深耕八年,早在2014年就實現了存算一體晶片的流片,並完成了全球第一款存算一體深度學習晶片驗證。成立三年來,知存科技已完成由科大訊飛、中芯聚源、國投創業、啟迪之星等產業資本領投的多輪融資,累計融資近兩億元。
  • 我國科學家研發全球神經元規模最大的類腦計算機,「腦容量...
    一、模擬生物大腦,顛覆傳統計算架構現有計算機大多基於馮·諾依曼架構,數據存儲與計算分離,但隨著摩爾定律趨緩,這一傳統架構的局限性越來越明顯。數據在存儲與計算單元間傳輸所帶來的通信帶寬、延遲和功耗,已成為影響當代計算機系統性能提高的關鍵阻礙。
  • 從「人工智障」到人工智慧,基於SNN的類腦計算是決勝關鍵
    這說明一點,單從能耗角度看,通過傳統計算機的「暴力計算」實現人工智慧,已經喪失了經濟性優勢。要真正實現人工智慧,以及確保能耗可控,就必須從硬體層面改變晶片對信息的處理方式。 所以,類腦計算的研究加快了進程。對於加快人工智慧的實現和落地,類腦計算不可或缺。其實,包括馮·諾依曼和圖靈在內的計算機先驅,很早就提出了計算機的類腦計算。
  • 清華類腦團隊成果「一種類腦計算層次結構」入選2020年世界網際網路...
    清華大學類腦團隊成果——「一種類腦計算層次結構」成功入選專家推薦委員會中外主任特別推薦成果。世界網際網路大會旨在搭建中國與世界互聯互通的國際平臺和國際網際網路共享共治的中國平臺。2016年起,大會每年從全球數百個申報項目中評選出領先科技成果進行發布,這些成果通常被認為代表了當時網際網路和信息技術相關領域的最高水平。
  • 清華類腦晶片再登Nature: 全球首款基於憶阻器的CNN存算一體晶片
    傳統計算架構中計算與存儲在不同電路單元中完成,造成大量數據搬運功耗增加和額外延遲,被認為是馮·諾依曼計算架構的核心瓶頸。人類的大腦卻並非如此,而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs|CCF-GAIR...
    計算的範式層面,存算一體也從布爾邏輯計算變成了基於物理定律的模擬計算,架構變成存算一體架構。」但新的計算系統因為憶阻器的穩定性、計算誤差累積等問題,2018年以前完整的存算一體晶片和系統並沒有突破。直到高濱所在的清華大學錢鶴、吳華強團隊通過憶阻器件、電路、架構、算法等層面的創新,設計出全球首款全系集成的憶阻器存算一體晶片,用130nm的工藝製造出計算精度與28nm樹莓派CPU相當的準確度,速度快20倍,能效也比GPU高3個數量級。展望未來,高濱教授希望通存算一體技術,可以使計算的能效有百倍到千倍的提升,使單晶片的算力達到500TOPs甚至1POPs。
  • 清華大學研發類腦計算機 首提新概念突破圖靈與馮諾依曼體系
    清華大學計算機系張悠慧團隊和精儀系施路平團隊與合作者10月14日在《自然》雜誌發表題為《一種類腦計算系統層次結構》的論文,首次提出「類腦計算完備性」以及軟硬體去耦合的類腦計算系統層次結構,填補了這一領域的空白.這是一年多來,清華在類腦計算領域繼「天機芯」和「多陣列憶阻器存算一體系統」之後於《自然》正刊發表的第三篇成果,也是計算機系以第一完成單位發表的首篇《自然》論文
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-GAIR 2020
    高濱表示:「器件層面,憶阻器可以把馮諾伊曼架構裡的處理、內存、外存都融合在一起,構建存算一體陣列,這也是存算一體最基本的要素。計算的範式層面,存算一體也從布爾邏輯計算變成了基於物理定律的模擬計算,架構變成存算一體架構。」但新的計算系統因為憶阻器的穩定性、計算誤差累積等問題,2018年以前完整的存算一體晶片和系統並沒有突破。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...
    計算的範式層面,存算一體也從布爾邏輯計算變成了基於物理定律的模擬計算,架構變成存算一體架構。」但新的計算系統因為憶阻器的穩定性、計算誤差累積等問題,2018年以前完整的存算一體晶片和系統並沒有突破。直到高濱所在的清華大學錢鶴、吳華強團隊通過憶阻器件、電路、架構、算法等層面的創新,設計出全球首款全系集成的憶阻器存算一體晶片,用130nm的工藝製造出計算精度與28nm樹莓派CPU相當的準確度,速度快20倍,能效也比GPU高3個數量級。展望未來,高濱教授希望通存算一體技術,可以使計算的能效有百倍到千倍的提升,使單晶片的算力達到500TOPs甚至1POPs。
  • 打破馮諾依曼架構限制 國內研發存算一體AI晶片
    大家都知道我們現在的電腦——不論是PC還是超算,都是處理器、存儲晶片分離的,這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展,存儲計算分離的架構瓶頸越來越多,日前國內研發出了存算一體的AI晶片,號稱自主智慧財產權,國內首創、國際領先。
  • 清華類腦晶片再登《Nature》: 全球首款基於憶阻器的CNN存算一體...
    被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件,被寄予提高算力,突破技術瓶頸的厚望。 02首個基於憶阻器的 CNN 存算一體晶片基於多個憶阻器陣列的存算一體化計算架構在該項研究中,清華團隊提出用高能效比、高性能的均勻憶阻器交叉陣列處理神經卷積網絡(CNN),網絡共集成了 8 個 基於憶阻器的處理單元,每個 PE 單元中包含 2048 個單元的憶阻器陣列,以提升並行計算效率
  • Live回顧:值得你去了解的「存算一體AI晶片技術」
    推理運算相比於訓練運算,它所做的計算量是相對少很多的,因為他只做正向的運算,也不需要去反向修復神經網絡的權重,因此推理運算有很多的可以放在邊緣側,用一些小型的低成本的低功耗的晶片去完成。這樣的話針對整個雲端一體的這樣的一個市場中,這種邊緣推理的這種一個做法會降低整體成本,同時提升效率。我們就以安防的應用來看邊緣計算和雲端計算在不同場景下對功耗和算力的需求。