存內計算再上新臺階!IBM用相變存儲器跑AI分類算法,刷新CIFAR-10...

2020-12-08 智東西

芯東西(ID:aichip001)
編 | 溫淑

芯東西5月19日消息,近日,位於瑞士蘇黎世的IBM歐洲研發中心研發出一種基於相變存儲器(PCM)的非·馮諾依曼架構晶片技術,能像人腦一樣在存儲中執行計算任務,以超低功耗實現複雜且準確的深度神經網絡推理。

IBM研究人員用ResNet分類網絡進行實驗,在將訓練後的權重映射到PCM突觸後,在CIFAR-10數據集上和準確率達到93.7%,在ImageNet基準上的top-1準確率達到71.6%。

此外,研究人員通過一種補償技術,可將原型晶片在1天內的測試準確率保持在92.6%以上,據悉,這是迄今為止任何模擬電阻式存儲硬體在CIFAR-10數據集上所產生的最高分類準確率。

未來,這項技術或可用於智能相機、AR眼鏡、無人機等設備,使這些設備在更少的能耗下提供更快的計算速度。

這項研究發表在科學期刊《Nature Communications》上,論文名稱為《使用計算相變存儲器進行精確的深度神經網絡推理(Accurate deep neural network inference using computational phase-change memory)》。

論文連結:
https://www.nature.com/articles/s41467-020-16108-9

一、IBM新架構:像人腦一樣存儲和計算,能耗更低

深層神經網絡(DNN)可以用於完成圖像識別、語音識別等認知任務,是一項重要的AI技術。但是,現有的硬體限制了深層神經網絡的性能和能效。

目前,深層神經網絡大多在馮·諾伊曼架構上運行,谷歌的張量處理器(tensor processing unit)、NVIDIAGPU Tesla T4均屬於馮·諾伊曼架構。

馮·諾伊曼架構將存儲器和處理器分開,處理過程中數據在存儲單元和處理單元之間不斷傳輸轉移。擁有大型數據中心的公司往往需要通過增加伺服器數量來滿足更高的處理要求,按照這種方法,隨著運算量不斷增多,深度學習任務的能耗也不斷攀升,很多公司意識到,這種通過搭建更多發電裝置來解決能耗問題的做法既不經濟也不可持續。

有些公司試圖用雲計算來解決這個問題。雲計算可以實現更快的處理過程,有助於提升深度神經網絡性能。但是,雲計算面臨著數據隱私、響應延遲、服務成本等問題,另外,在網際網路連接質量較差的地區,雲計算的性能會被削弱。

IBM研究中心提出一種基於相變存儲器(PCMphase-change memory)的非馮·諾伊曼架構。

位於瑞士蘇黎世的IBM歐洲研發中心的研究人員

就像人的大腦一樣,這種架構沒有把存儲和計算過程分開,因此能耗更低。運行一個ResNet-32分類網絡時,PCM核心晶片的能量效率約為11.9 TOPS/W。相變存儲器利用特殊材料在晶態、非晶態之間相互轉換時表現出的導電性差異來存儲數據,具有存取速度快、可靠性高的優勢。

二、添加隨機噪聲,提高非理想條件下的模型準確率

基於上述設想,研究人員用兩個神經網絡模型作為研究對象,通過添加隨機噪聲來提高分類網絡模型的準確率。

首先,研究人員選用ResNet卷積神經網絡(CNN)進行訓練。選用兩個數據集,用數據集CIFAR-10訓練ResNet-32卷積神經網絡,用數據集ImageNet訓練ResNet-34卷積神經網絡。

ResNet-32網絡由3個不同的ResNet塊組成,每個ResNet塊有103*3內核。ResNet-32網絡包含361722個突觸權重,用於分類32*32像素的RGB圖像。

ResNet-34網絡與ResNet-32網絡最大的區別是ResNet塊的數量和大小不同、輸入和輸出通道更多。

▲a:ResNet-32網絡,b:ResNet-34網絡

然後研究人員對模型添加噪聲,並觀察噪聲對神經網絡分類準確率的影響。

用模擬存內計算硬體進行推理時,深度神經網絡受網絡權重的不準確編程、硬體權重的時間波動等噪聲影響,可能會產生誤差。因此,可以用添加噪聲的方法來模擬非理想的運行狀態,以此提高分類模型對模擬混合信號硬體彈性。

研究人員用一個誤差項𝛿𝐺𝑙𝑖𝑗代表噪聲,𝛿𝐺𝑙𝑖𝑗會使每個突觸權重在推理過程的前向迭代(forward pass)中發生扭曲。

研究人員在每次推理過程的前向迭代中增加與𝛿𝐺𝑙𝑖𝑗造成的誤差相對應的噪聲。他們發現,僅給向前傳播算法(forward propagation)中的權重增加噪聲就足以達到接近基線的準確率,在反向傳播算法(backward propagation)中增加權重並不會改善結果。

為簡單起見,假設𝛿𝐺𝑙𝑖𝑗是高斯分布的,這通常是模擬記憶電阻硬體的情況。

▲在訓練和推理過程中添加噪聲對網絡精度的影響。a.不引入權重擾動,噪聲輸入量不同時,ResNet-32分類網絡在CIFAR-10上準確度;b.推理過程中,用不同噪聲輸入量進行訓練的神經網絡對權重擾動的容忍度;c.d.對於給定的權重擾動值,噪聲輸入量與其相同時,模型分類準確率最高。

在不添加權重噪聲時,CIFAR-10數據集上,ResNet-32卷積神經網絡分類準確率在噪聲輸入量Ntr為8%時接近基線準確率,基線準確率為93.87%。

ResNet-32分類相比,在ImageNet top-1標準下,ResNet-34卷積神經網絡對添加噪聲的反應更為靈敏。在所有層都添加噪聲後,準確率從基線下降超過0.5%,相對噪聲下降超過1.2%。

根據之前的研究,許多網絡壓縮技術允許第一層和最後一層有更高的準確率。為了簡化過程,研究人員去除了第一個卷積層和最後一個全連接層中的噪聲。訓練後,ResNet-34卷積神經網絡的分類準確率可提升1%以上。

三、將權重轉移至PCM突觸,進行高精度編程

為了驗證上述訓練方法,研究人員在一個原型多級PCM晶片上進行了實驗,該晶片採用90nm CMOS工藝,包含100萬個PCM器件。

研究人員設計出一個優化的迭代編程算法,能以高精度編程PCM設備中的電導值。下圖a顯示了11個代表性編程水平的電導值實驗累積分布。下圖b提取這些標準差,並用目標電導的多項式函數(圖a中的曲線)對其進行擬合,測量編程後25s的準確度數值。

在所有水平上,權重轉移到PCM突觸上的標準差均小於1.2μS,低於此前研究中納米級PCM陣列中相似範圍的一半。

▲權重轉移到PCM突觸對推理準確率的影響

圖c顯示了基於CIFAR-10數據集訓練ResNet-32分類網絡的準確率數值。將權重轉移至PCM突觸,加噪後ResNet-32分類網絡能達到的最高準確率為93.71%可以看出,權重轉移至PCM突觸後,經過無限制的標準FP32訓練後模型準確率下降最多。與FP32相比,用4-bit數字權重進行訓練準確率下降較少,但仍然下降了1%以上。

圖d顯示了用ImageNet數據集訓練ResNet-34分類網絡的準確率數值。將權重轉移至PCM突觸,加噪後ResNet-34分類網絡能達到的最高準確率為71.62%。權重轉移至PCM突觸後,用4-bit數字權重進行訓練後模型準確率下降最多,約下降了8%。用無限制的標準FP32訓練後模型準確率約下降7.7%。

四、迄今用模擬電阻式存儲訓練CIFAR-10的最高分類準確率

CIFAR-10訓練的網絡隨時間變化的最終準確率如下圖d所示,編程後25秒測得的測試精度為93.75%,與上一張圖的結果非常相似。

CIFAR-10數據集上進行軟硬體推理實驗

但如果不對電導漂移(conductance drift)進行補償,準確率將在約1000秒內迅速下降至10%。這是因為PCM權重的大小隨著時間推移而逐漸減小,並會阻止激活在整個網絡中的傳播。

對此,研究人員選擇應用全局漂移補償(GDC,global drift compensation)程序來補償漂移的影響。在用測試集進行推理之前,研究人員對每一層進行了簡單的GDC處理。

補償結果如上圖d,GDC方法可以使PCM晶片上的測試準確率在1天內保持在92.6%以上,並有效防止全局權重隨時間衰減。據悉,這是迄今任何模擬電阻式存儲硬體在CIFAR-10數據集上所產生的最高準確率。

五、降低1/f噪聲影響,延長高準確率保持時間

雖然GDC可以補償陣列中的全局電導漂移,但它不能減輕1/f噪聲和器件間漂移變化分別對準確率波動和準確率隨時間推移單調遞減的影響。

為了進一步提高準確率保持時間,研究人員採用了自適應批量歸一化統計更新技術(AdaBS),用批量歸一化參數在推理過程中校正激活分布。

研究人員分別在ResNet-32分類網絡和ResNet-34分類網絡上應用了AdaBS技術。

▲用PCM突觸更新自適應批量歸一化統計數據

數據顯示,AdaBS使ResNet-32網絡在一天內保持93.5%以上的測試準確率,比GDC提高了0.9%。當用PCM模型推算結果時,模型一年準確率可比GDC方式提高1.8%。

通過僅用ImageNet訓練集的0.1%(1300張圖像)進行校準,採用和CIFAR-10上相同的AdaBS方法,一年內的準確率相較GDC提到了7%。當第一層和最後一層在數字FP32中實現時,初始準確率提高到71.9%,該技術與AdaBS方法結合使用,可將一年內的準確率保持在71%以上。

不過用這種方式進行推理也存在缺點,由於第一層和最後一層的參數數量且輸入大​小很少,其執行效率有限,即需在校準階段付出額外的計算代價。

例如,根據論文,第一層和最後一層包含的網絡權重不到3%,在ResNet-34分類網絡推理期間負責約3.12%的乘法和累積操作。

結語:不只是分類模型,還能用於LSTM和GAN

相比於傳統的神經網絡運作方式,IBM研究中心提出的基於相變存儲器的架構提升了深度神經網絡計算的能效和準確率。

根據論文,IBM研究人員實現了迄今為止模擬電阻式存儲硬體在CIFAR-10數據集上訓練ResNet分類網絡所達到的最高分類準確率。

除了基於模擬相變存儲組件訓練ResNet分類模型外,IBM研究人員通過使用混合精度架構,在多層感知器、長短期記憶網絡(LSTM)、生成對抗網絡(GAN)等幾類小規模模型上也能實現」軟體等效「的準確率。

當今是一個日益向基於AI的技術過渡的時代,物聯網電池供電設備、自動駕駛汽車等技術都將高度依賴於快速、低功耗、可靠的DNN推理引擎。IBM研發的基於PCM的架構或有助於這些技術的實現。

在一份聲明中,IBM表示:我們開發的戰略旨在提高AI硬體的準確率,使DNN能在高能效下進行訓練和推理,這項戰略顯示了巨大的潛力。

文章來源:IBMNature CommunicationsVentureBeat

相關焦點

  • Nature揭秘:原子薄型半導體如何成為存內計算「救星」?
    這種晶片設計方法由洛桑聯邦理工學院(EPFL)納米電子與結構實驗室(LANES)的團隊研發,論文名稱為《基於一種原子級薄半導體的存儲器式邏輯計算(Logic-in-memory based on an automically thin semiconductor)》。
  • Nature揭秘:原子薄型半導體如何成為存內計算「救星」?
    這種晶片設計方法由洛桑聯邦理工學院(EPFL)納米電子與結構實驗室(LANES)的團隊研發,論文名稱為《基於一種原子級薄半導體的存儲器式邏輯計算(Logic-in-memory based on an automically thin semiconductor)》。
  • IBM Research AI團隊用大規模的模擬存儲器陣列訓練深度神經網絡
    研究人員稱,這種「晶片」可以達到 GPU 280 倍的能源效率,並在同樣面積上實現 100 倍的算力。該研究的論文已經發表在上周出版的 Nature 期刊上。 在最近發表在Nature上的一篇論文中,IBM Research AI團隊用大規模的模擬存儲器陣列訓練深度神經網絡(DNN),達到了與GPU相當的精度。
  • 關於IBM量子計算機,你知道嗎?
    用戶可以通過桌面或者移動端設備訪問由IBM雲環境提供的量子計算平臺。量子計算機,這個名詞大家可能比較陌生,而且感覺離我們也比較遙遠。這次IBM宣布的量子計算的新進展,雖然看上去只是「一小步」,但對整個量子計算領域卻具有非凡的意義。通過對公眾開放量子計算環境的體驗,讓我們感覺大規模商用的量子計算機離我們越來越近了,相信在不久的將來,量子計算機能夠真正幫助我們解決各種複雜的計算。
  • IBM認為模擬晶片可為機器學習加速1000倍
    還與紐約州奧爾巴尼的紐約州立大學理工學院主辦方合作,進行擴展的基礎設施支持和學術合作,並與鄰近的倫斯勒理工學院(RPI)計算創新中心(CCI)合作,開展人工智慧和計算方面的學術合作。新的處理硬體IBM研究院的半導體和人工智慧硬體副總裁Mukesh Khare表示,目前的機器學習限制可以通過使用新的處理硬體來打破,例如:數字AI核心和近似計算帶模擬內核的內存計算採用優化材料的模擬核心
  • 新一代鐵電存儲器的發展勢頭正在形成
    Ferroelectric Memory GmbH公司執行長Ali Pourkeramati表示,這筆資金將用於促進鐵電存儲器在三個領域的部署:嵌入式非易失性存儲器、存儲類存儲器和存內計算應用程式。FMC計劃擴大在德勒斯登的市場,並擴大其在美國和亞洲的國際業務。 「我們已經為所有應用創建了IP,」 Pourkeramati告訴eeNews Europe。
  • IBM首個人造神經元幕後,神經形態計算系統向人造大腦突破
    相變存儲器由於具有讀寫速度快、能耗低、非揮發性、數據保持時間長以及與矽加工工藝兼容等特點,被認為是最有可能取代目前的 SRAM、DRAM、FLASH等產品成為未來主流的存儲器產品。GeSbTe硫系三元化合物已經被成功應用於光碟系列相變存儲器,也是在PCRAM應用中最具競爭力的相變材料。
  • 機器學習助力凝聚態物理研究:實現拓撲量子計算的新希望
    選自Wired、Nature Physics等機器之心編譯參與:微胖、李亞洲發表在 Nature Physics 上的兩篇研究證實,機器學習算法或許可以在識別凝聚物質相變上扮演重要角色,也為量子計算機研究帶來新的曙光。把一盤水放到冰箱裡,它暫時呈現的是液體。然後水的分子堆積成小六邊形,就形成了冰。
  • 存儲器卡及半導體存儲器的分類介紹
    打開APP 存儲器卡及半導體存儲器的分類介紹 中國電子網 發表於 2020-12-04 09:48:42 在諸多電子設備中,存儲器是必不可少的重要組件。為增進大家對存儲器的了解,本文將對存儲器卡以及半導體存儲器的分類予以介紹。   一、存儲器卡   存儲器卡(MemoryCard)是一種用電可擦除的可編程只讀存儲器(EEPROM)為核心的,能多次重複使用的IC卡。沒有任何的加密保護措施,對於卡片上的數據可以任意改寫,不具備對卡內數據進行保密的功能。
  • 超導量子計算實驗進展:動力學相變的超導量子模擬
    不過很快他就改變了主意,八十年代初,費曼指出,經典計算機並不是一個解決量子問題的有效工具,世界是量子的,一個簡單的包含幾十個粒子的量子系統,就超越了經典計算機的計算和存儲能力,所以我們需要一臺量子計算機,一個按照量子力學原理運行的計算機。援古證今,在中國古代用算盤的時期,人們無法想像計算機會有什麼用,而現在我們也面臨同樣的問題,量子計算機我們需要嗎?它能做什麼?
  • 用FPGA實現FFT算法
    當N較大時,因計算量太大,直接用DFT算法進行譜分析和信號的實時處理是不切實際的。快速傅立葉變換(Fast Fourier Transformation,簡稱FFT)使DFT運算效率提高1~2個數量級。其原因是當N較大時,對DFT進行了基4和基2分解運算。FFT算法除了必需的數據存儲器ram和旋轉因子rom外,仍需較複雜的運算和控制電路單元,即使現在,實現長點數的FFT仍然是很困難。
  • IBM駁斥谷歌,量子霸權 VS 量子優勢,量子計算離我們還有多遠?
    如果能夠全部用上,現有的超級計算機別說計算了,就是存儲這個態(存儲消耗的是空間,由於53個量子比特的糾纏態過於複雜,需要消耗極大的內存空間)就夠喝上好幾壺了。在現有技術下,所有的量子比特或多或少都是存在噪聲幹擾的,我們將這種有噪聲的量子計算單元稱之為「物理比特」。但是,要實現一些有用的量子算法,比如著名的 Shor 算法(就是那個那個……能破解密碼的那個),對錯誤率的要求高得多,直接用物理比特是不可能的。 那怎麼辦呢?唯一的辦法就是利用量子糾錯,用一大堆有噪聲的物理比特,通過適當的編碼形式,來表示一個比特的信息。
  • Python機器學習10:機器學習中的六種分類算法及實現(上)
    在機器學習中,可以使用多種算法模型解決同一個問題,那麼如何從中選擇出最佳的算法模型呢?當然,這個問題沒有一種固定的答案,需要根據不同的問題,嘗試使用多種機器學習方法,比較各種算法模型在該問題上的效果,最終才能決定究竟選擇哪一種模型。
  • 用FPGA實現FFT算法(圖)
    當n較大時,因計算量太大,直接用dft算法進行譜分析和信號的實時處理是不切實際的。快速傅立葉變換(fast fourier transformation,簡稱fft)使dft運算效率提高1~2個數量級。其原因是當n較大時,對dft進行了基4和基2分解運算。fft算法除了必需的數據存儲器ram和旋轉因子rom外,仍需較複雜的運算和控制電路單元,即使現在,實現長點數的fft仍然是很困難。
  • Yann LeCun:已解決CIFAR-10,目標 ImageNet
    上圖是cifar-10數據集的樣例以下是Yann LeCun的訪談內容:還有哪些科學家為卷積網絡的成功作出了巨大貢獻?《肖像中目標定位的原始手段》,1993年今天,看到這麼多前途光明的年輕人在這個主題上如此積極投入並提出這麼多新想法和新應用,真是讓人驚喜不已。硬體/軟體基礎架構越來越好,在幾個小時或者幾天裡進行大型網絡的訓練逐漸變為可能,因此人們可以進行更多想法的嘗試。我十分感興趣的一個idea是「光譜卷積網絡」。
  • 擁有「嗅覺」 的新神經算法晶片
    前言: 人類除視覺、聽覺之外,在嗅覺研究上有新突破,帶來新想像空間和應用空間,人類對大腦的認知以及類腦晶片、AI晶片又跨上新臺階,未來的晶片發展之路又有可能另闢蹊徑。神經擬態計算可以大幅度提升數據處理能力和機器學習能力,更重要的是,神經擬態晶片比傳統晶片的能耗要低得多。神經擬態計算是英特爾為應對計算領域非結構化、有噪聲數據日益增加等挑戰而研發的新的計算機架構。應用神經科學的最新見解,來創造作用方式更類似於人腦的晶片而非傳統計算機的晶片。神經擬態系統在硬體層面上複製了神經元組織、通信和學習方式。
  • 機器學習萌新必學的Top10算法
    用這個算法關鍵在於要儘可能地移除相似的變量以及清洗數據。對算法萌新來說,是最簡單的算法了。2.邏輯回歸這方法來自統計學領域,是一種可以用在二元分類問題上的方法。邏輯回歸,和線性回歸相似,都是要找出輸入值的係數權重。
  • 盤點未來六大存儲器 誰將脫穎而出
    對神經形態計算的濃厚興趣刺激人們研發出一系列全新的存儲設備,這些設備可以複製生物神經元和突觸功能。最近,一篇回顧該領域現狀的論文對六種最有前景的技術進行了盤點和解讀。 這篇題為「用於神經形態計算的新興存儲器件」的論文發表在1月份的《先進材料技術》(Advanced Materials Technologies)上。
  • 入門| 機器學習新手必看10大算法
    如果我們知道的話,我們將會直接使用它,不需要用機器學習算法從數據中學習。 最常見的機器學習算法是學習映射 Y = f(X) 來預測新 X 的 Y。這叫做預測建模或預測分析,我們的目標是儘可能作出最準確的預測。 對於想了解機器學習基礎知識的新手,本文將概述數據科學家使用的 top 10 機器學習算法。