模擬內存計算如何解決邊緣AI推理的功耗挑戰

2020-12-27 東方財富網

機器學習和深度學習已經成為我們生活中不可或缺的一部分。通過自然語言處理(NLP)、圖像分類和對象檢測的人工智慧(AI)應用已經深入到我們許多設備中。大多數人工智慧應用程式都是通過基於雲的引擎提供服務,這些引擎可以很好地為它們的用途提供基礎支持,比如在Gmail中輸入電子郵件回復時獲得單詞預測。

儘管我們很享受這些人工智慧應用所帶來的好處,但這種方法也帶來了隱私、功耗、延遲和成本方面的挑戰。如果在數據起源處有一個本地處理引擎能夠執行部分或全部計算(推理),則可以解決這些挑戰。這在傳統的數字神經網絡實現中是很難做到的,在這種情況下,內存成為了耗電的瓶頸。這個問題可以通過多層內存和使用模擬內存計算方法來解決,這些計算方法可讓處理引擎能夠滿足在網絡邊緣執行人工智慧推斷所需的更低的毫瓦到微瓦的功率要求。

雲計算的挑戰

當人工智慧應用程式通過基於雲的引擎提供服務時,用戶必須上傳一些數據到雲中,由計算引擎處理數據,提供預測,並將預測發送到下遊,供用戶使用。

在這一進程中也有一些困難:

1。隱私和安全問題:對於始終在線的、感知的設備,人們擔心個人數據在上傳期間或在數據中心的存儲期間被濫用。

2。不必要的功耗:如果每個數據位都被雲計算佔用,那麼它就會消耗來自硬體、無線電、傳輸和雲計算的能量。

3。小批量推理的延遲:如果數據來自邊緣,則從基於雲的系統獲得響應可能需要一秒或更長的時間。對於人類的感官來說,任何超過100毫秒的延遲都是顯而易見的。

4。數據經濟:傳感器無處不在,而且它們非常便宜;然而,他們產生了大量的數據。將所有數據上傳到雲端並進行處理似乎毫無經濟可言。

通過使用本地處理引擎來解決這些挑戰,執行推理操作的神經網絡模型,首先要針對所需用例使用給定的數據集進行培訓。通常,這需要高計算資源和浮點算術運算。因此,機器學習解決方案的訓練部分仍然需要在公共或私有雲(或本地GPU、CPU、FPGA場)上使用數據集完成,以生成最優的神經網絡模型。一旦神經網絡模型準備就緒,神經網絡模型就不需要反向傳播進行推理操作,因此該模型可以進一步針對具有小型計算引擎的本地硬體進行優化。一個推理引擎通常需要大量的多重累加(MAC)單元,然後是一個激活層,如整流線性單元(ReLU)、sigmoid或tanh,這取決於神經網絡模型的複雜性和層之間的池化層。

大多數神經網絡模型需要大量的MAC操作。例如,即使一個相對較小的「1.0 MobileNet-224」模型也有420萬個參數(權重),需要5.69億個MAC操作來執行推斷。由於大多數模型由MAC操作主導,這裡的重點將放在機器學習計算的這一部分,並探索創建更好的解決方案的機會。圖2顯示了簡單的、完全連通的兩層網絡。

輸入神經元(數據)使用第一層權值進行處理。第一層的輸出神經元然後與第二層的權重進行處理,並提供預測(比如,該模型是否能夠在給定的圖像中找到一張貓臉)。這些神經網絡模型使用「點積」來計算每一層的每一個神經元,如下式所示(為了簡化,在方程中省略「偏差」項):

數字計算的內存瓶頸

在數字神經網絡實現中,權值和輸入的數據存儲在DRAM/SRAM中。權重和輸入數據需要移動到MAC引擎進行推理。如下圖所示,這種方法在獲取模型參數和將數據輸入到實際MAC操作發生的算術邏輯單元(ALU)時消耗了大部分能量。

從能量的角度來看——一個典型的MAC操作使用數字邏輯門消耗大約250飛託焦耳(fJ,或10 - 15焦耳)的能量,但在數據傳輸過程中消耗的能量比計算本身要多兩個數量級,大概在50皮焦耳(pJ,或10 - 12焦耳)到100pJ之間。

公平地說,有許多設計技術從內存到ALU的數據傳輸可以最小化;然而,整個數字方案仍然受到馮·諾依曼架構的限制——因此這為減少能源浪費提供了巨大的機會。如果執行MAC操作的能量可以從~100pJ降低到pJ的一個分數會是什麼結果?

使用內存中的模擬計算消除內存瓶頸

當內存本身可以用來減少計算所需的功耗時,在邊緣執行推理操作就變得非常省電。使用內存中的計算方法可以將必須移動的數據量最小化。這反過來又消除了數據傳輸過程中所浪費的能量。採用超低有功功率耗散、待機狀態下幾乎無能量耗散的閃速電池,也會進一步降低了系統的能量耗散。

這種方法的一個案例是來自Microchip公司的Silicon Storage Technology (SST) ——memBrain?技術。基於SST的SuperFlash?內存技術,解決方案包括一個內存計算架構,可以在存儲推理模型的權重的地方進行計算。這消除了MAC計算中的內存瓶頸,因為權重沒有數據移動——只有輸入數據需要從輸入傳感器(如攝像頭或麥克風)移動到內存陣列。

這個內存的概念基於兩個因素:(a)模擬電流響應從一個電晶體是基於其閾值電壓(Vt)和輸入數據,和(b)基爾霍夫電流定律,即導體網絡中在一點相接的電流的代數和為零。

理解基本的非易失性內存(NVM)位元組(bitcell)同等很重要,它被用在這種多層內存架構中。下圖(圖4)是兩個ESF3(嵌入式SuperFlash第三代)位元的橫截面,它們具有共享擦除門(EG)和源線(SL)。每個位元有五個終端:控制門(CG)、工作線(WL)、擦除門(EG)、源線(SL)和位線(BL)。擦除操作是通過在EG上施加高壓來完成的。對WL、CG、BL、SL施加高/低電壓偏置信號進行編程操作,對WL、CG、BL、SL施加低電壓偏置信號進行讀操作。

使用這種內存架構,用戶可以通過細粒度的編程操作在不同的Vt級別上對內存位單元進行編程。該存儲技術利用一種智能算法來調整存儲單元的浮動門(FG) Vt,以實現輸入電壓的一定電流響應。根據最終應用的需要,我們可以在線性或閾下工作區域對單元進行編程。

下圖演示了在內存單元上存儲和讀取多個級別的功能。假設我們試圖在內存單元中存儲一個2位整數值。對於這個場景,我們需要用2位整數值(00、01、10、11)的四個可能值中的一個對內存數組中的每個單元進行編程。下面的四條曲線是四種可能狀態的IV曲線,電池的電流響應取決於施加在CG上的電壓。

使用內存計算的乘法累加操作

每個ESF3單元都可以建模為可變電導(gm)。電導的ESF3細胞取決於浮動柵Vt的編程細胞。將訓練模型的權值編程為記憶單元的浮動門Vt,因此,單元的gm表示訓練模型的權值。當輸入電壓(Vin)作用於ESF3電池時,輸出電流(Iout)由公式Iout = gm * Vin給出,它是輸入電壓與儲存在ESF3電池上的重量之間的乘法運算。

圖6演示了一個小數組配置(2×2數組)中的乘法累加概念,其中累加操作是通過添加連接到同一列(例如I1 = I11 + I21)的輸出電流來執行的。激活功能可以在ADC塊內執行,也可以在內存塊外的數字實現中執行,具體取決於應用程式。

我們在更高的層次上進一步闡明這一概念——來自訓練模型的單個權值被編程為內存單元的浮動門Vt,因此來自訓練模型的每一層(假設是一個全連接層)的所有權值都可以在一個物理上看起來像權值矩陣的內存陣列上編程。

對於推理操作,我們首先使用數模轉換器(DAC)將數字輸入(比如圖像像素)轉換為模擬信號,並應用於內存陣列。然後,該陣列對給定的輸入向量並行執行數千次MAC操作,並產生可進入相應神經元激活階段的輸出,然後使用模數轉換器(ADC)將其轉換回數位訊號。數位訊號在進入下一層之前被處理成池。

這種類型的內存架構非常模塊化和靈活。許多memBrain塊可以被拼接在一起,用混合權重矩陣和神經元構建各種大型模型,如下圖所示。在本例中,一個3×4的拼接配置是與各個拼接之間的模擬和數字結構縫合在一起的,數據可以通過共享總線從一個tile移動到另一個tile。

到目前為止,我們主要討論了該體系結構的矽實現過程。軟體開發工具包(SDK)的可用性(圖9)有助於解決方案的部署。除了矽之外,SDK還促進了推理引擎的部署。

SDK與培訓框架無關。用戶可以在任何可用的框架(如TensorFlow、PyTorch或其他框架)中使用浮點計算創建神經網絡模型。一旦創建,SDK幫助量化訓練過的神經網絡模型,並將其映射到內存數組中,在內存數組中,向量-矩陣乘法可以用來自傳感器或計算機的輸入向量進行。

結論

這種具有內存計算能力的多級內存方法的優點:

1。超低功耗:該技術專為低功耗應用而設計。

第一級的功耗優勢來自於內存計算,因此在計算期間不會在數據和從SRAM/DRAM傳輸的權值中浪費能量。

第二個能量優勢來自於快閃記憶體單元在亞閾值模式下運行,電流值非常低,所以有源功耗非常低。

第三個優點,由於非易失性存儲單元不需要任何能量來保存數據,所以在待機模式下幾乎沒有能量消耗。該方法也非常適合於利用權值和輸入數據的稀疏性。如果輸入數據或權值為零,則不會激活內存位單元。

2。更低的封裝引腳

該技術使用分裂門(1.5T)單元架構,而數字實現中的SRAM單元基於6T架構。此外,與6T SRAM單元相比,該單元要小得多。另外,一個電池可以存儲4位整數值,而SRAM電池需要4*6 = 24個電晶體才能存儲整數值。這提供了更小的晶片佔用空間。

3。更低的開發成本

由於內存性能瓶頸和馮諾依曼架構的限制,許多專用設備(如Nvidia的Jetsen或谷歌的TPU)傾向於使用更小的幾何圖形來獲得每瓦的性能,這是解決邊緣AI計算挑戰的一種昂貴方式。隨著多級存儲器方法使用模擬存儲器上的計算方法,計算在快閃記憶體晶片上完成,因此可以使用更大的幾何圖形,並減少掩模成本和前置時間。

由此可看,邊緣計算應用程式顯示了巨大的潛力。然而,在邊緣計算能夠騰飛之前,還有一些功率和成本方面的挑戰需要解決。通過使用在快閃記憶體單元中執行晶片上計算的內存方法,可以消除其中的主要障礙。這種方法利用了經過生產驗證的、事實上標準類型的多級內存技術解決方案,該解決方案針對機器學習應用程式進行了優化。

Vipin Tiwari

延伸閱讀——Microchip-SST神經形態存儲解決方案memBrain

Microchip公司通過其矽存儲技術(SST)子公司,通過其模擬存儲器技術memBrain神經形態存儲器解決方案降低功耗,從而應對這一挑戰。

該公司的模擬快閃記憶體解決方案基於其Superflash技術並針對神經網絡進行了優化以執行矢量矩陣乘法(VMM),通過模擬內存計算方法改善了VMM的系統架構實現,增強了邊緣的AI推理。

由於當前的神經網絡模型可能需要50M或更多的突觸(權重)進行處理,因此為片外DRAM提供足夠的帶寬變得具有挑戰性,從而造成神經網絡計算的瓶頸和整體計算能力的提高。相比之下,memBrain解決方案將突觸權重存儲在片上浮動門中,從而顯著改善系統延遲。與傳統的基於數字DSP和SRAM / DRAM的方法相比,它可以降低10到20倍的功耗並降低整體BOM。

「 隨著汽車,工業和消費者市場的技術提供商繼續為神經網絡實施VMM,我們的架構可幫助這些前向解決方案實現功耗,成本和延遲優勢, 」SST許可部門副總裁Mark Reiten表示。「 Microchip將繼續為AI應用提供高度可靠和多功能的Superflash內存解決方案。」

今天的公司正在採用memBrain解決方案來提高邊緣設備的ML容量。由於具有降低功耗的能力,這種模擬內存計算解決方案非常適合任何AI應用。

「 Microchip的memBrain解決方案為我們即將推出的模擬神經網絡處理器提供超低功耗的內存計算, 」 Syntiant公司執行長Kurt Busch 說道。 「 我們與Microchip的合作繼續為Syntiant提供許多關鍵優勢,因為我們支持普遍的ML邊緣設備中語音,圖像和其他傳感器模式的永遠在線應用。」

SST展示了這種模擬存儲器解決方案,並在FMS上展示了Microchip的基於memBrain產品區塊陣列的架構。

池化層理解

池化層夾在連續的卷積層中間, 用於壓縮數據和參數的量,減小過擬合。簡而言之,如果輸入是圖像的話,那麼池化層的最主要作用就是壓縮圖像。

池化層的作用:

1。 invariance(不變性),這種不變性包括translation(平移),rotation(旋轉),scale(尺度)

2。 保留主要的特徵同時減少參數(降維,效果類似PCA)和計算量,防止過擬合,提高模型泛化能力

(文章來源:OFweek)

相關焦點

  • 多級存儲器與模擬內存內計算完美融合,人工智慧邊緣處理難題迎刃而...
    為了解決這一問題,可以將多級存儲器與模擬內存內計算方法結合使用,使處理引擎滿足更低的毫瓦級(mW)到微瓦級(μW)功率要求,從而在網絡邊緣執行AI推斷。該解決方案依託於SST的SuperFlash®存儲器技術,這項技術已成為適用於單片機和智慧卡應用的多級存儲器的公認標準。這種解決方案內置一個內存內計算架構,允許在存儲權重的位置完成計算。權重沒有數據移動,只有輸入數據需要從輸入傳感器(例如攝像頭和麥克風)移動到存儲器陣列中,因此消除了MAC計算中的存儲器瓶頸。
  • 新思與SiMa.ai合作將高性能機器學習推理引入嵌入式設備
    ., 納斯達克股票代碼:SNPS)近日宣布與SiMa.ai開展合作,將其機器學習推理技術大規模引入嵌入式邊緣設備。通過此次協作,SiMa.ai採用新思科技的DesignWare IP、Verification Continuum平臺和Fusion Design Platform進行MLSoC開發。MLSoC是針對自動駕駛、監控和機器人等特殊計算機視覺應用而專門設計的平臺。
  • 邊緣AI新方法TinyML,超低功耗,存儲佔用KB計,在邊緣設備上進行機器學習
    人工智慧 AI 正在加快速度從雲端走向邊緣,進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小,面臨著許多挑戰,例如功耗、延時以及精度等問題,傳統的機器學習模型無法滿足要求,那麼微型機器學習又如何呢?在 NASA 的推動下,小型化的電子產品成為了一個完整的消費品行業。現在我們可以把貝多芬的全部音樂作品放在翻領針上用耳機聽。
  • Nature:將光計算與AI推理整合,實現高速高帶寬低功耗AI計算
    ,光計算具有高速、高帶寬、低功耗的優勢,但目前光計算還不夠成熟,只在某些特定領域得到了非常有限的應用。光計算系統也許能夠滿足這些領域特定的需求,但即便已經歷半個世紀的研究,通用型光計算系統仍還未發展成一項成熟的實用技術。但是,人工智慧推理(尤其是用於視覺計算應用的推理)也許能為基於光學和光子學系統的推理提供機會。 本文將回顧用於人工智慧的光學計算的近期研究成果並探討其潛力和挑戰。
  • 邊緣AI晶片熱了!Mythic融資3000萬美元
    與主導訓練中使用的伺服器晶片製造商Nvidia不同,Mythic專注於嵌入式推理。Mythic聯合創始人兼首席技術官Dave Fick在德克薩斯州奧斯汀的公司總部接受採訪時說:「我們一直認為推理是一個比訓練更重要的問題。推理平臺的功能決定了你在現場部署算法的能力。您可以將伺服器場的規模擴大一倍,但這並不影響現場發生的任何事情。」
  • 寒武紀推出首款邊緣計算AI晶片,最大算力時功耗僅10瓦
    11月14日,人工智慧晶片公司寒武紀科技(下稱「寒武紀」)正式發布邊緣AI系列產品思元220(MLU220)晶片及M.2加速卡產品。這是寒武紀首款面向邊緣智能計算領域的AI晶片,彌補了市場上邊緣端加速方案的空白,也標誌寒武紀在雲、邊、端實現了全方位、立體式的覆蓋。
  • 深度光學和人工智慧推理應用,實現高速高帶寬低功耗AI計算
    但是,人工智慧推理(尤其是用於視覺計算應用的推理)也許能為基於光學和光子學系統的推理提供機會。 本文將回顧用於人工智慧的光學計算的近期研究成果並探討其潛力和挑戰。 計算系統的能力正與它們試圖理解的飛速增長的視覺數據進行軍備競賽。在自動駕駛、機器人視覺、智能家居、遙感、顯微技術、監控、國防和物聯網等多種應用中,計算成像系統都會記錄和處理前所未有的巨量數據。
  • 研揚和Intel聯手,將AI應用於工業物聯網邊緣設備
    這個項目的實施意味著我們可以預見到的,隨著多樣化的技術領域不斷擴大,利用英特爾技術在邊緣端實現低功耗的推理和演算,會有更多的人工智慧創新產品面世。 在這樣的背景下,今年研揚發表了UP AI Core模塊,是研揚科技為UP Squared Board特意定製設計的邊緣計算處理卡。
  • Flex Logix推出高性能、高效率AI 邊緣推理晶片
    與目前業內領先的AI邊緣推理解決方案相比,InferX X1 在處理 YOLOv3 目標檢測識別模型時的性能提高了 30% ,在處理其他多個用戶模型時的性能提高了10倍。「對於已有邊緣推理系統的用戶來說,他們需要更高性價比的AI推理解決方案。只有這樣,他們才能真正將神經網絡模型全面應用在其批量化產品中。InferX X1 恰好滿足了這類用戶的需求。相比於目前行業的領軍產品,InferX X1 可以為用戶帶來數十倍甚至上百倍的性價比提升。」 Flex Logix 的創始人CEO Geoff Tate 在受訪時這樣表示。
  • AI嵌入式設備部署如何搞?秘訣在此!
    因此,如何將定製好的模型部署適配到端設備,併兼顧識別效果、性能和內存消耗,是一個需要耗費大量研發工作的技術難題。 以近期上線的ARM定點量化為例,其優點包括低內存帶寬、低功耗、低計算資源佔用。在一些網絡中,可以帶來4倍的模型壓縮、4倍的內存帶寬提升,以及更高效的cache利用。
  • 一文讀懂即將引爆的TinyML:在邊緣側實現超低功耗機器學習【物女心經】
    它們被作為終端硬體,通過嵌入式傳感器採集各種數據;計算能力有限,對功耗極為敏感。這類設備也能實現機器學習嗎?一個趨勢是,人工智慧AI正在加快速度從「雲端」走向「邊緣」,進入到越來越小的物聯網設備中。在終端和邊緣側的微處理器上,實現的機器學習過程,被稱為微型機器學習,即TinyML。
  • 讓人焦慮的內存計算怎麼克服?
    存儲器和處理器之間的這種分離是馮·諾依曼架構的定義特徵之一,並且存在於幾乎所有現代計算系統中。大數據集,帶寬受限的機器學習工作負載以及Dennard擴展的結束正在將行業基準從原始計算性能轉變為計算效率。對於給定的任務,矽片面積,功耗和計算精度之間的最佳平衡是什麼?
  • Mythic 採用Mentor平臺設計AI 處理器
    此外,Mythic 還採用Mentor 的 Symphony 混合信號平臺以驗證其集成了模擬和數字邏輯的智能處理器(IPU)的功能。本文引用地址:http://www.eepw.com.cn/article/202002/410383.htm「Mythic IPU 利用模擬計算來執行快閃記憶體陣列內部的深度神經網絡 (DNN) 推理所需的運算這需要我們以極其嚴苛的精度來仿真數千個模數轉換器 (ADC),」Mythic 工程部副總裁 Ty Garibay 表示,「我們選擇 Mentor 的 Analog
  • NVIDIA 如何應對會話式AI帶來的推理挑戰?
    NVIDIA 如何應對會話式AI帶來的推理挑戰?在參與此次測試的十二家公司中,只有NVIDIA AI平臺提交了 MLPerf的全部五項推理測試成績(MLPerf是一個於2018年5月成立的行業基準測試小組)。這證明了NVIDIA CUDA-X AI和TensorRT軟體的成熟程度。它們讓用戶能夠更加輕鬆地將所有的NVIDIA GPU應用於數據中心、邊緣等領域。
  • 美光科技與大陸集團攜手加速邊緣機器學習應用
    內存和存儲解決方案領先供應商 Micron Technology, Inc.美光科技將攜手大陸集團,共同開發針對具體應用的美光深度學習加速器(DLA)技術,使其具備靈活性和可擴展性,並滿足行業標準程序模型的低功耗和高性能需求。大陸集團矽谷創新中心副總裁 Dirk Remde 表示:「美光科技的市場領先地位源於長期以來的產品創新以及與客戶之間的密切合作。
  • 高性能計算與AI融合加速 Supermicro推動綠色計算發展
    HPC市場需要兼具高密度和高性能的解決方案。對此,Supermicro的BigTwin系統結合液冷散熱功能,滿足了市場需求。BigTwin採2U 4節點規格,每個節點可支持雙插槽處理器、大內存和三個X16 PCIe。Supermicro BigTwin同時具有採用英特爾架構以及採用AMD架構的解決方案。
  • TinyML—打開超低功耗機器學習大門的鑰匙
    一批企業正在利用TinyML相關的技術與產品,探索如何在這些無處不在的小型設備上,更好的搭載機器學習,以便提高設備的分析能力和運行效率。TinyML是不同技術領域和推動因素的交集,它位於物聯網設備、機器學習和邊緣計算之間的結合部,並因為多種驅動力的綜合作用,進展很快。
  • 一文看全:全球99家AI晶片公司全景圖,中國正在崛起
    Xilinx提供了「從邊緣到雲的機器學習推理解決方案」,並且聲稱他們的FPGA最適合INT8。雖然FPGAs的每瓦性能令人印象深刻,但在價格和性能之間找到平衡是FPGAs的主要挑戰。
  • 2020年最值得關注的10家國外AI晶片初創公司
    這家總部位於加利福尼亞州埃爾多拉多的初創公司在去年秋天開始受到關注,於今年初推出了其計算架構,並獲得了8700萬美元的投資。8月,該公司發布了其首批商用產品,用於邊緣伺服器的Xplorer X1600E和Xplorer X1600P以及用於小型邊緣設備的Pathfinder P1600。
  • 馮諾依曼和邊緣計算
    要不是計算機進展到今天的規模,人們也不會感受到這些角度的度量居然能發展成為重大挑戰。 當流水線長度從1個車間,擴展到1個工廠,一個街區,甚至一個城市的規模時,原來不覺得是問題的問題漸漸成為了新問題。機器流水線通用模式有一個本質特徵,就是機器盒子和它要操作的零件盒子不一定挨著,也許相隔一距離。不挨著怎麼能展開操作呢?不能,所以必須加以解決。解決的辦法很簡單。