來源:內容來自半導體行業觀察(ID:icbank)原創,作者:暢秋,謝謝!
當下,邊緣側AI應用需求越來越迫切,帶動著相應的AI推理晶片向前發展。所謂邊緣側AI,是指在端側設備本身,而不是在雲端或大型數據中心伺服器上運行AI推理,這樣做具有多種益處,例如消除了處理延遲,減少了數據傳輸量和帶寬,並且還可以增加隱私安全。鑑於這種優勢,邊緣AI晶片市場的增長非常顯著——2017年,市場才出現第一款商用企業邊緣AI晶片,據德勤預計,2020年,邊緣AI晶片銷量將超過7.5億個。
2018年,全球人工智慧晶片市場規模為66.4億美元,預計未來幾年將大幅增長,到2025年將達到911.9億美元,年複合增長率為45.2%。因此,許多公司都在努力開發人工智慧晶片。然而,類似於CPU、GPU和基帶處理器市場的成長過程,AI晶片市場也在經歷著由少數大型玩家主導的命運。
在人工智慧晶片市場競爭的公司,從英特爾、高通、Arm和Nvidia等晶片巨頭,到傳統的網際網路科技巨頭,以及眾多新興企業,如Graphcore、Mythic和Wave Computing。目前,絕大多數(90%)邊緣 AI 晶片用於消費類設備,許多智慧型手機製造商也沒有錯過這個機會,開發了自己的AI加速器,例如,蘋果用於iPhone的8核神經引擎。
目前,邊緣AI晶片市場仍處於較為開放的競爭狀態,還沒有絕對的霸主。業內人士和投資者都在密切關注那些技術和產品力突出的公司。該領域將不可避免地通過投資、收購和優勝劣汰向前發展。未來幾年內,可能會出現市場領導者,那麼,誰將成為邊緣AI晶片領域的英特爾或高通呢?
在廣義層面,AI晶片的領跑者是英特爾和英偉達(Nvidia)。目前,英特爾的CPU在AI推理市場佔據主導地位,而Nvidia則主導著AI訓練晶片市場。然而,相對於英特爾,Nvidia似乎更勝一籌,在數據中心AI晶片市場處於領先地位。為了趕超對手,英特爾不斷通過收購相關的AI晶片初創企業來提升技術能力,就在2019年12月,英特爾以20億美元收購了以色列的深度學習加速器開發商Habana。
Habana的Goya加速器確實有獨到之處,其技術很新穎,例如支持遠程直接內存訪問 (RDMA),即從一臺計算機的內存直接訪問到另一臺計算機的內存,而無需使用任一計算機的作業系統。此功能特別適用於大規模並行計算機集群,從而用於在雲上訓練複雜模型(目前,Nvidia在該領域佔主導地位)。另一方面,Nvidia 最近發布了其 Jetson Xavier NX 邊緣AI晶片,其算力高達21TOPS,特別是針對AI推理。
此外,一些AI晶片新星也很吸睛,如英國的Graphcore,最近,該公司與微軟合作,以19.5億美元的估值融資1500萬美元。他們的旗艦產品 - 智能處理單元(IPU) - 具有極強的性能指標和新穎的架構,例如,使用處理器內內存將整個 ML 模型放在處理器內,以最大限度地減少延遲並最大化內存帶寬。
另外一家初創企業Mythic 的體系結構同樣值得關注,它結合了硬體技術,如內存計算(無需構建緩存層次結構)、數據流體系結構(特別適用於基於圖形的應用,如推理)和模擬計算(通過使用內存元素作為可調諧電阻器計算直接在內存內部進行神經網絡矩陣操作)。Mythic在融資方面也沒有落後於 Graphcore — — 2019 年 6 月,軟銀等投資者向其增加了3000萬美元的投資。
雖然還不清楚誰將最終主導AI晶片市場,但從歷史發展(如CPU和基帶處理器領域)經驗來看,IP是取勝關鍵,誰在這方面佔據了先機,就將在競爭中處於優勢地位。因此,創新依然是發展壯大的關鍵。
新的晶片架構和技術
在創新方面,今年陸續出現了一些新的邊緣AI晶片架構,重點針對邊緣 AI 進行了優化。而新興的RISC-V在其中扮演著重要的角色。由於是開源的,RISC-V指令集體系結構具有各種指令擴展,可提高邊緣AI的性能,並降低功耗。基於這些,RISC-V在邊緣側應用對Arm發起了挑戰。
今年10月,Nvidia提議收購Arm,再次引起了Arm與RISC-V之爭的話題。對此,Facebook首席人工智慧科學家Yann LeCun在法國研究實驗室CEA-Leti的創新日上發言說,應該向RISC-V轉移,用於為邊緣AI應用運行神經網絡。
他說:"Nvidia收購Arm這一變化讓人感到不安,這讓人們更多地看到了RISC-V的發展潛力,RISC-V處理器的價格非常便宜,不到10美元,許多來自中國,它們將變得無處不在。「
"邊緣AI是一個超級重要的話題,"Yann LeCun說:"在未來兩到三年內,它意味著儘可能降低功耗,修剪神經網絡,優化權重,關閉系統中未使用的部分。在未來兩到三年內,使用這種AI晶片的AR設備將陸續出現。「
他還提到:"十年後,在自旋電子學方面是否會有一些突破,或者任何允許模擬計算而無需硬體多路復用?我們能否想出類似的東西,在不進行硬體多路復用的情況下,大大縮小單個晶片的設備尺寸,這是一個很大的挑戰。「
Leti 執行長 Emmanual Sabonnadiere 表示:"公司正在為下一代晶片開發 1nm 和 2nm 技術,我堅信我們可以不同的方式,使用傳感器、神經網絡和控制器來實現這種硬體。我們正在努力制定國家計劃,邊緣AI旨在阻止數據泛濫並保護隱私。「
Leti 也是全歐洲神經網絡計劃的一份子,該計劃正在研究神經網絡晶片的新平臺。
CEA-Leti的副執行長兼首席技術長讓·雷內·萊奎佩斯(Jean Rene Lequeypes)表示:"現在,我們已有 2000 多人在努力研究下一代AI技術。位于貝爾焦姆的伊梅克、德國的弗勞恩霍夫和萊蒂正在開發一個邊緣AI平臺,除此之外,我們還在格勒諾布爾的因裡亞(Inria)工作,以研發Facebook和矽谷大公司需要的下一代技術和產品。「
挑戰在於集成所有不同的元素,而無需使用 5nm製程及以下所需的EUV光刻機。
Lequeypes 說:"我們希望獲得 1000TOPS/mW 的終極性能,這是一個非常大的挑戰,以及如何處理信息存儲,以及如何集成這些存儲器而無需使用EUV。「
邊緣AI晶片的低功耗突破
以上,提到了高性能和低功耗,在邊緣側,對低功耗的要求非常高,在某種意義上講,它比性能更為重要。這是當下邊緣AI晶片研究的一個重點。
比利時的 Imec 利用一種新技術開發了一種測試晶片,這種技術可顯著降低機器學習邊緣 AI 系統的功耗。
模擬內存計算(AiMC)架構使用經過修改的內存單元在網絡邊緣處理經過訓練的神經網絡中的數據,其功率效率為 2900TOPS/W。
"我們建立了一個特殊的計算單元,通過減少數字傳輸來節省能耗,"imec機器學習項目主管迪得裡克·維克斯特說。"根據脈衝寬度,在繼續進行數字計算之前,可以得到ADC上權重的求和,"他說。
"在這個晶片中,我們使用3級權重。權重可以是 -1、0 或 1,我們使用兩個 SRAM 單元來存儲此權重級別。計算單元是一個模擬電路,在兩個SRAM單元上有幾個額外的電晶體,這會產生與存儲的3級權重和激活信號(DAC 的輸出)的乘法成正比的模擬信號。因此,嚴格地說,3 級權重以數字方式存儲,但所有計算都是在模擬域中完成的。「
"模擬推理加速器(AnIA)的成功流片標誌著向AiMC驗證邁出了重要一步,"他補充說:"參考設計不僅表明模擬內存計算在實踐中是可行的,而且表明它們比數字加速器實現了10到100倍的能效。從我們的角度來看,這是機器學習程序中的一個裡程碑,表明模擬計算可以具有與數字計算相同的精度。"
AnIA測試晶片已採用格芯(GF)位於德國德勒斯登的22nm FD-SOI低功耗工藝平臺,晶片面積為 4平方毫米,具有 1024 個輸入和 512 個輸出信號,其性能與當今的GPU類似。它顯示的精度與數字實現相同,達到1%,但能效為 2900TOPS/W。低功耗和低成本的結合為嵌入式硬體中的邊緣AI圖像識別和傳感提供了機會。
GF計算和有線基礎設施產品管理副總裁 Hiren Majmudar 表示:"在AI領域,模擬計算是一種很有發展前景的前沿技術,因為它允許減少數據移動,這將成為主流。「
Majmudar說:"此測試晶片向業界展示了22FDX是如何顯著降低機器學習應用晶片功耗的。我們獲得了與GPU相同的性能,但具有更高的能效。「
目前,新的 AiMC 功能正在德國德勒斯登Fab 1的先進300mm生產線上進行開發。
預計模擬計算AI晶片將在今年年底或明年初投入生產,並在2022年晚些時候進入大眾市場,甚至可能更早。
GF使用了經過修改的SRAM單元,也可採用其他內存技術,如MRAM,快閃記憶體,DRAM等。
在低功耗AI晶片方面,Socionext開發了一個原型晶片,它結合了新開發的量化深度神經網絡(DNN)技術,為小型和低功耗邊緣計算設備實現了先進的AI處理能力。該原型是日本新能源和工業技術開發組織(NEDO)委託的"低功耗AI-Edge LSI技術開發"項目的一部分。
Socionext開發了一種基於"量化DNN技術"的專有架構,以減少深度學習所需的參數和激活位。結果是提高了 AI 處理的性能,同時降低了功耗。該體系結構除了傳統的 8 位之外,還集成了 1 位(二進位)和 2 位(三位)的位縮減,以及該公司的原始參數壓縮技術,大大減少了計算數據量。
此外,該公司還開發了一種新型的片上存儲技術,可提供高效的數據傳輸。
這些新技術集成在原型AI晶片中,據報導,它的功耗不到5W。該公司稱,這比傳統的通用GPU效率高10倍。
另外一家初創AI公司Sima.ai研發了名為MLSoC的晶片,這是一個針對計算機視覺的卷積神經網絡平臺。該晶片原計劃在2020年底流片,採用16nm製程。該公司的目標是處理每秒最高幀/瓦。
該公司稱,該晶片將在5W時提供50TOPS的算力,在20W時提供200TOPS的算力。
當被問及如何與英特爾-Mobileye和Nvidia等老牌企業競爭時,Sima.ai的高層表示,降低功耗是關鍵,因為客戶希望在能耗受限的情況下擴展其工作負載。
待解決的問題
目前,邊緣AI晶片技術和市場都不成熟,處於群雄逐鹿的階段。此時,各種規範還沒成型,存在著一些問題和隱患,如系統偏差和AI倫理道德問題。
亞馬遜AI和機器學習相關人士表示,即使有最好的意圖,數據集中也可能存在偏差,並引入具有業務、道德和監管模型中。這意味著模型管理員必須了解系統中潛在的偏差來源。
對於簡單且易於理解的算法,破解模型、檢查訓練期間學到的參數,以及確定它主要使用哪些功能相當容易。
然而,隨著模型變得越來越複雜,這種分析變得不可能。許多公司和組織可能需要 ML 模型才能解釋,然後才能在生產中使用。此外,當 ML 模型用作相應決策的一部分時,某些規則可能需要解釋,而關閉循環時,可解釋性也有助於檢測偏差。
關鍵是將這些偏差監視和緩解工具集成到邊緣 AI 工作流中,以便開發人員可以使用它們。
隨著AI的發展,其倫理道德問題開始浮出水面,涉及到以下原則:人類自主性、可解釋性、持續關注和警惕性、隱私和安全設計。
恩智浦在一份聲明中表示:"作為AI領域的創新者,我們致力於應用道德原則。消費者依靠AI來承擔更多責任和決策,尤其是在人們希望其設備透明、公平、安全地運行時,安全性是關鍵。通過將這些道德原則構建到能夠感知、解釋和分析邊緣數據的設備中,就可以啟用以合乎道德方式採取行動的AI了。