芯東西(ID:aichip001)文 | 雲鵬 心緣
芯東西3月5日消息,《Nature》刊登一則新研究,提供了一種新穎的AI視覺晶片研發方向。
維也納大學的電氣工程師Lukas Mennel和他的同事們研發了一種新型的超高速機器視覺設備,用圖像傳感器將圖像處理速度提升至傳統技術的數千甚至上萬倍。
Mennel介紹說:「我們的圖像傳感器在工作時不會消耗任何電能,被檢測的光子本身就可以作為電流供能。」
他著重提到,傳統的機器視覺技術通常能夠每秒處理100幀圖像,一些更快的系統則可以每秒處理1000幀,相比之下,「我們的系統每秒可以處理2000萬幀。」
據悉,其視覺系統設計模仿了大腦對信息處理的方式,只用納秒級時間就能完成簡單圖像的分類。
Nature 579, 32-33 (2020)
doi: 10.1038/d41586-020-00592-6
一、將圖像傳感器變成人工神經網絡
現代圖像傳感器最早在1970年代初開發出來,主要分為電荷耦合器件和有源像素傳感器兩種類型。
這些傳感器能從環境中準確捕獲視覺信息,但同時也會生成大量冗餘數據,而傳感器與處理單元之間大量數據的移動,往往會導致高功耗和延遲問題。
如今汽車、機器人、工業製造等領域的視覺應用都對延遲非常敏感,要求儘可能實現實時處理和決策,而受帶寬限制,把所有數據都送到雲端處理很難解決延時問題,邊緣計算逐漸成為剛需。
另外,由於傳感器通常會產生模擬輸出,而模數轉換既耗時又耗能,因此模擬處理要好過數字處理。
維也納大學研究人員們試圖通過減少中間步驟來加快機器視覺,他們直接在圖像傳感器中實現了人工神經網絡(ANN)。
▲ 輸入信息在視覺傳感器內進行計算,實現智能,高效的預處理
傳統AI視覺傳感器的處理過程如圖(a)所示,傳感器收集信號,通過模數轉換器(ADC)將模擬信號轉換為數位訊號,放大後輸入到外部人工神經網絡(ANN),經參數調優訓練神經網絡。
ANN的輸入層接收編碼簡單物理元素的信號(點、線),這些信號在隨後的層中被優化為中級特徵(簡單形狀),最後在輸出層上形成精細的圖像(3D形狀),總體響應可能很慢而且耗能。
而Mennel等人研發的視覺系統如圖(b)所示,晶片上的互連傳感器(正方形)不僅可以採集信號,而且還可以用作ANN來識別簡單特徵,從而減少了傳感器和外部電路之間的冗餘數據移動。
二、傳感器中集成權重,減少冗餘數據移動
研究人員們在晶片上構建了一個光電二極體網絡。
這些光電二極體是對光敏感的微小單元,每個單元都包含幾個原子層的二硒化鎢,二硒化鎢是一種可調節光響應的二維半導體材料。
▲浮柵光電二極體示意圖
通過更改施加的電壓,可以增加或減少該半導體對光的響應,從而分別調節每個二極體的靈敏度。
改變光電二極體的光響應性,會改變網絡中的連接權重。
▲epoch 1和epoch 30時的編碼器光響應值(左)和解碼器權重(右)
相當於把網絡的訓練結果直接放在傳感器端,不用經過把訓練權重送到外部存儲器這一過程。
這就將光電傳感器網絡變成了神經網絡,並使其能夠執行簡單的計算任務。
▲ ANN光電二極體陣列的電路
三、功能演示:分類和自動編碼
研究人員們將光電二極體排列成9個像素的正方形陣列,每個像素3個二極體。
當圖像投影到晶片上時,晶片會生成、讀取各種二極體產生的電流。
硬體陣列提供了一種模擬計算形式:每個光電二極體都會產生與入射光強度成比例的輸出電流,並且根據基爾霍夫定律將沿行或列得出的電流相加。
然後就可以訓練陣列來執行相應任務了。
▲訓練算法流程圖(藍色陰影框是與ANN光電二極體陣列的相互作用)
晶片外分析陣列產生的電流與預測電流之間的差異,並用於調整突觸權重以進行下一次訓練周期。
這個學習階段會佔用時間和計算資源,但是一旦經過訓練,該晶片就會迅速執行其設定的任務。
使用不同神經網絡算法,該團隊演示了兩種神經形態功能:分類和自動編碼。
▲a:用於訓練分類器和自動編碼器的實驗設置;b:用於時間分辨測量的實驗設置
(1)分類
他們用3×3像素陣列製作了三個簡化字母:n、v、z。
圖像傳感器經訓練後,只需測量對應電路電流是否為0,就能在納秒級時間內識別該字母。
如果按比例增加陣列的大小,該神經網絡還可以識別更複雜的圖像。
▲識別「n」、「v」、「z」三個字母
(2)自動編碼
即使在存在信號噪聲的情況下,該神經網絡也可以通過學習圖像的關鍵特徵,來生成處理後圖像的簡化表示。
編碼器僅包含最基本的信息,但可以對其進行解碼以重建接近原始圖像。
▲對有噪聲圖像的簡化表示
Mennel指出,系統運行的速度僅受電路中電子移動速度的限制。從原則上講,這種策略的工作速度可以達到數萬億分之一秒,或者比目前演示的速度快三到四個數量級。
▲分類器(a)和自動編碼器訓練(b)30 epoches的數據集,其測試數據噪聲水平分別為σ = 0.4和σ = 0.15
四、離落地還有距離
這樣的傳感器可以用來做什麼?
Mennel說:「目前,這些主要用在特定的科學應用,例如,流體動力學、燃燒過程或機械故障過程可從更快的視覺數據獲取中受益。」
不過,這項技術在實際落地應用之前,還有許多工作要做。
首先,用於自動駕駛車輛和機器人技術的神經形態視覺系統,需要捕獲具有廣闊視野的三維動態圖像和視頻。
而當前使用的圖像捕獲技術通常將3D現實世界轉換為2D信息,丟失運動信息和深度,現有圖像傳感器陣列的平面形狀也限制了廣角相機的發展。
其次,該研究描述的設備很難在昏暗的光線下成像,需要重新設計,以改善薄半導體中的光吸收,並增加可以檢測到的光強度範圍。
再者,該設計需要高電壓並消耗大量功率。相比之下,生物神經網絡中每項操作的能量消耗為10 -15至10 -13焦耳。擴展對紫外線和紅外光的響應,以捕獲在可見光譜不可用的信息也是有用的。
另外所使用的薄半導體難以在大面積上均勻地生產,並且難以加工,因此它們可以與矽電子器件集成在一起,例如用於讀出或反饋控制的外部電路。
使用這些傳感器的設備的速度和能源效率將不取決於圖像捕獲過程,而是取決於傳感器和外部電路之間的數據移動。
而且,儘管傳感器計算單元在模擬域中採集和計算數據,減少了模數轉換,但是外圍電路仍然存在固有延遲問題。傳感器和外部電路將需要共同開發來減少整個系統的等待時間。
結語:實時邊緣計算的創新路徑
Mennel及其同事的「傳感器中計算」系統是對AI硬體研究非常有趣的探索。
此前少數公司已經開發了基於矽電子的AI視覺晶片,但這些晶片的固有數字體系結構往往帶來延遲和電源效率問題。
更廣泛地說,該研究團隊的策略不僅限於視覺系統,它可以擴展到用於聽覺、觸覺、熱感以及嗅覺等其他物理輸入。
此類智能系統的開發以及5G高速無線網絡的到來,會讓實時(低延遲)邊緣計算成為可能。
文章來源:IEEE,Nature