利用人工神經網絡在納秒級時間內完成圖像分類,已經成為現實。
近日,奧地利維也納工業大學光子學研究所 Lukas Mennel 博士等人研發的一種超高速機器視覺設備——自帶神經網絡的圖像傳感器,將圖像處理速度提升了幾十萬倍。
當地時間 2020 年 3 月 4 日,上述團隊的一篇名為 Ultrafast machine vision with 2D material neural network image sensors(基於二維材料神經網絡圖像傳感器的超快機器視覺)的研究論文發表在《自然》雜誌(Nature)上。
雷鋒網了解到,該團隊設計的視覺設備如同大腦一樣處理信息,40 納秒即可分辨出兩張不同的圖像。
視覺是人類認識世界最重要的一個途徑,受此啟發的「機器視覺」近年來方興未艾。
所謂機器視覺,就是用機器代替人眼來做測量和判斷。但機器視覺並非只是人眼的簡單延伸,它還有人腦的一部分功能一一從圖像中提取、處理、理解信息,從而用於實際的測量和控制。
就機器視覺技術本身而言,其主要流程是——相機逐行掃描像素,然後將視頻幀轉換為數位訊號,再將其傳輸到計算機中進行分析。
不過其中存在的問題是,由於傳感器與處理單元之間大量數據的移動,信息往往無法得到快速的處理、決策,這也就是機器視覺經常面臨的延遲。
考慮到上述因素,研究團隊在圖像傳感器中引入了可同時獲取並分析圖像的人工神經網絡(Artificial Neural Network,ANN )。
說到人工神經網絡,實際上它是一種運算模型,由大量的節點(也稱神經元)相互連接構成。其中,作為核心的神經元接收並處理數據,在圖像識別、智慧機器人、自動控制、預測估計等領域發揮著重要作用。
具體來講,人工神經網絡可以反覆調整神經元之間的連接強度或「突觸」,並觀察當前的行為模式是否能更好地解決問題,從而發現哪些模式最擅長計算解決方案。接著,人工神經網絡會將這些模式設為默認值,模仿人腦學習過程。
實際上,當天《自然》雜誌的 News and Views 專欄還發表了香港理工大學博士 Yang Chai 的評論文章 In-sensor computing for machine vision(機器視覺的傳感器內計算)。
在其文章中,Yang Chai 博士通過下面這幅圖清晰地展現出了兩種視覺處理方式的區別:
傳統及其視覺處理過程(下圖 a 部分):傳感器收集信號,通過模數轉換器(ADC)將模擬信號轉換為數位訊號,放大後輸入到外部人工神經網絡,經參數調優訓練神經網絡。神經網絡輸入層接收編碼簡單物理元素的信號(點、線),隨後這些信號優化為中級特徵(簡單形狀),最終在輸出層上形成圖像(3D 形狀);
Lukas Mennel 團隊圖像傳感器處理過程(下圖 b 部分):晶片上的互連傳感器(圖中的正方形)收集信號,並用作人工神經網絡識別簡單特徵,減少傳感器和外部電路之間的冗餘數據移動。
回到研究成果本身,上述傳感器實質上是一個光電二極體神經網絡,即 9 個像素的正方形陣列,每個像素有 3 個二極體。另外其光敏材料是 2D 半導體二硒化鎢(WSe2),這種材料對光具有調節響應能力。
同時,二極體的靈敏度相當於神經網絡中的權重,而且其權重直接集成在圖像傳感器上。
其具體工作流程如下圖:當圖像被投影到晶片上時,將會產生、組合、讀取各種二極體電流。陣列提供了一種模擬計算——每個光電二極體產生與入射光強度成比例的輸出電流,並且根據基爾霍夫定律(電路中電流的基本規則)沿著行或列對得到的電流求和。隨後陣列便開始進行訓練。
據悉,由陣列產生的電流與預測電流(雷鋒網(公眾號:雷鋒網)註:對於給定的任務,如果陣列正確地響應圖像,則將產生所謂的預測電流)之間的差異同時也會得到分析,並將用於調整下一訓練周期的突觸權重。
此外,該研究團隊根據不同的神經網絡算法演示了兩種神經形態功能。
一是「分類」。3×3 像素陣列可以將圖像分類為三個字母 n、v、z,經過訓練的圖像傳感器可以在以納秒為單位的時間內根據「測量對應電路的電流是否為 0」的標準識別字母(下圖 d)。據悉,若按比例增加陣列規模,還可以識別更複雜的圖像。
二是「自動編碼」。即便存在信號噪聲,通過學習圖像的關鍵特徵,神經網絡也能生成處理後圖像的簡化表示。
不過雷鋒網還了解到,該系統有很多局限性,比如:
很難在昏暗的環境下成像;
其設計需要高電壓、消耗大量功率;
其所需半導體大面積生產、加工較難;
最大只能處理 3×3 圖像。
不過論文作者之一 Lukas Mennel 博士表示:
我們的圖像傳感器在工作時不會消耗任何電能,被檢測的光子本身就可以作為電流供能。傳統的機器視覺技術通常能夠每秒處理 100 幀圖像,而一些更快的系統則可以每秒處理 1000 幀圖像,但我們的系統每秒可以處理 2000 萬幀圖像。
可見,雖然新技術落地都有或多或少的限制,但這一系統在能耗和速度方面確實有著不錯的表現,Yang Chai 博士在其文章中也對這一技術給予了肯定:
這一技術並不局限於視覺系統,它可以用於聽覺、觸覺或嗅覺感測。這種智能系統的發展,以及 5G 高速無線網絡的到來,將來會讓實時(低延遲)邊緣計算成為可能。
參考資料:
https://www.nature.com/articles/s41586-020-2038-x#Fig15
https://www.nature.com/articles/d41586-020-00592-6
https://spectrum.ieee.org/tech-talk/computing/hardware/image-neural
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。