圖像傳感器運行神經網絡!實現納秒級時間內圖像分類,或將推進邊緣...

2020-11-24 雷鋒網

利用人工神經網絡在納秒級時間內完成圖像分類,已經成為現實。

近日,奧地利維也納工業大學光子學研究所 Lukas Mennel 博士等人研發的一種超高速機器視覺設備——自帶神經網絡的圖像傳感器,將圖像處理速度提升了幾十萬倍。

當地時間 2020 年 3 月 4 日,上述團隊的一篇名為 Ultrafast machine vision with 2D material neural network image sensors(基於二維材料神經網絡圖像傳感器的超快機器視覺)的研究論文發表在《自然》雜誌(Nature)上。

雷鋒網了解到,該團隊設計的視覺設備如同大腦一樣處理信息,40 納秒即可分辨出兩張不同的圖像。

可同時獲取並分析圖像的人工神經網絡

視覺是人類認識世界最重要的一個途徑,受此啟發的「機器視覺」近年來方興未艾。

所謂機器視覺,就是用機器代替人眼來做測量和判斷。但機器視覺並非只是人眼的簡單延伸,它還有人腦的一部分功能一一從圖像中提取、處理、理解信息,從而用於實際的測量和控制。

就機器視覺技術本身而言,其主要流程是——相機逐行掃描像素,然後將視頻幀轉換為數位訊號,再將其傳輸到計算機中進行分析。

不過其中存在的問題是,由於傳感器與處理單元之間大量數據的移動,信息往往無法得到快速的處理、決策,這也就是機器視覺經常面臨的延遲。

考慮到上述因素,研究團隊在圖像傳感器中引入了可同時獲取並分析圖像的人工神經網絡(Artificial Neural Network,ANN )。

說到人工神經網絡,實際上它是一種運算模型,由大量的節點(也稱神經元)相互連接構成。其中,作為核心的神經元接收並處理數據,在圖像識別、智慧機器人、自動控制、預測估計等領域發揮著重要作用。

具體來講,人工神經網絡可以反覆調整神經元之間的連接強度或「突觸」,並觀察當前的行為模式是否能更好地解決問題,從而發現哪些模式最擅長計算解決方案。接著,人工神經網絡會將這些模式設為默認值,模仿人腦學習過程。

實際上,當天《自然》雜誌的 News and Views 專欄還發表了香港理工大學博士 Yang Chai 的評論文章 In-sensor computing for machine vision(機器視覺的傳感器內計算)。

在其文章中,Yang Chai 博士通過下面這幅圖清晰地展現出了兩種視覺處理方式的區別:

  • 傳統及其視覺處理過程(下圖 a 部分):傳感器收集信號,通過模數轉換器(ADC)將模擬信號轉換為數位訊號,放大後輸入到外部人工神經網絡,經參數調優訓練神經網絡。神經網絡輸入層接收編碼簡單物理元素的信號(點、線),隨後這些信號優化為中級特徵(簡單形狀),最終在輸出層上形成圖像(3D 形狀);

  • Lukas Mennel 團隊圖像傳感器處理過程(下圖 b 部分):晶片上的互連傳感器(圖中的正方形)收集信號,並用作人工神經網絡識別簡單特徵,減少傳感器和外部電路之間的冗餘數據移動。

發光二極體組成的神經網絡

回到研究成果本身,上述傳感器實質上是一個光電二極體神經網絡,即 9 個像素的正方形陣列,每個像素有 3 個二極體。另外其光敏材料是 2D 半導體二硒化鎢(WSe2),這種材料對光具有調節響應能力。

同時,二極體的靈敏度相當於神經網絡中的權重,而且其權重直接集成在圖像傳感器上。

其具體工作流程如下圖:當圖像被投影到晶片上時,將會產生、組合、讀取各種二極體電流。陣列提供了一種模擬計算——每個光電二極體產生與入射光強度成比例的輸出電流,並且根據基爾霍夫定律(電路中電流的基本規則)沿著行或列對得到的電流求和。隨後陣列便開始進行訓練。

據悉,由陣列產生的電流與預測電流(雷鋒網(公眾號:雷鋒網)註:對於給定的任務,如果陣列正確地響應圖像,則將產生所謂的預測電流)之間的差異同時也會得到分析,並將用於調整下一訓練周期的突觸權重。

兩種神經形態功能

此外,該研究團隊根據不同的神經網絡算法演示了兩種神經形態功能。

一是「分類」。3×3 像素陣列可以將圖像分類為三個字母 n、v、z,經過訓練的圖像傳感器可以在以納秒為單位的時間內根據「測量對應電路的電流是否為 0」的標準識別字母(下圖 d)。據悉,若按比例增加陣列規模,還可以識別更複雜的圖像。

二是「自動編碼」。即便存在信號噪聲,通過學習圖像的關鍵特徵,神經網絡也能生成處理後圖像的簡化表示。

不過雷鋒網還了解到,該系統有很多局限性,比如:

  • 很難在昏暗的環境下成像;

  • 其設計需要高電壓、消耗大量功率;

  • 其所需半導體大面積生產、加工較難;

  • 最大只能處理 3×3 圖像。

不過論文作者之一 Lukas Mennel 博士表示:

我們的圖像傳感器在工作時不會消耗任何電能,被檢測的光子本身就可以作為電流供能。傳統的機器視覺技術通常能夠每秒處理 100 幀圖像,而一些更快的系統則可以每秒處理 1000 幀圖像,但我們的系統每秒可以處理 2000 萬幀圖像。

可見,雖然新技術落地都有或多或少的限制,但這一系統在能耗和速度方面確實有著不錯的表現,Yang Chai 博士在其文章中也對這一技術給予了肯定:

這一技術並不局限於視覺系統,它可以用於聽覺、觸覺或嗅覺感測。這種智能系統的發展,以及 5G 高速無線網絡的到來,將來會讓實時(低延遲)邊緣計算成為可能。

參考資料:

https://www.nature.com/articles/s41586-020-2038-x#Fig15

https://www.nature.com/articles/d41586-020-00592-6

https://spectrum.ieee.org/tech-talk/computing/hardware/image-neural

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 40納秒完成圖像分類,圖像傳感器自帶神經網絡登上Nature
    實際上,這就將光電傳感器網絡變成了神經網絡,將光學傳感和神經形態計算結合起來,使其能夠執行簡單的計算任務。改變二極體的靈敏度,就相當於改變神經網絡中的權重。把權重放在傳感器上與其他神經不同的是,這套系統的權重不是存在計算機的內存和硬碟裡,而是直接集成在圖像傳感器上。實驗中使用的有硒化鎢光電二極體製成的特殊門電路。它的特殊就在於可以調製,相當於神經網絡的訓練。
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    論文:圖像分類器的大規模進化(Large-Scale Evolution of Image Classifiers)https://arxiv.org/pdf/1703.01041.pdf摘要:神經網絡已被證明可以有效地解決難題,但它們的架構設計起來頗具挑戰性,即便只是圖像分類問題也如此。
  • 機器學習的出現推動了圖像傳感器的創新
    基於機器學習的視覺系統 機器學習的出現推動了圖像傳感器的創新,其性能水平得到了提高,可以支持各種應用。視覺輸入是高保真數據–您所看到的就是輸入到系統中的信息。 如今,AI算法能夠檢測、識別和分類這些輸入並生成準確的決策輸出。這些輸出的可靠性取決於輸入的質量及其算法的準確性,以及處理這些算法的神經網絡。
  • 如何通過人工神經網絡實現圖像識別?
    尤其是基於誤差反向傳播(Error Back Propagation)算法的多層前饋網絡(Multiple-Layer Feedforward Network)(簡稱BP 網絡),可以以任意精度逼近任意的連續函數,所以廣泛應用於非線性建模、函數逼近、模式分類等方面。
  • 輕鬆學Pytorch-使用ResNet50實現圖像分類
    Hello大家好,這篇文章給大家詳細介紹一下pytorch中最重要的組件torchvision,它包含了常見的數據集、模型架構與預訓練模型權重文件、常見圖像變換、計算機視覺任務訓練。可以是說是pytorch中非常有用的模型遷移學習神器。本文將會介紹如何使用torchvison的預訓練模型ResNet50實現圖像分類。
  • 成功研發出用於納秒級圖像識別的神經硬體
    打開APP 成功研發出用於納秒級圖像識別的神經硬體 教育新聞網 發表於 2020-04-27 17:54:13 到目前為止,所有這些都是基於對普通攝像機提供的圖像數據進行評估的,而且這很耗時。尤其是每秒記錄的圖像數量很多時,會生成大量難以處理的數據。 因此,維也納工業大學的科學家採用了另一種方法:使用特殊的2D材料,開發了一種圖像傳感器,可以對其進行訓練以識別某些物體。該晶片代表了能夠學習的人工神經網絡。數據不必由計算機讀取和處理,但是晶片本身可以提供有關當前所見內容的信息-僅需數納秒。
  • TPU加AutoML:50美元快速訓練高效的ImageNet圖像分類網絡
    昨日,Jeff Dean 在推特上表示他們在 ImageNet 圖像分類上發布了新的 DAWNBench 結果,新型 AmoebaNet-D 網絡在 TPU 上實現了最低的訓練時間和最少的訓練成本。在這一個基準測試上,基於進化策略的 DAWNBench 要比殘差網絡效果更好,且訓練成本降低了一倍。
  • 應用豐富的「卷積神經網絡」技術,怎樣實現了圖像識別?
    現在,那些用於照片管理的應用程式正在使用「圖像識別」技術。除了為用戶提供照片的存儲空間,這些應用程式還希望通過「圖像自動管理」,進一步為人們提供更好的照片搜索功能。應用程式中的圖像識別編程接口能夠根據不同的識別模式將圖像進行分類,並且將它們按照主題一一分組。
  • 佳能開發出全球首款100萬像素SPAD圖像傳感器
    據麥姆斯諮詢報導,日本佳能(Canon)公司近日宣布開發出了世界上第一款具有信號放大像素的100萬像素單光子雪崩二極體(SPAD)圖像傳感器。SPAD圖像傳感器可以在極短的時間內捕捉並成像靜態圖像和動態視頻,是2D相機等應用的理想選擇。同時,SPAD圖像傳感器能夠捕捉與被攝體之間的距離信息作為成像數據,因此,SAPD傳感器在3D成像領域也有巨大的應用潛力。
  • 使用神經網絡為圖像生成標題
    我們都知道,神經網絡可以在執行某些任務時複製人腦的功能。神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。
  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 圖像傳感器
    所用電子束的偏轉或集束,是由磁場或電場控制實現的。 此外,固態圖像傳感器與攝像管比,還有體積小、重量輕、堅固耐用、抗衝擊、耐震動、抗電磁幹擾能力強以及耗電少等許多優點,並且固態圖像傳感器的成本也較低。三、固態傳感器分類、結構及特性從使用觀點,可將固態圖像傳感器分為線型和面型固態圖像傳感器兩類。
  • 這個AI系統僅憑光回聲就能得到3D圖像
    Waller 認為,這一結果令人吃驚,因為原則上場景中的物體陳設和時間信息之間不存在一對一關係。例如,當檢測器距離任意表面 3 米遠時,反射該表面的光子將在 10 納秒內到達,不管它位於表面的什麼方向。乍一看,這種模糊性似乎使問題無解。「我第一次聽到『單像素成像』的概念時,想的是『這應該奏效』。而對於這個,我想的是『應該不會有用』。」
  • 圖像傳感器知識大全
    在某些場合的應用中,例如對短時間內物體軌跡高精度跟蹤的應用,需要利用CMOS器件的這個功能。CCD傳感器通常無法實現這個功能。• 7. 抗溢出功能:能夠排耗局部曝光過度的電荷積累而不影響圖象其它區域的能力。• CMOS傳感器基本上天然的就是抗溢出的。而CCD則需要增加額外的工程設計達到這個目標。許多針對消費應用的CCD具有抗溢出功能,而針對科學應用的則沒有這個功能。
  • 神經網絡模型在密集圖像中發現小物體
    NIST模型採用旨在檢測模式的神經網絡方法,在現代生活中具有許多可能的應用。NIST的神經網絡模型在一組定義的測試圖像中捕獲了97%的對象,並將對象的中心定位在手動選擇位置的幾個像素內。NIST的計算機科學家Adele Peskin解釋說:「該項目的目的是恢復期刊文章中丟失的數據。」 「但是,小型密集物體檢測的研究還有很多其他應用。
  • 如何可視化卷積網絡分類圖像時關注的焦點
    在我們使用 CNN 進行圖片分類時,模型到底關注的是圖像的哪個區域?Grad-CAM 利用卷積網絡最後一個特徵圖的信息,並加權對應的梯度而構建模型分類的熱力圖,通過該熱力圖,我們可以清楚地了解哪一塊區域對於類別是最重要的。你在訓練神經網絡進行圖片分類時,有沒有想過網絡是否就是像人類感知信息一樣去理解圖像?
  • 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    昨天,谷歌宣布開放 TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • 機器視角:長文揭秘圖像處理和卷積神經網絡架構
    引言先坦白地說,有一段時間我無法真正理解深度學習。我查看相關研究論文和文章,感覺深度學習異常複雜。我嘗試去理解神經網絡及其變體,但依然感到困難。接著有一天,我決定一步一步,從基礎開始。我把技術操作的步驟分解開來,並手動執行這些步驟(和計算),直到我理解它們如何工作。這相當費時,且令人緊張,但是結果非凡。
  • 什麼是人工神經網絡(ANN)?
    人工神經網絡由一個輸入層和一個輸出層組成,其中輸入層從外部源(數據文件,圖像,硬體傳感器,麥克風等)接收數據,一個或多個隱藏層處理數據,輸出層提供一個或多個數據點基於網絡的功能。例如,檢測人,汽車和動物的神經網絡將具有一個包含三個節點的輸出層。對銀行在安全和欺詐之間進行交易進行分類的網絡將只有一個輸出。
  • 手把手教你用PyTorch實現圖像分類器(第一部分)
    最後一個項目是用PyTorch創建一個102種不同類型的花的圖像分類器。在做這個final project的時候,很多同學都遇到了類似的問題和挑戰。當我接近完成的時候,我決定與大家分享一些在未來對他人有益的建議和見解。通過3篇短文,介紹如何實現圖像分類器的概念基礎——這是一種能夠理解圖像內容的算法。