40納秒完成圖像分類,圖像傳感器自帶神經網絡登上Nature

2020-12-04 量子位

魚羊 曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI

AI晶片還可以怎麼搞?最新登上Nature的研究帶來新啟發。

過去,我們做圖像分類都是分成好幾步:先用傳感器收集圖像模擬信號,數模轉換後再交給計算機處理。整個過程既耗能又費時,就像眼睛把圖像傳給大腦。

試想一下,如果人類眼睛可以直接處理圖像——不用勞煩大腦,那視覺圖像信息的處理速度豈不是可以大大提升?

今天,Nature這篇新研究開拓性在於,直接讓「眼睛」處理圖像。而且效果反饋也相當震撼:

利用新感光元件,僅僅40納秒即可完成圖像分類,比交給計算機處理快了幾十萬倍

真是不得了。

光電二極體網絡

核心來說,研究團隊在晶片上構建了一個光電二極體網絡,並選擇2D半導體二硒化鎢(WSe2)作為光敏材料。

△單個二硒化鎢光電二極體示意圖

光電二極體陣列由27個具有良好均勻性、可調性和線性度的檢測器組成,排列為3×3的成像陣列,像素大小約為17×17μm,每個像素由3個二硒化鎢光電二極體(子像素)組成,其對光的響應度可以通過柵極電壓調節。

也就是說,可以通過改變施加的電壓來調節半導體對光的響應,從而調節每個二極體的靈敏度。

實際上,這就將光電傳感器網絡變成了神經網絡,將光學傳感和神經形態計算結合起來,使其能夠執行簡單的計算任務。

改變二極體的靈敏度,就相當於改變神經網絡中的權重。

把權重放在傳感器上

與其他神經不同的是,這套系統的權重不是存在計算機的內存和硬碟裡,而是直接集成在圖像傳感器上。

實驗中使用的有硒化鎢光電二極體製成的特殊門電路。它的特殊就在於可以調製,相當於神經網絡的訓練。

隨著外接偏置電壓的不同,二極體對光線的敏感程度也不同,等於將網絡的訓練結果直接放在傳感器端。

之前的神經網絡都是將訓練權重存儲在外部存儲器上,通過電路發送到每個檢測器件上。

就像電腦的內存,斷電後就會丟失存儲信息。

而這一套設備,更像是硬碟,即使掉電後也能將權重信息存儲下來。

研究人員將調製的電極也就是浮柵(floating gate)埋在氮化硼絕緣層中,一開始先對氧化鋁絕緣層中的柵極加上電壓,接著撤去外部電壓。

浮柵依舊能在接下來的2300秒內維持對光電二極體的調製,直到改變外部偏置電壓為止。

研究人員用這種方法實現了兩種類型的神經網絡:分類器和自動編碼器。

在分類器中,光電二極體陣列、晶片感知器以及在晶片外的非線性激活函數一起運行。這種類型的神經代表一種監督學習算法,該算法能夠將輸入圖像P分為不同的輸出類別y。

實際效果如何呢?他們3×3像素製作了一組「簡陋」的字母,分別是n、v、z。

圖像傳感器經過訓練後,只需測量對應電路的電流是否為0,就能知道是哪個字母。

通過電壓隨時間的變化圖可以看出,當傳感器接受到圖像40ns後,n和v兩種輸入產生的電壓開始出現巨大的差異,約100ns後差異達到最大。

第二種神經網絡是自動編碼器,可以在無監督的訓練過程中學習輸入圖像P的有效表示。它與解碼器一起使用,對解碼器進行訓練後,就可以在其輸出中重現圖像。

編碼器由光電二極體陣列本身構成,解碼器由外部電子器件構成。

在這個過程中,圖像的傳輸數據得到了壓縮。

潛力巨大,但仍需大量後續研究

40納秒就分辨出了兩張不同的圖像,AI視覺仿佛朝著人類大腦的效率更進一步。

但需要說明的是:這一令人興奮的新技術,距離實際應用,還有很長的路要走。

首先,由於光電二極體陣列僅由27個檢測器組成,最大只能處理3×3的圖像。

其次,想要真正應用於自動駕駛和機器人技術,視覺系統需要捕獲具有廣闊視野的三維動態圖像和視頻。而現在,該技術是將3D視覺信息轉換成2D來處理,丟失了運動信息和深度。

其圖像傳感器陣列的平面形狀,也限制了廣角相機的能力。

此外,根據Nature的報導,論文中描述的設備很難在昏暗光線下成像。並且,其設計需要高電壓和大功率,相比之下,生物神經網絡中每項操作消耗的能量僅為10-15到10-13焦耳。

從工藝角度上講,晶片所採用的薄半導體目前很難大面積生產加工。

而且,儘管圖像傳感器兼具了採集和計算功能,減少了模數轉換,但外部電路仍然存在固有延遲問題,還是會影響整個系統的等待時間。

不過,雖然還有很大的研究空間,在傳感器中計算的相關研究,推動了AI硬體的進一步發展。而這樣的研究思路,也不僅僅局限於計算機視覺,可以擴展到聽覺、觸覺等其他物理輸入中。

其他嘗試

人們對快速處理圖像信息的要求越來越高,很多科學家都在研究在輸入端處理圖像的方法。

最近來自荷蘭和美國學者也發明了一種在傳感器端直接處理圖像的方法。

不過他們不是輸出圖像的分類,而是輸出圖像的邊緣,這對於目標檢測和語義分割有重要的意義。

他們在傳感器前方加入了一個「超表面」:不到半毫米厚的藍寶石薄片,鍍上206 nm厚、142 nm高、間距300 nm的矽長條。

把它放置在CCD感光晶片的表面上時,超表面的作用就像一個透鏡,光線只能以陡峭的角度射向它,而過濾掉入射角很小的光。

圖像的特徵是由不同光波的組合而成,濾除了光波攜帶的其他細節,僅留下了較尖銳的分量,例如人臉的邊緣,而不是單色的背景。

整個過程僅需要150納秒的時間,而交給計算機處理需要幾毫秒,二者相差4個數量級。

研究團隊

最後介紹下研究團隊,來自奧地利維也納工業大學的Unterrainer group。

論文一作:Lukas Mennel,是電氣工程與光子學專業在讀博士,曾作為訪問學者赴MIT交流學習,研究量子光子學。

△Lukas Mennel

論文的另一位通訊作者,是維也納工業大學副教授Thoms Mueller——託馬斯·穆勒,雖然不知道這位託馬斯·穆勒擅不擅長踢足球,但在2D材料科學領域,穆勒教授的研究涵蓋基礎研究、光電設備、電子集成電路、光子集成電路等,亦是卓有成就。

△Thoms Mueller

論文地址:https://www.nature.com/articles/s41586-020-2038-x

相關焦點

  • 圖像傳感器運行神經網絡!實現納秒級時間內圖像分類,或將推進邊緣...
    利用人工神經網絡在納秒級時間內完成圖像分類近日,奧地利維也納工業大學光子學研究所 Lukas Mennel 博士等人研發的一種超高速機器視覺設備——自帶神經網絡的圖像傳感器,將圖像處理速度提升了幾十萬倍。
  • 成功研發出用於納秒級圖像識別的神經硬體
    打開APP 成功研發出用於納秒級圖像識別的神經硬體 教育新聞網 發表於 2020-04-27 17:54:13 到目前為止,所有這些都是基於對普通攝像機提供的圖像數據進行評估的,而且這很耗時。尤其是每秒記錄的圖像數量很多時,會生成大量難以處理的數據。 因此,維也納工業大學的科學家採用了另一種方法:使用特殊的2D材料,開發了一種圖像傳感器,可以對其進行訓練以識別某些物體。該晶片代表了能夠學習的人工神經網絡。數據不必由計算機讀取和處理,但是晶片本身可以提供有關當前所見內容的信息-僅需數納秒。
  • 如何可視化卷積網絡分類圖像時關注的焦點
    在我們使用 CNN 進行圖片分類時,模型到底關注的是圖像的哪個區域?Grad-CAM 利用卷積網絡最後一個特徵圖的信息,並加權對應的梯度而構建模型分類的熱力圖,通過該熱力圖,我們可以清楚地了解哪一塊區域對於類別是最重要的。你在訓練神經網絡進行圖片分類時,有沒有想過網絡是否就是像人類感知信息一樣去理解圖像?
  • 機器學習的出現推動了圖像傳感器的創新
    最初的簡單圖像傳感器為攝影應用開發,如今的圖像傳感器用於向人工智慧(AI)和機器學習系統提供高質量的輸入。 這些系統已成為利用新的和創新的處理器架構的精密決策實體。 基於機器學習的視覺系統 機器學習的出現推動了圖像傳感器的創新,其性能水平得到了提高,可以支持各種應用。視覺輸入是高保真數據–您所看到的就是輸入到系統中的信息。 如今,AI算法能夠檢測、識別和分類這些輸入並生成準確的決策輸出。這些輸出的可靠性取決於輸入的質量及其算法的準確性,以及處理這些算法的神經網絡。
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    論文:圖像分類器的大規模進化(Large-Scale Evolution of Image Classifiers)https://arxiv.org/pdf/1703.01041.pdf摘要:神經網絡已被證明可以有效地解決難題,但它們的架構設計起來頗具挑戰性,即便只是圖像分類問題也如此。
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI還在為圖像加載犯愁嗎?最新的好消息是,谷歌團隊採用了一種GANs與基於神經網絡的壓縮算法相結合的圖像壓縮方式HiFiC,在碼率高度壓縮的情況下,仍能對圖像高保真還原。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    深度學習(Deep Learning, DL),從狹義上理解,就是一種具有一定的結構和訓練方法且含有多個隱含層的神經網絡;從廣義上理解,可以把具有任何層次結構的機器學習方法稱為深度學習。在深度學習過程中,從輸入圖像,經過無監督的逐層訓練和學習圖像特徵,通過有監督的訓練更新整個網絡參數,最小化損失函數,在輸出層實現正確的分類。
  • 這個AI系統僅憑光回聲就能得到3D圖像
    為了解決這一問題,Turpin 及其同事使用神經網絡,來檢測輸入和輸出之間的微妙關聯。研究人員使用光束和檢測器,錄製一兩個人在固定、不對稱的背景場景前移動的數據。同時,他們還使用 ToF 相機記錄場景的真實 3D 圖像。上周,研究人員在光學期刊 Optica 上發表了這篇論文,表明在使用以上兩個數據集訓練神經網絡之後,神經網絡能夠自行對場景中移動的人建模。
  • 神經網絡模型在密集圖像中發現小物體
    NIST模型採用旨在檢測模式的神經網絡方法,在現代生活中具有許多可能的應用。NIST的神經網絡模型在一組定義的測試圖像中捕獲了97%的對象,並將對象的中心定位在手動選擇位置的幾個像素內。NIST的計算機科學家Adele Peskin解釋說:「該項目的目的是恢復期刊文章中丟失的數據。」 「但是,小型密集物體檢測的研究還有很多其他應用。
  • 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    昨天,谷歌宣布開放 TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • 使用神經網絡為圖像生成標題
    我們都知道,神經網絡可以在執行某些任務時複製人腦的功能。神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。
  • 如何通過人工神經網絡實現圖像識別?
    人工神經網絡(Artificial Neural Networks)(簡稱ANN)系統從20 世紀40 年代末誕生至今僅短短半個多世紀,但由於他具有信息的分布存儲尤其是基於誤差反向傳播(Error Back Propagation)算法的多層前饋網絡(Multiple-Layer Feedforward Network)(簡稱BP 網絡),可以以任意精度逼近任意的連續函數,所以廣泛應用於非線性建模、函數逼近、模式分類等方面。
  • 單個半導體器件也能計算XOR,組合後還能做AI圖像分類
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI最近,一篇登上Science的最新研究可謂轟動了整個AI界。生物學家們發現,人類的單個神經元也可以進行異或(XOR)運算,效率遠高於我們現在的人工神經網絡(ANN)。ANN要實現一個異或運算,至少需要2層神經網絡。
  • 輕鬆學Pytorch-使用ResNet50實現圖像分類
    Hello大家好,這篇文章給大家詳細介紹一下pytorch中最重要的組件torchvision,它包含了常見的數據集、模型架構與預訓練模型權重文件、常見圖像變換、計算機視覺任務訓練。可以是說是pytorch中非常有用的模型遷移學習神器。本文將會介紹如何使用torchvison的預訓練模型ResNet50實現圖像分類。
  • 機器視角:長文揭秘圖像處理和卷積神經網絡架構
    今天,我將與你共享我的心得,展示我如何上手卷積神經網絡並最終弄明白了它。我將做一個通盤的展示,從而使你對 CNN 的工作機制有一個深入的了解。在本文中,我將會討論 CNN 背後的架構,其設計初衷在於解決圖像識別和分類問題。同時我也會假設你對神經網絡已經有了初步了解。目錄1.機器如何看圖?
  • 圖像傳感器
    這些特色決定了它可以廣泛用於自動控制和自動測量,尤其是適用於圖像識別技術中。本文從分析固態圖像傳感器的原理出發,著重對它在測控及圖像識別領域進行分析和探討。這樣的輸出電信號與其相應的像素的位置對應,無疑是更準確些,且再生圖像失真度極小。顯然,光導攝像管等圖像傳感器,由於掃描電子束偏轉畸變或聚焦變化等原因所引起的再生圖像的失真,往往是很難避免的。失真度極小的固態圖像傳感器,非常適合測試技術及圖像識別技術。
  • 單個半導體器件也能計算XOR,組合後還可分類圖像,荷蘭華人學者最新...
    生物學家們發現,人類的單個神經元也可以進行異或(XOR)運算,效率遠高於我們現在的人工神經網絡(ANN)。ANN要實現一個異或運算,至少需要2層神經網絡。現在,來自荷蘭特溫特大學一篇登上Nature的論文,再次打破我們的認知。
  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    1.CNNs模型並行導論1.1.典型應用分析:圖像識別 圖像識別是深度卷積神經網絡獲得成功的一個典型應用範例。 圖1揭示了一個具有5個卷積層和3個全連接層的深度卷積神經網絡,該模型可應用於圖像分類。
  • 登上Nature子刊封面:英特爾神經晶片實現在線學習
    論文地址:https://www.nature.com/articles/s42256-020-0159-4在該研究中,研究者展示了英特爾神經形態研究晶片 Loihi 在存在明顯噪聲和遮蓋的情況下學習和識別危險化學品的能力。
  • 贈書|圖像分類問題建模方案探索實踐
    早期的最近鄰分類(KNN)算法,將圖像的像素值用二維矩陣存儲,再將二維矩陣拉伸成一維向量,通過度量向量間距的方式進行分類。該類算法操作簡單易於實施,但是計算量大,並且容易受到樣本不平衡問題的影響;然後是多層感知器(MLP)算法,類似於KNN的特徵處理,讓一維向量特徵通過包含多個線性非線性函數組合的神經網絡結構,通過計算各類別可能性概率的方式進行分類。