機器之心報導
作者:杜偉、小舟
在本文中,來自加州大學河濱分校機械工程系的研究者通過應用光學漩渦證明了混合計算機視覺系統的可行性。該研究為光子學在構建通用的小腦混合神經網絡和開發用於大數據分析的實時硬體方面的作用提供了新見解。
從醫學診斷到自動駕駛再到人臉識別,圖像分析在現代技術中無處不在。使用深度學習卷積神經網絡的計算機徹底改變了計算機視覺。但卷積神經網絡(convolutional neural network,CNN)通過從預訓練數據中學習來對圖像進行分類,然而這些數據通常會記住或發展某些偏見。此外,數據還易於受到對抗性攻擊(以極細微且幾乎察覺不到的圖像扭曲出現)的幹擾,從而導致做出錯誤的決策。這些缺點限制了卷積神經網絡的用途。
提升圖像處理算法能效和可靠性的一種方法是將常規計算機視覺與光學預處理器結合起來。這種混合系統可以用最少的電子硬體工作。由於光在預處理階段即可完成數學函數而不會耗散能量,因此使用混合計算機視覺系統可以節省大量時間和能源。這種新方法能夠克服深度學習的缺點,並充分利用光學和電子學的優勢。
今年 8 月份,在一篇發表於 Optica 的論文中,加州大學河濱分校機械工程系助理教授 Luat Vuong 和博士生 Baurzhan Muminov 通過應用光學漩渦(具有深色中心點的旋繞光波),證明了混合計算機視覺系統的可行性。光學漩渦可以比喻為光繞著邊緣和角落傳播時產生的流體動力漩渦。
論文連結:https://www.osapublishing.org/optica/fulltext.cfm?uri=optica-7-9-1079&id=437484
研究表明,光學預處理可以降低圖像計算的功耗,而電子設備中的數位訊號識別相關性,提供優化並快速計算可靠的決策閾值。藉助混合計算機視覺,光學器件具有速度和低功耗計算的優勢,並且比 CNN 的時間成本降低了 2 個數量級。通過圖像壓縮,則有可能從存儲和計算複雜性兩方面大幅減少電子後端硬體。
Luat Vuong 表示:「本研究中的漩渦編碼器表明,光學預處理可以消除對 CNN 的需求,比 CNN 更具魯棒性,並且能夠泛化逆問題的解決方法。例如當混合神經網絡學習手寫數字的形狀時,它可以重建以前從未見過的阿拉伯或日語字符。」
該論文還表明,將圖像縮小為更少的高強度像素能夠實現極弱光線條件下的圖像處理。該研究為光子學在構建通用的小腦混合神經網絡和開發用於大數據分析的實時硬體方面的作用提供了新見解。
論文內容簡述
深度學習卷積神經網絡通常涉及具有較高計算成本的多層、前向 - 後向傳播機器學習算法。所以,在本文中,研究者展示了卷積神經網絡的替代方案,該方案從其光學預處理、傅立葉編碼模式中重建原始圖像。該方案對計算的需求少得多,並且具有更高的噪聲魯棒性,因此適用於高速和弱光照條件下的成像。
具體而言,該研究引入帶有微透鏡陣列的漩渦相位變換,以及淺層密集的「小腦」神經網絡結合。單次編碼孔徑方法利用了傅立葉變換螺旋相位梯度的相干衍射、緊湊表徵和邊緣增強。使用漩渦編碼可以訓練小腦對圖像進行去卷積操作,其速度比使用隨機編碼方案快 5 至 20 倍,且在存在噪聲的情況下獲得了更大的優勢。
一旦訓練完成,小腦就可以從 intensity-only 的數據中重建對象,從而解決了逆映射問題,而無需在每個圖像上執行迭代,也無需深度學習方案。通過漩渦傅立葉編碼,研究者在 15W CPU 上以每秒幾千幀的速度重建以低光通量(5nJ / cm^2)照明的 MNIST Fashion 對象。最終,研究者證明了使用漩渦編碼器進行傅立葉光學預處理在達到相似準確率的情況下,速度比卷積神經網絡快 2 個數量級。
漩渦的知識可以擴展為理解任意波型。當帶有漩渦時,光學圖像數據會以突出顯示並混合光學圖像不同部分的方式實現傳播。研究者指出,使用淺層「小腦」神經網絡進行的漩渦圖像預處理(僅需運行幾層算法)就可以代替 CNN 發揮作用。
Vuong 還表示:「光學漩渦的獨特優勢在於其數學和邊緣增強功能。在本文中,我們證明了,光學漩渦編碼器能夠以類似於一種小腦神經網絡從其光學預處理模式快速重建原始圖像的方式生成目標強度數據。」
方法
圖 1 描述了該研究的成像方案,其中對象 F(r,Φ) 的多個圖像被收集到傅立葉域中:透過每個微透鏡的光由不同的漩渦和透鏡 mask 模式 M_m(r,Φ) 調製;攝像機檢測到菲涅耳(Fresnel)傳播、漩渦傅立葉變換(vortex-Fourier-transformed)強度模式的縮放模平方圖像
。
其中,m 是漩渦拓撲電荷,r 和Φ是實域柱面坐標,而 u 和 v 是傅立葉平面笛卡爾坐標。漩渦傅立葉強度模式 F^~ 集中在相對較小的區域中,但隨著 m 的增加,通常會呈越來越寬的甜甜圈形(圖 1(b))。對象「實域」中的漩渦相位在空間上編碼並破壞了傅立葉變換強度模式的平移不變性,如圖 1(c) 所示。
此外,該研究將一些小圖像數據集視為對象輸入,並比較 F(r,Φ) 中的不同表徵。對於每個正實值數據集圖像 X,相位變化的映射如下公式所示:
其中,α_0 是對象相位移動的動態範圍。這種映射很方便,因為信號功率不隨選擇的 X 改變。研究者還考慮了 X 閉塞或吸收信號時不透明對象,即
,這會產生相似的趨勢。
歸根結底,該研究有三項主要創新:(1)用漩渦透鏡進行光譜特徵的邊緣增強;(2)在沒有相似學得數據集的情況下對圖像進行快速逆重建;(3)取決於層激活的抗噪聲能力。
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
參考連結:https://news.ucr.edu/articles/2020/12/11/optical-pre-processing-makes-computer-vision-more-robust-and-energy-efficient
本周六,WAIC開發者·2020上海臨港人工智慧開發者大會將震撼來襲。
全球頂尖AI專家齊聚主論壇,解讀智能化轉型的技術之道。4場技術工作坊分享智慧城市、智能出行、華為開源生態與邊緣智能引擎等話題,2場黑客松等你來戰。
原標題:《光學預處理與計算機視覺結合,UCR學者用漩渦實現混合計算機視覺系統》
閱讀原文