自動化所提出不規則卷積神經網絡

2020-11-29 中國科學院

  在深度卷積神經網絡(CNN)中,卷積核是最基本和最重要的組件。研究人員給卷積核配置了形狀屬性以生成不規則卷積神經網絡(ICNN)。與傳統CNN使用規則卷積核(如3x3)不同,該方法訓練了不規則的內核形狀,以更好地適應輸入特徵的幾何變化。換言之,除權重以外,形狀也是可以學習的參數。在端對端的訓練中,使用標準的反向傳播算法,卷積核的形狀和權重就能同時學習出來。研究人員使用ICNN進行了圖像語義分割的實驗,以驗證模型的有效性。

  近年來,卷積神經網絡(CNN)在學界和業界廣受歡迎,已被成功地應用到各種特徵提取的任務當中。CNN的效果相較於前有很大提升,對各種任務的實用性都非常強,但儘管如此,經典CNN仍存在一些問題值得探討和深究。

  首先,卷積核的規則形狀和不規則的特徵模式並不匹配。在視覺任務中有一個重要的事實:雖然輸入圖像擁有矩形的形狀且尺寸固定,但圖像中的物體大多是形狀不規則的——而這些物體才是研究中真正感興趣的部分。以圖像分類為例,常常需要的是給圖像中的目標分類,而非圖像本身。而這種情況在物體檢測和分割中更加明顯,因為這些任務的基本思想就是將不規則的目標從圖像中分離出來。由於卷積運算本質上是兩個向量的點積操作,即特徵模式和卷積核,那麼這兩個向量在理想狀態下應該具有相同的屬性,這樣才能獲得更加準確的響應。也就是說,卷積核應該跟輸入特徵模式一樣,也擁有不規則的形狀,這樣模型才能更好地提取最有價值的信息。而傳統卷積神經網絡的內核形狀通常是固定的,不能通過訓練來直接學習得到。

  相應地,形狀的不匹配導致了規則卷積核在對不規則特徵模式進行建模時效率低下。實際上,規則形狀的卷積核也可以模擬不規則的特徵模式,其基本思想是,在規則形狀內不同尺度的權重分布可以具有與不規則形狀相類似的效果。如圖1(b)所示,兩個規則卷積核K1K2都因為其特殊的分布,而擁有了建模不規則形狀的能力。但這種方式消耗了18個權重參數去建模9個像素的輸入特徵。而且需要注意的是,如果輸入特徵更加細長或離散、如果卷積核更加離散(Dilated Convolution),這種低效的情況還會加劇。

  由於基本問題是規則卷積核與不規則輸入特徵的形狀不匹配,那麼最直觀而合理的解決方案就是使卷積核的形狀不規則且可訓練。如圖1(c)所示,3x3的規則卷積核可以通過變形學習到一個新的不規則的形狀。在變形的過程中,原本規則卷積核內的權重將會移動到新的位置來找到更有價值的特徵信息。而移動的範圍沒有絕對限制,可以超出原先規則卷積核的範圍。變形後,雖然權重數量不變,但不規則卷積核已經能夠建模更加複雜的特徵,而這個特徵本應該被多個規則卷積核共同建模。

  為了讓卷積核擁有形變的能力,直接為其賦予可學習的權重位置變量(用以表徵核的形狀信息)。由於可導性的要求,位置變量必須滿足連續性——用浮點小數表示。浮點小數的使用又自然地將插值操作應用進來,進而成功地建立起了用小數表示的形變位置、用整數表示的原始位置、輸入特徵和輸出特徵這四者的函數關係,最終使權重位置變量獲得可學習的能力。

  為了更深刻地理解卷積核最後變成了什麼形狀,論文作者可視化了若干層的卷積核訓練結果。實驗使用Resnet101pascal voc數據集上進行了語義分割訓練。和原始規則卷積核比較,不規則卷積核的權重能夠抽取多種不同尺寸和形狀的信息。可以發現,原本屬於同一位置的權重,在變形後大致擁有一個高斯分布的特性。9個分布中心大致與規則形狀時的原位置相同,但分布的伸展性保證了不同尺度的信息融合。不同層之間的卷積核比較:從圖3(c)和另兩張子圖的比較中可以發現,越深的層,卷積核更加呈現出帶狀延伸。這種大幅的延伸方式使得較深的處理層能夠更好地綜合全局信息。

  在語義分割任務中,對於一個特定的像素點來說,綜合合適的圖像信息對於分類結果的準確性非常重要。該實驗中的熱度圖評估了在對某一特定像素分類時,圖像中各個位置對其分類結果的貢獻值。紅色貢獻大,藍色貢獻小。

  4首先表明不規則卷積核可以更好地過濾掉分散注意力的幹擾區。在第一列中,使用規則卷積核的傳統卷積網絡不可避免地加強了變化劇烈的梯子部分的響應,而ICNN卻很好地過濾了這部分幹擾。再者,它也表明不規則卷積核能夠考慮更加全局的信息。如第三列所示,在對馬脖子上標記像素進行分類時,除了附近的區域,不規則卷積網絡還會加強對馬頭部和後腿部位的響應。而且稍微提升注意力觀察,就能發現ICNN在對腹部、後腿、尾巴的響應更加精確。

  ICNN的目標在於建立起輸入特徵和卷積核的形態兼容,從而提升參數利用的效率。通過為卷積核添加形狀屬性,並使用雙線性插值使其可以進行端到端的訓練。這種改進可以在不添加任何子網絡的情況下,平滑地集成到現有的卷積神經網絡模型當中。

 

  1 規則與不規則卷積核的對比。(a)不規則輸入特徵,其範圍超越了3x3的區域;(b)兩個3x3的卷積核,它們聯合建模了輸入特徵;(c)3x3卷積核到不規則卷積核的變形過程示例。

  2 (a)規則卷積核各個權重的位置固定在一個矩形上;(b)不規則卷積核各權重的位置會隨著訓練而發生變化,損失函數梯度的反向傳播會直接作用在不規則卷積核的形狀變量上;(c)位置浮動的雙線性插值。

  3 來自不同層的卷積核形狀示意。(a)是最後一個卷積層fc1_voc12的卷積核,(c)(a)在高-寬二維平面上的投影。(b)(d)是另外相應層卷積核的二維投影。在這些圖中,相同顏色的點意味著它們原本屬於3x3矩形中的同一個位置。PxPy代表高-寬平面,而channel代表輸入數據流的通道數。

  4 第一行,原始圖像中使用紅色十字標記的像素為最終的分類目標。以下兩行熱圖表示的是對首行標記像素分類結果的貢獻熱度圖,其中第二行代表使用規則卷積核的結果,第三行代表使用不規則卷積核的結果。圖中黑色框框出的區域表示本不該被關注的幹擾區,黃色框框出的區域表示應該關注的有價值的區域。

相關焦點

  • Nature Communications:人工智慧地震信息挖掘——基於高效分類多尺度濾波卷積神經網絡的自動化設計
    耿智等-NC:人工智慧地震信息挖掘——基於高效分類多尺度濾波卷積神經網絡的自動化設計人工神經網絡可以正確學習此類圖像中的所有形態模式,其中許多是基於現行的卷積神經網絡(CNN),而CNN是專門針對計算機視覺中與圖像相關的任務而設計的。與視覺圖像相比,地震反射信號具有本質上的不同:稀疏信號極性變化及有限帶寬。此外,地質特徵的地震響應在波傳播路徑、頻率、幅度和極性方向方面也有所不同。因此基於數據驅動的ANN地震解釋研究是典型的高維稀疏信號的複雜映射問題。
  • 卷積神經網絡的卷積到底是什麼
    卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。 歷史 卷積神經網絡最初是由福島核電站在1980年引入的,當時名為Neocognitron。
  • 反思卷積神經網絡:圖像角度泛化上的困難重重
    (CNN)在多個標準數據集上所展現出的技術發展水平都令人印象深刻。在無噪聲且結果可預測的數據集環境下,所設計出的算法和方法很可能不符合現實情況而導致表現不佳。 事實也確實如此。卷積神經網絡特別容易產生"對抗性"輸入,或對輸入進行小改動,而這些改動會有意或無意地幹擾神經網絡正常工作。
  • YJango的卷積神經網絡——介紹
    PS:YJango是我的網名,意思是我寫的教程,並不是一種網絡結構。。關於卷積神經網絡的講解,網上有很多精彩文章,且恐怕難以找到比斯坦福的CS231n還要全面的教程。 所以這裡對卷積神經網絡的講解主要是以不同的思考側重展開,通過對卷積神經網絡的分析,進一步理解神經網絡變體中「因素共享」這一概念。注意:該文會跟其他的現有文章有很大的不同。
  • 基於卷積神經網絡的目標檢測算法簡介
    什麼是卷積神經網絡?卷積神經網絡是一個層次模型,主要包括輸入層,卷積層,池化層、全連接層以及輸出層。卷積神經網絡是專門針對圖像而設計,主要特點在於卷積層的特徵是由前一層的局部特徵通過卷積共享的權重得到。
  • 「範例卷積神經網絡」和信息最大化
    這一方法也能被理解為「卷積神經網絡範例」。與「卷積神經網絡」的組合,所以我認為這可能是論文所做的的「首創」。本文內容摘要:本文對「範例卷積神經網絡」的訓練方法僅作了簡單簡單的概述,所以如果想要獲得更多、更真實的信息,請閱讀論文原文。本文簡要介紹了「變分信息最大化」,並將其運用到了「範例卷積神經網絡」的案例中。
  • 卷積神經網絡理解(一):濾波器的意義
    卷積神經網絡的發展二. 卷積神經網絡的重要性三. 卷積神經網絡與圖像識別四.濾波器一.卷積神經網絡的發展卷積神經網絡受到視覺細胞研究的啟發,1962年,Hubel和Wiesel發現初級視覺皮層中的神經元會響應視覺環境中特定的簡單特徵(比如有向的邊等)。
  • 卷積神經網絡(CNN)新手指南
    以類似的方式計算機能夠進行圖像分類任務,通過尋找低層次的特徵如邊緣和曲線,然後運用一系列的卷積層建立一個更抽象的概念。這是卷積神經網絡應用的一個總體概述,接下來我們來探討下細節。生物聯繫首先要稍微普及下一點背景知識,當你第一次聽到卷積神經網絡這個詞時,你也許會想這是是不與神經科學或者生物學有關?恭喜你,猜對了一部分。卷
  • 解析卷積神經網絡的應用
    解析卷積神經網絡的應用 貿澤電子 發表於 2019-08-21 15:29:46 目前,人們對性能強大且結構複雜的計算機已是司空見慣。
  • 深度學習入門:淺析卷積神經網絡
    根據廣義線性模型的假設,所給模型在給定x的條件下y的分布,通過最大化似然函數來求解最優參數,計算K個概率進行分類。卷積神經網絡概述在了解卷積神經網絡之前,我們先簡單了解最基本的神經網絡。針對這些問題,人們提出了卷積神經網絡,從而很好地解決了上面的三個問題。與常規神經網絡不同,卷積神經網絡的各層中的神經元是3維排列的:寬度、高度和深度(這個深度指的是某層數據的第三個維度,而不是整個網絡的深度,整個網絡的深度指的是網絡的層數)。下圖是一個卷積神經網絡,它的神經元被排列在3個維度(寬、高和深度)。
  • 卷積神經網絡算法結構分析及其工作效率的影響因素
    2012年Krizhevsky等提出的卷積神經網絡卷積神經網絡算法結構分析。就目前算法的發展狀況而言,卷及神經網絡作為當前在圖像識別領域的主流算法,被諸多工作團隊所廣泛接受,而對於圖像識別的研究重點,也從尋找更為優秀的算法,轉移到了對卷積神經網絡算法本身的優化上,並且在應用領域,也在近年取得了長足進展。
  • 卷積神經網絡(CNN)介紹與實踐
    - 來源:http://cs231n.github.io/classification/為了「教會」一種算法如何識別圖像中的對象,我們使用特定類型的人工神經網絡:卷積神經網絡(CNN)。他們的名字源於網絡中最重要的一個操作:卷積。卷積神經網絡受到大腦的啟發。
  • 卷積神經網絡超詳細總結
    –看圖說話(Image Captioning)18、強化學習(Reinforcement Learning)1、卷積神經網絡的概念計算機視覺和 CNN 發展十一座裡程碑上世紀60年代,Hubel等人通過對貓視覺皮層細胞的研究,提出了感受野這個概念,到80年代,Fukushima在感受野概念的基礎之上提出了神經認知機的概念,
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    (Pseudo-3D Convolution)的深度神經網絡的設計思路,並實現了迄今為止最深的 199 層三維卷積神經網絡。通然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    自1974年Paul Werbos等人提出反向傳播算法(BP算法),解決了由淺層的神經網絡模型應用到深層的神經網絡模型中線性不可分的問題。深層神經網絡一般使用反向傳播算法的方法來訓練,但是由於層數較多並且隨機初始化的方法較粗糙,隨著深度加深,會造成的訓練結果不穩定或產生「梯度消失」的問題,使得深層神經網絡無法work。
  • 基於PVANet卷積神經網絡模型的交通標誌識別算法
    針對這一瓶頸問題, 採用對PVANet網絡的淺層特徵提取層、深層特徵提取層和HyperNet層(多層特徵信息融合層)進行改進的措施, 提出了一種適用於小目標物體檢測的改進PVANet卷積神經網絡模型, 並在TT100K(Tsinghua-Tencent 100K)數據集上進行了交通標誌檢測算法驗證實驗。
  • 自動化所提出基於腦功能影像時間序列的多尺度卷積循環神經網絡模型
    自動化所提出基於腦功能影像時間序列的多尺度卷積循環神經網絡模型 2019-10-28 自動化研究所 【字體:大 中 小】
  • 淺析人工智慧的卷積神經網絡與圖像處理
    淺析人工智慧的卷積神經網絡與圖像處理 demi 發表於 2019-11-02 11:23:43 在人工智慧深度學習技術中,有一個很重要的概念就是卷積神經網絡 CNN(Convolutional Neural
  • 神奇GIF動畫讓你秒懂各種深度學習卷積神經網絡操作原理
    > 卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型圖像處理有出色表現。
  • 武漢大學CVEO小組:一種基於卷積神經網絡的高解析度遙感影像分類方法
    為了更加有效地提取分割對象的二維深度特徵,克服傳統的面向對象高解析度遙感影像分類方法的不足,武漢大學CVEO小組提出了基於卷積神經網絡(CNN)的高解析度遙感影像分類方法,目前該論文已被Remote Sensing Letters(SCI)期刊接收!