卷積網絡是研究關於圖像(紋理,圖像尺度等)的抽象層面的一種網絡,跟傳統網絡不同的是,它不僅可以根據一個固定尺寸圖像生成物體識別數據,還可以對圖像其他部分進行其他操作。卷積可以有多個,它的作用是「放大」和「增強」圖像的抽象空間。那麼卷積可以用於哪些場景呢?基本的比如人臉識別,人臉關鍵點,全景圖像的重建等等一般的可以用於圖像的物體識別(如人臉和汽車圖像),以及圖像的圖像變換(如人臉和人臉圖像),視頻編碼(如視頻監控和圖像目標識別)等。通過卷積神經網絡提取數據表徵特徵。要想了解卷積神經網絡,首先需要了解三種基本架構:全連接,池化和卷積。基於全連接架構的卷積神經網絡用於圖像和3d立體視覺等識別問題,可直接使用relu激活函數。優點是穩定性好,容易訓練和理解。缺點是解決反射和色彩模式等問題時存在不穩定的問題,尤其是對平移圖像等。池化架構可用於文本檢測和圖像相似性匹配等圖像問題。其主要思想是通過卷積的方式實現矩陣分解的思想,優點是可以處理不同尺度和解析度的輸入,缺點是容易過擬合。最後用一個全連接網絡作為輸出。全連接思想其實是讓全連接架構在任何兩個層之間直接連接,對於輸入矩陣也是全連接的,因此可以隨時加入層數和大小。而池化則是將第k層作為輸入,激活函數直接用relu實現的。池化最大的問題是適應性差,無法處理逐層尺度變化問題。
全連接和池化在圖像分類問題上具有優勢,在處理線性、平滑圖像和低解析度圖像上存在一定問題。可以把基於某種方法(比如thresholding)訓練出來的網絡做成卷積神經網絡。不過這種方法對輸入的大小和比例要求較高,需要和其他方法結合使用。另外可以對網絡的每一層輸出輸入內容進行預處理,如逐像素預處理,或是降採樣等。卷積神經網絡是google發明的網絡架構,在這塊我不是特別了解,不過可以搜索一下相關資料,有比較好的總結。
卷積神經網絡(convolutionalneuralnetworks,簡稱cnn)是計算機視覺的基礎架構,泛指圖像輸入到一個神經網絡中經過卷積操作,最後輸出特徵圖。具體做法是逐個像素連接成網絡的最後一層,通過卷積核特徵池化等操作最終得到輸出特徵。簡單易懂的卷積操作有relu,leakyrelu等,他們的優缺點都比較明顯。
應用的較多的是全連接和池化兩種方法。全連接(connectedlayer)顧名思義就是逐點連接,卷積層中採用了較多的第一層連接來進行特徵提取和池化,如下所示,可以看到卷積每一層每一個位置的權重就是一個點卷積的矩陣。但是這個方法不適合用於不同尺寸。