深度卷積神經網絡(ConvolutionalNeural Networks, CNN)解決了傳統神經網絡參數量過大的問題,為圖像分類實現了突破。CNN在層級網絡結構的基礎上,以端到端的多層方式集成了不同的功能,並且功能的「級別」可以通過神經網絡的層數(深度)來豐富。得益於CNN卓越的模型性能,目前圖像識別技術幾乎都是以CNN模型來進行訓練。目前經典的卷積神經網絡模型有以下幾種:
圖中表達了LeNet-5的結構:首先是一個5*5*6的卷積層,緊跟著是一個2*2*6的池化層,然後便是一個5*5*16的卷積層和2*2*16的池化層,最後跟著兩個長度分別為120,84的全連接層和一個長度為10的輸出層。
LeNet-5的結構簡單,它的深度也和目前動輒幾十層上百層的CNN模型比起來顯得比較貧瘠,但後來的神經網絡都是在它的結構上進行擴張加深。LeNet-5用簡單的結構表現出了卷積神經網絡的三個要點:局部感受野、權值共享和下採樣。這三個要點也解釋了為什麼CNN能夠在結構更複雜的情況下擁有更少的參數和訓練準確率。
2.AlexNet
Krizhevsky等人提出了AlexNet,這是一種LeNet-5的擴展模型,因為AlexNet首次將CNN用於計算機視覺領域中的ImageNet數據集而被廣為人知,從此揭開了CNN應用於計算機視覺領域的序幕。
儘管AlexNet相比於LeNet-5僅在結構上進行了加深,但得益於硬體GPU強大的計算力,縱使是在大數據的情況下,GPU可以幫助研究者將原本需要數周乃至數月的網絡訓練過程縮短至短短幾天,這無疑大大縮短了深度網絡研究的時間成本。
3.VGGNet
在2014年,VGGNet獲得ILSVRC分類任務比賽的亞軍。VGGNet具備更優秀的泛化能力,能夠用於圖像識別、檢索、圖片風格化等各種任務中,並且證明了網絡深度是模型優良性能的關鍵因素。 而GoogleNet在2014年力壓VGGNet獲得了ILSVRC分類任務比賽的冠軍。GoogleNet應用了Inception V1的基本結構,在減少了參數量的情況下,實現了比VGGNet更高的分類精度。5.ResNet
如圖所示,x為淺層的輸出,H(x)為更深層映射的輸出,F(x)為夾在二者中間的兩層代表的變換。殘差結構複製x加給F(x),映射關係就變換為H(x):=F(x)+x。假設x代表的特徵映射已經足夠成熟,那麼在結構中,若任何對於x的改變都會使得損失變大,F(x)會自動趨於0,使x能夠從恆等映射的路徑中繼續傳遞。這樣就在不增加計算成本的情況下實現了最初的目的:在前向鏈路中,當淺層的輸出已經優化到一定程度時,讓深層網絡後面的層能夠實現恆等映射的作用。
參考文獻:
[1]A. Krizhevsky,I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neuralnetworks. In NIPS, 2012.
[2] LeCun et al. Grandient-based learningapplied to document recognition. THE IEEE,VOL. 86, NO. 11, NOVEMBER 1998.
[3] K. Simonyan, A. Zisserman. Very deepconvolutional networks for large-scale image recognition. In ICLR, 2015.
[4] Szegedy et al. Going deeper withconvolutions s[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2015:1-9.
[5] He K, Zhang X, Ren S, et al. Deep ResidualLearning for Image Recognition. s[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:770-778.