的卷積層需要更少的參數。由於卷積核比較小,可以堆疊更多的卷積層,加深網絡的深度,這對於圖像分類任務來說是有利的。VGG模型的成功證明了增加網絡的深度,可以更好的學習圖像中的特徵模式。VGG在眼疾識別數據集iChallenge-PM上的具體實現如下代碼所示:# -*- coding:utf-8 -*- # VGG模型代碼import numpy as npimport paddleimport paddle.fluid as fluidfrom paddle.fluid.layer_helper import LayerHelperfrom paddle.fluid.dygraph.nn import Conv2D, Pool2D, BatchNorm, FCfrom paddle.fluid.dygraph.base import to_variable # 定義vgg塊,包含多層卷積和1層2x2的最大池化層class vgg_block(fluid.dygraph.Layer): def __init__(self, name_scope, num_convs, num_channels): """ num_convs, 卷積層的數目 num_channels, 卷積層的輸出通道數,在同一個Incepition塊內,卷積層輸出通道數是一樣的 """ super(vgg_block, self).__init__(name_scope) self.conv_list = [] for i in range(num_convs): conv_layer = self.add_sublayer('conv_' + str(i), Conv2D(self.full_name(), num_filters=num_channels, filter_size=3, padding=1, act='relu')) self.conv_list.append(conv_layer) self.pool = Pool2D(self.full_name(), pool_stride=2, pool_size = 2, pool_type='max') def forward(self, x): for item in self.conv_list: x = item(x) return self.pool(x) class VGG(fluid.dygraph.Layer): def __init__(self, name_scope, conv_arch=((2, 64), (2, 128), (3, 256), (3, 512), (3, 512))): super(VGG, self).__init__(name_scope) self.vgg_blocks=[] iter_id = 0 # 添加vgg_block # 這裡一共5個vgg_block,每個block裡面的卷積層數目和輸出通道數由conv_arch指定 for (num_convs, num_channels) in conv_arch: block = self.add_sublayer('block_' + str(iter_id), vgg_block(self.full_name(), num_convs, num_channels)) self.vgg_blocks.append(block) iter_id += 1 self.fc1 = FC(self.full_name(), size=4096, act='relu') self.drop1_ratio = 0.5 self.fc2= FC(self.full_name(), size=4096, act='relu') self.drop2_ratio = 0.5 self.fc3 = FC(self.full_name(), size=1, ) def forward(self, x): for item in self.vgg_blocks: x = item(x) x = fluid.layers.dropout(self.fc1(x), self.drop1_ratio) x = fluid.layers.dropout(self.fc2(x), self.drop2_ratio) x = self.fc3(x) return xwith fluid.dygraph.guard(): model = VGG("VGG") train(model)通過運行結果可以發現,在眼疾篩查數據集iChallenge-PM上使用VGG,loss能有效的下降,經過5個epoch的訓練,在驗證集上的準確率可以達到94%左右。GoogLeNet是2014年ImageNet比賽的冠軍,它的主要特點是網絡不僅有深度,還在橫向上具有「寬度」。由於圖像信息在空間尺寸上的巨大差異,如何選擇合適的卷積核大小來提取特徵就顯得比較困難了。空間分布範圍更廣的圖像信息適合用較大的卷積核來提取其特徵,而空間分布範圍較小的圖像信息則適合用較小的卷積核來提取其特徵。為了解決這個問題,GoogLeNet提出了一種被稱為Inception模塊的方案。如 圖4 所示:Google的研究人員為了向LeNet致敬,特地將模型命名為GoogLeNetInception一詞來源於電影《盜夢空間》(Inception) 圖4(a)是Inception模塊的設計思想,使用3個不同大小的卷積核對輸入圖片進行卷積操作,並附加最大池化,將這4個操作的輸出沿著通道這一維度進行拼接,構成的輸出特徵圖將會包含經過不同大小的卷積核提取出來的特徵。Inception模塊採用多通路(multi-path)的設計形式,每個支路使用不同大小的卷積核,最終輸出特徵圖的通道數是每個支路輸出通道數的總和,這將會導致輸出通道數變得很大,尤其是使用多個Inception模塊串聯操作的時候,模型參數量會變得非常巨大。為了減小參數量,Inception模塊使用了圖(b)中的設計方式,在每個3x3和5x5的卷積層之前,增加1x1的卷積層來控制輸出通道數;在最大池化層後面增加1x1卷積層減小輸出通道數。基於這一設計思想,形成了上圖(b)中所示的結構。下面這段程序是Inception塊的具體實現方式,可以對照圖(b)和代碼一起閱讀。可能有讀者會問,經過3x3的最大池化之後圖像尺寸不會減小嗎,為什麼還能跟另外3個卷積輸出的特徵圖進行拼接?這是因為池化操作可以指定窗口大小 ,pool_stride=1和pool_padding=1,輸出特徵圖尺寸可以保持不變。class Inception(fluid.dygraph.Layer): def __init__(self, name_scope, c1, c2, c3, c4, **kwargs): ''' Inception模塊的實現代碼, name_scope, 模塊名稱,數據類型為string c1, 圖(b)中第一條支路1x1卷積的輸出通道數,數據類型是整數 c2,圖(b)中第二條支路卷積的輸出通道數,數據類型是tuple或list, 其中c2[0]是1x1卷積的輸出通道數,c2[1]是3x3 c3,圖(b)中第三條支路卷積的輸出通道數,數據類型是tuple或list, 其中c3[0]是1x1卷積的輸出通道數,c3[1]是3x3 c4, 圖(b)中第一條支路1x1卷積的輸出通道數,數據類型是整數 ''' super(Inception, self).__init__(name_scope) self.p1_1 = Conv2D(self.full_name(), num_filters=c1, filter_size=1, act='relu') self.p2_1 = Conv2D(self.full_name(), num_filters=c2[0], filter_size=1, act='relu') self.p2_2 = Conv2D(self.full_name(), num_filters=c2[1], filter_size=3, padding=1, act='relu') self.p3_1 = Conv2D(self.full_name(), num_filters=c3[0], filter_size=1, act='relu') self.p3_2 = Conv2D(self.full_name(), num_filters=c3[1], filter_size=5, padding=2, act='relu') self.p4_1 = Pool2D(self.full_name(), pool_size=3, pool_stride=1, pool_padding=1, pool_type='max') self.p4_2 = Conv2D(self.full_name(), num_filters=c4, filter_size=1, act='relu') def forward(self, x): p1 = self.p1_1(x) p2 = self.p2_2(self.p2_1(x)) p3 = self.p3_2(self.p3_1(x)) p4 = self.p4_2(self.p4_1(x)) return fluid.layers.concat([p1, p2, p3, p4], axis=1)
GoogLeNet的架構如 圖5 所示,在主體卷積部分中使用5個模塊(block),每個模塊之間使用步幅為2的3 ×3最大池化層來減小輸出高寬。第二模塊使用2個卷積層:首先是64通道的1 × 1卷積層,然後是將通道增大3倍的3 × 3卷積層。第五模塊的後面緊跟輸出層,使用全局平均池化 層來將每個通道的高和寬變成1,最後接上一個輸出個數為標籤類別數的全連接層。說明:在原作者的論文中添加了圖中所示的softmax1和softmax2兩個輔助分類器,如下圖所示,訓練時將三個分類器的損失函數進行加權求和,以緩解梯度消失現象。這裡的程序作了簡化,沒有加入輔助分類器。# -*- coding:utf-8 -*- # GoogLeNet模型代碼import numpy as npimport paddleimport paddle.fluid as fluidfrom paddle.fluid.layer_helper import LayerHelperfrom paddle.fluid.dygraph.nn import Conv2D, Pool2D, BatchNorm, FCfrom paddle.fluid.dygraph.base import to_variable # 定義Inception塊class Inception(fluid.dygraph.Layer): def __init__(self, name_scope, c1, c2, c3, c4, **kwargs): ''' Inception模塊的實現代碼, name_scope, 模塊名稱,數據類型為string c1, 圖(b)中第一條支路1x1卷積的輸出通道數,數據類型是整數 c2,圖(b)中第二條支路卷積的輸出通道數,數據類型是tuple或list, 其中c2[0]是1x1卷積的輸出通道數,c2[1]是3x3 c3,圖(b)中第三條支路卷積的輸出通道數,數據類型是tuple或list, 其中c3[0]是1x1卷積的輸出通道數,c3[1]是3x3 c4, 圖(b)中第一條支路1x1卷積的輸出通道數,數據類型是整數 ''' super(Inception, self).__init__(name_scope) # 依次創建Inception塊每條支路上使用到的操作 self.p1_1 = Conv2D(self.full_name(), num_filters=c1, filter_size=1, act='relu') self.p2_1 = Conv2D(self.full_name(), num_filters=c2[0], filter_size=1, act='relu') self.p2_2 = Conv2D(self.full_name(), num_filters=c2[1], filter_size=3, padding=1, act='relu') self.p3_1 = Conv2D(self.full_name(), num_filters=c3[0], filter_size=1, act='relu') self.p3_2 = Conv2D(self.full_name(), num_filters=c3[1], filter_size=5, padding=2, act='relu') self.p4_1 = Pool2D(self.full_name(), pool_size=3, pool_stride=1, pool_padding=1, pool_type='max') self.p4_2 = Conv2D(self.full_name(), num_filters=c4, filter_size=1, act='relu') def forward(self, x): # 支路1隻包含一個1x1卷積 p1 = self.p1_1(x) # 支路2包含 1x1卷積 + 3x3卷積 p2 = self.p2_2(self.p2_1(x)) # 支路3包含 1x1卷積 + 5x5卷積 p3 = self.p3_2(self.p3_1(x)) # 支路4包含 最大池化和1x1卷積 p4 = self.p4_2(self.p4_1(x)) # 將每個支路的輸出特徵圖拼接在一起作為最終的輸出結果 return fluid.layers.concat([p1, p2, p3, p4], axis=1) class GoogLeNet(fluid.dygraph.Layer): def __init__(self, name_scope): super(GoogLeNet, self).__init__(name_scope) # GoogLeNet包含五個模塊,每個模塊後面緊跟一個池化層 # 第一個模塊包含1個卷積層 self.conv1 = Conv2D(self.full_name(), num_filters=64, filter_size=7, padding=3, act='relu') # 3x3最大池化 self.pool1 = Pool2D(self.full_name(), pool_size=3, pool_stride=2, pool_padding=1, pool_type='max') # 第二個模塊包含2個卷積層 self.conv2_1 = Conv2D(self.full_name(), num_filters=64, filter_size=1, act='relu') self.conv2_2 = Conv2D(self.full_name(), num_filters=192, filter_size=3, padding=1, act='relu') # 3x3最大池化 self.pool2 = Pool2D(self.full_name(), pool_size=3, pool_stride=2, pool_padding=1, pool_type='max') # 第三個模塊包含2個Inception塊 self.block3_1 = Inception(self.full_name(), 64, (96, 128), (16, 32), 32) self.block3_2 = Inception(self.full_name(), 128, (128, 192), (32, 96), 64) # 3x3最大池化 self.pool3 = Pool2D(self.full_name(), pool_size=3, pool_stride=2, pool_padding=1, pool_type='max') # 第四個模塊包含5個Inception塊 self.block4_1 = Inception(self.full_name(), 192, (96, 208), (16, 48), 64) self.block4_2 = Inception(self.full_name(), 160, (112, 224), (24, 64), 64) self.block4_3 = Inception(self.full_name(), 128, (128, 256), (24, 64), 64) self.block4_4 = Inception(self.full_name(), 112, (144, 288), (32, 64), 64) self.block4_5 = Inception(self.full_name(), 256, (160, 320), (32, 128), 128) # 3x3最大池化 self.pool4 = Pool2D(self.full_name(), pool_size=3, pool_stride=2, pool_padding=1, pool_type='max') # 第五個模塊包含2個Inception塊 self.block5_1 = Inception(self.full_name(), 256, (160, 320), (32, 128), 128) self.block5_2 = Inception(self.full_name(), 384, (192, 384), (48, 128), 128) # 全局池化,尺寸用的是global_pooling,pool_stride不起作用 self.pool5 = Pool2D(self.full_name(), pool_stride=1, global_pooling=True, pool_type='avg') self.fc = FC(self.full_name(), size=1) def forward(self, x): x = self.pool1(self.conv1(x)) x = self.pool2(self.conv2_2(self.conv2_1(x))) x = self.pool3(self.block3_2(self.block3_1(x))) x = self.block4_3(self.block4_2(self.block4_1(x))) x = self.pool4(self.block4_5(self.block4_4(x))) x = self.pool5(self.block5_2(self.block5_1(x))) x = self.fc(x) return xwith fluid.dygraph.guard(): model = GoogLeNet("GoogLeNet") train(model)通過運行結果可以發現,使用GoogLeNet在眼疾篩查數據集iChallenge-PM上,loss能有效的下降,經過5個epoch的訓練,在驗證集上的準確率可以達到95%左右。ResNet是2015年ImageNet比賽的冠軍,將識別錯誤率降低到了3.6%,這個結果甚至超出了正常人眼識別的精度。通過前面幾個經典模型學習,我們可以發現隨著深度學習的不斷發展,模型的層數越來越多,網絡結構也越來越複雜。那麼是否加深網絡結構,就一定會得到更好的效果呢?從理論上來說,假設新增加的層都是恆等映射,只要原有的層學出跟原模型一樣的參數,那麼深模型結構就能達到原模型結構的效果。換句話說,原模型的解只是新模型的解的子空間,在新模型解的空間裡應該能找到比原模型解對應的子空間更好的結果。但是實踐表明,增加網絡的層數之後,訓練誤差往往不降反升。Kaiming He等人提出了殘差網絡ResNet來解決上述問題,其基本思想如 圖6 所示。圖6(b):對圖6(a)作了改進,輸出 。這時不是直接學習輸出特徵y的表示,而是學習 。如果想學習出原模型的表示,只需將F(x)的參數全部設置為0,則 是恆等映射。 也叫做殘差項,如果 的映射接近恆等映射,圖6(b)中通過學習殘差項也比圖6(a)學習完整映射形式更加容易。圖6(b)的結構是殘差網絡的基礎,這種結構也叫做殘差塊(residual block)。輸入x通過跨層連接,能更快的向前傳播數據,或者向後傳播梯度。殘差塊的具體設計方案如 圖 7 所示,這種設計方案也成稱作瓶頸結構(BottleNeck)。 下圖表示出了ResNet-50的結構,一共包含49層卷積和1層全連接,所以被稱為ResNet-50。with fluid.dygraph.guard(): model = ResNet("ResNet") train(model)通過運行結果可以發現,使用ResNet在眼疾篩查數據集iChallenge-PM上,loss能有效的下降,經過5個epoch的訓練,在驗證集上的準確率可以達到95%左右。本周課程中孫老師主要為大家講解了計算機視覺中分類任務的主要內容,以眼疾識別任務為例,講解了經典卷積神經網絡VGG、GoogLeNet和ResNet。在後期課程中,將繼續為大家帶來內容更豐富的課程,幫助學員快速掌握深度學習方法。視頻+代碼已經發布在AI Studio實踐平臺上,視頻支持PC端/手機端同步觀看,也鼓勵大家親手體驗運行代碼哦。打開以下連結:https://aistudio.baidu.com/aistudio/course/introduce/888加入深度學習集訓營QQ群:726887660,班主任與飛槳研發會在群裡進行答疑與學習資料發放。百度飛槳將通過飛槳深度學習集訓營的形式,繼續更新《零基礎入門深度學習》課程,由百度深度學習高級研發工程師親自授課,每周二、每周四8:00-9:00不見不散,採用直播+錄播+實踐+答疑的形式,歡迎關注~請搜索AI Studio,點擊課程-百度架構師手把手教深度學習,或者點擊文末「閱讀原文 」收看。