一文帶你讀懂Faster RCNN

2021-03-02 深度學習算法與計算機視覺

公眾號關注「DL-CVer」

設為「星標」，DLCV消息即可送達！

來源丨https://zhuanlan.zhihu.com/p/31426458經過R-CNN和Fast RCNN的積澱，Ross B. Girshick在2016年提出了新的Faster RCNN，在結構上，Faster RCNN已經將特徵抽取(feature extraction)，proposal提取，bounding box regression(rect refine)，classification都整合在了一個網絡中，使得綜合性能有較大提高，在檢測速度方面尤為明顯。

圖1 Faster RCNN基本結構（來自原論文）依作者看來，如圖1，Faster RCNN其實可以分為4個主要內容：Conv layers。作為一種CNN網絡目標檢測方法，Faster RCNN首先使用一組基礎的conv+relu+pooling層提取image的feature maps。該feature maps被共享用於後續RPN層和全連接層。Region Proposal Networks。RPN網絡用於生成region proposals。該層通過softmax判斷anchors屬於positive或者negative，再利用bounding box regression修正anchors獲得精確的proposals。Roi Pooling。該層收集輸入的feature maps和proposals，綜合這些信息後提取proposal feature maps，送入後續全連接層判定目標類別。Classification。利用proposal feature maps計算proposal的類別，同時再次bounding box regression獲得檢測框最終的精確位置。所以本文以上述4個內容作為切入點介紹Faster R-CNN網絡。圖2展示了python版本中的VGG16模型中的faster_rcnn_test.pt的網絡結構，可以清晰的看到該網絡對於一副任意大小PxQ的圖像，首先縮放至固定大小MxN，然後將MxN圖像送入網絡；而Conv layers中包含了13個conv層+13個relu層+4個pooling層；RPN網絡首先經過3x3卷積，再分別生成positive anchors和對應bounding box regression偏移量，然後計算出proposals；而Roi Pooling層則利用proposals從feature maps中提取proposal feature送入後續全連接和softmax網絡作classification（即分類proposal到底是什麼object）。圖2 faster_rcnn_test.pt網絡結構（pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt）本文不會討論任何關於R-CNN家族的歷史，分析清楚最新的Faster R-CNN就夠了，並不需要追溯到那麼久。實話說我也不了解R-CNN，更不關心。有空不如看看新算法。二、Conv layersConv layers包含了conv，pooling，relu三種層。以python版本中的VGG16模型中的faster_rcnn_test.pt的網絡結構為例，如圖2，Conv layers部分共有13個conv層，13個relu層，4個pooling層。這裡有一個非常容易被忽略但是又無比重要的信息，在Conv layers中：所有的conv層都是：kernel_size=3，pad=1，stride=1所有的pooling層都是：kernel_size=2，pad=1，stride=1，kernel_size=2，pad=0，stride=2為何重要？在Faster RCNN Conv layers中對所有的卷積都做了擴邊處理（ pad=1，即填充一圈0），導致原圖變為 (M+2)x(N+2)大小，再做3x3卷積後輸出MxN 。正是這種設置，導致Conv layers中的conv層不改變輸入和輸出矩陣大小。如圖3：類似的是，Conv layers中的pooling層kernel_size=2，stride=2。這樣每個經過pooling層的MxN矩陣，都會變為(M/2)x(N/2)大小。綜上所述，在整個Conv layers中，conv和relu層不改變輸入輸出大小，只有pooling層使輸出長寬都變為輸入的1/2。那麼，一個MxN大小的矩陣經過Conv layers固定變為(M/16)x(N/16)！這樣Conv layers生成的feature map中都可以和原圖對應起來。三、Region Proposal Networks(RPN)經典的檢測方法生成檢測框都非常耗時，如OpenCV adaboost使用滑動窗口+圖像金字塔生成檢測框；或如R-CNN使用SS(Selective Search)方法生成檢測框。而Faster RCNN則拋棄了傳統的滑動窗口和SS方法，直接使用RPN生成檢測框，這也是Faster R-CNN的巨大優勢，能極大提升檢測框的生成速度。上圖4展示了RPN網絡的具體結構。可以看到RPN網絡實際分為2條線，上面一條通過softmax分類anchors獲得positive和negative分類，下面一條用於計算對於anchors的bounding box regression偏移量，以獲得精確的proposal。而最後的Proposal層則負責綜合positive anchors和對應bounding box regression偏移量獲取proposals，同時剔除太小和超出邊界的proposals。其實整個網絡到了Proposal Layer這裡，就完成了相當於目標定位的功能。3.1 多通道圖像卷積基礎知識介紹在介紹RPN前，還要多解釋幾句基礎知識，已經懂的看官老爺跳過就好。對於單通道圖像+單卷積核做卷積，第一章中的圖3已經展示了；如圖5，輸入有3個通道，同時有2個卷積核。對於每個卷積核，先在輸入3個通道分別作卷積，再將3個通道結果加起來得到卷積輸出。所以對於某個卷積層，無論輸入圖像有多少個通道，輸出圖像通道數總是等於卷積核數量！對多通道圖像做1x1卷積，其實就是將輸入圖像於每個通道乘以卷積係數後加在一起，即相當於把原圖像中本來各個獨立的通道「聯通」在了一起。3.2 anchors提到RPN網絡，就不能不說anchors。所謂anchors，實際上就是一組由rpn/generate_anchors.py生成的矩形。直接運行作者demo中的generate_anchors.py可以得到以下輸出：

[[ -84. -40. 99. 55.]
[-176. -88. 191. 103.]
[-360. -184. 375. 199.]
[ -56. -56. 71. 71.]
[-120. -120. 135. 135.]
[-248. -248. 263. 263.]
[ -36. -80. 51. 95.]
[ -80. -168. 95. 183.]
[-168. -344. 183. 359.]]

其中每行的4個值

在原文中使用的是ZF model中，其Conv Layers中最後的conv5層num_output=256，對應生成256張特徵圖，所以相當於feature map每個點都是256-dimensions

在conv5之後，做了rpn_conv/3x3卷積且num_output=256，相當於每個點又融合了周圍3x3的空間信息（猜測這樣做也許更魯棒？反正我沒測試），同時256-d不變（如圖4和圖7中的紅框）

假設在conv5 feature map中每個點上有k個anchor（默認k=9），而每個anhcor要分positive和negative，所以每個點由256d feature轉化為cls=2k scores；而每個anchor都有(x, y, w, h)對應4個偏移量，所以reg=4k coordinates

補充一點，全部anchors拿去訓練太多了，訓練程序會在合適的anchors中隨機選取128個postive anchors+128個negative anchors進行訓練（什麼是合適的anchors下文5.1有解釋）

注意，在本文講解中使用的VGG conv5 num_output=512，所以是512d，其他類似。其實RPN最終就是在原圖尺度上，設置了密密麻麻的候選Anchor。然後用cnn去判斷哪些Anchor是裡面有目標的positive anchor，哪些是沒目標的negative anchor。所以，僅僅是個二分類而已！那麼Anchor一共有多少個？原圖800x600，VGG下採樣16倍，feature map每個點設置9個Anchor，所以：其中ceil()表示向上取整，是因為VGG輸出的feature map size= 50*38。

3.3 softmax判定positive與negative一副MxN大小的矩陣送入Faster RCNN網絡後，到RPN網絡變為(M/16)x(N/16)，不妨設 W=M/16，H=N/16。在進入reshape與softmax之前，先做了1x1卷積，如圖9：圖9 RPN中判定positive/negative網絡結構該1x1卷積的caffe prototxt定義如下：

layer {
name: "rpn_cls_score"
type: "Convolution"
bottom: "rpn/output"
top: "rpn_cls_score"
convolution_param {
num_output: 18 # 2(positive/negative) * 9(anchors)
kernel_size: 1 pad: 0 stride: 1
}
}

可以看到其num_output=18，也就是經過該卷積的輸出圖像為WxHx18大小（注意第二章開頭提到的卷積計算方式）。這也就剛好對應了feature maps每一個點都有9個anchors，同時每個anchors又有可能是positive和negative，所有這些信息都保存WxHx(9*2)大小的矩陣。為何這樣做？後面接softmax分類獲得positive anchors，也就相當於初步提取了檢測目標候選區域box（一般認為目標在positive anchors中）。那麼為何要在softmax前後都接一個reshape layer？其實只是為了便於softmax分類，至於具體原因這就要從caffe的實現形式說起了。在caffe基本數據結構blob中以如下形式保存數據：

blob=[batch_size, channel，height，width]

對應至上面的保存positive/negative anchors的矩陣，其在caffe blob中的存儲形式為[1, 2x9, H, W]。而在softmax分類時需要進行positive/negative二分類，所以reshape layer會將其變為[1, 2, 9xH, W]大小，即單獨「騰空」出來一個維度以便softmax分類，之後再reshape回復原狀。貼一段caffe softmax_loss_layer.cpp的reshape函數的解釋，非常精闢：

"Number of labels must match number of predictions; "
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "
"label count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-1}.";

綜上所述，RPN網絡中利用anchors和softmax初步提取出positive anchors作為候選區域（另外也有實現用sigmoid代替softmax，原理類似）。3.4 bounding box regression原理如圖9所示綠色框為飛機的Ground Truth(GT)，紅色為提取的positive anchors，即便紅色的框被分類器識別為飛機，但是由於紅色的框定位不準，這張圖相當於沒有正確的檢測出飛機。所以我們希望採用一種方法對紅色的框進行微調，使得positive anchors和GT更加接近。對於窗口一般使用四維向量

給定anchor

尋找一種變換F，使得：

那麼經過何種變換F才能從圖10中的anchor A變為G'呢？比較簡單的思路就是:觀察上面4個公式發現，需要學習的是
說完原理，對應於Faster RCNN原文，positive anchor與ground truth之間的平移量 3.5 對proposals進行bounding box regression在了解bounding box regression後，再回頭來看RPN網絡第二條線路，如圖12。先來看一看上圖11中1x1卷積的caffe prototxt定義：

layer {
name: "rpn_bbox_pred"
type: "Convolution"
bottom: "rpn/output"
top: "rpn_bbox_pred"
convolution_param {
num_output: 36 # 4 * 9(anchors)
kernel_size: 1 pad: 0 stride: 1
}
}

可以看到其 num_output=36，即經過該卷積輸出圖像為WxHx36，在caffe blob存儲為[1, 4x9, H, W]，這裡相當於feature maps每個點都有9個anchors，每個anchors又都有4個用於回歸的

大小為 50*38*2k 的positive/negative softmax分類特徵矩陣

大小為 50*38*4k 的regression坐標回歸特徵矩陣

恰好滿足RPN完成positive/negative分類+bounding box regression坐標回歸。
3.6 Proposal LayerProposal Layer負責綜合所有

layer {
name: 'proposal'
type: 'Python'
bottom: 'rpn_cls_prob_reshape'
bottom: 'rpn_bbox_pred'
bottom: 'im_info'
top: 'rois'
python_param {
module: 'rpn.proposal_layer'
layer: 'ProposalLayer'
param_str: "'feat_stride': 16"
}
}

Proposal Layer有3個輸入：positive vs negative anchors分類器結果rpn_cls_prob_reshape，對應的bbox reg的
首先解釋im_info。對於一副任意大小PxQ圖像，傳入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]則保存了此次縮放的所有信息。然後經過Conv Layers，經過4次pooling變為WxH=(M/16)x(N/16)大小，其中feature_stride=16則保存了該信息，用於計算anchor偏移量。Proposal Layer forward（caffe layer的前傳函數）按照以下順序依次處理：生成anchors，利用

按照輸入的positive softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)個anchors，即提取修正位置後的positive anchors

限定超出圖像邊界的positive anchors為圖像邊界，防止後續roi pooling時proposal超出圖像邊界（見文章底部QA部分圖21）

剔除尺寸非常小的positive anchors

對剩餘的positive anchors進行NMS（nonmaximum suppression）

Proposal Layer有3個輸入：positive和negative anchors分類器結果rpn_cls_prob_reshape，對應的bbox reg的(e.g. 300)結果作為proposal輸出

之後輸出proposal=[x1, y1, x2, y2]，注意，由於在第三步中將anchors映射回原圖判斷是否超出邊界，所以這裡輸出的proposal是對應MxN輸入圖像尺度的，這點在後續網絡中有用。另外我認為，嚴格意義上的檢測應該到此就結束了，後續部分應該屬於識別了。生成anchors -> softmax分類器提取positvie anchors -> bbox reg回歸positive anchors -> Proposal Layer生成proposals四、RoI pooling而RoI Pooling層則負責收集proposal，並計算出proposal feature maps，送入後續網絡。從圖2中可以看到Rol pooling層有2個輸入：

原始的feature maps

RPN輸出的proposal boxes（大小各不相同）

先來看一個問題：對於傳統的CNN（如AlexNet和VGG），當網絡訓練好後輸入的圖像尺寸必須是固定值，同時網絡輸出也是固定大小的vector or matrix。如果輸入圖像大小不定，這個問題就變得比較麻煩。有2種解決辦法：

從圖像中crop一部分傳入網絡

將圖像warp成需要的大小後傳入網絡

圖14 crop與warp破壞圖像原有結構信息兩種辦法的示意圖如圖14，可以看到無論採取那種辦法都不好，要麼crop後破壞了圖像的完整結構，要麼warp破壞了圖像原始形狀信息。回憶RPN網絡生成的proposals的方法：對positive anchors進行bounding box regression，那麼這樣獲得的proposals也是大小形狀各不相同，即也存在上述問題。所以Faster R-CNN中提出了RoI Pooling解決這個問題。不過RoI Pooling確實是從Spatial Pyramid Pooling發展而來，但是限於篇幅這裡略去不講，有興趣的讀者可以自行查閱相關論文。
4.2 RoI Pooling原理分析之前先來看看RoI Pooling Layer的caffe prototxt的定義：

layer {
name: "roi_pool5"
type: "ROIPooling"
bottom: "conv5_3"
bottom: "rois"
top: "pool5"
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625 # 1/16
}
}

其中有新參數pooled_w和pooled_h，另外一個參數spatial_scale認真閱讀的讀者肯定已經知道知道用途。RoI Pooling layer forward過程：
這樣處理後，即使大小不同的proposal輸出結果都是 五、ClassificationClassification部分利用已經獲得的proposal feature maps，通過full connect層與softmax計算每個proposal具體屬於那個類別（如人，車，電視等），輸出cls_prob概率向量；同時再次利用bounding box regression獲得每個proposal的位置偏移量bbox_pred，用於回歸更加精確的目標檢測框。Classification部分網絡結構如圖16。圖16 Classification部分網絡結構圖從RoI Pooling獲取到7x7=49大小的proposal feature maps後，送入後續網絡，可以看到做了如下2件事：

通過全連接和softmax對proposals進行分類，這實際上已經是識別的範疇了

再次對proposals進行bounding box regression，獲取更高精度的rect box

這裡來看看全連接層InnerProduct layers，簡單的示意圖如圖17，其中W和bias B都是預先訓練好的，即大小是固定的，當然輸入X和輸出Y也就是固定大小。所以，這也就印證了之前Roi Pooling的必要性。到這裡，我想其他內容已經很容易理解，不在贅述了。六、Faster RCNN訓練Faster R-CNN的訓練，是在已經訓練好的model（如VGG_CNN_M_1024，VGG，ZF）的基礎上繼續進行訓練。實際中訓練過程分為6個步驟：

在已經訓練好的model上，訓練RPN網絡，對應stage1_rpn_train.pt

利用步驟1中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第一次訓練Fast RCNN網絡，對應stage1_fast_rcnn_train.pt

第二訓練RPN網絡，對應stage2_rpn_train.pt

再次利用步驟4中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第二次訓練Fast RCNN網絡，對應stage2_fast_rcnn_train.pt

可以看到訓練過程類似於一種「迭代」的過程，不過只循環了2次。至於只循環了2次的原因是應為作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循環更多次沒有提升了。接下來本章以上述6個步驟講解訓練過程。圖18 Faster RCNN訓練步驟
6.1 訓練RPN網絡在該步驟中，首先讀取RBG提供的預訓練好的model（本文使用VGG），開始迭代訓練。來看看stage1_rpn_train.pt網絡結構，如圖19。圖19 stage1_rpn_train.pt（考慮圖片大小，Conv Layers中所有的層都畫在一起了，如紅圈所示，後續圖都如此處理）與檢測網絡類似的是，依然使用Conv Layers提取feature maps。整個網絡使用的Loss如下：上述公式中

cls loss，即rpn_cls_loss層計算的softmax loss，用於分類anchors為positive與negative的網絡訓練

reg loss，即rpn_loss_bbox層計算的soomth L1 loss，用於bounding box regression網絡訓練。注意在該loss中乘了

由於在實際過程中，

在RPN訓練階段，rpn-data（python AnchorTargetLayer）層會按照和test階段Proposal層完全一樣的方式生成Anchors用於訓練

對於rpn_loss_cls，輸入的rpn_cls_scors_reshape和rpn_labels分別對應

對於rpn_loss_bbox，輸入的rpn_bbox_pred和rpn_bbox_targets分別對應

這樣，公式與代碼就完全對應了。特別需要注意的是，在訓練和檢測階段生成和存儲anchors的順序完全一樣，這樣訓練結果才能被用於檢測！6.2 通過訓練好的RPN網絡收集proposals在該步驟中，利用之前的RPN網絡，獲取proposal rois，同時獲取positive softmax probability，如圖20，然後將獲取的信息保存在python pickle文件中。該網絡本質上和檢測中的RPN網絡一樣，沒有什麼區別。

讀取之前保存的pickle文件，獲取proposals與positive probability。從data層輸入網絡。然後：

將提取的proposals作為rois傳入網絡，如圖21藍框

計算bbox_inside_weights+bbox_outside_weights，作用與RPN一樣，傳入soomth_L1_loss layer，如圖21綠框

這樣就可以訓練最後的識別softmax與最終的bounding box regression了。圖21 stage1_fast_rcnn_train.pt之後的stage2訓練都是大同小異，不再贅述了。Faster R-CNN還有一種end-to-end的訓練方式，可以一次完成train，有興趣請自己看作者GitHub吧。Github連結：https://github.com/rbgirshick/py-faster-rcnnQ&A此篇文章初次成文於2016年內部學習分享，再後來經多次修正和完善成為現在的樣子。感謝大家一直以來的支持，現在總結常見疑問回答如下：
回顧anchor生成步驟：首先生成9個base anchor，然後通過坐標偏移在
顯然這裡面有一部分邊緣anchors會超出圖像邊界，而真實中不會有超出圖像的目標，所以會有clip anchor步驟。

VGG輸出

其實在實現過程中，每個點的
由於引入ROI Pooling，從原理上說Faster R-CNN確實能夠檢測任意大小的圖片。但是由於在訓練的時候需要使用大batch訓練網絡，而不同大小輸入拼batch在實現的時候代碼較為複雜，而且當時以Caffe為代表的第一代深度學習框架也不如Tensorflow和PyTorch靈活，所以作者選擇了把輸入圖片resize到固定大小的800x600。這應該算是歷史遺留問題。另外很多問題，都是屬於具體實現問題，真誠的建議讀者閱讀代碼自行理解。參考文獻：http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/

推薦閱讀：

谷歌 NAS + 目標檢測新作：SpineNet

醫學圖像配準中的深度學習綜述論文解讀

CNN真的需要下採樣（上採樣）嗎?

一文帶你讀懂Faster RCNN

相關焦點

一文讀懂Faster RCNN

實戰 | 源碼入門之Faster RCNN

Faster R-CNN 從實現到部署的那些坑

Faster R-CNN

目標檢測合集 | 4 Faster R-CNN解析

MaskRCNN源碼解讀

一文讀懂目標檢測:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

mask rcnn訓練自己的數據集

【他山之石】從編程實現角度學習Faster R-CNN(附極簡實現)

詳解Faster R-CNN目標檢測的實現過程

目標檢測技術之Faster R-CNN詳解

經驗 | 詳解 Faster R-CNN目標檢測的實現過程

像玩樂高一樣拆解Faster R-CNN:詳解目標檢測的實現過程

獨家 | 一文讀懂Adaboost

【從零開始學Mask RCNN】二,Mask RCNN框架整體把握

修訂版 | 目標檢測:速度和準確性比較(Faster R-CNN,R-FCN,SSD,FPN,RetinaNet和YOLOv3)

【NLP傻瓜式教程】手把手帶你CNN文本分類(附代碼)

一文讀懂4G路由器工作原理

一文讀懂背照式CMOS圖像傳感器

CNN 10 - October 30, 2020