實戰 | 源碼入門之Faster RCNN

2021-02-20 計算機視覺life
前言

學習深度學習和計算機視覺,特別是目標檢測方向的學習者,一定聽說過Faster Rcnn;在目標檢測領域,Faster Rcnn表現出了極強的生命力,被大量的學習者學習,研究和工程應用。網上有很多版本的Faster RCNN的源碼,但是很多版本代碼太過於龐大,對新入門的學習者學習起來很不友好,在網上苦苦尋找了一番後終於找到了一個適合源碼學習的Faster Rcnn的pytorch版本代碼。


根據該版本的作者講該代碼除去注釋只有兩千行左右,並且經過小編的一番學習之後,發現該版本的代碼真的是非常的精簡幹練,讀起來「朗朗上口」,並且深刻的感覺到作者代碼功底之深厚。在此先附上源碼的地址(https://github.com/chenyuntc/simple-faster-rcnn-pytorch) ,並對源碼作者(陳雲)表示由衷的感謝和深深地敬意。


本文章主要的目的是對該版本代碼的主要框架進行梳理,希望能夠對一些想學習源碼的讀者有一定的幫助。

代碼的主要文件

-data文件中主要是文件的與dataset相關的文件

-misc中有下載caffe版本預訓練模型的文件,可以不看

-model文件中主要是與構建Faster Rcnn網絡模型有關的文件

-utils中主要是一些輔助可視化和驗證的文件

-train.py是整個程序的運行文件,下面有一部分會做介紹

-trainer.py文件主要是用於訓練,模型的損失函數的計算都在這個文件中

train

先來看一下train.py裡的主要內容:

def train(train(**kwargs)):    
  opt._parse(kwargs)
  dataset = Dataset(opt)      
  dataloader = data_.DataLoader(dataset, \
                                batch_size=1, \
                                shuffle=True, \
                                
                                num_workers=opt.num_workers)
  testset = TestDataset(opt)  
  test_dataloader = data_.DataLoader(testset,
                                     batch_size=1,
                                     num_workers=opt.test_num_workers,
                                     shuffle=False, \
                                     pin_memory=True
                                     )
  faster_rcnn = FasterRCNNVGG16()    
  trainer = FasterRCNNTrainer(faster_rcnn).cuda()  

  for epoch in range(opt.epoch):
        trainer.reset_meters()
        for ii, (img, bbox_, label_, scale) in tqdm(enumerate(dataloader)):
            scale = at.scalar(scale)
            img, bbox, label = img.cuda().float(), bbox_.cuda(), label_.cuda()
            trainer.train_step(img, bbox, label, scale)  

從train.py中的主要函數可以看出,主要的步驟涉及訓練數據和測試數據的預處理,網絡模型的構建(Faster RCNN),然後就是迭代訓練,這也是通用的神經網絡搭建和訓練的過程。在Faster Rcnn網絡模型中主要包含Extractor、RPN和RoIhead三部分。網絡中Extractor主要是利用CNN進行特徵提取,網絡採用的VGG16;RPN是候選區網絡,為RoIHead模塊提供可能存在目標的候選區域(rois);RoIHead主要負責rois的分類和微調。整體的框架圖如下圖所示:

圖片來源於陳雲的知乎

Dataset

在本版本的代碼中讀取的數據格式為VOC,Dataset和TestDataset類分別負責訓練數據和測試數據的讀取及預處理。在預處理部分主要的操作就是resize圖像的大小、像素值的處理以及圖像的隨機翻轉。主要的內容如下:

class Dataset:     
    def __init__(self, opt):
        self.opt = opt
        self.db = VOCBboxDataset(opt.voc_data_dir)  
        self.tsf = Transform(opt.min_size, opt.max_size) 
        

    def __getitem__(self, idx):
        ori_img, bbox, label, difficult = self.db.get_example(idx)
        img, bbox, label, scale = self.tsf((ori_img, bbox, label))
        return img.copy(), bbox.copy(), label.copy(), scale

    def __len__(self):
        return len(self.db)
class TestDataset:
    pass          

FasterRCNNVGG16

下面主要介紹Extractor、RPN和RoIHead三部分結構

Extractor

extractor, classifier = decom_vgg16() 

Extractor部分主要使用的VGG16的網絡結構,同時使用預訓練好的模型提取圖片的特徵。論文中主要使用的是Caffe的預訓練模型,根據代碼的作者講該版本的預訓練模型效果比較好。


為了節約顯存,作者將前四層卷積層的學習率設置為0,Conv5_3的輸入作為圖片的特徵輸入到RPN網絡中。根據網絡結構,Conv5_3部分的感受野為16,也就是相較於輸入的圖片大小,feature map的尺寸為(C,H/16,W/16).該部分網絡結構圖如下所示:

具體的decom_vgg16()代碼如下:

def decom_vgg16():    
    
    if opt.caffe_pretrain:  
        model = vgg16(pretrained=False)  
        if not opt.load_path:
            model.load_state_dict(t.load(opt.caffe_pretrain_path)) 
    else:
        model = vgg16(not opt.load_path)

    features = list(model.features)[:30]    
    classifier = model.classifier          

    classifier = list(classifier)
    del classifier[6]
    if not opt.use_drop:                
        del classifier[5]
        del classifier[2]
    classifier = nn.Sequential(*classifier)  

    
    for layer in features[:10]:
        for p in layer.parameters():
            p.requires_grad = False

    return nn.Sequential(*features), classifier

RPN

Faster RCNN中最突出的貢獻就是提出了Region Proposal Network(RPN),將候選區域提取的時間開銷幾乎降為0。該模塊的主要作用提供可能存在目標的候選區域rois。模塊結構圖如下所示:

圖片來源於陳雲的知乎

class RegionProposalNetwork(nn.Module):   

  def __init__():
  
  def forward(self, x, img_size, scale=1.):
      
      
      
      n, _, hh, ww = x.shape
      anchor = _enumerate_shifted_anchor(   
          np.array(self.anchor_base),
          self.feat_stride, hh, ww)

      n_anchor = anchor.shape[0] // (hh * ww)  
      h = F.relu(self.conv1(x))  

      rpn_locs = self.loc(h)     
      rpn_locs = rpn_locs.permute(0, 2, 3, 1).contiguous().view(n, -1, 4)
      rpn_scores = self.score(h)  
      rpn_scores = rpn_scores.permute(0, 2, 3, 1).contiguous()
      rpn_softmax_scores = F.softmax(rpn_scores.view(n, hh, ww, n_anchor, 2), dim=4) 
      rpn_fg_scores = rpn_softmax_scores[:, :, :, :, 1].contiguous()
      rpn_fg_scores = rpn_fg_scores.view(n, -1)
      rpn_scores = rpn_scores.view(n, -1, 2)

      rois = list()
      roi_indices = list()
      for i in range(n):
          roi = self.proposal_layer(            
              rpn_locs[i].cpu().data.numpy(),
              rpn_fg_scores[i].cpu().data.numpy(),
              anchor, img_size,
              scale=scale)
          batch_index = i * np.ones((len(roi),), dtype=np.int32)
          rois.append(roi)
          roi_indices.append(batch_index)

      rois = np.concatenate(rois, axis=0)
      roi_indices = np.concatenate(roi_indices, axis=0)
      return rpn_locs, rpn_scores, rois, roi_indices, anchor

RoIHead

RoIhead主要任務是對RPN網絡選出的候選框進行分類和回歸,在RoIhead中作者提出了RolPooling方法將不同尺度的候選區域全部pooling到一個尺度上。模塊結構圖如下所示:

class VGG16RoIHead(nn.Module):                         
    def __init__(self, n_class, roi_size, spatial_scale,
                 classifier):
        
        super(VGG16RoIHead, self).__init__()

        self.classifier = classifier                   
        self.cls_loc = nn.Linear(4096, n_class * 4)    
        self.score = nn.Linear(4096, n_class)          

        normal_init(self.cls_loc, 0, 0.001)            
        normal_init(self.score, 0, 0.01)

        self.n_class = n_class                         
        self.roi_size = roi_size                       
        self.spatial_scale = spatial_scale             
        self.roi = RoIPooling2D(self.roi_size, self.roi_size, self.spatial_scale)

    def forward(self, x, rois, roi_indices):
        
        pool = self.roi(x, indices_and_rois)     
        pool = pool.view(pool.size(0), -1)       
        fc7 = self.classifier(pool)              
        roi_cls_locs = self.cls_loc(fc7)         
        roi_scores = self.score(fc7)             
        return roi_cls_locs, roi_scores

運行代碼

整體來說該版本的代碼環境相當簡單,配置起來相當容易,沒有什麼坑,認真閱讀作者的readme就好。在utils文件中有一個config.py文件,在裡邊可以修改文件讀取的路徑,學習率等參數,自己運行時根據自己的情況進行修改即可。小編運行自己的數據(非VOC2007)結果如下圖:

總結

本篇文章主要的目的是推薦一個適合源碼學習的Faster rcnn版本給大家,並對代碼框架做了初步的介紹,希望對大家的源碼學習有一定的幫助,由於整個算法實現的代碼較為複雜,且細節比較多,很難通過一篇文章進行詳細的說明,如果大家對本版本的代碼感興趣,可以自己閱讀源碼學習。在學習源碼的時候我個人是有很多感想的,作為一個小白,通過源碼的學習真的學習到了很多,之前論文閱讀過幾遍,別的版本的代碼也拿來訓練過數據,但是讀了這個的源碼,又如發現了新大陸,很多算法的細節和精髓才算有了深刻的理解,真的是紙上得來終覺淺,絕知此事要coding。除了算法本身,在一些代碼的實現上也有很多的學習,真的感受到代碼作者的功力深厚,再次對作者表示深深地敬意.最後留個問題,在閱讀源碼的時候,發現作者使用了visdom進行可視化,如運行的截圖,小編還知道pytorch中一個可視化工具tensorboardX,但都不是很熟悉,還請知情人士在下方留言,詳細的講解一下兩種可視化工具的優劣。由於小編是一個剛入門(入坑)的學習者,文章中的不當之處還請大家諒解和提出,很希望能與大家一起討論學習。

最後再次放上源碼連結:

https://github.com/chenyuntc/simple-faster-rcnn-pytorch

參考:

https://zhuanlan.zhihu.com/p/32404424

https://www.cnblogs.com/kerwins-AC/p/9734381.html

相關焦點

  • MaskRCNN源碼解讀
    https://github.com/matterport/Mask_RCNN這個是一個基於Keras寫的maskrcnn的源碼,作者寫的非常
  • 目標檢測合集 | 4 Faster R-CNN解析
    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,Ren源碼(官方Matlab),RBG源碼(pyCaffe)Faster R-CNN = RPN + Fast R-CNNRPN:是一個全卷積網絡,它的輸入為特徵圖,輸出為候選框ROI。
  • Faster R-CNN
    Mask r-cnn[C]//Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017: 2980-2988.
  • Faster R-CNN 從實現到部署的那些坑
    在2019年來看,Faster R-CNN (後文簡稱frcnn)已經可以稱為經典的「老」模型了,由於frcnn足夠經典,可以作為其他算法的基線,所以我們打算在系統裡部署frcnn。而重新實現frcnn算法,一方面是因為能搜到的開源版本或者庫的版本太老,質量也良莠不齊,另一方面也是為了部署時能更為靈活地調整代碼。經過R-CNN和Fast RCNN的積澱,Ross B.
  • ResNet、Faster RCNN、Mask RCNN是專利算法嗎?盤點何愷明參與發明的專利
    美國林肯總統稱"專利制度是給天才之火澆上利益之油",專利保護了申請人的利益,促進了科技的進步,但現在也有越來越多的濫用專利權對產業機構敲詐的案例出現。SIFT 專利權的終結讓我們不得不思考,還有哪些著名的算法被申請了專利?對於做研究的朋友來說不需要考慮這個問題,專利算法依然可以參考、復現、對比,但對於產業界朋友就不得不確認清楚:項目中有沒有可能使用了別人專利保護算法。
  • 一文讀懂Faster RCNN
    圖2 faster_rcnn_test.pt網絡結構 (pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt)本文不會討論任何關於R-CNN家族的歷史,分析清楚最新的Faster
  • 目標檢測技術之Faster R-CNN詳解
    此外,ResNet讓使用殘差網絡和批量歸一化來訓練深度模型變得簡單,這在VGG發布之初並未出現。既然我們有了處理過的圖像,則需要找到proposals,即用於分類的興趣區域(RoI)。上文中提到,anchors是解決可變長度問題的方法,但是沒有詳細講解。我們的目標是在圖像中找到邊界框,它們呈矩形,有不同的尺寸和長寬比。
  • 一文帶你讀懂Faster RCNN
    圖2 faster_rcnn_test.pt網絡結構 (pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt)本文不會討論任何關於R-CNN家族的歷史,分析清楚最新的Faster
  • mask rcnn訓練自己的數據集
    3D視覺工坊的第67篇文章前言最近迷上了mask rcnn,也是由於自己工作需要吧,特意研究了其原始碼,並基於自己的數據進行訓練~本博客參考:https://blog.csdn.net/disiwei1012/article/details/79928679#commentsedit實驗目的
  • 像玩樂高一樣拆解Faster R-CNN:詳解目標檢測的實現過程
    Luminoth 實現:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn去年,我們決定深入了解 Faster R-CNN,閱讀原始論文以及其中引用到的其他論文,現在我們對其工作方式和實現方法有了清晰的理解。
  • 【從零開始學Mask RCNN】二,Mask RCNN框架整體把握
    Mask RCNN總覽下面的Figure1展示了這個工程中Mask RCNN的網絡結構示意圖,來自博主疊加態的貓:Mask RCNN總覽,來自疊加態的貓博主這個結構圖裡面包含了很多細節,我們先大概理一下,後面在源碼詳解中會更詳細的說明:首先是BackBone
  • 詳解Faster R-CNN目標檢測的實現過程
    本文轉載自:機器之心Faster R-CNN 實現代碼:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnnFaster R-CNN最早在2015年的NIPS發布。其在發布後經歷了幾次修改,這在之後博文中會有討論。
  • 經驗 | 詳解 Faster R-CNN目標檢測的實現過程
    設為星標 ★,與你不見不散編輯:Sophia計算機視覺聯盟  報導  | 公眾號 CVLianMengAI博士筆記系列推薦:Faster R-CNN 實現代碼:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn
  • 修訂版 | 目標檢測:速度和準確性比較(Faster R-CNN,R-FCN,SSD,FPN,RetinaNet和YOLOv3)
    最糟糕的是,技術發展如此之快,以至於任何比較都很快變得過時。在這裡,我們總結了各個論文的結果,因此您可以完整分析和對比它們。然後,我們根據Google Research中總結得出一篇綜述。通過在一種情況下提出多種觀點,我們希望我們可以更好地了解性能指標。
  • 目標檢測算法之NIPS 2016 R-FCN(來自微軟何凱明團隊)
    rcnn 證明cnn具有良好的特徵提取能力,也是第一個將cnn用來做目標檢測任務的算法。fast-rcnn提出ROI-Pooling將需要應用到多個候選框的骨幹CNN網絡進行共享,加快速度的同時也提升了準確率。faster-rcnn解決了候選框搜索耗時過多的問題,提出RPN全卷積網絡用於學習提取候選框,速度更快且精度更高。
  • 有救了,這絕對是一舉掌握RCNN、Fast RCNN、Faster RCNN最好的辦法!
    本號強烈推薦你參加《目標檢測RCNN實戰訓練營》,從檢測模型教學逐步深入,幫你輕鬆掌握目標檢測,輕鬆提升CV算法核心能力。內容不錯,推薦給你們。聚焦人工智慧實戰訓練。從原理剖析到項目實訓,聚焦目標檢測模型實戰訓練,訓練營助力你的成長。如果你是以上人群,那麼這次訓練營十分適合你。掌握銷量RCNN全家桶,進階目標檢測,實現人生進階發展!本次訓練營為期3天,從RCNN到Fast RCNN,再到Faster RCNN,逐步幫你深入了解目標檢測,掌握向前計算過程和訓練過程。
  • CNN 10 - October 30, 2020
    本期視頻連結:  https://pmd.cdn.turner.com/cnn/big/cnn10/2020/10/28/ten-1030.cnn_3461383_768x432_1300k.mp4本期內容簡介:U.S.
  • 一個maskrcnn的目標檢測和實例分割的小例子
    關於如何利用遷移學習來訓練自己的數據集,這裡也給出兩個超讚的教程:教程一:TORCHVISION 目標檢測網絡微調教程二:手把手教你訓練自己的Mask R-CNN圖像實例分割模型(PyTorch官方教程)教程三:TorchVision之MaskRCNN訓練(推薦)看完以上三個教程,基本上利用Pytorch中的Torchvision.model