在多目標識別方面,maskr-cnn已經取得了一些進展

2021-01-15 蘇的r日

一些需要和矽材料打交道的領域,如計算機視覺、硬體加工及產品開發等,越來越多人去學習微電子技術。根據美國貝爾實驗室(belllaboratory)2018年5月19日最新出版的《新創新指南》(newentrepreneursguide),人工智慧能力的發展與突破,有望提高生產性能和生產效率。maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。

它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。目前,在多目標識別方面,maskr-cnn已經取得了一些進展。例如,在3000類以上的檢測算法中,fcn得到39.2%的正確率,fastr-cnn得到42.2%的正確率,而maskr-cnn得到58.4%的正確率。在8000類以上的檢測算法中,fastr-cnn得到98.6%的正確率,fasterr-cnn得到83.5%的正確率。在5000類以上的檢測算法中,fasterr-cnn得到95.6%的正確率,r-fcn得到83.9%的正確率。這些方面說明它已經使得maskr-cnn比其他基於局部單幀提取特徵並在輸出層學習參數的算法更快速、準確、高效。

但是對於中距離的檢測,比如傳統方法中的3d建模和高速目標追蹤等,它的效果並不好。通過引入雙重卷積神經網絡框架,可以使得maskr-cnn發揮出相當好的效果。以下給出雙重卷積神經網絡框架的模型圖示,包括網絡結構、獲取圖像信息和優化參數的方法。雙重卷積神經網絡的模型圖示一、預先訓練網絡一般來說,雙重卷積神經網絡是先從一般卷積操作開始,在此基礎上利用多個層來完成圖像的卷積操作。結構如下圖所示。這裡的作用卷積通道,並不是卷積核的數量,而是對應卷積操作的級數。

可以看到,前後兩層參數是不一樣的。較為常見的有3個2x3的卷積層和4個4x4的卷積層。它們共同完成了網絡中2x3、4x4、3x3的卷積操作。這裡面就有一個問題了,並不是所有2x2都能夠帶來更高的解析度(200x100),而是只有2x2基本上不帶來更高的解析度(3x3)。之所以帶來這個問題,是因為有些矩陣可能是重複的,例如說3x3的特徵圖。如果按照直覺直接去設計一個矩陣,會帶來什麼結果呢?

相關焦點

  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    Mask R-CNN 可以應用到人體姿勢識別,並且在實例分割、目標檢測、人體關鍵點檢測三個任務都取得了很好的效果。因此,百度深度學習框架 PaddlePaddle 開源了用於目標檢測的 RCNN 模型,從而可以快速構建強大的應用,滿足各種場景的應用,包括但不僅限於安防監控、醫學圖像識別、交通車輛檢測、信號燈識別、食品檢測等等。
  • .| 深度學習理論與實戰:提高篇(14)——​Mask R-CNN代碼簡介
    > 檢測結果r包括rois(RoI)、masks(對應RoI的每個像素是否屬於目標物體)、scores(得分)和class_ids(類別)。 接下來是load_mask函數,這個函數需要返回圖片中的目標物體的mask。這裡需要稍作說明。通常的實例分隔數據集同時提供Bounding box和Mask(Bounding的某個像素是否屬於目標物體)。為了更加通用,這裡假設我們值提供Mask(也就是物體包含的像素),而Bounding box就是包含這些Mask的最小的長方形框,因此不需要提供。
  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(14)——Mask R...
    class_names, r['scores'])檢測結果r包括rois(RoI)、masks(對應RoI的每個像素是否屬於目標物體)、scores(得分)和class_ids(類別)。接下來是load_mask函數,這個函數需要返回圖片中的目標物體的mask。這裡需要稍作說明。通常的實例分隔數據集同時提供Bounding box和Mask(Bounding的某個像素是否屬於目標物體)。為了更加通用,這裡假設我們值提供Mask(也就是物體包含的像素),而Bounding box就是包含這些Mask的最小的長方形框,因此不需要提供。
  • Mask R-CNN官方實現「又」來了!基於PyTorch,訓練速度是原來2倍
    10個月前Facebook曾發布過名叫Detecron的項目,也是一款圖像分割與識別平臺,其中也包含Mask R-CNN。不過它是基於Caffe 2深度學習框架編寫的。這一次,在Caffe2項目併入PyTorch半年之後,Facebook換上了更受歡迎的PyTorch框架。
  • FAIR最新視覺論文集錦:FPN,RetinaNet,Mask 和 Mask-X RCNN(含代碼...
    如我剛才所說,這是個萬金油網絡,可以用在目標檢測、實例分割、姿態識別、面部識別等各種各樣的應用裡。文章僅僅公開幾個月就有了近 100 次引用。文章題目是《用於目標識別的金字塔特徵網絡》,所以作者把 FPN 帶入到 Faster-RCNN 中作為區域推薦網絡 (RPN)。很多關鍵的細節在原文中都有詳細的解釋,為了節約時間我這裡列幾條重點。
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    Pytorch中使用Mask-RCNN實現實例分割,是基於torchvision的預訓練模型庫,首先需要下載預訓練模型,並檢查是否可以支持GPU推理,相關的代碼如下:model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)model.eval
  • 先理解Mask R-CNN的工作原理,然後構建顏色填充器應用
    實例分割是一種在像素層面識別目標輪廓的任務,相比其他相關任務,實例分割是較難解決的計算機視覺任務之一:分類:這張圖像中有一個氣球。語義分割:這些全是氣球像素。建立一個顏色填充過濾器和大多數圖像編輯 app 中包含的過濾器不同,我們的過濾器更加智能一些:它能自動找到目標。當你希望把它應用到視頻上而不是圖像上時,這種技術更加有用。
  • 詳解目標檢測Faster R-CNN
    即,數學地表述,如果圖片尺寸 w×h,特徵圖的尺寸則是 w/r×h/r. 其中,r 是下採樣率(subsampling ratio). 如果在卷積特徵圖空間位置定義 anchor,則最終的圖片會是由 r 像素劃分的 anchors 集. 在 VGG 中,r=16.
  • OpenMMLab 第二版發布:吸引業界「目光」的史上最完整的目標檢測...
    其初衷是為了在計算機視覺的一些重要方向建立統一而開放的代碼庫,並不斷把新的算法沉澱其中。在過去的半年多時間,這些代碼庫已經產生了重要影響,越來越多的 MMLab 以外的研究團隊開始把 MMDetection 作為實現新的目標檢測算法的基礎,並不斷將其新算法回饋到 MMDetection 中。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    雷鋒網 AI 開發者按:Detectron 是 FAIR 在 2018 年初公開的目標檢測平臺,包含了大量業內最具代表性的目標檢測、圖像分割、關鍵點檢測算法,該框架主要基於 python 和 caffe2 實現,開源項目已獲得了超 2.2w 的星標數。
  • 從R-CNN到YOLO,一文帶你了解目標檢測模型(附論文下載)
    要想進一步了解,可以查看以下PPT和筆記:http://www.image-net.org/challenges/LSVRC/2013/slides/r-cnn-ilsvrc2013-workshop.pdfhttp://www.cs.berkeley.edu/~rbg/slides/rcnn-cvpr14-slides.pdf
  • Mask R-CNN原始碼終於來了,還有它背後的物體檢測平臺
    \ --image-ext jpg \ --wts https://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival
  • 深度| 像玩樂高一樣拆解Faster R-CNN:詳解目標檢測的實現過程
    Luminoth 實現:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn 在閱讀本文之前,若想了解 R-CNN 網絡家族的發展,可以參看機器之心的文章: 深度
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    機器之心報導參與:李亞洲、杜偉昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 發布動作識別和檢測庫 MMAction,同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的算法實現。
  • 資源丨用PyTorch實現Mask R-CNN
    Mask R-CNN不過說到這裡,還是需要先介紹一下前面提到的目標檢測大殺器Mask R-CNN。Mask R-CNN可以說是從目標檢測領域R-CNN系列的四代目了,FACEBOOK人工智慧實驗室(FAIR)團隊以何凱明(Kaiming He)和Ross Girshick(RBG)為首的一眾目標檢測大佬不斷更迭了許多個版本:R-CNN:對每個候選區域進行特徵提取,能提升一定的效率;Fast R-CNN:一張圖像上使用一次AlexNet,然後再得到不同區域的特徵的新方法
  • 經典解讀 | Cascade R-CNN詳細解讀
    連結 | https://zhuanlan.zhihu.com/p/42553957源碼連結:https://github.com/zhaoweicai/cascade-rcnn從文章的題目上我們就可以看出來這篇文章目標是提高檢測質量,希望能獲得更精確的檢測結果。文章提出的cascade結構的效果是驚豔的,幾乎對於任意的R-CNN(Faster rcnn,FPN,R-FCN等)都可以帶來2到4個點的AP提升!!!而且實現十分簡單,已使用Pytorch在Pascal VOC上復現論文。此外,本篇文章的實驗講解部分對於理解R-CNN網絡有很大的幫助,建議詳細閱讀。   0.
  • 面向智能下肢假肢控制的人體運動意圖識別技術取得新進展
    近日,依託北京大學和北京市殘聯共同建設的「北京市智能康復工程技術研究中心」,在面向智能下肢假肢控制的人體運動意圖識別方面取得重要進展,提出並實現了基於人體電容信號識別下肢運動意圖的方法。
  • 【像訓練CNN一樣快速訓練RNN】全新RNN實現,比優化後的LSTM快10倍
    我們展示了這種循環單元在廣泛應用中的有效性,包括分類、問答、語言建模、翻譯和語音識別。我們開源了在PyTorch和CNTK中的實現。  簡單循環單元SRU,簡化狀態計算,速度與CNN一樣快  近來深度學習取得的許多進展都源於模型容量的增加和計算力的相應提升。模型容量增大,通常會涉及使用更大、更深的網絡,而這些網絡又需要複雜的超參數設置和調整。
  • 輕鬆識別小目標的物體檢測算法揭秘
    在眾多模型使用場景中,小目標物體的檢測比較常見,一般的目標檢測算法往往效果不理想;因此,EasyDL團隊針對小目標物體的檢測進行了專項優化,並取得了令人矚目的效果提升。自AlexNet在2012年ImageNet比賽上展露頭角以來,計算機視覺各個方向和神經網絡的聯繫變得越發緊密,物體檢測也不例外。