德克薩斯大學提出:One-stage目標檢測最強算法 ExtremeNet

2021-02-14 CVer

點擊上方「CVer」，選擇"星標"和「置頂」

重磅乾貨，第一時間送達

前戲

最近出了很多論文，各種SOTA。比如（點擊可訪問）：

今天頭條推送的是目前人臉檢測方向的SOTA論文：改進SRN人臉檢測算法。本文要介紹的是目前(2019-01-26) one-stage目標檢測中最強算法：ExtremeNet。

正文

《Bottom-up Object Detection by Grouping Extreme and Center Points》

arXiv: https://arxiv.org/abs/1901.08043

github: https://github.com/xingyizhou/ExtremeNet

作者團隊：UT Austin

註：2019年01月23日剛出爐的paper

Abstract：With the advent of deep learning, object detection drifted from a bottom-up to a top-down recognition problem. State of the art algorithms enumerate a near-exhaustive list of object locations and classify each into: object or not. In this paper, we show that bottom-up approaches still perform competitively. We detect four extreme points (top-most, left-most, bottom-most, right-most) and one center point of objects using a standard keypoint estimation network. We group the five keypoints into a bounding box if they are geometrically aligned. Object detection is then a purely appearance-based keypoint estimation problem, without region classification or implicit feature learning. The proposed method performs on-par with the state-of-the-art region based detection methods, with a bounding box AP of 43.2% on COCO test-dev. In addition, our estimated extreme points directly span a coarse octagonal mask, with a COCO Mask AP of 18.9%, much better than the Mask AP of vanilla bounding boxes. Extreme point guided segmentation further improves this to 34.6% Mask AP.

Illustration of our object detection method

Illustration of our framework

Illustration of our object detection method

基礎工作

創新點

實驗結果

ExtremeNet有多強，看下面的圖示就知道了，在COCO test-dev數據集上，mAP為43.2，在one-stage detector中，排名第一。可惜的是沒有給出時間上的對比，論文中只介紹說測試一幅圖像，耗時322ms（3.1 FPS）。

State-of-the-art comparison on COCO test-dev

想要了解最新最快最好的論文速遞、開源項目和乾貨資料，歡迎加入CVer學術交流群。涉及圖像分類、目標檢測、圖像分割、人臉檢測&識別、目標跟蹤、GANs、學術競賽交流、Re-ID、風格遷移、醫學影像分析、姿態估計、OCR、SLAM、場景文字檢測&識別和超解析度等方向。

掃碼進群

這麼硬的論文速遞，麻煩給我一個好看

▲長按關注我們

麻煩給我一個好看！

相關焦點

深入理解one-stage目標檢測算法(下篇)

數據有很多常用的目標檢測訓練數據集，如Pascal VOC, COCO, KITTI。這裡我們關注Pascal VOC，因為它是最常用的，並且YOLO使用了它。由於模型的輸出是13×13×125張量，因此損失函數所使用的目標張量也將是13×13×125。這個數字125來自：5個檢測器，每個檢測器預測類別的20個概率值+4個邊界框坐標+1個置信度得分。在目標張量中，對於正例，我們會給出物體的邊界框坐標和onehot編碼的類別向量，而置信度為1.0（因為我們100%確定這是一個真實的物體）。
國防科大提出基於可變形三維卷積(D3Dnet)的視頻超分辨,代碼已開源

近日，來自國防科技大學的學者提出基於可變形三維卷積的視頻超分辨網絡（D3Dnet），通過將可變形卷積（Deformable Convolution）和三維卷積（3D Convolution）有機結合，同時實現高效時空信息建模與靈活幀間運動補償。實驗表明，該網絡生成視頻的清晰度、流暢度與網絡的運行效率均處於領域先進水平。
【目標檢測】Focal Loss 論文詳解

Author：VincentLee From：曉飛的算法工程師筆記論文分析了 one-stage 網絡訓練存在的類別不平衡問題，提出能根據 loss 大小自動調節權重的 focal loss，使得模型的訓練更專注於困難樣本。同時，基於 FPN 設計了 RetinaNet，在精度和速度上都有不俗的表現。
YOLO 系列目標檢測算法介紹

YOLO 算法是基於 one-stage 的主流目標檢測算法，它不需要 region proposal階段，可以直接產生目標物體的類別概率和位置坐標值
【目標檢測系列】CNN中的目標多尺度處理方法

【導讀】本篇博文我們一起來討論總結一下目標檢測任務中用來處理目標多尺度的一些算法。小物體由於其尺寸較小，可利用的特徵有限，這使得其檢測較為困難。當前的檢測算法對於小物體並不友好，體現在以下4個方面：多尺度的檢測能力實際上體現了尺度的不變性，當前的卷積網絡能夠檢測多種尺度的物體，很大程度上是由於其本身具有超強的擬合能力。
目標檢測|YOLOv2原理與實現(附YOLOv3)

在這篇文章中，作者首先在YOLOv1的基礎上提出了改進的YOLOv2，然後提出了一種檢測與分類聯合訓練方法，使用這種聯合訓練方法在COCO檢測數據集和ImageNet分類數據集上訓練出了YOLO9000模型，其可以檢測超過9000多類物體。所以，這篇文章其實包含兩個模型：YOLOv2和YOLO9000，不過後者是在前者基礎上提出的，兩者模型主體結構是一致的。
目標檢測經典工作:RetinaNet和它背後的Focal Loss

類別不平衡（class imbalance）是目標檢測模型訓練的一大難點（推薦這篇綜述文章Imbalance Problems in Object Detection: A Review），其中最嚴重的是正負樣本不平衡，因為一張圖像的物體一般較少，而目前大部分的目標檢測模型在FCN
收藏 | YOLO 系目標檢測算法家族全景圖!

YOLOv5 2020年6月25日，Ultralytics發布了YOLOV5 的第一個正式版本，號稱其性能與YOLO V4不相伯仲，同樣也是現今最先進的目標檢測技術，並在推理速度上是目前最強MV-YOLOMV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection一種結合壓縮視頻中的運動信息和YOLO目標檢測的目標跟蹤算法
【必看系列】ECCV 2020 優秀論文大盤點-目標檢測篇

本文盤點ECCV 2020 與目標檢測相關的研究，包含目標檢測新範式、密集目標檢測、點雲目標檢測、少樣本目標檢測、水下目標檢測、域適應目標檢測、弱監督目標檢測
目標檢測算法之SSD訓練過程

最後就是進行NMS算法，過濾掉那些重疊度較大的預測框。最後剩餘的預測框就是檢測結果了。性能評估首先整體看一下SSD在VOC2007，VOC2012及COCO數據集上的性能，如表1所示。相比之下，SSD512的性能會更好一些。
YOLO之外的另一選擇,手機端97FPS的Anchor-Free目標檢測模型NanoDet現已開源~

，從Two-stage到One-stage，從Anchor-base到Anchor-free，再到今年的用Transformer做目標檢測，各種方法百花齊放，但是在移動端目標檢測算法上，yolo系列和SSD等Anchor-base的模型一直佔據著主導地位。
【模型訓練】目標檢測實現分享四:詳解 YOLOv4 算法實現

本文是目標檢測類算法實現分享的第四篇，前面已經寫過三篇，感興趣的同學可以查閱： (1) 《【模型訓練】目標檢測實現分享一：詳解 YOLOv1 算法實現》； (2) 《【模型訓練】目標檢測實現分享二
目標檢測 | Yolo1算法原理總結

算法通過運行單個卷積網絡來定位和檢測物體，流程圖如下：步驟：1）將輸入圖像的大小調整為448×4482）在圖像上運行卷積神經網絡，輸出每個grid cell的Bounding Box和所屬每個類的概率值3）根據非極大值抑制算法，輸出最有可能包含物體的Bounding Box若僅包含上述步驟
基於深度學習的目標檢測算法研究進展

目標檢測（Object Dection，OD）是一種從視頻或者圖片中找到感興趣的區域並標記出來的行為動作，可以通過算法提取特徵來識別定位特定類別的對象。目標檢測主要應用在人臉識別、無人駕駛、指揮以及安防等領域。目標檢測功能的核心不在於硬體設備，而在於算法設計的優劣。不同算法性能的優劣將直接導致目標檢測在不同場景下的檢測效果。
經典神經網絡 | fast rcnn目標檢測算法詳解

針對上述這些問題，本篇論文作者提出了fast rcnn網絡，可以解決R-CNN和SPPnet的缺點，同時提高其速度和準確性。fast rcnn具有以下優點：1、高精度檢測，訓練是單步訓練，而loss是multi-task loss。
TTFNet | 最大程度提高訓練效率的實時目標檢測(附源碼)

為了達到平衡，作者就提出了Train-Friendly Network(TTFNet)。作者從light-head, single-stage, and anchor-free設計開始，這使得推理速度更快。然後作者重點縮短訓練時間。我們注意到，從注釋框中編碼更多的訓練樣本與增加批處理大小具有相似的作用，這有助於擴大學習速率和加速訓練過程。
NAS在目標檢測中的應用:6篇相關論文對比解讀

對於detector，不管是anchor和anchor free的檢測方法，主要有以下4個components：Backbone：常見的backbone網絡有ResNet，ResNeXt等，輕量級的有mobilenet、shufflenet、efficientnet等等，通常需要在ImageNet上進行預訓練，但近來一些paper指出
目標跟蹤算法:MDNet

目標跟蹤算法MDNet: Learning Multi-Domain Convolutional
實戰 | keras-yolov3 + Kalman-Filter 進行人體多目標追蹤(含代碼)

好處：可以任意組合比較好的detector/tracker算法但是這一整套方法論有非常多的問題：問題一：在剛剛檢測到新人的時候，第一次軌跡預測的時候容易飄逸（如上面白色框所示）問題二：one-stage
4篇論文詳解One Shot NAS:方法綜述

One-Shot NAS可以分成兩個階段，分別是 training stage 和 searching stage：在這個階段，並不會進行搜索，而是單純訓練 Supernet ，使得 Supernet 收斂至一定的程度。

德克薩斯大學提出:One-stage目標檢測最強算法 ExtremeNet

相關焦點

深入理解one-stage目標檢測算法(下篇)

國防科大提出基於可變形三維卷積(D3Dnet)的視頻超分辨,代碼已開源

【目標檢測】Focal Loss 論文詳解

YOLO 系列目標檢測算法介紹

【目標檢測系列】CNN中的目標多尺度處理方法

目標檢測|YOLOv2原理與實現(附YOLOv3)

目標檢測經典工作:RetinaNet和它背後的Focal Loss

收藏 | YOLO 系目標檢測算法家族全景圖!

【必看系列】ECCV 2020 優秀論文大盤點-目標檢測篇

目標檢測算法之SSD訓練過程

YOLO之外的另一選擇,手機端97FPS的Anchor-Free目標檢測模型NanoDet現已開源~

【模型訓練】目標檢測實現分享四:詳解 YOLOv4 算法實現

目標檢測 | Yolo1算法原理總結

基於深度學習的目標檢測算法研究進展

經典神經網絡 | fast rcnn目標檢測算法詳解

TTFNet | 最大程度提高訓練效率的實時目標檢測(附源碼)

NAS在目標檢測中的應用:6篇相關論文對比解讀

目標跟蹤算法:MDNet

實戰 | keras-yolov3 + Kalman-Filter 進行人體多目標追蹤(含代碼)

4篇論文詳解One Shot NAS:方法綜述