最近CV界最大的新聞就是transformer的應用,這其中最火的就是Facebook提出的基於transformer的目標檢測模型DETR(https://arxiv.org/abs/2005.12872)。目前,港中文維護的MMDetection庫發布了最新的V2.7版本,在新版本中支持DETR模型:
其實transformer提出已久,但是主要在NLP領域,而且基於transformer的模型如BERT也徹底革新了NLP領域。所以,我們也期待transformer能夠同樣給CV領域帶來驚喜,畢竟CNN統治CV領域太長時間了,是時候需要加點新鮮料(雖然是NLP用過的料)。transformer的論文名是
不過令大家失望的是,transformer帶給CV雖然是新的視角,但是性能上談不上超越。對於DETR來說,也存在一些問題,不如收斂慢訓練時間長,而且對小目標檢測不太好,不過也有一些新的工作開始做了改進:
我們也期待transformer能給檢測問題帶來更多驚喜,另外transformer也已經成功應用在圖像分類問題上,如ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale:
檢測和分類都有了,基於transformer的分割還遠麼,期待ing...
另外值得期待的一件事是,MMDetection庫已經有了YOLOv4的分支(https://github.com/open-mmlab/mmdetection/tree/yolov4),這意味不遠的明天你可以用上mmdet版本的YOLOv4模型:
@DETECTORS.register_module()class YOLOV4(SingleStageDetector):
def __init__(self, backbone, neck, bbox_head, train_cfg=None, test_cfg=None, pretrained=None): super(YOLOV4, self).__init__(backbone, neck, bbox_head, train_cfg, test_cfg, pretrained)
推薦閱讀
CNN:我不是你想的那樣
TF Object Detection 終於支持TF2了!
無需tricks,知識蒸餾提升ResNet50在ImageNet上準確度至80%+
不妨試試MoCo,來替換ImageNet上pretrain模型!
重磅!一文深入深度學習模型壓縮和加速
從源碼學習Transformer!
mmdetection最小復刻版(七):anchor-base和anchor-free差異分析
mmdetection最小復刻版(四):獨家yolo轉化內幕
機器學習算法工程師
一個用心的公眾號