本文所提的跟蹤主要指的是單目標跟蹤,多目標跟蹤暫時不作為考慮範圍。
本文主要從常用的評價標準,如EAO,EFO,fps等,分析2016-2017年最新出的目標跟蹤文章在應用層面的優缺點。
算法原理不作為本文重點,旨在對比不同方法的「效果和時間性能」,方便大家根據不同的業務常見選擇不同的方法。
本文按照以下幾類進行展開,並不局限於傳統方法或者深度學習。
TCNN & C-COT & ECO (根據名次遞增) CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN) CA-CF & BACF (利用背景信息,框架性通用改進) ACET & Deep-LK (優於C-COT or MDNet, 且CPU實時) LMCF & Vision-based (速度提升,但性能提升不明顯CPU實時)
[TOC]
目標跟蹤VOT2016 BenchMark評價標準介紹見 目標跟蹤VOT2016 BenchMark評價標準介紹(註:微信屏蔽了連結哈)
推薦網站OTB Results(https://github.com/foolwood/benchmark_results): 這是foolwood總結的目標跟蹤發展主線圖:
這是foolwood總結的
這是浙江大學Mengmeng Wang同學在極視角公開課上展示的一個總結:
foolwood這個人在github上最新的一些跟蹤方法常見數據集上的結果比較。
2016年8月25提交,已發表在CVPR
2016年VOT比賽的亞軍,效果最佳,性能較差,但樹結構的思想可以借鑑
方法dataset幀率fps機器配置是否Deep LearningTCNNOTB-50、OTB-100、VOT-20151.5Intel Core i7-5820K CPU with 3.30GHz and a single NVIDIA GeForce GTX TITAN X GPUY==C-COT:16ECCV(CCOT)_Beyond Correlation Filters - Learning Continuous==2016年8月29提交
VOT2016第一名
速度較慢,性能很好,思路可以借鑑
方法dataset幀率fps機器配置是否Deep LearningC-COTOTB-2015、Temple-Color1.05i5 6600 4.5GHz(網上別人測的)Y==ECO==:2016年11月28提交
效果最好,性能最佳
|方法|dataset|幀率fps|機器配置|是否Deep Learning|
|—-|—-|—-|—-|—-|——|
|ECO|VOT2016|6 (不含特徵提取)|a 4-core Intel Core i7-6700 CPU at 3:4 GHz. |Y|
|||8 (含特徵提取)|a 4-core Intel Core i7-6700 CPU at 3:4 GHz. & a Tesla K40 GPU|Y|
|ECO-HC|UAV123|60(含特徵提取)|a 4-core Intel Core i7-6700 CPU at 3:4 GHz|N|
|ECO|TempleColor|——-| a gain of 0:8% in AUC than C-COT|—-|
|ECO-HC|OTB-2015|60fps(含特徵提取)|a 4-core Intel Core i7-6700 CPU at 3:4 GHz|N|
2017年4月20日提交到arXiv CVPR
在保證一定效果的情況下,參數佔用空間較小100-600k
GPU下可達到實時
方法dataset幀率fps機器配置是否Deep LearningCFNetOTB-2013、OTB-50、OTB-10043-834.0GHz Intel i7 CPU and an NVIDIATitan X GPUY==DCFNet(17arXiv prePrint(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==2017年4月13日發表到CVPR,作者foolwood,就是最開始提的那個會及時tracker的github博主,代碼開源了:https://github.com/foolwood/DCFNet
效果和速度較CFNet均有提升,且GPU比CFNet的GPU更低端
存儲空間更小,工程化的可能性比CFNet更大:The convolutional layers of our lightweight network (only
75KB) consist of conv1 from VGG [14] with all pooling layers removed and the output forced to 32 channels
在NUS-PRO、TempleColor128、UAV123訓練,在OTB-2013、OTB-2015、VOT-2015上測試
用到了RNN, 輸入crop到125x125
方法dataset幀率fps機器配置是否Deep LearningDCFNetOTB-2013、OTB-2015、VOT-201536.86-89.44Intel Xeon 2630 at 2.4GHz and a single NVIDIA GeForce GTX 1080 GPUY==SANet:17CVPR(SANet) Structure-Aware Network for Visual Tracking==2017年5月1日發表CVPR
採用RNN+CNN的架構
可能是因為效果做的比MDNet還要好把,雖然也很耗時
方法dataset幀率fps機器配置是否Deep Learning2017年1月30日提交到arXiv CVPR,4月10日修改
提出一種 convolutional recurrent neural network model, 可以學習到單幀圖像的空間表示 以及 多幀圖像之間的時序上的表示
端到端的進行訓練的 deep RL algorithm,模型完全是 off-line的
模型構成:CNN 特徵提取部分(YOLO)+RNN(LSTM) 歷史信息構建部分+DEEP-RL模塊(第一個用上RL)
有tensorflow源碼
在30 challenging and publicly available video sequences 和 8 個tracker比較
方法dataset幀率fps機器配置是否Deep LearningDRLT30 challenging and publicly available video sequences45NVIDIA GTX 1080 GPUYCA-CF & BACF (利用背景信息,框架性通用改進)==CA-CF:17CVPR(CA-CF)Context-Aware Correlation Filter Tracking==2017年CVPR(oral)
出發點是對基於相關濾波的算法進行的框架上的改進,所有用相關濾波的算法都可以套用,犧牲fps,帶來顯著的性能提升,好文章,可以借鑑!
第二張圖是對視頻按照每個算法的真實速度進行降採樣後的跟蹤效果。可以看到用了CA進行改進後的staple效果是最好的
作者除了HCFT [2] (2015 ICCV),比較的都是比較傳統的算法,沒有與別的用了CNN特徵的算法進行比較
方法dataset幀率fps機器配置是否Deep LearningCA-CFOTB-100—-Intel Xeon CPU E5-2697 2.6GHz, 256GB RAM) using MATLAB—==BACF:17CVPR(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==2017年3月14號發表到arXiv CVPR
擴大了循環矩陣採樣的區域(樣本數量增加),並且在每個樣本上裁剪出了有用的樣本區域(樣本質量變好)
均在CPU上運行,效果優於大多數傳統方法,平均幀率35.3;
效果比CCOT稍微好一點,但速度176倍
方法dataset幀率fps機器配置是否Deep LearningBACFOTB-50、OTB-100、TC129、60 challenging videos of VOT-201535.3Intel Core i7 running at 2.40 GHzNACET & Deep-LK (優於C-COT or MDNet, 且CPU實時)==ACET:17arXiv prePrint(ACET)_Active Collaborative Ensemble Tracking==2017年4月28提交到arXiv CVPR
測試數據集只有OTB-50,但Performance優於C-COT,且CPU實時。
方法dataset幀率fps機器配置是否Deep LearningACETOTB-5037.16P-IV PC at 3.5 GHz, with a Mathlab/C++ implementationN
p.s.
illumination and scale variations (IV, SV), in- and out-of-plane rotations (IPR, OPR), fast motion and motion blur (FM, MB),
deformations and low-resolution (DEF, LR), occlusion and
shear problem (OCC, OV), and background clutter (BC)
2017年5月19提交到arXiv
用AlexNet提特徵
在25 challenging videos of the VOT14 上達到75fps(GPU)
在Nfs Video上優於MDNet,但速度提高30倍(CPU)到38倍(GPU)
對比的方法中,只有SRDCF和FCNT效果與MDNet持平,且二者fps差不多,約為MDNet的5倍
CPU下fps為100,只比GOTURN低55.3,但效果好10.4個點
方法dataset幀率fps機器配置是否Deep LearningDeep-LKVOT-2014、Nfs Video20.7(CPU),75-100(GPU)未指明YLMCF & Vision-based (速度提升,但性能提升不明顯CPU實時)==LMCF:17CVPR(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==2017年5.15發表到arXiv CVPR
相同機器下,CCOT 0.25fps,LMCF 10fps
性能略好於Staple,速度比SiamF和HCF比較,速度更快
方法dataset幀率fps機器配置是否Deep LearningLMCFOTB-2013、OTB-2015LMCF 80 & DeepLMCF 10LMCF with a PC with a 3.60 GHz CPU and DeepLMCF with a tesla k40 GPUY==Vision-based:17arXiv prePrint(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==2017年3月19日提交到arXiv CVPR,只測試了15個較難的數據集,而且只和15年之前的方法進行比較,
CPU速度達到141.3fps
方法dataset幀率fps機器配置是否Deep LearningVision-based選取了15個視頻141.3in C++ with OpenCV 3.0.0 on a PC with an Intel Xeon W3250 2.67 GHz CPU and 8 GB RAMN