計算機視覺中,有哪些比較好的目標跟蹤算法?(上)

2020-12-05 雷鋒網

雷鋒網(公眾號:雷鋒網)按:本文作者YaqiLYU,本文由雷鋒網整理自作者在知乎《計算機視覺中,目前有哪些經典的目標跟蹤算法?》問題下的回答。雷鋒網已獲得轉載授權。

相信很多來這裡的人和我第一次到這裡一樣,都是想找一種比較好的目標跟蹤算法,或者想對目標跟蹤這個領域有比較深入的了解,雖然這個問題是經典目標跟蹤算法,但事實上,可能我們並不需要那些曾經輝煌但已被拍在沙灘上的tracker(目標跟蹤算法),而是那些即將成為經典的,或者就目前來說最好用、速度和性能都看的過去tracker。我比較關注目標跟蹤中的相關濾波方向,接下來我幫您介紹下我所認識的目標跟蹤,尤其是相關濾波類方法,分享一些我認為比較好的算法,順便談談我的看法。

第一部分:目標跟蹤速覽

先跟幾個SOTA的tracker混個臉熟,大概了解一下目標跟蹤這個方向都有些什麼。一切要從2013年的那個資料庫說起。。如果你問別人近幾年有什麼比較niubility的跟蹤算法,大部分人都會扔給你吳毅老師的論文,OTB50和OTB100(OTB50這裡指OTB-2013,OTB100這裡指OTB-2015,50和100分別代表視頻數量,方便記憶):

Wu Y, Lim J, Yang M H. Online object tracking: A benchmark [C]// CVPR, 2013.

Wu Y, Lim J, Yang M H. Object tracking benchmark [J]. TPAMI, 2015.

頂會轉頂刊的頂級待遇,在加上引用量1480+320多,影響力不言而喻,已經是做tracking必須跑的資料庫了,測試代碼和序列都可以下載: Visual Tracker Benchmark,OTB50包括50個序列,都經過人工標註:


兩篇論文在資料庫上對比了包括2012年及之前的29個頂尖的tracker,有大家比較熟悉的OAB, IVT, MIL, CT, TLD, Struck等,大都是頂會轉頂刊的神作,由於之前沒有比較公認的資料庫,論文都是自賣自誇,大家也不知道到底哪個好用,所以這個database的意義非常重大,直接促進了跟蹤算法的發展,後來又擴展為OTB100發到TPAMI,有100個序列,難度更大更加權威,我們這裡參考OTB100的結果,首先是29個tracker的速度和發表時間(標出了一些性能速度都比較好的算法):


接下來再看結果(更加詳細的情況建議您去看論文比較清晰):


直接上結論:平均來看Struck, SCM, ASLA的性能比較高,排在前三不多提,著重強調CSK,第一次向世人展示了相關濾波的潛力,排第四還362FPS簡直逆天了。速度排第二的是經典算法CT(64fps)(與SCM, ASLA等都是那個年代最熱的稀疏表示)。如果對更早期的算法感興趣,推薦另一篇經典的survey(反正我是沒興趣也沒看過):

Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. CSUR, 2006.

2012年以前的算法基本就是這樣,自從2012年AlexNet問世以後,CV各個領域都有了巨大變化,所以我猜你肯定還想知道2013到2017年發生了什麼,抱歉我也不知道(容我賣個關子),不過我們可以肯定的是,2013年以後的論文一定都會引用OTB50這篇論文,藉助谷歌學術中的被引用次數功能,得到如下結果:


這裡僅列舉幾個引用量靠前的,依次是Struck轉TPAMI, 三大相關濾波方法KCF, CN, DSST, 和VOT競賽,這裡僅作示範,有興趣可以親自去試試。(這麼做的理論依據是:一篇論文,在它之前的工作可以看它的引用文獻,之後的工作可以看誰引用了它;雖然引用量並不能說明什麼,但好的方法大家基本都會引用的(表示尊重和認可);之後還可以通過限定時間來查看某段時間的相關論文,如2016-2017就能找到最新的論文了,至於論文質量需要仔細甄別;其他方向的重要論文也可以這麼用,順藤摸瓜,然後你就知道大牛是哪幾位,接著關注跟蹤一下他們的工作 ) 這樣我們就大致知道目標跟蹤領域的最新進展應該就是相關濾波無疑了,再往後還能看到相關濾波類算法有SAMF, LCT, HCF, SRDCF等等。當然,引用量也與時間有關,建議分每年來看。此外,最新版本OPENCV3.2除了TLD,也包括了幾個很新的跟蹤算法 OpenCV: Tracking API:

TrackerKCF接口實現了KCFCN,影響力可見一斑,還有個GOTURN是基於深度學習的方法,速度雖快但精度略差,值得去看看。tracking方向的最新論文,可以跟進三大會議(CVPR/ICCV/ECCV) 和arXiv。

第二部分:背景介紹

接下來總體介紹下目標跟蹤。這裡說的目標跟蹤,是通用單目標跟蹤,第一幀給個矩形框,這個框在資料庫裡面是人工標註的,在實際情況下大多是檢測算法的結果,然後需要跟蹤算法在後續幀緊跟住這個框,以下是VOT對跟蹤算法的要求:

通常目標跟蹤面臨幾大難點(吳毅在VALSE的slides):外觀變形,光照變化,快速運動和運動模糊,背景相似幹擾:

平面外旋轉,平面內旋轉,尺度變化,遮擋和出視野等情況:

正因為這些情況才讓tracking變得很難,目前比較常用的資料庫除了OTB,還有前面找到的VOT競賽資料庫(類比ImageNet),已經舉辦了四年,VOT2015和VOT2016都包括60個序列,所有序列也是免費下載 VOT Challenge | Challenges:

Kristan M, Pflugfelder R, Leonardis A, et al. The visual object tracking vot2013 challenge results [C]// ICCV, 2013.

Kristan M, Pflugfelder R, Leonardis A, et al. The Visual Object Tracking VOT2014 Challenge Results [C]// ECCV, 2014.

Kristan M, Matas J, Leonardis A, et al. The visual object tracking vot2015 challenge results [C]// ICCV, 2015.

Kristan M, Ales L, Jiri M, et al. The Visual Object Tracking VOT2016 Challenge Results [C]// ECCV, 2016.

OTB和VOT區別OTB包括25%的灰度序列,但VOT都是彩色序列,這也是造成很多顏色特徵算法性能差異的原因;兩個庫的評價指標不一樣,具體請參考論文;VOT庫的序列解析度普遍較高,這一點後面分析會提到。對於一個tracker,如果論文在兩個庫(最好是OTB100和VOT2016)上都結果上佳,那肯定是非常優秀的(兩個庫調參你能調好,我服,認了~~),如果只跑了一個,個人更偏向於VOT2016,因為序列都是精細標註,且評價指標更好(人家畢竟是競賽,評價指標發過TPAMI的),差別最大的地方,OTB有隨機幀開始,或矩形框加隨機幹擾初始化去跑,作者說這樣更加符合檢測算法給的框框;而VOT是第一幀初始化去跑,每次跟蹤失敗(預測框和標註框不重疊)時,5幀之後重新初始化,VOT以short-term為主,且認為跟蹤檢測應該在一起不分離,detecter會多次初始化tracker。

補充:OTB在2013年公開了,對於2013以後的算法是透明的,論文都會去調參,尤其是那些只跑OTB的論文,如果關鍵參數直接給出還精確到小數點後兩位,建議您先實測(人心不古啊~被坑的多了)。VOT競賽的資料庫是每年更新,還動不動就重新標註,動不動就改變評價指標,對當年算法是難度比較大,所以結果相對更可靠。(相信很多人和我一樣,看每篇論文都會覺得這個工作太好太重要了,如果沒有這篇論文,必定地球爆炸,宇宙重啟~~所以就像大家都通過歷年ILSVRC競賽結果為主線了解深度學習的發展一樣,第三方的結果更具說服力,所以我也以競賽排名+是否公開源碼+實測性能為標準,優選幾個算法分析)

目標視覺跟蹤(Visual Object Tracking),大家比較公認分為兩大類:生成(generative)模型方法和判別(discriminative)模型方法,目前比較流行的是判別類方法,也叫檢測跟蹤tracking-by-detection,為保持回答的完整性,以下簡單介紹。

生成類方法,在當前幀對目標區域建模,下一幀尋找與模型最相似的區域就是預測位置,比較著名的有卡爾曼濾波,粒子濾波,mean-shift等。舉個例子,從當前幀知道了目標區域80%是紅色,20%是綠色,然後在下一幀,搜索算法就像無頭蒼蠅,到處去找最符合這個顏色比例的區域,推薦算法ASMS vojirt/asms:

  • Vojir T, Noskova J, Matas J. Robust scale-adaptive mean-shift for tracking [J]. Pattern Recognition Letters, 2014.

ASMSDAT並稱「顏色雙雄」(版權所有翻版必究),都是僅顏色特徵的算法而且速度很快,依次是VOT2015的第20名和14名,在VOT2016分別是32名和31名(中等水平)。ASMS是VOT2015官方推薦的實時算法,平均幀率125FPS,在經典mean-shift框架下加入了尺度估計,經典顏色直方圖特徵,加入了兩個先驗(尺度不劇變+可能偏最大)作為正則項,和反向尺度一致性檢查。作者給了C++代碼,在相關濾波和深度學習盛行的年代,還能看到mean-shift打榜還有如此高的性價比實在不容易,實測性能還不錯,如果您對生成類方法情有獨鍾,這個非常推薦您去試試。

判別類方法,OTB50裡面的大部分方法都是這一類,CV中的經典套路圖像特徵+機器學習, 當前幀以目標區域為正樣本,背景區域為負樣本,機器學習方法訓練分類器,下一幀用訓練好的分類器找最優區域:

與生成類方法最大的區別是,分類器採用機器學習,訓練中用到了背景信息,這樣分類器就能專注區分前景和背景,所以判別類方法普遍都比生成類好。舉個例子,在訓練時告訴tracker目標80%是紅色,20%是綠色,還告訴它背景中有橘紅色,要格外注意別搞錯了,這樣的分類器知道更多信息,效果也相對更好。tracking-by-detection檢測算法非常相似,如經典行人檢測用HOG+SVM,Struck用到了haar+structured output SVM,跟蹤中為了尺度自適應也需要多尺度遍歷搜索,區別僅在於跟蹤算法對特徵和在線機器學習的速度要求更高,檢測範圍和尺度更小而已。這點其實並不意外,大多數情況檢測識別算法複雜度比較高不可能每幀都做,這時候用複雜度更低的跟蹤算法就很合適了,只需要在跟蹤失敗(drift)或一定間隔以後再次檢測去初始化tracker就可以了。其實我就想說,FPS才TMD是最重要的指標,慢的要死的算法可以去死了(同學別這麼偏激,速度是可以優化的)。經典判別類方法推薦StruckTLD,都能實時性能還行,Struck是2012年之前最好的方法,TLD是經典long-term的代表,思想非常值得借鑑:

Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels [J]. IEEE TPAMI, 2016.

Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE TPAMI, 2012.

長江後浪推前浪,前面的已被排在沙灘上,這個後浪就是相關濾波和深度學習。相關濾波類方法correlation filter簡稱CF,也叫做discriminative correlation filter簡稱DCF,注意和後面的DCF算法區別,包括前面提到的那幾個,也是後面要著重介紹的。深度學習(Deep ConvNet based)類方法,因為深度學習類目前不適合落地就不瞎推薦了,可以參考Winsty的幾篇 Naiyan Wang - Home,還有VOT2015的冠軍MDNet Learning Multi-Domain Convolutional Neural Networks for Visual Tracking,以及VOT2016的冠軍TCNN ,速度方面比較突出的如80FPS的SiamFC SiameseFC tracker和100FPS的GOTURN davheld/GOTURN,注意都是在GPU上。基於ResNet的SiamFC-R(ResNet)在VOT2016表現不錯,很看好後續發展,有興趣也可以去VALSE聽作者自己講解 VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu,至於GOTURN,效果比較差,但優勢是跑的很快100FPS,如果以後效果也能上來就好了。做科研的同學深度學習類是關鍵,能兼顧速度就更好了。

  • Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]// CVPR, 2016.

  • Nam H, Baek M, Han B. Modeling and propagating cnns in a tree structure for visual tracking. arXiv preprint arXiv:1608.07242, 2016.

  • Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]// ECCV, 2016.

  • Held D, Thrun S, Savarese S. Learning to track at 100 fps with deep regression networks [C]// ECCV, 2016.

最後,深度學習END2END的強大威力在目標跟蹤方向還遠沒有發揮出來,還沒有和相關濾波類方法拉開多大差距(速度慢是天生的我不怪你,但效果總該很好吧,不然你存在的意義是什麼呢。。革命尚未成功,同志仍須努力)。另一個需要注意的問題是目標跟蹤的資料庫都沒有嚴格的訓練集和測試集,需要離線訓練的深度學習方法就要非常注意它的訓練集有沒有相似序列,而且一直到VOT2017官方才指明要限制訓練集,不能用相似序列訓練模型。

最後強力推薦兩個資源。王強維護的benchmark_results :大量頂級方法在OTB庫上的性能對比,各種論文代碼應有盡有,大神自己C++實現並開源的CSK, KCF和DAT,還有他自己的DCFNet論文加源碼,找不著路的同學請跟緊。

@H Hakase維護的相關濾波類資源,詳細分類和論文代碼資源,走過路過別錯過,相關濾波類算法非常全面,非常之用心!

第三部分:相關濾波

介紹最經典的高速相關濾波類跟蹤算法CSK, KCF/DCF, CN。很多人最早了解CF,應該和我一樣,都是被下面這張圖吸引了:

這是KCF/DCF算法在OTB50上(2014年4月就掛arVix了, 那時候OTB100還沒有發表)的實驗結果,Precision和FPS碾壓了OTB50上最好的Struck,看慣了勉強實時的Struck和TLD,飆到高速的KCF/DCF突然有點讓人不敢相信,其實KCF/DCF就是在OTB上大放異彩的CSK的多通道特徵改進版本。注意到那個超高速615FPS的MOSSE(嚴重超速這是您的罰單),這是目標跟蹤領域的第一篇相關濾波類方法,這其實是真正第一次顯示了相關濾波的潛力。和KCF同一時期的還有個CN,在2014'CVPR上引起劇烈反響的顏色特徵方法,其實也是CSK的多通道顏色特徵改進算法。從MOSSE(615)到 CSK(362) 再到 KCF(172FPS), DCF(292FPS), CN(152FPS), CN2(202FPS),速度雖然是越來越慢,但效果越來越好,而且始終保持在高速水平:

  • Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR, 2010.

  • Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by- detection with kernels [C]// ECCV, 2012.

  • Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE TPAMI, 2015.

  • Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

CSK和KCF都是Henriques J F(牛津大學)João F. Henriques 大神先後兩篇論文,影響後來很多工作,核心部分的嶺回歸,循環移位的近似密集採樣,還給出了整個相關濾波算法的詳細推導。還有嶺回歸加kernel-trick的封閉解,多通道HOG特徵。

Martin Danelljan大牛(林雪平大學)用多通道顏色特徵Color Names(CN)去擴展CSK得到了不錯的效果,算法也簡稱CN

MOSSE是單通道灰度特徵的相關濾波,CSK在MOSSE的基礎上擴展了密集採樣(加padding)和kernel-trick,KCF在CSK的基礎上擴展了多通道梯度的HOG特徵,CN在CSK的基礎上擴展了多通道顏色的Color Names。HOG是梯度特徵,而CN是顏色特徵,兩者可以互補,所以HOG+CN在近兩年的跟蹤算法中成為了hand-craft特徵標配。最後,根據KCF/DCF的實驗結果,討論兩個問題:

1. 為什麼只用單通道灰度特徵的KCF和用了多通道HOG特徵的KCF速度差異很小?

第一,作者用了HOG的快速算法fHOG,來自Piotr's Computer Vision Matlab Toolbox,C代碼而且做了SSE優化。如對fHOG有疑問,請參考論文Object Detection with Discriminatively Trained Part Based Models第12頁。
第二,HOG特徵常用cell size是4,這就意味著,100*100的圖像,HOG特徵圖的維度只有25*25,而Raw pixels是灰度圖歸一化,維度依然是100*100,我們簡單算一下:27通道HOG特徵的複雜度是27*625*log(625)=47180,單通道灰度特徵的複雜度是10000*log(10000)=40000,理論上也差不多,符合表格。

看代碼會發現,作者在擴展後目標區域面積較大時,會先對提取到的圖像塊做因子2的下採樣到50*50,這樣複雜度就變成了2500*log(2500)=8495,下降了非常多。那你可能會想,如果下採樣再多一點,複雜度就更低了,但這是以犧牲跟蹤精度為代價的,再舉個例子,如果圖像塊面積為200*200,先下採樣到100*100,再提取HOG特徵,解析度降到了25*25,這就意味著響應圖的解析度也是25*25,也就是說,響應圖每位移1個像素,原始圖像中跟蹤框要移動8個像素,這樣就降低了跟蹤精度。在精度要求不高時,完全可以稍微犧牲下精度提高幀率(但看起來真的不能再下採樣了)。

2. HOG特徵的KCF和DCF哪個更好?

大部分人都會認為KCF效果超過DCF,而且各屬性的準確度都在DCF之上,然而,如果換個角度來看,以DCF為基準,再來看加了kernel-trick的KCF,mean precision僅提高了0.4%,而FPS下降了41%,這麼看是不是挺驚訝的呢?除了圖像塊像素總數,KCF的複雜度還主要和kernel-trick相關。所以,下文中的CF方法如果沒有kernel-trick,就簡稱基於DCF,如果加了kernel-trick,就簡稱基於KCF(劇透基本各佔一半)。當然這裡的CN也有kernel-trick,但請注意,這是Martin Danelljan大神第一次使用kernel-trick,也是最後一次。。。

這就會引發一個疑問,kernel-trick這麼強大的東西,怎麼才提高這麼點?這裡就不得不提到Winsty的另一篇大作:

  • Wang N, Shi J, Yeung D Y, et al. Understanding and diagnosing visual tracking systems[C]// ICCV, 2015.

一句話總結,別看那些五花八門的機器學習方法,那都是虛的,目標跟蹤算法中特徵才是最重要的(就是因為這篇文章我粉了WIN叔哈哈),以上就是最經典的三個高速算法,CSK, KCF/DCF和CN,推薦。

第四部分:14年的尺度自適應

VOT與OTB一樣最早都是2013年出現的,但VOT2013序列太少,第一名的PLT代碼也找不到,沒有參考價值就直接跳過了。直接到了VOT2014競賽 (http://t.cn/RYh2FSL)。這一年有25個精挑細選的序列,38個算法,那時候深度學習的戰火還沒有燒到tracking,所以主角也只能是剛剛展露頭角就獨霸一方的CF,下面是前幾名的詳細情況:

前三名都是相關濾波CF類方法,第三名的KCF已經很熟悉了,這裡稍微有點區別就是加了多尺度檢測和子像素峰值估計,再加上VOT序列的解析度比較高(檢測更新圖像塊的解析度比較高),導致競賽中的KCF的速度只有24.23(EFO換算66.6FPS)。這裡speed是EFO(Equivalent Filter Operations),在VOT2015和VOT2016裡面也用這個參數衡量算法速度,這裡一次性列出來供參考(MATLAB實現的tracker實際速度要更高一些):

其實前三名除了特徵略有差異,核心都是KCF為基礎擴展了多尺度檢測,概要如下:

尺度變化是跟蹤中比較基礎和常見的問題,前面介紹的KCF/DCF和CN都沒有尺度更新,如果目標縮小,濾波器就會學習到大量背景信息,如果目標擴大,濾波器就跟著目標局部紋理走了,這兩種情況都很可能出現非預期的結果,導致漂移和失敗。

SAMF,浙大Yang Li的工作,基於KCF,特徵是HOG+CN,多尺度方法是平移濾波器在多尺度縮放的圖像塊上進行目標檢測,取響應最大的那個平移位置及所在尺度:

Martin Danelljan的DSST,只用了HOG特徵,DCF用於平移位置檢測,又專門訓練類似MOSSE的相關濾波器檢測尺度變化,開創了平移濾波+尺度濾波,之後轉TPAMI做了一系列加速的版本fDSST,非常+非常+非常推薦:

  • Danelljan M, Häger G, Khan F, et al. Accurate scale estimation for robust visual tracking [C]// BMVC, 2014.

  • Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.

簡單對比下這兩種尺度自適應的方法:

DSST和SAMF所採用的尺度檢測方法哪個更好?

首先給大家講個笑話:Martin Danelljan大神提出DSST之後,他的後續論文就再沒有用過(直到最新CVPR的ECO-HC中為了加速用了fDSST)。

  1. 雖然SAMF和DSST都可以跟上普通的目標尺度變化,但SAMF只有7個尺度比較粗,而DSST有33個尺度比較精細準確;

  2. DSST先檢測最佳平移再檢測最佳尺度,是分步最優,而SAMF是平移尺度一起檢測,是平移和尺度同時最優,而往往局部最優和全局最優是不一樣的;

  3. DSST將跟蹤劃分為平移跟蹤和尺度跟蹤兩個問題,可以採用不同的方法和特徵,更加靈活,但需要額外訓練一個濾波器,每幀尺度檢測需要採樣33個圖像塊,之後分別計算特徵、加窗、FFT等,尺度濾波器比平移濾波器慢很多;SAMF只需要一個濾波器,不需要額外訓練和存儲,每個尺度檢測就一次提特徵和FFT,但在圖像塊較大時計算量比DSST高。

所以尺度檢測DSST並不總是比SAMF好,其實在VOT2015和VOT2016上SAMF都是超過DSST的,當然這主要是因為特徵更好,但至少說明尺度方法不差。總的來說,DSST做法非常新穎,速度更快,SAMF同樣優秀也更加準確。

DSST一定要33個尺度嗎?

DSST標配33個尺度非常非常敏感,輕易降低尺度數量,即使你增加相應步長,尺度濾波器也會完全跟不上尺度變化。關於這一點可能解釋是,訓練尺度濾波器用的是一維樣本,而且沒有循環移位,這就意味著一次訓練更新只有33個樣本,如果降低樣本數量,會造成訓練不足,分類器判別力嚴重下降,不像平移濾波器有非常多的移位樣本(個人看法歡迎交流)。總之,請不要輕易嘗試大幅降低尺度數量,如果非要用尺度濾波器33和1.02就很好。

以上就是兩種推薦的尺度檢測方法,以後簡稱為類似DSST的多尺度和類似SAMF的多尺度。如果更看重速度,加速版的fDSST,和僅3個尺度的SAMF(如VOT2014中的KCF)就是比較好的選擇;如果更看重精確,33個尺度的DSST,及7個尺度的SAMF就比較合適。

(未完待續)


【計算機視覺基礎入門課程(從算法到實戰應用】

上海交通大學博士講師團隊,BAT實習背景;手把手項目演示,全程提供代碼;從算法到實戰應用,涵蓋CV領域主要知識點;深度剖析CV研究體系,輕鬆實戰深度學習應用領域!

課程地址:https://www.leiphone.com/special/mooc/05.html

加入AI慕課學院人工智慧學習交流QQ群:624413030,與AI同行一起交流成長



相關文章:

算法到實戰,如何零基礎入門計算機視覺領域

計算機視覺中,有哪些比較好的目標跟蹤算法?(下)

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 計算機視覺中,究竟有哪些好用的目標跟蹤算法(下)
    【計算機視覺中,目前有哪些經典的目標跟蹤算法?】上部分內容請查閱計算機視覺中,究竟有哪些好用的目標跟蹤算法(上)五VOT2015競賽 VOT2015 Challenge | Home(http://votchallenge.net/vot2015/) 如期而至,這一年有60個精挑細選的序列,62個tracker,最大看點是深度學習開始進擊tracking,MDNet
  • 深度長文:計算機視覺中,目前有哪些經典的目標跟蹤算法?
    等,大都是頂會轉頂刊的神作,由於之前沒有比較公認的資料庫,論文都是自賣自誇,大家也不知道到底哪個好用,所以這個database的意義非常重大,直接促進了跟蹤算法的發展,後來又擴展為OTB100發到TPAMI,有100個序列,難度更大更加權威,我們這裡參考OTB100的結果,首先是29個tracker的速度和發表時間(標出了一些性能速度都比較好的算法):接下來再看結果(更加詳細的情況建議您去看論文比較清晰
  • 臉書開源Detectron計算機視覺算法
    【網易智能訊 1月26日消息】Facebook本周宣布Detectron開放原始碼正式向大眾公開,該項目也是Facebook基於深度學習框架進行設計的關於計算機視覺對象檢測算法平臺。該公司表示,開放該項目的動機是加速計算機視覺研究,並且Facebook公司內部團隊正在使用該代碼進行各種應用測試,其中就包括針對增強現實技術的研究。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    單目微運動生成深度圖計算機視覺方向簡介 | 深度相機室內實時稠密三維重建計算機視覺方向簡介 | 深度圖補全計算機視覺方向簡介 | 人體骨骼關鍵點檢測綜述計算機視覺方向簡介 | 人臉識別中的活體檢測算法綜述計算機視覺方向簡介 | 目標檢測最新進展總結與展望計算機視覺方向簡介 |
  • 目標檢測與行為跟蹤 智能分析三大應用
    2目標跟蹤技術與行為識別  2、目標跟蹤技術  目標跟蹤(Object Tracking)就是通過對攝像頭採集到的圖象序列進行計算分析,計算出目標在每幀圖像上的二維位置坐標,並根據不同的特徵值,將圖像序列中不同幀中同一運動目標關聯起來,得到各個運動目標完整的運動軌跡,也就是在連續的視頻序列建立運動目標的對應關係
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 移動機器人的幾種視覺算法 | 雷鋒網公開課
    視覺算法的基礎:傳感器Q:智慧型手機上的攝像頭可以作為機器人的眼睛嗎?所有視覺算法的基礎說到底來自於機器人腦袋上的視覺傳感器,就好比人的眼睛和夜間視力非常好的動物相比,表現出來的感知能力是完全不同的。因此在光路中加上IR濾光片,是為了去除太陽光線中紅外光對CMOS的幹擾。加上濾光片後,通常圖像的對比度會得到顯著的提升。Q:計算機視覺中還會用到什麼傳感器?除了RGB相機,計算機視覺中常用的還有其他種類的特殊相機。例如有一種相機的濾光片是只允許通過紅外光波段的。
  • 大華股份AI視頻跟蹤算法榮獲VOT2020國際競賽冠軍
    從美通社獲知,近日,由計算機視覺會議ECCV聯合舉辦的視覺目標跟蹤國際競賽VOT2020落下帷幕,大華股份基於AI的RPT視覺跟蹤算法憑藉優異的評測成績,從全球知名企業、高校研究所共37支團隊中脫穎而出,奪得VOT2020 challenge主賽道,(VOT-ST2020 Winner),取得標誌性突破,彰顯了大華在視覺目標跟蹤領域深厚的技術積澱
  • AR算法原理及深度學習在計算機視覺中的應用
    去年以來,越來越多的AR技術被用在各大網際網路公司APP的營銷場景中,其中最多的便是AR識別和追蹤。
  • 盤點中國十大計算機視覺公司
    本文引用地址:http://www.eepw.com.cn/article/201608/296294.htm  計算機視覺與機器視覺  計算機視覺是一門研究如何使機器「看」的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像
  • 無需標註數據集,自監督注意力機制就能搞定目標跟蹤
    想要了解什麼是自監督注意力機制,我們可能需要先去了解什麼是光流估計(optical flow estimation),以及它為何被人類和計算機視覺系統作為一種目標跟蹤方法。一般來說,嬰兒在 2 至 3 個月大的早期階段就具有目標跟蹤的本能。然而,從神經生理學的層面上講,人類視覺系統的實際工作機制仍然有些模糊。
  • 一文全覽深度學習在計算機視覺領域的應用
    不得不說,CNN非常適合2-D信號的處理任務,RNN呢,是時域上的拓展。現在CNN在計算機視覺應用的非常成功,傳統機器學習方法基本被棄之不用。順便加一個,雷射雷達數據做Odometry的CNN模型:3 SLAM (Mono, Stereo, RGB-D, LiDAR)/SFM;運動恢復結構是基於背景不動的前提,計算機視覺的同行喜歡SFM這個術語,而機器人的peers稱之為SLAM。SLAM比較看重工程化的解決方案,SFM理論上貢獻大。
  • 基於FPGA的移動目標實時定位跟蹤系統
    基於實時物體移動的靜態圖像背景中移動目標檢測是計算機視覺領域的研究熱點,在安防、監控、智能交通、機器智慧、以及軍事領域等社會生活和軍事防禦等諸多領域都有較大的實用價值。移動目標檢測的實質是從實時圖像序列中將圖像的變化區域從整體圖像中分割提取出來。
  • 目標檢測與跟蹤概述
    隨著信息技術的發展,基於視覺的運動目標的檢測與跟蹤已逐漸滲透到人們生活的方方面面,其重要性日益突出,吸引著越來越多的國內外學者和研究機構參與在這個領域的研究。目前,基於視覺的運動目標檢測與跟蹤已廣泛應用於視頻監控、虛擬實境、人機互動、行星探測、行為理解等領域。
  • 滴普技術薈:基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 基於Nios II的視頻運動目標檢測跟蹤系統設計
    摘要:文章是以Nios II處理器為中心的視頻運動目標檢測跟蹤系統,通過CMOS圖像傳感器採集視頻圖像信息,採用幀間差分法檢測運動目標,形心跟蹤算法對目標進行跟蹤,最後在VGA顯示器上顯示視頻中運動物體。
  • 加速AR對象分類,Facebook開源計算機視覺算法Detectron
    >)Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron。Facebook表示,開源項目是為了加速計算機視覺的研究。目前Facebook內部團隊正把Detectron平臺用於一系列的研究,比如增強現實。在2017年9月30日的一篇文章中,映維網曾介紹過實時對象分類是AR面臨的一大挑戰:令計算機視覺能夠理解「杯子」,而不僅僅只是看到一個形狀,這是一個非常重要的問題。
  • 視覺感知-從人類視覺到計算機視覺
    人們可以從少量信息中獲取相關環境的大量信息。例如給定一幅圖像,我們可以利用上下文和先驗知識得知整個故事。 但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。
  • 基於平面投影的單目視覺AGV 定位算法
    曹小華 任曉玉0 引言視覺定位是計算機視覺中的一個重要研究問題,廣泛應用於機器人自主導航、機器人定位、視覺伺服、攝像機校正、目標跟蹤、視覺檢測、物品識別和工業零部件裝配等領域。近年來,計算機視覺飛速發展,湧現出大量的技術與算法,如主動視覺、面向任務的視覺、基於知識的視覺、基於模型的視覺以及多傳感器和集成視覺等方法[1]。根據使用鏡頭數目分類,計算機視覺分為單目視覺定位、雙目視覺定位與多目視覺定位。雙目立體視覺是基於視差原理,由多幅圖像獲取物體三維幾何信息。