深度學習在目標跟蹤中的應用

2020-12-17 雷鋒網

雷鋒網按:本文作者徐霞清,中國科學院計算技術研究所VIPL組碩士生,導師常虹副研究員。研究方向為深度學習與計算機視覺(目標跟蹤等)。

開始本文之前,我們首先看上方給出的3張圖片,它們分別是同一個視頻的第1,40,80幀。在第1幀給出一個跑步者的邊框(bounding-box)之後,後續的第40幀,80幀,bounding-box依然準確圈出了同一個跑步者。以上展示的其實就是目標跟蹤(visual object tracking)的過程。目標跟蹤(特指單目標跟蹤)是指:給出目標在跟蹤視頻第一幀中的初始狀態(如位置,尺寸),自動估計目標物體在後續幀中的狀態。

人眼可以比較輕鬆的在一段時間內跟住某個特定目標。但是對機器而言,這一任務並不簡單,尤其是跟蹤過程中會出現目標發生劇烈形變、被其他目標遮擋或出現相似物體幹擾等等各種複雜的情況。過去幾十年以來,目標跟蹤的研究取得了長足的發展,尤其是各種機器學習算法被引入以來,目標跟蹤算法呈現百花齊放的態勢。2013年以來,深度學習方法開始在目標跟蹤領域展露頭腳,並逐漸在性能上超越傳統方法,取得巨大的突破。本文首先簡要介紹主流的傳統目標跟蹤方法,之後對基於深度學習的目標跟蹤算法進行介紹,最後對深度學習在目標跟蹤領域的應用進行總結和展望。

|經典目標跟蹤方法

目前跟蹤算法可以被分為產生式(generative model)和判別式(discriminative model)兩大類別。

產生式方法運用生成模型描述目標的表觀特徵,之後通過搜索候選目標來最小化重構誤差。比較有代表性的算法有稀疏編碼(sparse coding),在線密度估計(online density estimation)和主成分分析(PCA)等。產生式方法著眼於對目標本身的刻畫,忽略背景信息,在目標自身變化劇烈或者被遮擋時容易產生漂移。

與之相對的,判別式方法通過訓練分類器來區分目標和背景。這種方法也常被稱為tracking-by-detection。近年來,各種機器學習算法被應用在判別式方法上,其中比較有代表性的有多示例學習方法(multiple instance learning), boosting和結構SVM(structured SVM)等。

判別式方法因為顯著區分背景和前景的信息,表現更為魯棒,逐漸在目標跟蹤領域佔據主流地位。值得一提的是,目前大部分深度學習目標跟蹤方法也歸屬於判別式框架。

近年來,基於相關濾波(correlation filter)的跟蹤方法因為速度快,效果好吸引了眾多研究者的目光。相關濾波器通過將輸入特徵回歸為目標高斯分布來訓練 filters。並在後續跟蹤中尋找預測分布中的響應峰值來定位目標的位置。

相關濾波器在運算中巧妙應用快速傅立葉變換獲得了大幅度速度提升。目前基於相關濾波的拓展方法也有很多,包括核化相關濾波器(kernelized correlation filter, KCF), 加尺度估計的相關濾波器(DSST)等。

|基於深度學習的目標跟蹤方法

不同於檢測、識別等視覺領域深度學習一統天下的趨勢,深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練數據的缺失:深度模型的魔力之一來自於對大量標註訓練數據的有效學習,而目標跟蹤僅僅提供第一幀的bounding-box作為訓練數據。

這種情況下,在跟蹤開始針對當前目標從頭訓練一個深度模型困難重重。目前基於深度學習的目標跟蹤算法採用了幾種思路來解決這個問題,下面將依據思路的不同展開介紹,並在最後介紹目前跟蹤領域出現的運用遞歸神經網絡(recurrent neural network)解決目標跟蹤問題的新思路。

一、利用輔助圖片數據預訓練深度模型,在線跟蹤時微調

在目標跟蹤的訓練數據非常有限的情況下,使用輔助的非跟蹤訓練數據進行預訓練,獲取對物體特徵的通用表示(general representation ),在實際跟蹤時,通過利用當前跟蹤目標的有限樣本信息對預訓練模型微調(fine-tune), 使模型對當前跟蹤目標有更強的分類性能,這種遷移學習的思路極大的減少了對跟蹤目標訓練樣本的需求,也提高了跟蹤算法的性能。

這個方面代表性的作品有DLT和SO-DLT,都出自香港科技大學王乃巖博士。

DLT(NIPS2013)

Learning a Deep Compact Image Representation for Visual Tracking

DLT是第一個把深度模型運用在單目標跟蹤任務上的跟蹤算法。它的主體思路如上圖所示:

(1)   先使用棧式降噪自編碼器(stacked denoising autoencoder,SDAE)在Tiny Images dataset這樣的大規模自然圖像數據集上進行無監督的離線預訓練來獲得通用的物體表徵能力。預訓練的網絡結構如上圖(b)所示,一共堆疊了4個降噪自編碼器, 降噪自編碼器對輸入加入噪聲,通過重構出無噪聲的原圖來獲得更魯棒的特徵表達能力。SDAE1024-2560-1024-512-256這樣的瓶頸式結構設計也使獲得的特徵更加compact。


(2)   之後的在線跟蹤部分結構如上圖(c)所示,取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網絡。此時的網絡並沒有獲取對當前被跟蹤物體的特定表達能力。此時利用第一幀獲取正負樣本,對分類網絡進行fine-tune獲得對當前跟蹤目標和背景更有針對性的分類網絡。在跟蹤過程中,對當前幀採用粒子濾波(particle filter)的方式提取一批候選的patch(相當於detection中的proposal),這些patch輸入分類網絡中,置信度最高的成為最終的預測目標。


(3)   在目標跟蹤非常重要的模型更新策略上,該論文採取限定閾值的方式,即當所有粒子中最高的confidence低於閾值時,認為目標已經發生了比較大的表觀變化,當前的分類網絡已經無法適應,需要進行更新。

小結:DLT作為第一個將深度網絡運用於單目標跟蹤的跟蹤算法,首先提出了「離線預訓練+在線微調」的思路,很大程度的解決了跟蹤中訓練樣本不足的問題,在CVPR2013提出的OTB50數據集上的29個跟蹤器中排名第5。

但是DLT本身也存在一些不足

(1)   離線預訓練採用的數據集Tiny Images dataset只包含32*32大小的圖片,解析度明顯低於主要的跟蹤序列,因此SDAE很難學到足夠強的特徵表示。


(2)   離線階段的訓練目標為圖片重構,這與在線跟蹤需要區分目標和背景的目標相差甚大。


(3)   SDAE全連接的網絡結構使其對目標的特徵刻畫能力不夠優秀,雖然使用了4層的深度模型,但效果仍低於一些使用人工特徵的傳統跟蹤方法如Struck等。

SO-DLT(arXiv2015)

Transferring Rich Feature Hierarchies for Robust Visual Tracking

SO-DLT延續了DLT利用非跟蹤數據預訓練加在線微調的策略,來解決跟蹤過程中訓練數據不足的問題,同時也對DLT存在的問題做了很大的改進。

(1)   使用CNN作為獲取特徵和分類的網絡模型。如上圖所示,SO-DLT使用了的類似AlexNet的網絡結構,但是有幾大特點

一、針對跟蹤候選區域的大小將輸入縮小為100*100,而不是一般分類或檢測任務中的224*224。


二、網絡的輸出為50*50大小,值在0-1之間的概率圖(probability map),每個輸出像素對應原圖2*2的區域,輸出值越高則該點在目標bounding-box中的概率也越高。這樣的做法利用了圖片本身的結構化信息,方便直接從概率圖確定最終的bounding-box,避免向網絡輸入數以百計的proposal,這也是SO-DLT structured output得名的由來。


三、在卷積層和全連接層中間採用SPP-NET中的空間金字塔採樣(spatial pyramid pooling)來提高最終的定位準確度。

(2)   在離線訓練中使用ImageNet 2014的detection數據集使CNN獲得區分object和非object(背景)的能力。

SO-DLT在線跟蹤的pipeline如上圖所示:

(1)   處理第t幀時,首先以第t-1幀的的預測位置為中心,從小到大以不同尺度crop區域放入CNN當中,當CNN輸出的probability map的總和高於一定閾值時,停止crop, 以當前尺度作為最佳的搜索區域大小。


(2)   選定第t幀的最佳搜索區域後,在該區域輸出的probability map上採取一系列策略確定最終的bounding-box中心位置和大小。


(3)   在模型更新方面,為了解決使用不準確結果fine-tune導致的drift問題,使用了long-term 和short-term兩個CNN,即CNNS和CNNL。CNNS更新頻繁,使其對目標的表觀變化及時響應。CNNL更新較少,使其對錯誤結果更加魯棒。二者結合,取最confident的結果作為輸出。從而在adaptation和drift之間達到一個均衡。

小結:SO-DLT作為large-scale CNN網絡在目標跟蹤領域的一次成功應用,取得了非常優異的表現:在CVPR2013提出的OTB50數據集上OPE準確度繪圖(precision plot)達到了0.819, OPE成功率繪圖(success plot)達到了0.602。遠超當時其它的state of the art。

SO-DLT有幾點值得借鑑:

(1)   針對tracking問題設計了有針對性的網絡結構。


(2)   應用CNNS和CNNL用ensemble的思路解決update 的敏感性,特定參數取多值做平滑,解決參數取值的敏感性。這些措施目前已成為跟蹤算法提高評分的殺手鐧。

但是SO-DLT離線預訓練依然使用的是大量無關聯圖片,作者認為使用更貼合跟蹤實質的時序關聯數據是一個更好的選擇。

二、利用現有大規模分類數據集預訓練的CNN分類網絡提取特徵

2015年以來,在目標跟蹤領域應用深度學習興起了一股新的潮流。即直接使用ImageNet這樣的大規模分類資料庫上訓練出的CNN網絡如VGG-Net獲得目標的特徵表示,之後再用觀測模型(observation model)進行分類獲得跟蹤結果。

這種做法既避開了跟蹤時直接訓練large-scale CNN樣本不足的困境,也充分利用了深度特徵強大的表徵能力。這樣的工作在ICML15,ICCV15,CVPR16均有出現。下面介紹兩篇發表於ICCV15的工作。

FCNT(ICCV15)

Visual Tracking with Fully Convolutional Networks

作為應用CNN特徵於物體跟蹤的代表作品,FCNT的亮點之一在於對ImageNet上預訓練得到的CNN特徵在目標跟蹤任務上的性能做了深入的分析,並根據分析結果設計了後續的網絡結構。

FCNT主要對VGG-16的Conv4-3和Conv5-3層輸出的特徵圖譜(feature map)做了分析,並得出以下結論:

(1)   CNN 的feature map可以用來做跟蹤目標的定位。


(2)   CNN 的許多feature map存在噪聲或者和物體跟蹤區分目標和背景的任務關聯較小。


(3)   CNN不同層的特徵特點不一。高層(Conv5-3)特徵擅長區分不同類別的物體,對目標的形變和遮擋非常魯棒,但是對類內物體的區分能力非常差。低層(Conv4-3)特徵更關注目標的局部細節,可以用來區分背景中相似的distractor,但是對目標的劇烈形變非常不魯棒。

依據以上分析,FCNT最終形成了如上圖所示的框架結構:

(1)   對於Conv4-3和Conv5-3特徵分別構建特徵選擇網絡sel-CNN(1層dropout加1層卷積),選出和當前跟蹤目標最相關的feature map channel。


(2)   對篩選出的Conv5-3和Conv4-3特徵分別構建捕捉類別信息的GNet和區分distractor(背景相似物體)的SNet(都是兩層卷積結構)。


(3)   在第一幀中使用給出的bounding-box生成熱度圖(heat map)回歸訓練sel-CNN, GNet和SNet。


(4)   對於每一幀,以上一幀預測結果為中心crop出一塊區域,之後分別輸入GNet和SNet,得到兩個預測的heatmap,並根據是否有distractor決定使用哪個heatmap 生成最終的跟蹤結果。

小結:FCNT根據對CNN不同層特徵的分析,構建特徵篩選網絡和兩個互補的heat-map預測網絡。達到有效抑制distractor防止跟蹤器漂移,同時對目標本身的形變更加魯棒的效果,也是ensemble思路的又一成功實現。

在CVPR2013提出的OTB50數據集上OPE準確度繪圖(precision plot)達到了0.856,OPE成功率繪圖(success plot)達到了0.599,準確度繪圖有較大提高。實際測試中FCNT的對遮擋的表現不是很魯棒,現有的更新策略還有提高空間。

Hierarchical Convolutional Features for Visual Tracking(ICCV15)

這篇是作者在2015年度看到的最簡潔有效的利用深度特徵做跟蹤的論文。其主要思路是提取深度特徵,之後利用相關濾波器確定最終的bounding-box。

這篇論文簡要分析了VGG-19特徵( Conv3_4, Conv4_4, Conv5_4 )在目標跟蹤上的特性,得出的結論和FCNT有異曲同工之處,即:

(1)   高層特徵主要反映目標的語義特性,對目標的表觀變化比較魯棒。


(2)   低層特徵保存了更多細粒度的空間特性,對跟蹤目標的精確定位更有效。

基於以上結論,作者給出了一個粗粒度到細粒度(coarse-to-fine)的跟蹤算法即:

(1)   第一幀時,利用Conv3_4,Conv4_4,Conv5_4特徵的插值分別訓練得到3個相關濾波器。


(2)   之後的每幀,以上一幀的預測結果為中心crop出一塊區域,獲取三個卷積層的特徵,做插值,並通過每層的相關濾波器預測二維的confidence score。


(3)   從Conv5_4開始算出confidence score上最大的響應點,作為預測的bounding-box的中心位置,之後以這個位置約束下一層的搜索範圍,逐層向下做更細粒度的位置預測,以最低層的預測結果作為最後輸出。具體公式如下:


(4)   利用當前跟蹤結果對每一層的相關濾波器做更新。

小結:這篇文章針對VGG-19各層特徵的特點,由粗粒度到細粒度最終準確定位目標的中心點。在CVPR2013提出的OTB50數據集上OPE準確度繪圖達到了0.891,OPE成功率繪圖達到了0.605,相較於FCNT和SO-DLT都有提高,實際測試時性能也相當穩定,顯示出深度特徵結合相關濾波器的巨大優勢。

但是這篇文章中的相關濾波器並沒有對尺度進行處理,在整個跟蹤序列中都假定目標尺度不變。在一些尺度變化非常劇烈的測試序列上如CarScale上最終預測出的bounding-box尺寸大小和目標本身大小相差較大。

以上兩篇文章均是應用預訓練的CNN網絡提取特徵提高跟蹤性能的成功案例,說明利用這種思路解決訓練數據缺失和提高性能具有很高的可行性。但是分類任務預訓練的CNN網絡本身更關注區分類間物體,忽略類內差別。

目標跟蹤時只關注一個物體,重點區分該物體和背景信息,明顯抑制背景中的同類物體,但是還需要對目標本身的變化魯棒。分類任務以相似的一眾物體為一類,跟蹤任務以同一個物體的不同表觀為一類,使得這兩個任務存在很大差別,這也是兩篇文章融合多層特徵來做跟蹤以達到較理想效果的動機所在。

三、利用跟蹤序列預訓練,在線跟蹤時微調

1和2中介紹的解決訓練數據不足的策略和目標跟蹤的任務本身存在一定偏離。有沒有更好的辦法呢?

VOT2015冠軍MDNet給出了一個示範。該方法在OTB50上也取得了OPE準確度繪圖0.942,OPE成功率繪圖0.702的驚人得分。

MDNet(CVPR2016)

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

意識到圖像分類任務和跟蹤之間存在巨大差別,MDNet提出直接用跟蹤視頻預訓練CNN獲得general的目標表示能力的方法。但是序列訓練也存在問題,即不同跟蹤序列跟蹤目標完全不一樣,某類物體在一個序列中是跟蹤目標,在另外一個序列中可能只是背景。

不同序列中目標本身的表觀和運動模式、環境中光照、遮擋等情形相差甚大。這種情況下,想要用同一個CNN完成所有訓練序列中前景和背景區分的任務,困難重重。


最終MDNet提出Multi-Domain的訓練思路和如上圖所示的Multi-Domain Network。該網絡分為共享層和domain-specific層兩部分。

即: 將每個訓練序列當成一個單獨的domain,每個domain都有一個針對它的二分類層(fc6),用於區分當前序列的前景和背景,而網絡之前的所有層都是序列共享的。這樣共享層達到了學習跟蹤序列中目標general的特徵表達的目的,而domain-specific層又解決了不同訓練序列分類目標不一致的問題。

具體訓練時,MDNet的每個mini-batch只由一個特定序列的訓練數據構成,只更新共享層和針對當前序列的特定fc6層。這樣共享層中獲得了對序列共有特徵的表達能力,如對光照、形變等的魯棒性。MDNet的訓練數據也非常有意思,即測試OTB100數據集時,利用VOT2013-2015的不重合的58個序列來做預訓練。測試VOT2014數據集時,利用OTB100上不重合的89個序列做預訓練。這種交替利用的思路也是第一次在跟蹤論文中出現。

在線跟蹤階段針對每個跟蹤序列,MDNet主要有以下幾步:

(1)   隨機初始化一個新的fc6層。


(2)   使用第一幀的數據來訓練該序列的bounding box回歸模型。


(3)   用第一幀提取正樣本和負樣本,更新fc4, fc5和fc6層的權重。


(4)   之後產生256個候選樣本,並從中選擇置信度最高的,之後做bounding-box regression得到最終結果。


(5)   當前幀最終結果置信度較高時,採樣更新樣本庫,否則根據情況對模型做短期或者長期更新。

MDNet有兩點值得借鑑之處:

(1)   MDNet應用了更為貼合跟蹤實質的視頻數據來做訓練,並提出了創新的Multi-domain訓練方法和訓練數據交叉運用的思路。


(2)   此外MDNet從檢測任務中借鑑了不少行之有效的策略,如難例挖掘(hard negative mining),bounding box回歸等。尤其是難例回歸通過重點關注背景中的難點樣本(如相似物體等)顯著減輕了跟蹤器漂移的問題。這些策略也幫助MDNet在TPAMI2015 OTB100數據集上OPE準確度繪圖從一開始的0.825提升到0.908, OPE成功率繪圖從一開始的0.589提升到0.673。

但是也可以發現MDNet的總體思路和RCNN比較類似,需要前向傳遞上百個proposal,雖然網絡結構較小,速度仍較慢。且boundingbox回歸也需要單獨訓練,因此MDNet還有進一步提升的空間。

四、運用遞歸神經網絡進行目標跟蹤的新思路

近年來RNN尤其是帶有門結構的LSTM,GRU等在時序任務上顯示出了突出的性能。不少研究者開始探索如何應用RNN來做解決現有跟蹤任務中存在的問題,以下簡要介紹兩篇在這方面比較有代表性的探索文章。

RTT(CVPR16)

Recurrently Target-Attending Tracking

這篇文章的出發點比較有意思,即利用多方向遞歸神經網絡(multi-directional recurrent neural network)來建模和挖掘對整體跟蹤有用的可靠目標部分(reliable part),實際上是二維平面上的RNN建模,最終解決預測誤差累積和傳播導致的跟蹤漂移問題。其本身也是對part-based跟蹤方法和相關濾波(correlation filter)方法的改進和探索。

RTT的整體框架如上圖所示:

(1)   首先對每一幀的候選區域進行網狀分塊,對每個分塊提取HOG特徵,最終相連獲得基於塊的特徵。

(2)   得到分塊特徵以後,RTT利用前5幀訓練多方向RNN來學習分塊之間大範圍的空間關聯。

通過在4個方向上的前向推進,RNN計算出每個分塊的置信度,最終每個塊的預測值組成了整個候選區域的置信圖(confidence map)。受益於RNN的recurrent結構,每個分塊的輸出值都受到其他關聯分塊的影響,相比於僅僅考慮當前塊的準確度更高,避免單個方向上遮擋等的影響,增加可靠目標部分在整體置信圖中的影響。


(3)   由RNN得出置信圖之後,RTT執行了另外一條pipeline。即訓練相關濾波器來獲得最終的跟蹤結果。值得注意的是,在訓練過程中RNN的置信圖對不同塊的filter做了加權,達到抑制背景中的相似物體,增強可靠部分的效果。


(4)   RTT提出了一個判斷當前跟蹤物體是否被遮擋的策略,用其判斷是否更新。即計算目標區域的置信度和,並與歷史置信度和的移動平均數(moving average)做一個對比,低於一定比例,則認為受到遮擋,停止模型更新,防止引入噪聲。

小結:RTT是第一個利用RNN來建模part-based跟蹤任務中複雜的大範圍關聯關係的跟蹤算法。在CVPR2013提出的OTB50數據集上OPE準確度繪圖為0.827,OPE成功率繪圖達到了0.588。相比於其他基於傳統特徵的相關濾波器算法有較大的提升,說明RNN對關聯關係的挖掘和對濾波器的約束確實有效。RTT受制於參數數目的影響,只選用了參數較少的普通RNN結構(採用HOG特徵其實也是降低參數的另外一種折中策略)。結合之前介紹的解決訓練數據缺失的措施,RTT可以運用更好的特徵和RNN結構,效果還有提升空間。

DeepTracking: Seeing Beyond Seeing Using Recurrent Neural Networks(AAAI16)

這篇文章的應用場景是機器人視覺,目標是將傳感器獲得的有遮擋的環境信息還原為真實的無遮擋的環境信息。嚴格來說這篇文章僅輸出還原後的圖片,沒有明確預測目標的位置和尺寸等狀態信息,和之前介紹的所有文章的做法都不一樣,不妨稱為一種新的跟蹤任務。

在模型方面,不同於RTT用RNN建模二維平面關聯,DeepTracking利用RNN來做序列關聯的建模,並最終實現了端到端的跟蹤算法。

傳統的貝葉斯跟蹤方法一般採用高斯分布(卡爾曼濾波Kalman filter)或者離散的採樣點權重(粒子濾波particle filter)來近似需要求解的後驗概率 P(yt|x1:t) (yt 為需要預測的機器人周圍的真實場景, xt 為傳感器直接獲得的場景信息),其表達能力有限。DeepTracking拓展了傳統的貝葉斯跟蹤框架,並利用RNN強大的表徵能力來建模後驗概率。

具體而言DeepTracking引入了一個具有馬爾可夫性質的隱變量 h,認為其反映了真實環境的全部信息。最終需要預測的 yt 包含了 ht,包含了 ht 的部分信息,可由 h得到。假設 Bt 為關於 ht的信念(belief),對應於後驗概率:Bel(ht) = P(yt|ht) 。之後經典貝葉斯跟蹤框架中由 P(yt-1|x1:t-1) 到 P(yt|x1:t) 到的時序更新在這裡轉化為:Bt = F(Bt-1,xt)和 P(ty|x1:t) = P(yt|Bt)。

給出形式表達之後的關鍵是,如何將其對應到RNN的框架中去。DeepTracking的核心思路是用利用兩個權重 WF 和 WP 來分別建模 F(Bt-1, xt)和P(yt|Bt ),將Bt 定義為RNN時序之間傳遞的memory 信息。此時,如上圖所示RNN的各個狀態和推進流程就和跟蹤任務完美的對接上了。

實驗部分,DeepTracking採用模擬的2維傳感器數據和如上圖所示的3層RNN的網絡結構,Bt 對應於第三層的網絡輸出。通過無監督的預測 xt+n 的任務來使網絡獲得預測 yt 的潛在能力。

小結:DeepTracking作為用RNN建模跟蹤時序任務的作品,其亮點主要在對RNN和貝葉斯框架融合的理論建模上。實驗展示了該方法在模擬場景下的不錯效果,但是模擬數據和真實場景差距很大,能否在實際應用中有比較好的表現還有待商榷。

|總結

本文介紹了深度學習在目標跟蹤領域應用的幾種不同思路。三種解決訓練數據缺失的思路各有千秋,作者認為使用序列預訓練的方法更貼合跟蹤任務的本質因此值得關注(近期也有應用Siamese Network和視頻數據訓練的跟蹤算法湧現,具體參見王乃巖博士在VLASE公眾號上的介紹文章《Object Tracking新思路》)。

總的來說,基於RNN的目標跟蹤算法還有很大提升空間。此外,目前已有的深度學習目標跟蹤方法還很難滿足實時性的要求,如何設計網絡和跟蹤流程達到速度和效果的提升,還有很大的研究空間。

致謝:本文作者特此感謝匿名審稿人和圖森科技首席科學家王乃巖博士對本文所提出的建設性意見。

雷鋒網(公眾號:雷鋒網)註:本文由深度學習大講堂授權雷鋒網發布,如需轉載請註明作者和出處,不得刪減內容。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 計算機視覺中,有哪些比較好的目標跟蹤算法?(下)
    我比較關注目標跟蹤中的相關濾波方向,接下來我幫您介紹下我所認識的目標跟蹤,尤其是相關濾波類方法,分享一些我認為比較好的算法,順便談談我的看法。所以很大可能是VOT舉辦方把Staple和STAPLE+的EFO弄反了,VOT2016的實時推薦算法應該是排第5的Staple,相關濾波結合顏色方法,沒有深度特徵更沒有CNN,跑80FPS還能排在第五,這就是接下來主要介紹的,2016年最NIUBILITY的目標跟蹤算法之一Staple (直接讓排在後面的一眾深度學習算法懷疑人生)。
  • 深度學習資訊,MediaPipe Iris實時虹膜跟蹤和深度估計!
    包括計算攝影(例如,人像模式和閃光反射)和增強現實效果(例如,虛擬化身)在內的大量實際應用程式都依賴於通過跟蹤虹膜來估計眼睛位置。一旦獲得了準確的虹膜跟蹤,我們就可以確定從相機到用戶的距離,而無需使用專用的深度傳感器。反過來,這可以改善各種用例,從計算攝影到適當大小的眼鏡和帽子的虛擬試戴,到根據視聽者的距離採用字體大小的可用性增強。
  • 目標跟蹤最強算法開源:商湯SiamRPN系列解讀
    此篇文章將獨家解讀目標跟蹤最強算法 SiamRPN 系列。背景由於存在遮擋、光照變化、尺度變化等一些列問題,單目標跟蹤的實際落地應用一直都存在較大的挑戰。從這個圖也可以看出跟蹤的一些挑戰:光照急劇變化,形狀、大小變化等。SiamRPN (CVPR18 Spotlight):在 CVPR18 的論文中(SiamRPN),商湯智能視頻團隊發現孿生網絡無法對跟蹤目標的形狀進行調節。之
  • 基於深度學習的商品檢索技術在服裝搭配中的應用
    摘要商品檢索是一門綜合了物體檢測、圖像分類以及特徵學習的技術。近期,很多研究者成功地將深度學習方法應用到這個領域。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 過度深度學習損失巨大
    在應用場景不複雜的如:圖像識別、人臉識別、語音識別等,深度學習還是有一定的應用效果,但遠達不到現在宣傳的神奇效果和應用廣泛。反而因深度學習存在不可解釋問題,如專家所說,用深度學習有時機器會將所學的山體識別成狗。更危險的是因深度學習有黑箱存在,不知會在何時出現錯誤,後果難料。因此,深度學習算法應用領域有限。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    Results for  End-to-End Joint Multiple-Object Detection and Tracking 現有的多目標跟蹤(MOT)算法大多是基於傳統的先檢測後跟蹤的框架,包含目標檢測、特徵提取、目標關聯這三個模塊,還有少數MOT算法將三個模塊中的某兩個融合實現部分端到端跟蹤,本文提出了一種
  • 創造《魔戒》裡的咕嚕,深度學習分分鐘實現
    這篇文章將聚焦如何用深度學習技術來完成多人姿態估計。下文將介紹幾種流行的自頂向下和自底向上方法。深度學習的方法1.假設圖像中的一個對象可以屬於K類中的一個。分割分支輸出大小為m x m的K個二進位掩碼,其中每個二進位掩碼表示僅屬於該類的所有對象。可以通過將每種類型的關鍵點建模為一個不同的類,並將其作為一個分割問題來處理,從而提取出屬於圖像中每個人的關鍵點。同時,可以訓練目標檢測算法來識別人的位置。
  • 推進深度應用 促進有效融合-2020年松江區數字教材應用研究項目...
    推進深度應用 促進有效融合-2020年松江區數字教材應用研究項目展示活動圓滿落幕時間:2020/12/13 1:45:39 來源:松江區教育局        選稿:東方網教育頻道 陳樂 秦嘉瑩 為推進數字教材的深度應用
  • 深度強化學習-深度Q網絡(DQN)介紹
    目標是用足最佳策略(選擇動作的方法),以取得最大獎勵。在學習過程中,智能體更新Q(S,A)表(當回合結束時,任務完成,目標達到)。Q學習算法通過以下步驟實現:1、用隨機數初始化Q(S,A)表。我們所講的Q學習算法的核心來自於監督學習。如前所述,我們的目標是用深度神經逼近一個複雜的非線性函數Q(S,A)。跟監督學習一樣,在DQN中,我們定義損失函數為目標和預測值之間的方差,我們也更新權重儘量減少損失(假定智能體從一個狀態轉換到另一個狀態,進行了某個動作a,獲取獎勵r)。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智能,它能識別文字和語音,但卻「不懂你」。這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 騰訊優圖25篇CVPR解讀:視覺對抗學習、視頻深度理解等
    被收錄的論文涵蓋深度學習優化原理、視覺對抗學習、人臉建模與識別、視頻深度理解、行人重識別、人臉檢測等熱門及前沿領域。本文帶來騰訊優圖實驗室以及其他優圖聯合高校實驗室的 25 篇 CVPR論文的解讀。 25篇CVPR論文解讀 1.
  • 後深度學習時代,醫療 AI 將走向何方?丨ISICDM
    當天共進行了9大主題報告,內容包羅萬象,從醫學成像到圖像分析再到臨床應用。不少嘉賓也談到了未來醫療AI的重要研究方向,如機器學習自動化、知識模型、深度學習的正則化等。沈教授是學術界最早將深度學習應用於醫學影像領域的科學家之一,從事醫學影像分析、計算機視覺與模式識別等領域的研究20多年,目前擔任聯影智能聯席CEO。在演講中,沈定剛主要分享了用於精神障礙診斷的大腦功能網絡的方法。
  • 黃暢博士:基於DenesBox的目標檢測在自動駕駛中的應用大牛講堂
    雷鋒網按:作者黃暢博士,地平線機器人技術聯合創始人&算法副總裁,深度學習專家、前百度主任架構師(T10),長期從事計算機視覺、機器學習、模式識別和信息檢索方面的研究。本科、碩士以及博士畢業於清華大學計算機科學與技術系,曾經在美國南加州大學和 NEC 美國研究院擔任研究員。
  • 課堂的困境與變革:從淺表學習到深度學習 ——基於對中小學生真實...
    一、課堂困境的表現:虛假學習與淺表學習的普遍性筆者在近十年的田野工作的過程中,對數千個課堂的學生學習過程進行了基於證據的跟蹤觀察,全面收集、分析焦點學生學習的過程的海量信息。從教育目標的角度上來說,1956年班傑明·布魯姆(Benjamin Bloom)將教學目標分為:「知識、理解、應用、分析、綜合、評價」六個層次,而他的學生洛安德森(L. W. Anderson)對這六個層次進行了重新修訂,將其歸納為「記憶、理解、應用、分析、評價、創造」。
  • 人臉檢測發展:從VJ到深度學習(下)
    :目標檢測,尤其關注基於深度學習的目標檢測方法。這種自動學習特徵的做法是深度學習一個非常鮮明的特色。自在大幅提升人臉檢測精度的同時,深度學習實際上還降低了包括人臉檢測技術在內的各種目標檢測技術的門檻,幾乎到了只要採用深度網絡就能獲得不錯的檢測精度的地步;在精度方面,相比於基於非深度學習方法的檢測器,基於深度學習方法的檢測器在起點上就要高出一截。
  • 零基礎入門深度學習(十):目標檢測之YOLOv3算法實現上篇
    零基礎入門深度學習(十):目標檢測之YOLOv3算法實現上篇課程名稱 | 零基礎入門深度學習授課講師 | 孫高峰 百度深度學習技術平臺部資深研發工程師授課時間 | 每周二、周四晚20:00-21:00編輯整理 | 孫高峰內容來源 | 百度飛槳深度學習集訓營出品平臺 | 百度飛槳導讀本課程是百度官方開設的零基礎入門深度學習課程
  • 從基因診斷到醫療影像分析,11個案例幫你讀懂深度學習的應用
    羅晟老師系統講解了深度學習在醫療影像、基因分析、藥物研發及疾病診斷等醫療領域的應用及其背後所使用的深度學習技術特點。以下是羅晟老師的主講實錄和提綱,共計13549字,預計14分鐘讀完。隨著技術的發展,DL在醫學影像領域獲得過很多的成功,其實我們現在聽到的大多數關於深度學習的應用都是在醫療領域。比如2014年,我們做的大腦腫瘤分析,2016年肺癌檢測,這些都是在醫療領域的應用。而這些深度學習應用不僅是在商業應用、搜索裡面取得的成功,而且在一些數據科學競賽方面也取得了很好的成績,並且兩次打敗其他隊伍,成功完成了任務。
  • Linux 基金會推出 LF 深度學習基金會,騰訊華為等加入
    近日,Linux 基金會就在洛杉磯開放網絡峰會(Open Networking Summit)上宣布了一個新組織:LF 深度學習基金會,旨在進一步推動開源 AI 和 ML。這是一個開源平臺和框架,可以輕鬆構建,共享和部署 AI 應用程式。Acumos 通過標準化運行開箱即用的通用 AI 環境所需的基礎架構堆棧和組件來實現這一點。 具體而言,它包裝了 TensorFlow 和 SciKit Learn 等工具包,並使用通用應用程式編程接口(API)對其進行建模,從而使開發人員能夠無縫連接它們。
  • Deepin深度作業系統V20官方爆料:深度音樂應用
    IT之家11月21日消息 不久前,爆料稱Deepin深度作業系統V20稱將搭載智能助手,現在Deepin又官方爆料了深度音樂應用,一起來看一下吧。▲深度音樂應用圖標▲深度音樂應用操作界面▲深度音樂應用歌詞播放從官方的演示效果來看,Deepin深度作業系統V20的這款本地音樂播放App非常不錯,相比Windows自帶的本地播放器功能更加全面。