基於機器視覺的典型多目標追蹤算法應用實踐

2020-12-05 微鏈3D機器人視覺

視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。

一、概 述

目標追蹤算法分為單目標追蹤SOT(Single-Object Track)和多目標追蹤MOT(Multi-Object Track)[1][2]。在單目標跟蹤中,使用給定的初始目標位置,在後續視頻幀中對給定的物體進行位置預測。而多目標跟蹤算法,大部分都是不考慮初始目標位置的,目標可自行消失與產生。對目前小組項目而言只需用到MOT,所以本文提到的追蹤默認為MOT。

MOT的分類

1)TBD(Tracking-by-Detection)與DFT(Detection-Free Tracking)也即基於檢測的多目標跟蹤與基於目標外形的先驗知識無需檢測器的多目標跟蹤。TBD是目前學界業界研究的主流。

2) 傳統的跟蹤方式有在線跟蹤(Online)與離線跟蹤(Offline)兩種。在線跟蹤算法中,只能使用當前幀及之前幀的信息來進行當前幀的跟蹤。而在離線跟蹤算法中則沒有了這個限制,對每一幀的預測,都可以使用整個視頻的信息,這樣更容易獲得一個全局最優解。兩種方式各有優劣,一般視應用場合而定,離線跟蹤算法的效果一般會優於在線跟蹤算法。而介於這兩者之間,還有一種稱之為接近在線的多目標跟蹤算法(NOMT),即可以部分利用未來幀的信息。

在跟蹤結果可修改性方面,在線跟蹤是不允許修改以往的跟蹤結果的。因為一旦修改,算法自然就不再符合在線跟蹤原則,從而不能利用未來幀,進而變成了Near-Online或者Offline的跟蹤方式。

需要特別注意,在線跟蹤不等於Real-Time實時跟蹤,實時跟蹤一定屬於在線跟蹤的,但絕大部分在線跟蹤算法速度還太慢,不足以支持實時處理的要求. 尤其是應用了深度學習的算法,往往需要大量運算,對實時處理有較大壓力。

MOT常用評價標準

表1. 常用評價指標

此外,還有兩種評價方式CLEAR MOT Metrics與ID Scores,這裡不做詳細介紹。

MOT的難點

MOT最常用的類別是Tracking-By-Detection與Online,對應的算法處理步驟:

圖1 MOT算法處理步驟

其中,有兩個難點:

1)遮擋,這也是ID交換和軌跡分段的主要原因;

2)兩個軌跡非常靠近,ID容易匹配不準,出現錯位或丟失。

目前所有目標追逐算法都圍繞著這兩大難點進行優化,優化的方向圍繞著這四個步驟,如:運用Private Dataset,挑選合適檢測模型,提升檢測精度;特徵提取不局限於一般的CNN,還有Siamese Network等網絡;特徵間的相似度,不再是簡單的Distance Metric,也開始運用CNN、RNN、LSTM等;數據關聯匹配除了傳統經典的Hungarian Algorithm,也可以當作圖優化的問題處理。

常用的效果較好的有以下幾種(詳細介紹見「二」節):

Sort(Simple nline and real time tracking)Deep Sort(Deep simple online and realtime tracking)FairMot(A simple baseline for multi-object tracking)Graphnn Multi-object Trachking。(後面簡寫為Graphnn-mot)

二、典型的追蹤算法介紹

1. SortDeep Sort

Sort和Deep Sort[9]是經典的追蹤算法之一,算法原理流程圖如下:

圖2. Deep Sort算法的簡單流程圖

如上圖,算法模塊,根據目前MOT常用的算法步驟:a.檢測, b.特徵提取、軌跡預測, c.計算相似度,d.數據匹配,Deep Sort算法就這四個步驟,按序簡介涉及到的核心知識點五個:Setection、ReID model、Kalman Filter、iou與餘弦/馬氏距離、Hungarian Algorithm。

Detection:常用的檢測網絡,如Faster Rcnn、Yolov4、SSD等,可根據實際項目對精度或時間的要求挑選。本文復現時,上面的幾種網絡都有嘗試,原始碼使用了商湯的mmdetection框架下的cascade-rcnn,但項目考慮時間和精度,最終使用了Yolov4[3]作為檢測來源。

ReID model:原始碼使用了多重粒度網絡(Mutiple Granularity Network),是以Resnet50作為backbone,以Softmax_2048分支作為id特徵。考慮到2048維特徵過大,數據關聯時,時間會比較長,所以一般項目上會採用MobileNetv2[4]作為主幹網絡,id特徵維度可以下降到751,減少運算量。

Kalman Filter:卡爾曼濾波,預測confirmed id在下一幀的中心點位置以及box的size。

iou與餘弦距離:用於計算數據匹配的代價矩陣。1-iou的值作為box間的距離值,餘弦距離函數值作為id特徵值間的距離。

Hungarian Algorithm:匈牙利匹配算法用於目標預測與目標檢測的關聯匹配,確定目標的軌跡。

相比之下,Sort算法比起Deep sort算法少了ReID model與餘弦距離判斷,所以ID切換的過於頻繁,精度要低很多。速度幾乎只取決於Detection模型的預測速度。如果對速度要求很高的,可以考慮用sort算法。

2. FairMot

FairMot追蹤算法[10],算法處理流程圖如下:

圖3. FairMot算法的簡單流程圖

FairMot算法重點突破

a. 比起之前兩步(先檢測後Re-ID)的追蹤算法,FairMot完成檢測與Re-ID共享網絡參數,減少算法推理時間,速度大幅度提升。

b. 比起之前單步的追蹤算法JDE[12],存在的一些不足,如:一個物體可能被多個anchor負責並進行檢測,或實際物體的中心可能與負責對該物體進行檢測的anchor中心有偏差,都會導致id頻繁變換。Fairmot針對這些不足,不用anchor-based的檢測方式,以anchor-free目標檢測範式代替。

涉及到的核心知識點:一個有效簡潔的網絡結構DLA34、Kalman Filter、iou與餘弦距離、Hungarian Algorithm。下面詳細介紹DLA34網絡,至於Kalman,Distance Metrixes, Hungarian Algorithm同Deep Sort的內容一致,這裡不多做解釋。FairMot旨在將檢測與Re-ID揉在一個網絡結構裡,且需要是anchor-free的目標檢測方式,所以DLA34網絡結構必需要預估目標中心點的位置和對應目標的features。FairMot的網絡結構圖如下:

圖4. FairMot網絡結構及檢測示意圖

DLA34的backbone是Resnet34[5],Resnet網絡結構是裡程碑似的出現,比起一般的plain network, Resnet直接使用stride=2的down sample並且用global average pool層替換全連接層,保持了網絡的複雜度,並有效解決了深度網絡的退化問題。

DLA34[6]是對Resnet34加強,除了Down Sample,還有Up Sample,有點類似FPN[7]的網絡結構,跨層添加features,使得多層融合,跨層stride=4。

heatmap head:用於預估目標中心位置,使用了與focal loss類似的損失函數,詳情推導見源文。

box offset head:目的是使得預估的目標位置更精準,輔助目標中心位置的預估。box size head:對每個預估了的目標中心,預估其對應的box的長和寬。offset與size兩個頭加入在一個l1 loss函數裡面。

Re-ID branch:一個分類任務,旨在對每個預估出的目標中心產生64維的features,通過features用於後續計算前後幀的目標的相似度。使用了通用的softmax損失函數。

3. Graphnn-mot

Graphnn-mot算法[11],簡單流程圖如下:

圖5. Graphnn-mot算法的處理流程

Graphnn-mot是基於圖神經網絡[8]的離線MOT,利用圖結構同時執行特徵提取和數據關聯匹配,提出了時間感知信息傳遞網絡對節點和連接邊信息的更新。

涉及到的核心知識點:圖構造、特徵編碼、信息傳遞、軌跡預測。

圖構造:對需檢測的所有圖片(圖片之間要有時間關聯,最好是視頻),進行目標檢測。構建圖,其中節點對應檢測目標,邊對應檢測目標之間的連接。對圖中的每條邊引入了一個二元變量,如果某些邊連接了屬於同一條跟蹤軌跡且在同一條跟蹤軌跡上是時間連續的節點,那麼其標籤為1,否則為0。一個節點不會屬於超過一個跟蹤軌跡。論文提出直接學習預測圖中的哪條邊被激活,即邊上的二元變量的最終值,為此將這個任務視為邊上的二分類任務,標籤就是二元變量值y。

特徵編碼:在邊界框圖像上應用一個卷積神經網絡,初始化節點的外觀特徵嵌入。對於每一條邊也就是不同幀的每一對檢測,我們計算一個具有編碼了他們的邊界框之間的相對大小,位置以及時間差的特徵的向量。然後將其輸入到一個多層感知器中得到邊的幾何嵌入。

信息傳遞:我們在整個圖上執行了一系列的信息傳遞步驟。對於每一輪的信息傳遞,節點會與他們的連接邊分享外觀信息,邊會與他們的伴隨節點分享幾何信息。最後,能夠獲得節點和邊的更新嵌入信息,其包含了依賴於整個圖結構的高階信息。

軌跡預測:根據最後的所有邊嵌入預測的連續的二元結果,獲得最終的跟蹤軌跡。

三、實際算法測試分析

本文對Deep Sort、FairMot、Graphnn-mot算法進行橫向測試,並使用追蹤經典指標評估(見表1),基於MOTChallenge數據集實際測試進行評估,評估結果如下表(測試環境詳見附錄1):

表2. 追蹤算法實際測試的時間和精度(精度含義見表1)

如表所示,無論時間還是精度,Farimot更有優勢。影響精度的原因主要是兩個:

1. 檢測目標聚集,被遮擋,ID switches頻率太高。三種追蹤算法都有出現這類情況,嚴重程度graphnn mot >deep sort>fairmot,可見下面擁擠場景例圖:

組圖1:擁擠場景中的graphnn mot追蹤算法

組圖2:擁擠場景中的deep sort追蹤算法

組圖3:擁擠場景中的farimot追蹤算法

如上圖紅上衣人為例,graphnn mot對應的id號為:無->15->20,id號連續變換;deep sort對應的id號:32->32->48,id號部分變換,只在最聚集的地方變換了id號;fairmot對應的id號:30->30->30,id號一直很穩定。

2. 目標檢測精度不高,漏檢與誤檢。主要是graphnn mot算法有明顯漏檢,可見下面例圖:

組圖4:graphnn追蹤算法目標檢測漏檢示例圖

對於目前最常使用的追蹤算法,都是tracking-by detection,所以目標檢測的精度直接影響追蹤的精度。

四、總結

對於跟蹤模塊,目前來說更好的解決方案,比如使用MOTDT[13],此算法DeepSort的基礎上加入了軌跡評分的機制,目前像FairMOT、JDE使用的跟蹤模塊都是MOTDT,從精度和速度上此算法表現都是較優的。

圖神經網絡在追蹤上的運用,還處於剛起步階段。屬於離線跟蹤算法之一,而且目標檢測與ReID檢測結果沒有進行融合,所以速度方面,沒有太大優勢。

對於實際項目來說,對綜合目標跟蹤效果影響最大的因素是目標檢測的精確度,相對於公共數據集,當使用實際項目的數據集時,使用的目標檢測精度提升後,實際跟蹤效果能達到比較理想的水平。

相關焦點

  • 滴普技術薈:基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 智能圖像處理 讓機器視覺及其應用更智能高效
    本文引用地址:http://www.eepw.com.cn/article/201806/381668.htm  智能圖像處理是指一類基於計算機的自適應於各種應用場合的圖像處理和分析技術,本身是一個獨立的理論和技術領域,但同時又是機器視覺中的一項十分重要的技術支撐。
  • 基於ATCA AVP系統的高端機器視覺應用的解決方案
    基於ATCA AVP系統的高端機器視覺應用的解決方案 黃怡暾,凌華科技 發表於 2021-01-15 10:31:10   作者:黃怡暾,凌華科技工業計算機產品部 機器視覺的市場應用日益增加
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 基於機器視覺的汽車智能駕駛系統
    在目前汽車輔助駕駛所採用的環境感知手段中,視覺傳感器比超聲、雷射雷達等可獲得更高、更精確、更豐富的道路結構環境信息。隨著計算機技術的發展和圖像處理/識別技術的成熟,機器視覺技術獲得長足的發展,目前廣泛的應用在三維測量、三維重建、虛擬實境、運動目標檢測和目標識別等方面。
  • 凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用
    凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用 佚名 發表於 2020-06-06 09:46:50 近日,計算機視覺(手勢識別+slam)開發公司杭州凌感科技宣布和
  • 機器視覺應用大盤點:哪一個領域能率先「上車」?
    其利用相機、鏡頭、光源和光源控制系統採集目標物體 數據,藉助視覺控制系統、智能視覺軟體和數據算法庫進行圖形分析和處理,軟 硬系統相輔相成,為下遊自動化、智能化製造行業賦予視覺能力。隨著深度學習、3D視覺技術、高精度成像技術和機器視覺互聯互通技術的發展,機器視覺性能優勢進一步提升,應用領域也向多個維度延伸。國內機器視覺起步晚,目前處於快速成長期。
  • 機器視覺系統包含哪些組成部分
    一個典型的機器視覺系統涉及多個領域的技術交叉與融合,包括光源照明技術、光學成像技術、傳感器技術、數字圖像處理技術、模擬與數字視頻技術、機械工程技術、控制技術、計算機軟硬體技術、人機接口技術等。:基於PC的機器視覺系統和嵌入式機器視覺系統。
  • 王棟:著力目標追蹤,打造數位化獵鷹
    2016年下半年回國之後,王棟繼續主攻目標跟蹤方向的應用研究,但他發現當時目標跟蹤技術的算法精度不高,根本無法解決行業痛點問題,以至於他此後半年一直困於技術瓶頸和迷茫期。後來,隨著在大疆無人機上看到應用前景,王棟及其團隊也對近年來深度視覺跟蹤方面的研究工作進行深入總結和分析,全面掌握了現有算法進展及優缺點。
  • 科普:機器視覺技術原理解析及應用領域
    機器視覺系統是指通過機器視覺產品(即圖像攝取裝置,分 CMOS 和CCD兩種)將被攝取目標轉換成圖像信號,傳送給專用的圖像處理系統,根據像素分布和亮度、顏色等信息,轉變成數位化信號;圖像系統對這些信號進行各種運算來抽取目標的特徵,進而根據判別的結果來控制現場的設備動作。
  • 機器視覺和智能圖像處理技術之間的關係
    而且,機器視覺系統與被檢測對象無接觸,安全可靠。 1、機器視覺技術 機器視覺的起源可追溯到20世紀60年代美國學者L.R.羅伯茲對多面體積木世界的圖像處理研究,70年代麻省理工學院(MIT)人工智慧實驗室「機器視覺」課程的開設。到80年代,全球性機器視覺研究熱潮開始興起,出現了一些基於機器視覺的應用系統。
  • 機器視覺系統與機器視覺檢測最常見的技術應用分析
    這些關鍵字的熱度,從機器視覺論壇上就可以窺見一斑,在機器視覺論壇上,經常有很多專業人士會探討機器視覺算法與應用,以及與機器視覺相關的機器視覺光源方面的技術以及知識。鑑於機器視覺的專業性,很多機器視覺公司,主要從事機器視覺系統和機器視覺軟體的研究,售賣,這些也是機器視覺算法與應用研究的最終目的,也就是將知識轉化為商業價值。關於機器視覺的應用,我們可以從一些機器視覺應用實例中,去學習和借鑑。
  • 機器視覺應用的攝像頭設計
    摘要:本文將探討機器視覺應用的 CMOS 圖像感應器技術及架構要求。此外,還將詳細分析機器視覺的基本組件,攝像頭為滿足應用需求需要哪些條件,以及如何設計出可滿足各種機器視覺應用需求、同時又能在圖像質量與成本之間獲得平衡的攝像頭。
  • 「十三五」安防領域機器視覺發展回顧與展望
    一、機器視覺技術發展與應用遠超規劃預期 「十三五」規劃在發展目標中提出「深入研究和應用人工智慧、機器視覺等前沿技術並取得若干突破」;在措施與建議中提出要推動「機器視覺、語音識別、生物特徵識別、安保機器人等關鍵技術的突破,提升智能技術在安防各領域的實戰應用和效能」和視頻結構化等智能化應用。
  • 基於平面投影的單目視覺AGV 定位算法
    近年來,計算機視覺飛速發展,湧現出大量的技術與算法,如主動視覺、面向任務的視覺、基於知識的視覺、基於模型的視覺以及多傳感器和集成視覺等方法[1]。根據使用鏡頭數目分類,計算機視覺分為單目視覺定位、雙目視覺定位與多目視覺定位。雙目立體視覺是基於視差原理,由多幅圖像獲取物體三維幾何信息。
  • 一種基於機器視覺的結構光三維掃描系統
    計算機視覺檢測技術具有操作、維護簡單,測量速度快,精度高,測量範圍廣等眾多無可比擬的優點,被認為是檢測技術領域中最具有發展潛力的技術。機器視覺被稱為自動化的眼睛,在國民經濟、科學研究及國防建設上都有著廣泛的應用。機器視覺不但可以實現無接觸觀測,還可以長時間保持精度,因此,機器視覺系統可以廣泛應用於長時間的、惡劣的環境。 在此探討了線性結構光三維掃描系統的特點。
  • 機器視覺人臉識別技術在智能商業中的應用
    技術在智能商業領域應用的價值和實踐經驗,以下是根據宋晨的演講內容提煉出的核心內容:  什麼是人工智慧本文引用地址:http://www.eepw.com.cn/article/201612/332892.htm  在曠視科技(Face++)宋晨看來,人工智慧應該是一種能夠通過數據、技術、產品三者不斷循環完成的滾雪球式閉環。
  • 從語音、視覺、語義到算法,百度大腦 5.0 全方位升級
    百度大腦 5.0 在算法突破、計算架構升級的基礎上,實現AI算法、計算架構和應用場景的融合創新,成為軟硬一體AI大生產平臺。下午百度大腦分論壇上,相關業務負責人分別詳細介紹百度大腦各能力具體的進展。視覺語義化平臺升級 2.0,機器人應用成新亮點百度視覺技術部、增強現實技術部總監吳中勤介紹,5G時代,越來越多物理設備將連接到高可靠、低延時的網絡空間,這將徹底改變人們與環境及設備的交互方式。本次全新發布視覺語義化平臺2.0,正在推進視覺技術由「看清看懂」向「交互」進行升級。視覺語義化平臺2.0在交互升級和軟硬體結合兩大方面實現突破。
  • 機器視覺中的光源照明設計
    摘要 介紹了光源照明技術在機器視覺中的重要性。通過對光源照明設計中光源種類和基礎照明等諸多技術的理論分析,結合光源照明技術在工程案例中的應用技巧,探究了設計光源照明系統時要注意的問題和原則。