滴普技術薈:基於機器視覺的典型多目標追蹤算法應用實踐

2020-12-13 Deepexi滴普科技

視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。

一、追蹤算法概述

目標追蹤算法分為單目標追蹤SOT(single-object track)和多目標追蹤MOT(multi-object track)。在單目標跟蹤中,使用給定的目標定位,在後續視頻幀中對給定的目標定位的物體進行位置預測。而多目標跟蹤算法,大部分都是不考慮目標定位,目標可自行進出。對目前小組項目而言只需用到MOT,所以本文提到的追蹤默認為MOT。【1】【2】

MOT的一般結構和分類:a. TBD(Tracking-by-Detection)與DFT(Detection-Free Tracking)也即基於檢測的多目標跟蹤與基於目標外形的先驗知識無需檢測器的多目標跟蹤。TBD是目前學界業界研究的主流。b. 在線跟蹤(online)與離線跟蹤(offline)。在Online跟蹤中,只能使用當前幀及之前幀的信息來進行當前幀的跟蹤。而在Offline跟蹤中則沒有了這個限制,對每一幀的預測,都可以使用整個視頻的信息,這樣更容易獲得一個全局最優解。兩種方式各有優劣,一般視應用場合而定,Offline算法的效果一般會優於Online算法。而介於這兩者之間,還有一種稱之為Near-Online的跟蹤方式,即可以部分利用未來幀的信息。關於Online,還有一點需要補充,Online跟蹤是不允許修改以往的跟蹤結果的,這一點也不難理解,因為一旦修改,算法自然就不再符合Online跟蹤不能利用未來幀的要求了,變成了Near-Online或者Offline。需要特別注意,online不等於real-time,real-time一定是online的,但絕大部分online算法還太慢,不足以支持real-time environment. 尤其是應用了深度學習的算法,往往都計算密集。MOT相關的數據來源:行人追蹤經典數據來源MOT challengeKITTYMOT常用評價標準:

表1. classical metrics

另外兩種評價方式CLEAR MOT metrics與ID scores,它們是通過IOU來進行ground truth和predictions的對應。這裡不做詳細介紹。

MOT的難點:MOT有兩個難點:1)遮擋,這也是ID交換和軌跡分段的主要原因。2)兩個軌跡非常靠近,ID容易匹配不準,出現錯位或丟失。目前MOT經典的算法:MOT最常用的類別是Tracking-by-Detection與online,對應的算法步驟:a.檢測b.特徵提取、軌跡預測c.計算相似度d.數據匹配。優化的方向圍繞著這四個步驟,如:運用private dataset,挑選合適檢測模型,提升檢測精度;特徵提取不局限於一般的CNN,還有Siamese network等網絡;特徵間的相似度,不再是簡單的distance metric,也開始運用CNN、RNN、LSTM等;數據關聯匹配除了傳統經典的Hungarian algorithm,也可以當作圖優化的問題。目前比較常用的效果較好的有以下幾種:

1)sort(simple online and realtime tracking)

2)deep sort(deep simple online and realtime tracking)

3)fairmot(a simple baseline for multi-object tracking)

另外最新的追蹤算法中,有嘗試利用圖神經網絡完成追蹤,屬於Tracking-by-Detection與offline的類別,4)graphnn multi-object trachking。不考慮時間問題,效果精度還不錯,後面簡寫為graphnn-mot

四種算法詳細的介紹見「二」節。

二、經典的追蹤算法介紹:

sort是deep sort的簡化版,著重介紹deep sort。1)原文源碼deep sortSimple Online and Realtime Tracking with a Deep Association Metric.https://arxiv.org/pdf/1703.07402.pdfhttps://github.com/KeyForce/Cascade-RCNN-Tracking簡單流程

圖1. Deep sort算法的簡單流程圖

原理:算法模塊,根據目前MOT常用的算法步驟:a.檢測b.特徵提取、軌跡預測c.計算相似度d.數據匹配,deep sort算法就這四個步驟,按序簡介涉及到的核心知識點五個:detection、reID model、kalman filter、iou與餘弦距離、hungarian algorithm。Detection:常用的檢測網絡,如faster rcnn、yolov4、ssd等,可根據實際項目對精度或時間的要求挑選。本文復現時,上面的幾種網絡都有嘗試,原始碼使用了商湯的mmdetection框架下的cascade-rcnn,但項目考慮時間和精度,最終使用了yolov4[3]作為檢測來源。reID model:原始碼使用了多重粒度網絡(Mutiple Granularity Network),是以resnet50作為backbone,以softmax_2048分支作為id特徵。考慮到2048維特徵過大,數據關聯時,時間會長,本文項目採用了mobileNetv2[4]作為主幹網絡,id特徵維度下降到751。kalman Filter:卡爾曼濾波,預測confirmed id在下一幀的中心點位置以及box的size。iou與餘弦距離:用於計算數據匹配的代價矩陣。1-iou的值作為box間的距離值,餘弦距離函數值作為id特徵值間的距離。hungarian algorithm:匈牙利匹配算法用於目標預測與目標檢測的關聯匹配,確定目標的軌跡。sort比起deep sort少了reID model與餘弦距離,所以ID切換的過於頻繁,精度要低很多。速度幾乎只取決於detection模型的預測速度。如果對速度要求很高的,可以考慮用sort。具體的細節不再敘述,參考deep sort。fairmot原文源碼FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking.https://arxiv.org/pdf/2004.01888.pdfhttps://github.com/ifzhang/FairMOT簡單流程:

圖2. Fairmot算法的簡單流程圖

原理:Fairmot算法重點突破:a. 比起之前兩步(先檢測後re-id)的追蹤算法,fairmot完成檢測與re-id共享網絡參數,減少算法推理時間,速度大幅度提升。b. 比起之前單步的追蹤算法JDE,存在的一些不足,如:一個物體可能被多個anchor負責並進行檢測,或實際物體的中心可能與負責對該物體進行檢測的anchor中心有偏差,都會導致id頻繁變換。fairmot針對這些不足,不用anchor-based的檢測方式,以anchor-free目標檢測範式代替。涉及到的核心知識點:一個有效簡潔的網絡結構DLA34、kalman filter、iou與餘弦距離、hungarian algorithm。下面詳細介紹DLA34網絡,至於kalman,distance metrixes, hungarian algorithm同deep sort的內容一致,這裡不多做解釋。fairmot旨在將檢測與re-id揉在一個網絡結構裡,且需要是anchor-free的目標檢測方式,所以DLA34網絡結構必需要預估目標中心點的位置和對應目標的features。DLA34的backbone是resnet34[5],resnet網絡結構是裡程碑似的出現,比起一般的plain network, resnet直接使用stride=2的down sample並且用global average pool層替換全連接層,保持了網絡的複雜度,並有效解決了深度網絡的退化問題。DLA34[6]是對resnet34加強,除了down sample,還有up sample,有點類似FPN[7]的網絡結構,跨層添加features,使得多層融合,跨層stride=4。detection heads:heatmap head、box offset and size head、Re-ID branch;heatmap head:用於預估目標中心位置,使用了與focal loss類似的損失函數,詳情推導見源文。Box offset head:目的是使得預估的目標位置更精準,輔助目標中心位置的預估。Box size head:對每個預估了的目標中心,預估其對應的box的長和寬。offset與size兩個頭加入在一個l1 loss函數裡面。Re-ID branch:一個分類任務,旨在對每個預估出的目標中心產生64維的features,通過features用於後續計算前後幀的目標的相似度。使用了通用的softmax損失函數。簡單的網絡結構圖如下:

圖3. Fairmot網絡結構圖

graphnn-mot原文源碼Learning a Neural Solver for Multiple Object Tracking.https://arxiv.org/pdf/1912.07515.pdfhttps://github.com/selflein/GraphNN-Multi-Object-Tracking簡單流程:

圖4. Graphnn-mot算法的簡單流程

原理:該論文是基於圖神經網絡[8]的離線MOT,利用圖結構同時執行特徵提取和數據關聯匹配,提出了時間感知信息傳遞網絡對節點和連接邊信息的更新。涉及到的核心知識點:圖構造、特徵編碼、信息傳遞、軌跡預測。圖構造:對需檢測的所有圖片(圖片之間要有時間關聯,最好是視頻),進行目標檢測。構建圖,其中節點對應檢測目標,邊對應檢測目標之間的連接。對圖中的每條邊引入了一個二元變量,如果某些邊連接了屬於同一條跟蹤軌跡且在同一條跟蹤軌跡上是時間連續的節點,那麼其標籤為1,否則為0。一個節點不會屬於超過一個跟蹤軌跡。論文提出直接學習預測圖中的哪條邊被激活,即邊上的二元變量的最終值,為此將這個任務視為邊上的二分類任務,標籤就是二元變量值y。特徵編碼:在邊界框圖像上應用一個卷積神經網絡,初始化節點的外觀特徵嵌入。對於每一條邊也就是不同幀的每一對檢測,我們計算一個具有編碼了他們的邊界框之間的相對大小,位置以及時間差的特徵的向量。然後將其輸入到一個多層感知器中得到邊的幾何嵌入。信息傳遞:我們在整個圖上執行了一系列的信息傳遞步驟。對於每一輪的信息傳遞,節點會與他們的連接邊分享外觀信息,邊會與他們的伴隨節點分享幾何信息。最後,能夠獲得節點和邊的更新嵌入信息,其包含了依賴於整個圖結構的高階信息。軌跡預測:根據最後的所有邊嵌入預測的連續的二元結果,獲得最終的跟蹤軌跡。三、復現環境和數據集環境配置:ubuntu 20.04.4LTS 單卡GTX1060 CUDA Version 10.1.python=3.8.3 opencv-python=4.3.0.36 pytorch=1.4 torchvision cudatoolkit=10.1.243數據集:public dataset: MOT2017-MOT2020 crowdhuman 用於detection模型訓練和測試CUHK03 Market1501 DukeMTMC-reID MSMT17用於reID模型訓練四、實際測試時間和精度對比

表2. 追蹤算法實際測試的時間和精度

五、實際算法測試分析

如第四小節所示,無論時間還是精度,farimot更有優勢。影響精度的原因主要是兩個:

檢測目標聚集,被遮擋,ID switches頻率太高。三種追蹤算法都有出現這類情況,嚴重程度graphnn mot >deep sort>fairmot,可見下面擁擠場景例圖:

組圖1:擁擠場景中的graphnn mot追蹤算法

組圖2:擁擠場景中的deep sort追蹤算法

組圖3:擁擠場景中的farimot追蹤算法

如上圖紅上衣人為例,graphnn mot對應的id號為:無->15->20,id號連續變換;deep sort對應的id號:32->32->48,id號部分變換,只在最聚集的地方變換了id號;fairmot對應的id號:30->30->30,id號一直很穩定。

2.目標檢測精度不高,漏檢與誤檢。主要是graphnn mot算法有明顯漏檢,可見下面例圖:

組圖4:graphnn追蹤算法目標檢測漏檢示例圖

對於目前最常使用的追蹤算法,都是tracking-by detection,所以目標檢測的精度直接影響追蹤的精度。

六、總結

1. 目前精度時間最合適的追蹤算法:

目前來說對跟蹤效果影響最大的是目標檢測的性能,相對於公開的檢測,私有檢測提升幅度巨大。

對於跟蹤模塊,目前來說更好的解決方案,比如使用MOTDT,此算法在DeepSort的基礎上加入了軌跡評分的機制,目前像FairMOT、JDE使用的跟蹤模塊都是MOTDT,從精度和速度上此算法表現都是不錯的。

2. 對圖神經網絡的追蹤算法的看法:

圖神經網絡在追蹤上的運用,是初嘗試。是offline且detection與reid沒有融合,所以速度方面,沒有優勢,會關注基於圖神經網絡的追蹤的後續優化。

目前以上追蹤算法正用於滴普的某養殖企業養殖場豬計數項目和某地產企業施工地段安全帽的檢測預警項目。詳細項目場景歡迎進入滴普科技官網了解(http://www.deepexi.com)。

七、參考文獻

[1]Multiple Object Tracking: A Literature Review. https://arxiv.org/abs/1409.7618

[2]Deep Learning in Video Multi-Object Tracking: a Survey. https://arxiv.org/pdf/1907.12740.pdf

[3] YOLOv4: Optimal Speed and Accuracy of Object Detection. https://arxiv.org/pdf/2004.10934v1.pdf

[4] MobileNetV2: Inverted Residuals and Linear Bottlenecks. https://arxiv.org/abs/1704.04861

[5]Deep Residual Learning for Image Recognition. https://arxiv.org/abs/1512.03385

[6]Deep Layer Aggregate. https://arxiv.org/pdf/1707.06484.pdf

[7] Feature Pyramid Networks for Object Detection. https://arxiv.org/pdf/1612.03144.pdf

[8] A Comprehensive Survey on Graph Neural Networks. https://arxiv.org/abs/1901.005

相關焦點

  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 百度鄧凱鵬:飛槳視覺技術解析與應用
    報告內容:介紹飛槳視覺技術的發展現狀,分析飛槳開源的各視覺模型庫的特色和優勢,並結合圖像分類,目標檢測和模型壓縮及部署上端到端優化及應用案例,解讀飛槳在視覺模型完備性和領先性上的已有建設工作,介紹視覺模型精度和預測速度優化上的方法技巧和實用效果,並分享飛槳在視覺模型選擇,性能優化和部署應用上的優秀實踐,解析飛槳視覺模型在工業應用實踐上的優越性。
  • 百度App動態多目標識別技術:可實時追蹤並識別多個目標物體
    不過,我們在使用中也不難發現,不管畫面裡有多少種物品,這些App基本只能做到識別其中的一種,並不能像人眼觀察世界一樣,對所見的目標同時進行識別。在今天舉辦的「Baidu Create 2019」百度AI開發者大會上,百度高級副總裁、移動生態事業群組總經理沈抖展示了百度App上的「動態多目標識別」技術,就讓我們的手機朝著「像人眼一樣觀察世界」又走近了一步。
  • 三維識圖,賦予機器真正的視覺
    或許你會說「攝像頭」就是機器之眼呀,但過去攝像頭的核心作用只有一個:記錄影像。李彥宏在2012年KDD(知識發現世界年會)上提出9大待解技術問題之一,「基於內容的的視覺搜索」指的就是這一技術難題。而現在百度率先實現了計算機視覺領域「三維識圖」技術的突破,這個難題離徹底解決又邁出了關鍵一步。 計算機看見的世界與人眼有何不同?
  • 微博機器學習平臺雲上最佳實踐
    微博機器學習平臺(WML)架構我們看一下微博機器學習平臺的架構,微博機器學習平臺為CTR、多媒體等各類機器學習和深度學習算法,提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。總體的話是基於在線計算集群,離線計算集群和高性能計算集群。
  • 基於平面投影的單目視覺AGV 定位算法
    近年來,計算機視覺飛速發展,湧現出大量的技術與算法,如主動視覺、面向任務的視覺、基於知識的視覺、基於模型的視覺以及多傳感器和集成視覺等方法[1]。根據使用鏡頭數目分類,計算機視覺分為單目視覺定位、雙目視覺定位與多目視覺定位。雙目立體視覺是基於視差原理,由多幅圖像獲取物體三維幾何信息。
  • 基於文本智能技術的AI產品設計實踐
    感知是在更多聽覺、視覺、觸覺等方面的創新。文本智能處於第三層:認知智能。研究如何進行自然語言理解、知識的構建和邏輯推理。第四層「創建智能」,是人工智慧行業終極目標。怎樣才能基於這個AI算法設計產品呢?產品經理的思維是從用戶、場景和需求三要素出發。要給客戶解決什麼問題?目標客戶如何刻畫?
  • 14個基於智能交通的應用設計實例
    基於ARM的新型智能交通信號燈系統設計本文提出了一種具有分布式特徵的交通信號燈控制系統設計方案,基於AT91RM9200處理器,以應用為中心,採用嵌入式作業系統,利用RFID技術提高路況信息的收集精度,利用電流環遠距離傳輸方式,並且應用人工智慧理論使得系統具有更強的自適應性和可擴充性。
  • ...凌上科技」針對高透材質,推出基於機器視覺的自動光學檢測設備
    總部位於北京的創業公司凌上科技,開發了一套基於機器視覺技術,可以對包括玻璃、樹脂等在內的高透材質進行自動化質量檢驗,以提升檢驗效果和效率,降低用人成本。凌上科技CEO李旭告訴36氪,他們的方案經實地應用測試,檢測速度在2s左右,檢測效果優於人工目視法。
  • 機器視覺怎樣檢測產品邊緣
    1、濾波:邊緣檢測算法主要是基於圖像強度的一階和二階導數,但導數的計算對噪聲很敏感,因此必須使用濾波器來改善與噪聲有關的邊緣檢測器的性能。需要指出,大多數濾波器在降低噪聲的同時也導致了邊緣強度的損失,因此,增強邊緣和降低噪聲之間需要折中。
  • Xilinx 最新機器視覺解決方案亮相2016斯圖加特視覺展
    All Programmable技術和器件的全球領先企業賽靈思公司(Xilinx, Inc. )宣布,將在2016年斯圖加特國際機器視覺展覽會(Vision Stuttgart 2016)上展示其最新機器視覺解決方案。
  • 騰訊廣告:廣告場景下有哪些視覺算法應用?
    本次總決賽現場,騰訊廣告高級應用研究員石瑞超為大家帶來了題為《廣告場景下的 AI 視覺算法應用》的演講。視覺算法應用於廣告創意的三個階段包括廣告創建、廣告審核及廣告播放。研究員石瑞超為我們展示了 AI 視覺算法在解決廣告落地中痛難點的優勢與應用方法。以下是他的分享內容,雷鋒網 AI 科技評論做了不改變原意的整理與編輯。
  • 機器視覺大熱,這六家企業有什麼不同?
    近年來,機器視覺因為機器人智能化的升級而成為熱點,2017年以來,機器視覺領域融資不斷,一路升溫,成為各大巨頭企業爭相搶奪的焦點。預計2018年中國機器視覺規模將達到52億元,增長速度約為24%,到2021年將超100億元。
  • 阿里發布NLP和MT自學習平臺,還剖析了小蜜平臺的NLP技術實踐
    9月26日,在雲棲大會的NLP專場,圍繞阿里小蜜平臺的技術布局、典型場景應用,阿里巴巴智能服務事業部資深算法專家陳海青介紹了阿里NLP核心技術及人機互動技術實踐,技術挑戰及未來。值得一提的是,阿里達摩院還在此次專題上發布了NLP與MT自學習平臺。
  • 一文看懂SLAM導航技術分類、典型應用及國內發展現狀
    SLAM可以快速構建局部3D地圖,並與地理信息系統(GIS)、視覺對象識別技術相結合,可以輔助無人機識別路障並自動避障規劃路徑,曾經刷爆美國朋友圈的Hovercamera無人機,就應用到了SLAM技術。無人駕駛領域:視覺裡程計。SLAM技術可以提供視覺裡程計功能,並與GPS等其他定位方式相融合,從而滿足無人駕駛精準定位的需求。
  • 關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術...
    而所有技術的問題和挑戰在實踐應用中是最容易體現出來的,因而對此最具有發言權的莫過於實現技術落地的企業一線技術人員。阿里巴巴集團達摩院智能服務事業部資深算法專家陳海青則從更加應用的角度,基於阿里的人機互動產品——阿里小蜜介紹了阿里 NLP 核心技術及人機互動技術實踐、面臨的挑戰及未來的發展方向。
  • 2020年機器視覺系統未來發展趨勢預測 - 中國機器視覺系統市場調研...
    應用領域不斷拓展    3.5.3 產品推廣出現新思路第四章 中國機器視覺系統研究現狀與技術發展  4.1 機器視覺理論研究現狀與趨勢預測分析    4.1.1 機器視覺理論基礎      (1)機器視覺計算理論      (2)視覺檢測常用算法    4.1.2 機器視覺技術理論發展
  • 圖像處理算法有哪些_圖像處理十大經典算法
    圖像處理概況圖像處理,是對圖像進行分析、加工、和處理,使其滿足視覺、心理以及其他要求的技術。圖像處理是信號處理在圖像域上的一個應用。目前大多數的圖像是以數字形式存儲,因而圖像處理很多情況下指數字圖像處理。本文接下來將簡單粗略介紹下數字圖像處理領域中的經典算法。
  • AI無人機追蹤整體開源方案 可對運動目標實時捕捉鎖定和跟蹤
    為滿足用戶需求,匯星海推出無人機AI追蹤整體開源方案:可對運動目標實時捕捉鎖定和跟蹤,同時支持飛機對運動目標自主追蹤飛行。  精準追蹤 響應快  基於KCF相關濾波檢測算法,實現對運動目標進行實時地捕捉、鎖定和跟蹤,在計算速度、追蹤效果、通用性上有著十分亮眼表現。
  • 還在糾結深度學習算法 計算機視覺CV的關鍵在於數據採集和標註!
    2016-2018年,深度學習成為計算機視覺CV研究的算法「標配」,人臉識別、圖像識別、視頻識別、物體跟蹤、行人檢測等CV技術得以進一步突破,並快速應用到安防、金融、汽車出行、泛娛樂等各個行業中。如今,人們拿起手機刷臉支付、一鍵美顏、拍照識圖,背後都有計算機視覺CV技術的身影。