融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺

2021-01-10 機器之心Pro

機器之心報導

編輯：魔王

香港中文大學多媒體實驗室（MMLab）OpenMMLab 開源一體化視頻目標感知平臺 MMTracking。

新年伊始，香港中文大學多媒體實驗室（MMLab）OpenMMLab 又有新動作，發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成，支持單目標跟蹤、多目標跟蹤與視頻目標檢測，目前已開源。

GitHub 地址：https://github.com/open-mmlab/mmtracking

MMTracking 效果展示。

據介紹，MMTracking 具備以下主要特性：

1. 首個開源一體化視頻目標感知平臺

對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題，比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說，

視頻目標檢測只需對視頻內的每一幀進行檢測，不要求對不同幀中的同一目標進行關聯。

多目標檢測在完成視頻目標檢測的基礎上，更加側重於對視頻內的同一目標進行關聯。

單目標跟蹤更加側重人機互動，算法需要在給定一個任意類別、任意形狀目標的情況下，對其進行持續跟蹤。

近幾年來，雖然各個任務都湧現了許多優秀的算法，但這些領域仍然缺少開源的代碼框架，給代碼復現、借鑑、公平對比帶來了很大困難。OpenMMLab 將這些任務融合到了同一框架下，希望能夠作為開源的一體化視頻目標感知平臺，推動不同子領域間的融合、互促與發展。

2. OpenMMLab 內部項目間的充分交互

視頻目標感知在大部分情況下可以認為是 2D 目標檢測的下遊任務，十分依賴各種 2D 目標檢測算法。在此之前，如何使用或切換不同的 2D 目標檢測器其實是一個很煩瑣耗時的任務。

MMTracking 充分利用了 OpenMMLab 其他平臺的成果與優勢，比如它 import 或繼承了 MMDetection 中的大部分模塊，極大地簡化了代碼框架。在這種模式下，通過 configs 可以直接使用 MMDetection 中的所有模型。以多目標跟蹤舉例，每一個多目標跟蹤模型多由以下幾個模塊組成：

Configs 示例：

現階段的 ReID 模型也繼承了 MMClassification 中的一些模塊並將在後期增加其他支持。

受益於 OpenMMLab 的這種模塊化設計，MMTracking 可以利用其他圖像級平臺的已有成果，從而只需要注重視頻部分模塊的設計與開發。同時，如果用戶需要單獨訓練一個目標檢測器，該工具也支持直接使用 MMDetection 的 configs 進行訓練，只需要在 config 中添加一句 USE_MMDET=True 即可將模式切換到 MMDetection 下，進行前序模型訓練。

3. 高效、強大的基準模型

視頻目標感知領域中的不同方法往往各成一派，缺乏公認的訓練方法與準則，因此在很多時候很難做到真正的公平對比。

MMTracking v0.5 復現了各個領域的主流算法，包括：

視頻目標檢測：DFF、FGFA、SELSA

多目標跟蹤：SORT、DeepSORT、Tracktor

單目標跟蹤：SiameseRPN++

據 OpenMMLab 知乎文章介紹，MMTracking 在保證高效訓練與推理的基礎上，有些模型甚至超出官方實現，例如：

對視頻目標檢測算法 SELSA 的實現結果（第一行）相比於官方實現（第二行），在 ImageNet VID 數據集上 mAP@50 超出 1.25 個點。

對多目標跟蹤算法 Tracktor 的實現結果（第一行）相比於官方實現（第二行），在 MOT17 數據集上 MOTA 超出 4.9 個點，IDF1 超出 3.3 個點。

對單目標跟蹤算法 SiameseRPN++ 的實現結果（第一行）相比於官方實現（第二行），在 LaSOT 數據集上的 Norm precision 超出 1.0 個點。

相關焦點

...檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺MM...

新年伊始，香港中文大學多媒體實驗室（MMLab）OpenMMLab 又有新動作，發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成，支持單目標跟蹤、多目標跟蹤與視頻目標檢測，目前已開源。GitHub 地址：https://github.com/open-mmlab/mmtracking
港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新

機器之心報導參與：李亞洲、杜偉昨日，香港中文大學多媒體實驗室（MMLab）OpenMMLab 發布動作識別和檢測庫 MMAction，同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級，提供了一大批新的算法實現。
ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)

首先對ILSVRC2016 VID訓練數據進行分析: VID資料庫包含30個類別，訓練集共有3862個視頻片段，總幀數超過112萬。單從數字上看，這麼大的數據量訓練30個類別的檢測器似乎已經足夠。然而，同一個視頻片段背景單一，相鄰多幀的圖像差異較小。所以要訓練現有目標檢測模型，VID訓練集存在大量數據冗餘，並且數據多樣性較差，有必要對其進行擴充。
基於Nios II的視頻運動目標檢測跟蹤系統設計

摘要：文章是以Nios II處理器為中心的視頻運動目標檢測跟蹤系統，通過CMOS圖像傳感器採集視頻圖像信息，採用幀間差分法檢測運動目標，形心跟蹤算法對目標進行跟蹤，最後在VGA顯示器上顯示視頻中運動物體。
天基海洋目標信息感知與融合技術

海洋目標信息感知與融合複雜性分析海洋目標信息感知與融合基於空、天、岸、海以及鄰近空間等平臺，綜合運用光、電、磁、聲等傳感器，獲取海洋目標多維度信息，利用信息處理技術進行融合，形成準確的海上態勢。
使用PyTorch實現目標檢測與跟蹤

本文將展示如何使用預訓練的分類器檢測圖像中的多個對象，並在視頻中跟蹤它們。圖像中的目標檢測目標檢測的算法有很多，YOLO跟SSD是現下最流行的算法。在本文中，我們將使用YOLOv3。
以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題

連續幀中的跟蹤目標具備高度關聯性。CenterTrack 把之前幀的熱圖作為輸入，輕鬆學會重複之前幀的預測，從而在不會引起較大訓練誤差的情況下拒絕跟蹤當前幀目標。研究者在訓練階段通過強大的數據增強方案來避免這種情況。事實上，數據增強方案足以讓模型學會基於靜態圖像跟蹤目標。也就是說，在沒有實時視頻輸入的情況下，CenterTrack 模型可以在靜態圖像數據集上成功訓練。
目標檢測與跟蹤概述

隨著信息技術的發展，基於視覺的運動目標的檢測與跟蹤已逐漸滲透到人們生活的方方面面，其重要性日益突出，吸引著越來越多的國內外學者和研究機構參與在這個領域的研究。目前，基於視覺的運動目標檢測與跟蹤已廣泛應用於視頻監控、虛擬實境、人機互動、行星探測、行為理解等領域。
深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍助機器理解視頻級別目標身份和動態

該數據集包含10,000個從YFCC100M[2]數據集中篩選的視頻（98.6小時），80個類別的目標（例如成人、狗、玩具）和50個類別的關係（例如旁邊、觀看、保持）標註；同時舉辦Video Relation Understanding[1]競賽，該競賽同時是ACM Multimedia 2020 Grand Challenge中的競賽任務。
目標檢測與行為跟蹤智能分析三大應用

新一代的智能化監控系統採用了智能視頻分析技術，克服了傳統監控系統人眼識別的缺陷，具備實時對監控範圍內的運動目標進行檢測跟蹤的功能；並且把行為識別等技術引入到監控系統中，形成新的能夠完全替代人為監控的智能型監控系統。　　智能視頻分析技術涉及到模式識別、機器視覺、人工智慧、網絡通信以及海量數據管理等技術。視頻智能分析通常可以分為幾部分：運動目標的識別、目標跟蹤與行為理解。
基於深度學習的多目標跟蹤(MOT)技術一覽

最近做了一些多目標跟蹤方向的調研，因此把調研的結果以圖片加文字的形式展現出來，希望能幫助到入門這一領域的同學。也歡迎大家和我討論關於這一領域的任何問題。相關方向這些是我所了解的多目標跟蹤（MOT）的一些相關方向。
基於機器視覺的典型多目標追蹤算法應用實踐

視頻目標追蹤算法是機器視覺中一項很實用重要的算法，視頻目標追蹤算法應用場景很廣，比如智能監控、機器人視覺系統、虛擬實境（人體跟蹤）、醫學診斷（細胞狀態跟蹤）等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
目標檢測:Anchor-Free時代

6.FCOS四個優點：1.將檢測和其他使用FCN的任務統一起來，容易重用這些任務的思想。2.proposal free和anchor free，減少了超參的設計。3.不使用trick，達到了單階段檢測的最佳性能。4.經過小的修改，可以立即拓展到其他視覺任務上。
mmdetection使用目標檢測工具箱訓練,測試

-商湯科技聯合實驗室開源了基於 PyTorch 的檢測庫——mmdetection。商湯科技和港中大組成的團隊在 2018年的COCO 比賽的物體檢測（Detection）項目中奪得冠軍，而 mmdetection 正是基於 COCO 比賽時的 codebase 重構。https://github.com/open-mmlab/mmdetection這個開源庫提供了已公開發表的多種視覺檢測核心模塊。
基於協方差矩陣的目標特徵提取與跟蹤

摘要: 如何在較複雜環境下對視頻中的運動目標進行有效跟蹤，是目前研究的熱點問題。本文提出了基於協方差矩陣建模的改進跟蹤中心點的確定方法。該方法在確定融合了LBP紋理特徵的目標特徵向量基礎上，建立目標區域協方差矩陣作為模板矩陣，並從下一幀中提取協方差矩陣，與模板矩陣進行矩陣相似性度量，形成相似度矩陣，使用閾值進行矩陣元素的選擇，並計算剩餘元素的權值，再按重心公式確定跟蹤中心點。實驗結果表明：在較複雜環境中，可以對目標的旋轉、遮擋和形狀變化進行具有更高準確度的跟蹤，驗證了該方法的有效性。
深蘭獲ACM MM 2020冠軍,視頻目標檢測挑戰劇烈抖動、消失重現等難點

2020年10月12-16日，多媒體領域的國際頂級會議ACM MM 2020在美國西雅圖舉行，深蘭科技再傳捷報，獲得了Video Relation Understanding競賽/視頻目標檢測任務的第一名
教你30分鐘實現基於Python的路況目標跟蹤系統...

目標跟蹤是對攝像頭視頻中的移動目標進行定位的過程，而目標跟蹤技術是智慧交通的核心技術之一，有著非常廣泛的應用。許多計算機視覺應用基於目標跟蹤技術做監控、用戶感知，增強現實、視頻壓縮以及輔助駕駛，為生活和工作帶來很大便利。　　那麼目標跟蹤測系統是怎樣應用於無人駕駛、醫院中的健康和安全監控、零售中的自助檢驗和分析、製造廠中的組件缺陷檢測的呢？
基於FPGA的移動目標實時定位跟蹤系統

基於實時物體移動的靜態圖像背景中移動目標檢測是計算機視覺領域的研究熱點，在安防、監控、智能交通、機器智慧、以及軍事領域等社會生活和軍事防禦等諸多領域都有較大的實用價值。移動目標檢測的實質是從實時圖像序列中將圖像的變化區域從整體圖像中分割提取出來。
MatrixNets:可替代FPN,用於目標檢測的可感知比例和長寬比的網絡結構

譯者 | 劉暢本文介紹了一種新的網絡MatrixNets（xNets），它是新的用於目標檢測的深層結構。xNets將具有相似大小和高寬比的目標映射到專門的層中，從而使xNets是一種可感知比例和長寬比的網絡結構。作者利用xNets來增強單階段（One-stage）目標檢測框架。
基於TensorFlow 、OpenCV 和 Docker 的實時視頻目標檢測

動機我們從 Dat Tran 這篇文章開始挑戰實時目標檢測。不過處理進出容器的視頻流可能會有一點麻煩。此外，在次項目我還添加了一個視頻後處理功能，同樣使用 multiprocessing 庫來減少處理時間（使用 Tensorflow 原始目標檢測 API 處理時間會非常長）。實時和視頻目標識別都可以在我的個人筆記本電腦上以高性能運行，僅使用 8GB CPU。

融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺

相關焦點

...檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺MM...

港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新

ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)

基於Nios II的視頻運動目標檢測跟蹤系統設計

天基海洋目標信息感知與融合技術

使用PyTorch實現目標檢測與跟蹤

以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題

目標檢測與跟蹤概述

深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍 助機器理解視頻級別目標身份和動態

目標檢測與行為跟蹤 智能分析三大應用

基於深度學習的多目標跟蹤(MOT)技術一覽

基於機器視覺的典型多目標追蹤算法應用實踐

目標檢測:Anchor-Free時代

mmdetection使用目標檢測工具箱訓練,測試

基於協方差矩陣的目標特徵提取與跟蹤

深蘭獲ACM MM 2020冠軍,視頻目標檢測挑戰劇烈抖動、消失重現等難點

教你30分鐘實現基於Python的路況目標跟蹤系統...

基於FPGA的移動目標實時定位跟蹤系統

MatrixNets:可替代FPN,用於目標檢測的可感知比例和長寬比的網絡結構

基於TensorFlow 、OpenCV 和 Docker 的實時視頻目標檢測

深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍助機器理解視頻級別目標身份和動態

目標檢測與行為跟蹤智能分析三大應用