...檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺MM...

2021-01-11 澎湃新聞

機器之心報導

編輯:魔王

香港中文大學多媒體實驗室(MMLab)OpenMMLab 開源一體化視頻目標感知平臺 MMTracking。

新年伊始,香港中文大學多媒體實驗室(MMLab)OpenMMLab 又有新動作,發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。

GitHub 地址:https://github.com/open-mmlab/mmtracking

MMTracking 效果展示。

據介紹,MMTracking 具備以下主要特性:

1. 首個開源一體化視頻目標感知平臺

對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題,比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說,

視頻目標檢測只需對視頻內的每一幀進行檢測,不要求對不同幀中的同一目標進行關聯。

多目標檢測在完成視頻目標檢測的基礎上,更加側重於對視頻內的同一目標進行關聯。

單目標跟蹤更加側重人機互動,算法需要在給定一個任意類別、任意形狀目標的情況下,對其進行持續跟蹤。

近幾年來,雖然各個任務都湧現了許多優秀的算法,但這些領域仍然缺少開源的代碼框架,給代碼復現、借鑑、公平對比帶來了很大困難。OpenMMLab 將這些任務融合到了同一框架下,希望能夠作為開源的一體化視頻目標感知平臺,推動不同子領域間的融合、互促與發展。

2. OpenMMLab 內部項目間的充分交互

視頻目標感知在大部分情況下可以認為是 2D 目標檢測的下遊任務,十分依賴各種 2D 目標檢測算法。在此之前,如何使用或切換不同的 2D 目標檢測器其實是一個很煩瑣耗時的任務。

MMTracking 充分利用了 OpenMMLab 其他平臺的成果與優勢,比如它 import 或繼承了 MMDetection 中的大部分模塊,極大地簡化了代碼框架。在這種模式下,通過 configs 可以直接使用 MMDetection 中的所有模型。以多目標跟蹤舉例,每一個多目標跟蹤模型多由以下幾個模塊組成:

import torch.nn as nnfrom mmdet.models import build_detectorclass BaseMultiObjectTracker(nn.Module):def __init__(self,detector=None,reid=None,tracker=None,motion=None,pretrains=None):self.detector = build_detector(detector)...

Configs 示例:

model = dict(type='BaseMultiObjectTracker',detector=dict(type='FasterRCNN', **kwargs),reid=dict(type='BaseReID', **kwargs),motion=dict(type='KalmanFilter', **kwargs),tracker=dict(type='BaseTracker', **kwargs))

現階段的 ReID 模型也繼承了 MMClassification 中的一些模塊並將在後期增加其他支持。

受益於 OpenMMLab 的這種模塊化設計,MMTracking 可以利用其他圖像級平臺的已有成果,從而只需要注重視頻部分模塊的設計與開發。同時,如果用戶需要單獨訓練一個目標檢測器,該工具也支持直接使用 MMDetection 的 configs 進行訓練,只需要在 config 中添加一句 USE_MMDET=True 即可將模式切換到 MMDetection 下,進行前序模型訓練。

3. 高效、強大的基準模型

視頻目標感知領域中的不同方法往往各成一派,缺乏公認的訓練方法與準則,因此在很多時候很難做到真正的公平對比。

MMTracking v0.5 復現了各個領域的主流算法,包括:

視頻目標檢測:DFF、FGFA、SELSA

多目標跟蹤:SORT、DeepSORT、Tracktor

單目標跟蹤:SiameseRPN++

據 OpenMMLab 知乎文章介紹,MMTracking 在保證高效訓練與推理的基礎上,有些模型甚至超出官方實現,例如:

對視頻目標檢測算法 SELSA 的實現結果(第一行)相比於官方實現(第二行),在 ImageNet VID 數據集上 mAP@50 超出 1.25 個點。

對多目標跟蹤算法 Tracktor 的實現結果(第一行)相比於官方實現(第二行),在 MOT17 數據集上 MOTA 超出 4.9 個點,IDF1 超出 3.3 個點。

對單目標跟蹤算法 SiameseRPN++ 的實現結果(第一行)相比於官方實現(第二行),在 LaSOT 數據集上的 Norm precision 超出 1.0 個點。

OpenMMLab 知乎文章:https://zhuanlan.zhihu.com/p/341283833

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

原標題:《融合視頻目標檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺 MMTracking》

閱讀原文

相關焦點

  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺
    機器之心報導編輯:魔王香港中文大學多媒體實驗室(MMLab)OpenMMLab 開源一體化視頻目標感知平臺 MMTracking。新年伊始,香港中文大學多媒體實驗室(MMLab)OpenMMLab 又有新動作,發布了一款一體化視頻目標感知平臺 MMTracking。
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    機器之心報導參與:李亞洲、杜偉昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 發布動作識別和檢測庫 MMAction,同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的算法實現。
  • mmdetection使用目標檢測工具箱訓練,測試
    -商湯科技聯合實驗室開源了基於 PyTorch 的檢測庫——mmdetection。商湯科技和港中大組成的團隊在 2018年的COCO 比賽的物體檢測(Detection)項目中奪得冠軍,而 mmdetection 正是基於 COCO 比賽時的 codebase 重構。https://github.com/open-mmlab/mmdetection這個開源庫提供了已公開發表的多種視覺檢測核心模塊。
  • 基於Nios II的視頻運動目標檢測跟蹤系統設計
    摘要:文章是以Nios II處理器為中心的視頻運動目標檢測跟蹤系統,通過CMOS圖像傳感器採集視頻圖像信息,採用幀間差分法檢測運動目標,形心跟蹤算法對目標進行跟蹤,最後在VGA顯示器上顯示視頻中運動物體。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    首先對ILSVRC2016 VID訓練數據進行分析: VID資料庫包含30個類別,訓練集共有3862個視頻片段,總幀數超過112萬。單從數字上看,這麼大的數據量訓練30個類別的檢測器似乎已經足夠。然而,同一個視頻片段背景單一,相鄰多幀的圖像差異較小。所以要訓練現有目標檢測模型,VID訓練集存在大量數據冗餘,並且數據多樣性較差,有必要對其進行擴充。
  • 使用PyTorch實現目標檢測與跟蹤
    本文將展示如何使用預訓練的分類器檢測圖像中的多個對象,並在視頻中跟蹤它們。 圖像中的目標檢測 目標檢測的算法有很多,YOLO跟SSD是現下最流行的算法。在本文中,我們將使用YOLOv3。
  • 以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題
    連續幀中的跟蹤目標具備高度關聯性。CenterTrack 把之前幀的熱圖作為輸入,輕鬆學會重複之前幀的預測,從而在不會引起較大訓練誤差的情況下拒絕跟蹤當前幀目標。研究者在訓練階段通過強大的數據增強方案來避免這種情況。事實上,數據增強方案足以讓模型學會基於靜態圖像跟蹤目標。也就是說,在沒有實時視頻輸入的情況下,CenterTrack 模型可以在靜態圖像數據集上成功訓練。
  • 深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍 助機器理解視頻級別目標身份和動態
    該數據集包含10,000個從YFCC100M[2]數據集中篩選的視頻(98.6小時),80個類別的目標(例如成人、狗、玩具)和50個類別的關係(例如旁邊、觀看、保持)標註;同時舉辦Video Relation Understanding[1]競賽,該競賽同時是ACM Multimedia 2020 Grand Challenge中的競賽任務。
  • 天基海洋目標信息感知與融合技術
    海洋目標信息感知與融合複雜性分析 海洋目標信息感知與融合基於空、天、岸、海以及鄰近空間等平臺,綜合運用光、電、磁、聲等傳感器,獲取海洋目標多維度信息,利用信息處理技術進行融合,形成準確的海上態勢。
  • 目標檢測與跟蹤概述
    隨著信息技術的發展,基於視覺的運動目標的檢測與跟蹤已逐漸滲透到人們生活的方方面面,其重要性日益突出,吸引著越來越多的國內外學者和研究機構參與在這個領域的研究。目前,基於視覺的運動目標檢測與跟蹤已廣泛應用於視頻監控、虛擬實境、人機互動、行星探測、行為理解等領域。
  • 目標檢測與行為跟蹤 智能分析三大應用
    新一代的智能化監控系統採用了智能視頻分析技術,克服了傳統監控系統人眼識別的缺陷,具備實時對監控範圍內的運動目標進行檢測跟蹤的功能;並且把行為識別等技術引入到監控系統中,形成新的能夠完全替代人為監控的智能型監控系統。  智能視頻分析技術涉及到模式識別、機器視覺、人工智慧、網絡通信以及海量數據管理等技術。視頻智能分析通常可以分為幾部分:運動目標的識別、目標跟蹤與行為理解。
  • 基於深度學習的多目標跟蹤(MOT)技術一覽
    最近做了一些多目標跟蹤方向的調研,因此把調研的結果以圖片加文字的形式展現出來,希望能幫助到入門這一領域的同學。也歡迎大家和我討論關於這一領域的任何問題。相關方向這些是我所了解的多目標跟蹤(MOT)的一些相關方向。
  • MatrixNets:可替代FPN,用於目標檢測的可感知比例和長寬比的網絡結構
    譯者 | 劉暢本文介紹了一種新的網絡MatrixNets(xNets),它是新的用於目標檢測的深層結構。xNets將具有相似大小和高寬比的目標映射到專門的層中,從而使xNets是一種可感知比例和長寬比的網絡結構。作者利用xNets來增強單階段(One-stage)目標檢測框架。
  • 谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
    這一技術不光可以在手機上實現實時捕捉性能,甚至可以同時對多個手的動作進行跟蹤。目前,Google 已經將該項目開源,並且發布了相關博客介紹了這項技術,雷鋒網 AI 開發者將其內容整理編譯如下。在這個方法展示過程中,我們通過 MediaPipe——一個開放源碼的跨平臺框架,來構建了處理視頻和音頻等類型的不同模式感知數據的框架。該方法通過機器學習(ML)從單個幀中推斷出一隻手的 21 個 3D 關鍵點,從而提供了高保真的手部和手指跟蹤。目前最先進的方法主要依靠強大的桌面環境進行推理,而我們的方法可以在手機端實現這個實時性能,甚至還可以擴展到對多個手的同步跟蹤。
  • 深蘭獲ACM MM 2020冠軍,視頻目標檢測挑戰劇烈抖動、消失重現等難點
    2020年10月12-16日,多媒體領域的國際頂級會議ACM MM 2020在美國西雅圖舉行,深蘭科技再傳捷報,獲得了Video Relation Understanding競賽/視頻目標檢測任務的第一名
  • opencv教程-目標跟蹤
    算法原理:屬於核密度估計算法,向密度最大的方向移動(反向投影就是一種概率密度圖,顏色亮的地方密度高,與目標物體更相似);基於矩形框的中心和矩形框內反向投影圖的質心進行移動(中心向質心移動),直到達到迭代停止條件,則會得到新的位置框。
  • 目標檢測:Anchor-Free時代
    6.FCOS四個優點:1.將檢測和其他使用FCN的任務統一起來,容易重用這些任務的思想。2.proposal free和anchor free,減少了超參的設計。3.不使用trick,達到了單階段檢測的最佳性能。4.經過小的修改,可以立即拓展到其他視覺任務上。
  • 大盤點|性能最強的目標檢測算法
    本文便對mAP最高的目標檢測算法進行了盤點。趁最近目標檢測(Object Detection)方向的論文更新較少,趕緊做個"最強目標檢測算法"大盤點。要知道衡量目標檢測最重要的兩個性能就是 精度和速度,特指mAP 和 FPS。
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 教你30分鐘實現基於Python的路況目標跟蹤系統...
    目標跟蹤是對攝像頭視頻中的移動目標進行定位的過程,而目標跟蹤技術是智慧交通的核心技術之一,有著非常廣泛的應用。許多計算機視覺應用基於目標跟蹤技術做監控、用戶感知,增強現實、視頻壓縮以及輔助駕駛,為生活和工作帶來很大便利。  那麼目標跟蹤測系統是怎樣應用於無人駕駛、醫院中的健康和安全監控、零售中的自助檢驗和分析、製造廠中的組件缺陷檢測的呢?