融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺

2021-01-12 機器之心Pro

機器之心報導

編輯:魔王

香港中文大學多媒體實驗室(MMLab)OpenMMLab 開源一體化視頻目標感知平臺 MMTracking。

新年伊始,香港中文大學多媒體實驗室(MMLab)OpenMMLab 又有新動作,發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。

GitHub 地址:https://github.com/open-mmlab/mmtracking

MMTracking 效果展示。

據介紹,MMTracking 具備以下主要特性:

1. 首個開源一體化視頻目標感知平臺

對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題,比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說,

視頻目標檢測只需對視頻內的每一幀進行檢測,不要求對不同幀中的同一目標進行關聯。

多目標檢測在完成視頻目標檢測的基礎上,更加側重於對視頻內的同一目標進行關聯。

單目標跟蹤更加側重人機互動,算法需要在給定一個任意類別、任意形狀目標的情況下,對其進行持續跟蹤。

近幾年來,雖然各個任務都湧現了許多優秀的算法,但這些領域仍然缺少開源的代碼框架,給代碼復現、借鑑、公平對比帶來了很大困難。OpenMMLab 將這些任務融合到了同一框架下,希望能夠作為開源的一體化視頻目標感知平臺,推動不同子領域間的融合、互促與發展。

2. OpenMMLab 內部項目間的充分交互

視頻目標感知在大部分情況下可以認為是 2D 目標檢測的下遊任務,十分依賴各種 2D 目標檢測算法。在此之前,如何使用或切換不同的 2D 目標檢測器其實是一個很煩瑣耗時的任務。

MMTracking 充分利用了 OpenMMLab 其他平臺的成果與優勢,比如它 import 或繼承了 MMDetection 中的大部分模塊,極大地簡化了代碼框架。在這種模式下,通過 configs 可以直接使用 MMDetection 中的所有模型。以多目標跟蹤舉例,每一個多目標跟蹤模型多由以下幾個模塊組成:

Configs 示例:

現階段的 ReID 模型也繼承了 MMClassification 中的一些模塊並將在後期增加其他支持。

受益於 OpenMMLab 的這種模塊化設計,MMTracking 可以利用其他圖像級平臺的已有成果,從而只需要注重視頻部分模塊的設計與開發。同時,如果用戶需要單獨訓練一個目標檢測器,該工具也支持直接使用 MMDetection 的 configs 進行訓練,只需要在 config 中添加一句 USE_MMDET=True 即可將模式切換到 MMDetection 下,進行前序模型訓練。

3. 高效、強大的基準模型

視頻目標感知領域中的不同方法往往各成一派,缺乏公認的訓練方法與準則,因此在很多時候很難做到真正的公平對比。

MMTracking v0.5 復現了各個領域的主流算法,包括:

視頻目標檢測:DFF、FGFA、SELSA

多目標跟蹤:SORT、DeepSORT、Tracktor

單目標跟蹤:SiameseRPN++

據 OpenMMLab 知乎文章介紹,MMTracking 在保證高效訓練與推理的基礎上,有些模型甚至超出官方實現,例如:

對視頻目標檢測算法 SELSA 的實現結果(第一行)相比於官方實現(第二行),在 ImageNet VID 數據集上 mAP@50 超出 1.25 個點。

對多目標跟蹤算法 Tracktor 的實現結果(第一行)相比於官方實現(第二行),在 MOT17 數據集上 MOTA 超出 4.9 個點,IDF1 超出 3.3 個點。

對單目標跟蹤算法 SiameseRPN++ 的實現結果(第一行)相比於官方實現(第二行),在 LaSOT 數據集上的 Norm precision 超出 1.0 個點。

相關焦點

  • 以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題
    此外,CenterTrack 很容易擴展到單目 3D 跟蹤,只需恢復額外的 3D 屬性即可。以單目視頻作為輸入,以 28 FPS 運行,CenterTrack 在新發布的 nuScenes 3D 跟蹤基準上實現了 28.3% AMOTA@0.2,顯著超過單目基線方法。
  • 移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用
    ,已經不能滿足移動端了,谷歌開源的 3D 實時目標檢測了解一下?具體而言,MediaPipe 是一個用於構建 pipeline 進而處理不同模態感知數據的跨平臺開源框架,Objectron 則在 MediaPipe 中實現,其能夠在行動裝置上實時計算目標的定向 3D 邊界框。從單個圖像進行 3D 目標檢測。MediaPipe 可以在移動端上實時確認目標對象的位置、方向以及大小。
  • 深蘭獲ACM MM 2020冠軍,視頻目標檢測挑戰劇烈抖動、消失重現等難點
    首頁 > 傳媒 > 關鍵詞 > 深蘭最新資訊 > 正文 深蘭獲ACM MM 2020冠軍,視頻目標檢測挑戰劇烈抖動、消失重現等難點
  • 一行代碼調用預訓練模型,上海交大開源視頻理解工具箱AlphaVideo
    此外,他們還開源了視頻理解工具箱 AlphaVideo。近期,上海交通大學盧策吾團隊在《自然 - 機器智能》子刊上發表了關於高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。
  • 從數據集到2D和3D方法,一文概覽目標檢測領域進展
    雷達數據對目標檢測問題也很有用。雷達數據的收集方式是:先向目標表面發射聲波,然後使用反射信息來計算目標的速度以及與目標的距離。但是,僅靠雷達可無法收集到用於檢測和分類的信息,因此不同類型數據的融合是非常重要的。點雲數據是三維坐標系中的一組向量。這些向量通常用 X、Y、Z 的三維坐標表示,是一種常用的外表面形狀表示方式。
  • 「港獨」趁機作亂,這次,目標是學校
    ,典禮進行期間,有人聚集宣傳「黑暴」,在中文大學校園多處噴塗「黑暴」相關塗鴉。  「港獨」趁機作亂  經多家媒體報導稱,前幾日,香港中文大學將持續舉行三天的畢業典禮。除此之外,據文匯網的報導,香港中文大學校園多處遭到破壞,教學樓等多座建築物的牆壁、地面以及走廊都被大量的噴塗了「黑暴」塗鴉。事後,香港中文大學對這種違法以及及其不負責任的行為給予強烈的譴責,表示該行為已構成刑事毀壞,並已交由警方處理。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    for End-to-End Joint Multiple-Object Detection and Tracking現有的多目標跟蹤(MOT)算法大多是基於傳統的先檢測後跟蹤的框架,包含目標檢測、特徵提取、目標關聯這三個模塊,還有少數MOT算法將三個模塊中的某兩個融合實現部分端到端跟蹤,本文提出了一種
  • NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式
    為了解決這些問題,來自商湯研究院、中科大和港中文的研究者提出了 Deformable DETR,解決了 DETR 收斂慢、計算複雜度高這兩大問題。其注意力模塊僅關注於參考點附近的一小部分採樣點作為注意力模塊中的 key 元素。Deformable DETR 可以在比 DETR 少 9/10 的訓練輪數下,達到更好的性能(尤其是在小物體上),在 COCO 基準上的大量實驗驗證了該方法的有效性。
  • 1.8M超輕量目標檢測模型NanoDet,比YOLO快,上線兩天Star量超200
    這個項目對單階段檢測模型三大模塊(Head、Neck、Backbone)進行輕量化,得到模型大小僅 1.8m、速度超快的輕量級模型 NanoDet-m。目標檢測一直是計算機視覺領域的一大難題,其目標是找出圖像中的所有感興趣區域,並確定這些區域的位置和類別。目標檢測中的深度學習方法已經發展了很多年,並出現了不同類型的檢測方法。
  • 大華股份AI榮獲視覺目標跟蹤算法評測全球排名第一
    近日,大華股份基於深度學習的視覺目標跟蹤算法,在通用目標跟蹤評測集GOT-10k(Generic Object Tracking Benchmark)上獲得綜合精度排行榜第一,超越了其它一流AI公司和頂尖的學術研究機構;同時在OTB2015/VOT2018/VOT2019數據集上刷新了當前跟蹤算法SOTA(state-of-the-art
  • AAAI 2020|用漸進打磨獲得最佳的顯著性目標檢測結果
    這篇論文提出了一個新的漸進式特徵打磨網絡(PFPN),通過重複使用多個特徵打磨模塊(FPM)可以檢測出具有精細細節的顯著目標,且無需任何後處理。FPM通過直接合併所有高級別的上下文信息來並行更新每個級別的特徵並且可以保留特徵圖的尺寸和層次結構,這使得它可以應用在任何CNN結構中。PFPN在5個benchmark數據集上獲得了SOTA。
  • 騰訊多媒體實驗室重磅開源視頻質量評估算法DVQA
    開源地址:https://github.com/Tencent/DVQA國內鏡像地址:https://git.code.tencent.com/Tencent_Open_Source/DVQA(登錄後才能訪問公開項目)騰訊工蜂源碼系統為開源開發者提供完整、最新的騰訊開源項目國內鏡像視聽時代,音視頻應用越來越廣泛:直播
  • 圖像目標檢測算法——總結
    傳統目標檢測方法Selective SearchDeformable Part Model基於CNN 的目標檢測1.最開始的CNN 目標檢測就是兩階段的。R-CNNR-CNN 是最早利用CNN 實現目標檢測任務的方法,由rbg(Ross Girshick)等人提出。
  • 首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...
    研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。   Facebook AI Research的六名成員研究了近期非常流行的Transformer神經網絡架構,創建了一個端到端的目標檢測AI。研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。
  • 2020「水下目標檢測算法賽」賽題解析——聲學圖像
    聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業講座。
  • NeurIPS 2020最佳論文;全卷積網絡實現E2E目標檢測
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要研究包括 NeurIPS 2020最佳論文以及拋棄 Transformer 使用全卷積網絡來實現端到端目標檢測的探索。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    目錄REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 解決背景重校準損失下的缺失標註目標檢測問題 論文名稱:Solving Missing-Annotation Object Detection with Background Recalibration Loss作者:Zhang Han /Chen Fangyi /Shen
  • 精度45.9%,推理速度72.9FPS,百度飛槳推出工業級目標檢測模型
    而目標檢測的王牌家族——YOLO系列模型,作為單階段目標檢測算法的代表之一,一經出世,便以快速精準的檢測效果而迅速躥紅。其不僅在速度上做到真正實時,精度上也可以達到很多非實時兩階段模型才有的水平。,從而達到大幅提升YOLO目標檢測性能的效果。
  • 北大校友出品:顯著性目標檢測工具,AI生成肖像畫,精細到毛髮
    北大校友出品:顯著性目標檢測工具,AI生成肖像畫,精細到毛髮 機器人大講堂 發表於 2020-12-02 10:42:23 「只要思想不滑坡,辦法總比困難多,乾巴得
  • 曲敏在全市縣域經濟視頻調度會議上強調 牢牢錛住整體晉位升級目標...
    曲敏在全市縣域經濟視頻調度會議上強調 牢牢錛住整體晉位升級目標 全力推動縣域經濟高質量發展 2020-09-01 17:10 來源:澎湃新聞 政務