基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻...

2021-01-09 電子發燒友
基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻物體檢測中精度和速度的難題

李倩 發表於 2018-06-07 17:48:43

在物體檢測與識別領域,香港中文大學-商湯科技聯合實驗室在CVPR 2018發表論文,提出基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻物體檢測中精度和速度的難題。本文為商湯科技CVPR 2018論文解讀第6期。

簡介

本文主要研究如何更好地優化和平衡視頻中物體檢測的準確率和檢測速度。物體檢測器為了達到高準確率,往往需要使用高性能的卷積神經網絡來提取圖像特徵,導致檢測速度難以滿足實時性的需求。解決這個問題的關鍵在於尋求一種有效的方式,在準確率和檢測速度之間作出平衡。為了尋找一個良好的平衡點,之前的研究工作通常集中在如何優化網絡結構上。本文提出一種新的方法,基於尺度-時間網格(Scale-Time Lattice,簡記為ST-Lattice)來重新分配計算資源。

提出的方法在ImageNet VID 數據集上達到了 79.6 mAP(20fps)和 79.0 mAP(62 fps)的準確率和速度。本文的主要貢獻有:

提出了尺度-時間網格,其為算法提供了豐富的設計空間來對物體檢測性能進行優化;

基於尺度-時間網格,提出了新的視頻中物體檢測的框架,實現了優異準確率和快速檢測速度的平衡;

設計了一些新的技術模塊,包括高效的傳播模塊和動態的關鍵幀選取模塊。

基本思想

視頻中相鄰幀之間有著很強的連續性和信息冗餘性,為了提高效率,應該充分利用這些性質來設計新的檢測框架。之前的方法已經對視頻中的物體檢測作了很多探索,通常包含若干個步驟,例如基於單幀的物體檢測,進行跨時間的傳播和空間上位置的修正等,如何用一種更高效的方式將這些獨立的步驟結合起來是一個值得研究的問題。

本文提出的基本思想是在一個計算網格中對計算資源進行更好的分配,將精確但速度較慢的靜態圖像物體檢測器應用於稀疏的關鍵幀上,然後利用一些簡單高效的網絡在時間和空間兩個維度上不斷地傳播和修正這些檢測結果,以達到更好的平衡。

尺度-時間網格

本文將尺度-時間網格表示成一個有向無環圖(如圖1所示)。圖中的每一個節點都表示某個圖像尺度和時間點的中間結果,即一系列檢測框。這些節點以類似網格的方式關聯起來:從左到右遵循時間順序,從上到下圖像尺度(解析度)逐漸提高。圖中的一條邊代表一個特定的操作,以一個節點的結果作為輸入,輸出另一個節點的檢測結果。我們在圖中定義兩種操作,時間傳播(temporal propagation)和空間修正(spatial refinement)。它們分別對應圖中橫向邊和縱向邊。時間傳播是在同一圖像尺度下,在相鄰的幀之間進行檢測框的傳播。而空間修正是在同一幀下,對檢測框的位置進行修正,獲得更高圖像尺度下的檢測框結果。在尺度-時間網格中,檢測結果會通過上述操作從一個節點傳播到另一個節點,最終到達最底端的所有節點,也即在最大的圖像尺度上每幀的檢測結果。

圖1:

尺度-時間網格示意圖

基於尺度-時間網格,本文的視頻物體檢測算法被分為以下3 個步驟:

在稀疏的關鍵幀上(用基於靜態圖像的物體檢測器)進行檢測,得到稀疏節點上的結果;

規劃一條從上述稀疏的節點到稠密的節點的路徑;

基於上述路徑將關鍵幀上的檢測結果傳播到中間幀,並進行位置修正。

尺度-時間網格的框架為算法提供了豐富的設計空間來平衡優化視頻中物體檢測精度和速度。檢測所需要的總時間是路徑中所有邊的時間之和,包括單幀物體檢測器的時間以及傳播和修正所用的時間。可以通過對不同的邊上分配不同的計算時間,來達到性能與時間上的期望平衡點。

圖2:

尺度-時間網格中的時間傳播網絡(T)

和空間修正網絡(S)

不同模塊的實現

傳播和修正單元(Propagation and Refinement Unit,PRU)

傳播和修正單元(如圖2所示)以相鄰兩個關鍵幀的結果作為輸入,使用時間傳播網絡將結果傳播到中間幀上,然後使用空間修正網絡將結果進行空間位置上的修正。時間傳播網絡主要用於考慮視頻中的運動信息,來預測兩幀之間較大的位移。而空間修正模塊則通過回歸檢測框位置的偏差,來修正檢測框本來的誤差和傳播帶來的誤差。這兩種操作不斷迭代進行來獲得最終的檢測結果。

在時間傳播網絡中,算法使用兩幀之間的運動歷史圖像(Motion History Image,MHI)來表示運動信息,將其輸入到網絡中,回歸物體在這段時間內的位移。相對於光流等常用的運動表示,MHI 的計算速度非常快,使得空間傳播網絡能夠保持較高的效率。

在空間修正網絡中,算法採用與Fast R-CNN 相同的結構,以當前幀的 RGB 圖像作為輸入,來回歸檢測框的偏差。這兩個小網絡在訓練時通過一個多任務的損失函數同時進行優化。

關鍵幀選取

關鍵幀的選取對最終的檢測速度和準確率有著重要的影響。最簡單直接的方法就是在時間軸上均勻地選取關鍵幀,之前的絕大多數方法也都採取了該策略。但本文考慮到幀與幀之間的信息冗餘度不同,並不是每一幀都有同等重要的地位,所以需要一種非均勻的採樣策略,在物體運動較快、傳播難度大的時間段內多選取關鍵幀,反之則少選取關鍵幀。

具體過程如下:首先在均勻選取的非常稀疏的幀(例如每隔24幀)上進行單幀的物體檢測,然後根據檢測結果來衡量相鄰兩個關鍵幀之間傳播的難易程度,如果難易程度低於某個閾值,則在這兩幀之間插入一個額外的關鍵幀。計算難易程度時本文考慮了兩個因素,即框的大小以及物體運動快慢,具體公式參見原文。

時間管道重打分(Tube Rescoring)

由於時間上的檢測框傳播,獲得的檢測結果並不是獨立的逐幀結果,而是自然串聯成一個個的物體時間管道(Object Tube)的,那麼可以對這些物體時間管道來進行重新分類。本文訓練了一個 R-CNN 作為分類器,對於每個物體時間管道,均勻選取其中 K 幀作為輸入,以它們的平均值作為新的分類結果,根據新的分類結果來調整物體時間管道中每個框的分數。

實驗結果

圖3展示了本文基於尺度-時間網格算法的檢測速度(fps)和準確率(mAP)的曲線,並和之前的方法進行比較。可以看到本文方法優於 baseline 和之前性能先進的方法。

圖3:

不同視頻中物體檢測算法

檢測速度和精度的比較

結論

針對視頻中的物體檢測,本文提出了尺度-時間網格這個靈活的框架,其提供了豐富的設計空間來解決如何平衡準確率和檢測速度的挑戰。該方法將單幀檢測、時間傳播、多尺度空間處理結合起來解決這個問題。實驗結果展示了基於該框架的多種設計和配置,能夠達到與當前先進性能方法近似的準確率,但檢測速度則獲得了大幅提高。該框架不僅可以用於物體檢測,也可以應用在其他視頻相關的任務,如物體分割、物體跟蹤等。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 阿里文娛資深算法專家:視頻物體分割算法的三個方向與最新應用
    視頻物體分割結果是進行內容二次創作的重要素材。例如目前火爆的「裸眼 3D 視頻」,基於視頻中主要物體與觀眾之間的距離,利用蒙皮遮擋的變化產生 3D 效果。其核心點是將前景物體從視頻中分割出來,這部分會花費創作者 99% 以上的時間。因此,對於優酷這樣的視頻類網站,視頻物體分割是非常有價值的算法,能夠賦能內容生產者,提升內容生產效率。
  • Video++張奕:人工智慧在消費級視頻場景中的應用丨雷鋒網公開課(附...
    利用人工智慧技術對物體、人臉、場景、品牌進行系列結構篩選後,就能得到這個視頻裡在何時何地出現了什麼人物、物體、場景和品牌的信息。然後再在這一基礎上對物體進行結構化,就能產生極大的商業價值。目前來看,在視頻中加入廣告等都需要人工操作,如果採用人工智慧技術來完成這些工作,則能很大程度節省時間,降低成本。
  • 計算機也可以看「視頻」,理解「視頻」
    我們認為,動作檢測是一個對運動目標進行觀察並細化假設的過程:觀察視頻中每一個動作變化瞬間,細化關於一個動作將何時發生的所有假設。基於該觀點,我們將提出的模型視為一個基於遞歸神經網絡結構的代理人程序,該代理人程序與視頻進行交流互動。代理人程序觀察視頻幀序列,決定下一步觀察哪裡,何時對運動目標進行動作預測。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    本文的姐妹篇:《ILSVRC2016目標檢測任務回顧:圖像目標檢測(DET)》圖像目標檢測任務在過去三年的時間取得了巨大的進展,檢測性能得到明顯提升。但在視頻監控、車輛輔助駕駛等領域,基於視頻的目標檢測有著更為廣泛的需求。
  • 多目標進化算法|基於網格約束分解方法
    近期,南京航空航天大學蔡昕燁副教授,汕頭大學範衠教授和香港城市大學張青富教授關於網格約束分解的多目標進化算法研究取得了新進展,相關成果發表在國際頂級期刊
  • 基於Nios II的視頻運動目標檢測跟蹤系統設計
    摘要:文章是以Nios II處理器為中心的視頻運動目標檢測跟蹤系統,通過CMOS圖像傳感器採集視頻圖像信息,採用幀間差分法檢測運動目標,形心跟蹤算法對目標進行跟蹤,最後在VGA顯示器上顯示視頻中運動物體。
  • 乾貨| 算法工程師入門第三期——黃李超講物體檢測
    本期地平線深度學習算法工程師黃李超將為大家帶來物體檢測相關內容的分享,全文約8000字,建議閱讀時間20分鐘,歡迎轉發或收藏。其次對於一類物體,它可能會有豐富的類內差異性,即使是同一個物體在不同的姿態下也不一樣,難道我們要為每一種姿態都預先創建一個三維模型模板?最後,即使解決了之前的問題,如何才能準確地從圖像中提取出這些幾何形狀呢?因此這個方法在當時雖然理論挺優美,但實施起來非常困難。
  • 深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍 助機器理解視頻級別目標身份和動態
    該數據集包含10,000個從YFCC100M[2]數據集中篩選的視頻(98.6小時),80個類別的目標(例如成人、狗、玩具)和50個類別的關係(例如旁邊、觀看、保持)標註;同時舉辦Video Relation Understanding[1]競賽,該競賽同時是ACM Multimedia 2020 Grand Challenge中的競賽任務。
  • 基於TensorFlow 、OpenCV 和 Docker 的實時視頻目標檢測
    翻譯 | 於志鵬  徐普     校對 | 陶玉龍     整理 | 孔令雙在本文中,我將介紹如何在 Docker 容器中使用 Tensorflow Object-detection API 來執行實時(網絡攝像頭)和視頻的目標檢測。
  • CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法
    下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。
  • 41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用...
    在強時間約束下處理高吞吐量請求,所謂系統的吞吐量指的是計算機系統單位時間內可處理的服務請求數,它的計算特點是需要挖掘算法本身的可並行性,計算任務是基於一系列學習子任務的一個較大任務,這些子任務之間使用相同的數據或者關聯數據,如果能充分利用子任務間的相關性和數據的相關性,就能提高計算的並行度和計算效率。
  • 視頻圖像中文本的檢測、定位與提取
    只有通過挖掘構成視頻的各種媒質所表達的豐富語義信息,克服單純的視覺特徵語義表達能力較弱這一缺點,充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習慣,實現實用的基於內容的視頻檢索系統。視頻中的文本分為人工文本和場景文本。目前的研究主要集中於人工文本,而場景文本的研究才剛剛起步。正是由於文本的種類、形狀的多樣差異性,目前文本提取算法還沒有一個通用的評價準則和標準資料庫。  文中針對水平和豎直排列的靜止及滾動文本,提出利用小波多尺度局部模極大值邊緣檢測算法來檢測文本圖像邊緣,利用形態學處理生成候選文本區域,用由粗到精的多次水平、豎直投影來定位精確的文本位置。
  • 香港中文大學陳愷:物體檢測算法的近期發展及開源框架介紹 | 大...
    雷鋒網 AI 科技評論按:物體檢測是計算機視覺的基礎任務之一。香港中文大學多媒體實驗室博士生陳愷在 AI 研習社的公開課上,為大家總結了深度學習背景下物體檢測算法的發展,分享 COCO 比賽冠軍團隊所使用的算法,並介紹由港中大多媒體實驗室開源的物體檢測算法框架 mmdetection。
  • 輕鬆識別小目標的物體檢測算法揭秘
    在眾多模型使用場景中,小目標物體的檢測比較常見,一般的目標檢測算法往往效果不理想;因此,EasyDL團隊針對小目標物體的檢測進行了專項優化,並取得了令人矚目的效果提升。自AlexNet在2012年ImageNet比賽上展露頭角以來,計算機視覺各個方向和神經網絡的聯繫變得越發緊密,物體檢測也不例外。
  • 智能視頻監控系統及其在Blackfin處理器上的應用
    運動檢測算法可按照不同分類標準分為多種。中科院自動化所把運動檢測算法歸納為三種:背景消除法,時間差分法,光流法。背景消除法和時間差分法都可以看作是差分圖像法。背景消除法是目前運動分割中最常用的一種方法,它利用當前圖像與背景圖像的差分來檢測出運動區域。時間差分方法是在連續的圖像序列中兩個或三個相鄰幀間採用基於像素的時間差分並且閾值化來提取出圖像中的運動區域。
  • DAC快速目標檢測算法優化和架構設計優化方案
    DAC快速目標檢測算法優化和架構設計優化方案 Pynq 發表於 2020-12-03 15:26:17 1.
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    機器之心報導參與:李亞洲、杜偉昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 發布動作識別和檢測庫 MMAction,同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的算法實現。
  • 百度飛槳推出「最抗造」目標檢測模型! 工業應用裡實打實的實用
    工業視覺、自動駕駛、安防、新零售等我們身邊熟知的各行各業都需要目標檢測技術,由於其很好的平衡了標註成本、檢測精度和速度等,成為當前智能製造產業升級浪潮中被商業化應用最為廣泛的AI技術之一。而實際生產環境對檢測算法的精度、速度、體積等要求往往十分苛刻。
  • 如何將RTC中基於AI的音頻算法有效的產品化
    本次我想要分享的題目是如何將AI音頻算法應用、結合到RTC中,我會結合自己在國外的一些研究和開發的經驗,包括網易雲信在AI音頻算法應用實戰當中的一些經驗總結,和大家一起聊一聊如何將AI音頻算法與RTC有機結合。
  • 基於RCNN的多層次結構顯著性目標檢測方法
    隨著技術的發展,採用卷積神經網(Convolutional Neural Networks,CNN)可以直接學習和感知路面和道路上的車輛,經過一段時間正確駕駛過程,便能學習和感知實際道路情況下的相關駕駛知能,無需再通過感知具體的路況和各種目標,大幅度提升了輔助駕駛算法的性能。