Temporal Action Detection (時序動作檢測)方向2017年會議論文整理

2020-12-25 雷鋒網

雷鋒網(公眾號:雷鋒網)按:本文作者林天威,上海交大研究生。

2017年馬上要過去,自己也在時序動作檢測這個方向正好做了一年時間,所以最近整理了一下今年各大視覺會議上(CVPR,ICCV,ACMMM,BMVC,AAAI等)時序動作檢測這個方向的論文,供大家參考。

關於Temporal Action Detection (Localization) 時序動作檢測這一方向的介紹,可以見我之前的專欄文章: Video Analysis 相關領域解讀之Temporal Action Detection(時序行為檢測)。簡單來說,temporal action detection是要在視頻序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。類似於圖像中的目標檢測任務,時序動作檢測也可以分為生成時間區間提名(temporal action proposal generation)以及對提名進行分類(action recognition)倆個環節。今年有不少工作針對前者設計了模型,也在這篇文章中一併討論。

Temporal Action Detection

如前所述,該方向的任務是視頻序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。最常用的資料庫為THUMOS14, 其餘常用的資料庫還包括MEXaction2, ActivityNet 1.2/1.3 等。常用的測評指標為mAP ( mean Average Precision)。

[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

發表會議:CVPR 2017 (oral)

性能:THUMOS14 上的mAP@0.5 為 24.7%,ActvitiyNet 1.3測試集上的average mAP為 22.9%

基於C3D(3D CNN網絡)設計了一個卷積逆卷積網絡,輸入一小段視頻,輸出frame-level的動作類別概率。該網絡主要是用來對temporal action detection中的動作邊界進行微調,使得動作邊界更加準確,從而提高mAP。由於基於了層數不多的C3D網絡,該方法的速度非常快,可以達到500FPS。

[2] Temporal Action Detection with Structured Segment Networks

發表會議:ICCV 2017

性能:THUMOS14 上的mAP@0.5 為 29.8%,ActvitiyNet 1.3測試集上的average mAP為 28.28%

CUHK多媒體實驗室的工作。這篇文章提出了一種時序動作提名算法TAG,以及後續的分類/邊界回歸網絡 SSN。TAG在後面再討論,SSN我認為值得參考的是其輸入特徵的設計(開始-中間-結束區間的三段式設計,今年不少工作也有類似的做法)以及其輸出分數的設計(判斷proposal是否完整的completeness classifier)。這篇文章對temporal action detection這個任務本身也進行了非常細緻的討論,值得一讀。

[3] Temporal Action Localization by Structured Maximal Sums

發表會議:CVPR 2017

性能:THUMOS14 上的mAP@0.5 為17.8%

這篇文章中,對視頻中的每個類別生成三種序列:開始幀概率,中間幀概率,結束幀概率。再基於這些概率設計了一種Structured Maximal Sums(結構化最大和)算法來產生檢測結果。這篇文章生成概率序列的思路非常值得參考,但是模型的構建不太合理(對temporal信息的建模不夠),最終模型在資料庫上的性能並不是很理想。

[4] Temporal Context Network for Activity Localization in Videos

發表會議:ICCV 2017

性能:THUMOS14 上的mAP@0.5 為 25.6%,ActvitiyNet 1.3測試集上的average mAP為 23.58%

這篇文章的思路主要參考了Faster-RCNN的結構。對視頻先用2stream網絡提取特徵序列,再用滑窗機制在視頻中的每個位置生成多個不同尺寸的proposal,之後再對每個proposal訓練一個action classifier和一個ranker來對proposal進行分類和排序。

[5] Cascaded Boundary Regression for Temporal Action Detection

發表會議:BMVC 2017

性能:THUMOS14 上的mAP@0.5 為 31.0%

這篇文章同樣先對視頻提取特徵產生特徵序列,然後用滑窗機制產生proposal,之後使用MLP構建了一個分類器以及一個邊界回歸器,通過級聯的邊界回歸來精確定位動作的時序邊界。思路還是比較簡單的,但是實驗效果不錯,應該是今年文章中在THUMOS上效果最好的,不過效果好也與它用了ActivityNet上預訓練的模型來提取特徵有關。

[6] R-C3D : Region Convolutional 3D Network for Temporal Activity Detection

發表會議:ICCV 2017

性能:THUMOS14 上的mAP@0.5 為 28.9%,ActvitiyNet 1.3測試集上的average mAP為 16.74%

這篇文章同樣採用了Faster-RCNN形式的思路,即先proposal,在roi-pooling,最後進行分類和邊界回歸。不過這篇文章採用了3D convnet來實現了end-to-end的訓練,比較有趣。(上半年我也曾經想做類似的工作,結果發現自己的顯卡顯存跑不起來。。)

[7] Single Shot Temporal Action Detection

發表會議:ACMMM 2017

效果:THUMOS14 上的mAP@0.5 為 24.6%

這篇論文是我今年投稿在ACMMM上的論文,主要參考了目標檢測任務中的單階段模型(如SSD 與 YOLO),通過時序卷積網絡以及anchors機制,實現了無需proposal generation步驟的時序動作檢測模型。具體介紹可以見我之前的文章:"Single Shot Temporal Action Detection" 論文介紹。

[8] End-to-End, Single-Stream Temporal Action Detection in Untrimmed Videos

發表會議:BMVC 2017

效果:THUMOS14 上的mAP@0.5 為 29.2%

使用了C3D來提取視頻的特徵,與SSAD相同,該方法同樣不需要生成proposal,而是採用了anchor機制。這篇文章方法的核心模塊是堆疊的GRU單元。由於使用的是C3D特徵,所以這篇文章的方法速度也相當的快。

[9] Exploring Temporal Preservation Networks for Precise Temporal Action Localization

發表會議:AAAI 2018

效果:THUMOS14 上的mAP@0.5 為 27.6%

該文提出的TPN模型是CDC[1] 方法的改進模型。在CDC中,在時間維度上存在上採樣和下採樣,存在一定的時序信息的丟失。而在TPN模型中,將普通的temporal convolution 替換為temporal preservation convolution 這一操作,能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度,從而更好得保留時序信息。

[10] SCC : Semantic Context Cascade for Efficient Action Detection

發表會議:CVPR 2017

ActvitiyNet 1.3測試集上的average mAP為 19.3%

ActivityNet 數據集作者的文章。這篇文章主要通過探索動作-物體,動作-場景之間的關係來提高動作定位的精度

[11] Temporal Convolutional Networks for Action Segmentation and Detection

發表會議:CVPR 2017

效果:用了幾個不太常見的小資料庫,就不列舉了

這篇文章主要設計了一個基於時序卷積的卷積-逆卷積網絡,來實現對視頻幀的類別分類(作者管這個叫action segmentation,不過我覺得在一維的情況下用這個詞感覺意義不大)。時序卷積能夠比較好的學習長時間的時序模式,今年我也基本上都是使用時序卷積來做自己的工作,感覺比起RNN來更易搭建,調試與優化模型。

Temporal Action Proposal Generation

該任務的目標是生成一批有可能包含動作片斷的時間區域,而不需要對時間區域進行動作分類。常用的資料庫同樣是THUMOS14以及ActivityNet 1.3 等。常用的測評指標為AR( Average Recall)。注意,實際上時序動作檢測模型去掉分類功能一般都能用來做時序提名生成,此處則主要討論獨立的時序提名生成模型。

[12] Temporal Action Detection with Structured Segment Networks

發表會議:ICCV 2017

性能:THUMOS14 上的AR@200 為48.9% (注意此處作者用的測評指標與之前該領域的測評指標略有不同,主要是閾值方面,統一指標下實測效果AR@200 為39.61%)

這篇文章中提出了TAG (Temporal Action Grouping) 方法。該方法對視頻中的每一幀都用actionness classifier判斷其是動作的概率,再用多閾值聚類的方法生成proposals

[13] TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

發表會議:ICCV 2017

性能:THUMOS14 上的AR@200 為43.02%

該方法在模型上與[5] 基本相同,是同一個作者的工作。區別主要在於[13]為2分類,[5]為多分類;[5]中多了級聯結構。這篇文章是今年該方向在THUMOS數據集上效果最好的。

[14] SST: Single-Stream Temporal Action Proposals

發表會議:CVPR 2017

性能:THUMOS14 上的AR@200 為37.90%

同樣是ActivityNet 作者他們組的工作,事實上這個方向應該就是他們最先開始挖的坑。這篇文章採用了C3D特徵,GRU編碼以及anchors機制。它的核心claim是「Single-Stream" ,即它在處理t時刻的proposals只看t時刻及之前的特徵,可以算是一種在線的算法吧。

小結

比起17年前,今年該方向的論文數量可以說是大大增長,各數據集上的指標也提高的分快,感覺明年論文也會很多。如前所述,時序動作檢測可以分為提名和分類兩個部分。分類這塊這兩年精度提高的很快,在不少數據集上都已經達到了相當高的準確率。然而目前檢測的準確率還是比較低,所以我個人認為通過改善時序動作提名模型,可以大大提高檢測的準確率。CVPR 2018 我也投稿了一篇關於時序動作提名任務的工作,希望能好運吧~ 如果文章中的介紹有錯誤或是有遺漏歡迎指正~

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Online Action Detection系列(二)
    其重點就在Filtering Module的設計,該模塊的作用就是用來計算chunk-level特徵間的相似性來判斷當前chunk與其他chunk的相關信息和無關信息,例如假設模型當前看的chunk是eat這個動作,而這個動作與前面判斷為eat動作的相似性很高,那模型是不是就可以輕鬆更好地判斷出當前動作也是eat了。
  • 異常檢測(Anomaly Detection)綜述
    三、異常檢測相關工作與方向首先根據查閱異常檢測方向綜述的文章,我將基於深度學習的異常檢測應用方向論文,按照主要的邏輯結構列舉在了下面,我相信這可以更加方便地向你展示異常檢測方向你應該怎樣去研究你的論文。1.
  • 【綜述專欄】異常檢測:Anomaly Detection綜述
    03異常檢測相關工作與方向首先根據查閱異常檢測方向綜述的文章,我將基於深度學習的異常檢測應用方向論文,按照主要的邏輯結構列舉在了下面,我相信這可以更加方便地向你展示異常檢測方向你應該怎樣去研究你的論文。1.
  • 【ICCV 2017論文筆記】我們應當如何理解視頻中的人類行為?
    最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章。「What Actions are Needed for Understanding Human Actions in Videos?」 一文應該是我覺得最有趣的一篇文章。這篇論文並沒有提出或改進任何方法,而是通過各種小實驗,對目前視頻行為理解的各種資料庫和方法進行了細緻的討論和思考。
  • 旋轉目標(遙感/文字)檢測方法整理(2017-2019)
    點擊上方「CVer」,選擇加"星標"或「置頂」重磅乾貨,第一時間送達作者:qianlinjunhttps://zhuanlan.zhihu.com/p/98703562本文已由原作者授權,不得擅自二次轉載最近在整理一篇遙感目標檢測論文的
  • AI頂會解讀|時序動作分割與檢測,附代碼連結
    時序動作的分割與檢測是視頻計算機視覺技術的一大常規任務,對自動駕駛和機器人等應用至關重要,下面 3 篇論文是騰訊 AI Lab 在這一方向的探索成果
  • 項目實踐 | 行人跟蹤與摔倒檢測報警(文末獲取完整源碼)
    本文涉及的方法與算法包括:YOLO V3 Tiny、Deepsort、ST-GCN方法,其中YOLO V3 Tiny用於行人檢測、DeepSort用於跟蹤、而ST-GCN則是用於行為檢測。這裡由於YOLO與DeepSort大家都已經比較了解,因此這裡只簡單說明一下ST-GCN 的流程,這裡ST-GCN 的方法結構圖如下:給出一個動作視頻的骨架序列信息,首先構造出表示該骨架序列信息的圖結構,ST-GCN的輸入就是圖節點上的關節坐標向量,然後是一系列時空圖卷積操作來提取高層的特徵,最後用SofMax分類器得到對應的動作分類。
  • AAAI 2020 | 時序轉化為圖用於可解釋可推理的異常檢測
    近年來,將時序進行分段並學習特徵表示是熱門的研究方向,比如 Shapelet (具有特徵信息的一種或幾種時序波形)。然而,時序所反饋的是不斷變化的動態信息,這種動態信息應該如何進行直觀的表示,用於有高可解釋需求的異常檢測任務中呢?時間序列異常檢測[2]在工業界是非常常見的任務,模型常常要求對所判斷出的異常給出合理的解釋,從而幫助人們做出相應的動作。
  • 錯過CVPR 2017?絕對不能錯過GAIR大講堂——上海交大專場開啟報名
    在美國夏威夷剛剛結束的CVPR 2017大會上,學術界和工業界都給予了極高的關注度,無論是收錄的論文數和參會人數都刷新了CVPR 的歷史紀錄。對於這樣一場頂尖學術會議,廣大沒有機會出席活動現場的同學們除了閱讀相關文章之外,還能如何更深度地了解CVPR 2017的學術成果呢?8月12日下午,由雷鋒網主辦的「GAIR大講堂CVPR 上海交大專場」將在上海交通大學正式開幕。
  • NIPS2018深度學習(20)|亮點: 雙向RNN時間序列;對抗自編碼異常檢測;脈衝神經網絡(論文及代碼)
    2011ImputeTS對應的論文為imputeTS: Time Series Missing Value Imputation in R, 2017STMVL對應的論文為St-mvl: filling missing values in geo-sensory time seriesdataGRU-D對應的論文為Recurrent
  • 計算機視覺方向0121
    關注即可獲取arXiv每日論文自動推送;如果您有任何問題或建議,請公眾號留言。[如果您覺得本公眾號對你有幫助,就是我們最大的榮幸]今日 cs.CV方向共計39篇文章。relation detection problem refers to the detection of the relationship between different objects in videos, such as spatial relationship and action relationship.
  • 論文精選—CVPR2020目標檢測文章大盤點
    目標檢測是計算機視覺領域的基礎研究任務,也是最重要的研究領域之一,雖然目標檢測技術已經相對十分成熟,但是每年的會議文章中仍有相當比重的目標檢測文章,新方法也是層出不窮,說明目標檢測研究領域仍然小有可為,未來可期!本文主要盤點CVPR 2020 所有目標檢測相關論文,共搜集相關論文70篇,整理精選論文35篇,附論文|項目連結。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    論文速遞」,旨在分享計算機視覺相關領域最新的論文,每次推文近數篇論文,只是整理論文最精華的部分「摘要」,所以該主題的文章質量實屬一般。透個消息,近期會出一篇關於OpenCV實現車道線檢測的文章,檢測效果很贊,代碼也會上傳到github上;還會出一篇Amusi整理的關於車道線檢測最全的資料集錦(含教程、論文和代碼)。為什麼說Amusi與這篇論文有緣分呢?因為數月前,Amusi就在論文速遞中整理了這篇論文(沒有發布)。
  • 騰訊優圖實驗室高級研究員棟豪:時序動作分析技術的研究與應用 |...
    12月14日晚7點,「騰訊優圖專場」第三講上線,由騰訊優圖實驗室高級研究員棟豪參與,並圍繞《時序動作分析技術的研究與應用》這一主題進行直播講解。對於時序的分析一直是學術研究的熱點領域,研究人員們也提出了針對序列化信息建模的各種方法,比如RNN、LSTM、GRU以及在NLP領域已廣泛應用的Transformer。
  • 論文推薦|Taking the pulse of COVID-19: a spatiotemporal perspective
    The spatiotemporal responses3.1.After that, more countries took action in response to WHO declaring COVID-19 『a pandemic』 on March 11.
  • 論文推介 | Nugget Proposal Networks for Chinese Event Detection
    點擊「閱讀原文」獲取論文連結Nugget Proposal Networks for Chinese
  • 論文筆記:第一人稱視角視頻中的行人軌跡預測
    視頻中的人體動作分析是計算機視覺研究領域中的一個重要方向,包括動作分類,時序動作檢測,時空動作檢測等等方向。前幾天日本東京大學在arXiv上放出的一篇論文(大概是CVPR投稿文章吧)提出了一個新的人體動作分析問題:第一人稱視頻中的行人軌跡預測問題,並提出了一個新的數據集以及一個新的行人軌跡預測算法。
  • 計算機視覺方向0219
    關注即可獲取arXiv每日論文自動推送;如果您有任何問題或建議,請公眾號留言。[如果您覺得本公眾號對你有幫助,就是我們最大的榮幸]今日 cs.CV方向共計47篇文章。[3]:Minimizing false negative rate in melanoma detection and providing  insight into the causes of classification標題:降低黑色素瘤檢測的假陰性率並提供分類原因的見解作者:Ellák Somfai, Benjámin Baffy, Kristian Fenech
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    各位CVers反映內容很贊,於是Amusi 快速整理了ICCV 引用量最高的10篇論文。在谷歌發布的2020年的學術指標(Scholar Metrics)榜單,ICCV 位列總榜第29位,是計算機視覺領域排名第二的大會!