雷鋒網(公眾號:雷鋒網)按:本文作者林天威,上海交大研究生。
2017年馬上要過去,自己也在時序動作檢測這個方向正好做了一年時間,所以最近整理了一下今年各大視覺會議上(CVPR,ICCV,ACMMM,BMVC,AAAI等)時序動作檢測這個方向的論文,供大家參考。
關於Temporal Action Detection (Localization) 時序動作檢測這一方向的介紹,可以見我之前的專欄文章: Video Analysis 相關領域解讀之Temporal Action Detection(時序行為檢測)。簡單來說,temporal action detection是要在視頻序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。類似於圖像中的目標檢測任務,時序動作檢測也可以分為生成時間區間提名(temporal action proposal generation)以及對提名進行分類(action recognition)倆個環節。今年有不少工作針對前者設計了模型,也在這篇文章中一併討論。
如前所述,該方向的任務是視頻序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。最常用的資料庫為THUMOS14, 其餘常用的資料庫還包括MEXaction2, ActivityNet 1.2/1.3 等。常用的測評指標為mAP ( mean Average Precision)。
[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos
發表會議:CVPR 2017 (oral)
性能:THUMOS14 上的mAP@0.5 為 24.7%,ActvitiyNet 1.3測試集上的average mAP為 22.9%
基於C3D(3D CNN網絡)設計了一個卷積逆卷積網絡,輸入一小段視頻,輸出frame-level的動作類別概率。該網絡主要是用來對temporal action detection中的動作邊界進行微調,使得動作邊界更加準確,從而提高mAP。由於基於了層數不多的C3D網絡,該方法的速度非常快,可以達到500FPS。
[2] Temporal Action Detection with Structured Segment Networks
發表會議:ICCV 2017
性能:THUMOS14 上的mAP@0.5 為 29.8%,ActvitiyNet 1.3測試集上的average mAP為 28.28%
CUHK多媒體實驗室的工作。這篇文章提出了一種時序動作提名算法TAG,以及後續的分類/邊界回歸網絡 SSN。TAG在後面再討論,SSN我認為值得參考的是其輸入特徵的設計(開始-中間-結束區間的三段式設計,今年不少工作也有類似的做法)以及其輸出分數的設計(判斷proposal是否完整的completeness classifier)。這篇文章對temporal action detection這個任務本身也進行了非常細緻的討論,值得一讀。
[3] Temporal Action Localization by Structured Maximal Sums
發表會議:CVPR 2017
性能:THUMOS14 上的mAP@0.5 為17.8%
這篇文章中,對視頻中的每個類別生成三種序列:開始幀概率,中間幀概率,結束幀概率。再基於這些概率設計了一種Structured Maximal Sums(結構化最大和)算法來產生檢測結果。這篇文章生成概率序列的思路非常值得參考,但是模型的構建不太合理(對temporal信息的建模不夠),最終模型在資料庫上的性能並不是很理想。
[4] Temporal Context Network for Activity Localization in Videos
發表會議:ICCV 2017
性能:THUMOS14 上的mAP@0.5 為 25.6%,ActvitiyNet 1.3測試集上的average mAP為 23.58%
這篇文章的思路主要參考了Faster-RCNN的結構。對視頻先用2stream網絡提取特徵序列,再用滑窗機制在視頻中的每個位置生成多個不同尺寸的proposal,之後再對每個proposal訓練一個action classifier和一個ranker來對proposal進行分類和排序。
[5] Cascaded Boundary Regression for Temporal Action Detection
發表會議:BMVC 2017
性能:THUMOS14 上的mAP@0.5 為 31.0%
這篇文章同樣先對視頻提取特徵產生特徵序列,然後用滑窗機制產生proposal,之後使用MLP構建了一個分類器以及一個邊界回歸器,通過級聯的邊界回歸來精確定位動作的時序邊界。思路還是比較簡單的,但是實驗效果不錯,應該是今年文章中在THUMOS上效果最好的,不過效果好也與它用了ActivityNet上預訓練的模型來提取特徵有關。
[6] R-C3D : Region Convolutional 3D Network for Temporal Activity Detection
發表會議:ICCV 2017
性能:THUMOS14 上的mAP@0.5 為 28.9%,ActvitiyNet 1.3測試集上的average mAP為 16.74%
這篇文章同樣採用了Faster-RCNN形式的思路,即先proposal,在roi-pooling,最後進行分類和邊界回歸。不過這篇文章採用了3D convnet來實現了end-to-end的訓練,比較有趣。(上半年我也曾經想做類似的工作,結果發現自己的顯卡顯存跑不起來。。)
[7] Single Shot Temporal Action Detection
發表會議:ACMMM 2017
效果:THUMOS14 上的mAP@0.5 為 24.6%
這篇論文是我今年投稿在ACMMM上的論文,主要參考了目標檢測任務中的單階段模型(如SSD 與 YOLO),通過時序卷積網絡以及anchors機制,實現了無需proposal generation步驟的時序動作檢測模型。具體介紹可以見我之前的文章:"Single Shot Temporal Action Detection" 論文介紹。
[8] End-to-End, Single-Stream Temporal Action Detection in Untrimmed Videos
發表會議:BMVC 2017
效果:THUMOS14 上的mAP@0.5 為 29.2%
使用了C3D來提取視頻的特徵,與SSAD相同,該方法同樣不需要生成proposal,而是採用了anchor機制。這篇文章方法的核心模塊是堆疊的GRU單元。由於使用的是C3D特徵,所以這篇文章的方法速度也相當的快。
[9] Exploring Temporal Preservation Networks for Precise Temporal Action Localization
發表會議:AAAI 2018
效果:THUMOS14 上的mAP@0.5 為 27.6%
該文提出的TPN模型是CDC[1] 方法的改進模型。在CDC中,在時間維度上存在上採樣和下採樣,存在一定的時序信息的丟失。而在TPN模型中,將普通的temporal convolution 替換為temporal preservation convolution 這一操作,能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度,從而更好得保留時序信息。
[10] SCC : Semantic Context Cascade for Efficient Action Detection
發表會議:CVPR 2017
ActvitiyNet 1.3測試集上的average mAP為 19.3%
ActivityNet 數據集作者的文章。這篇文章主要通過探索動作-物體,動作-場景之間的關係來提高動作定位的精度
[11] Temporal Convolutional Networks for Action Segmentation and Detection
發表會議:CVPR 2017
效果:用了幾個不太常見的小資料庫,就不列舉了
這篇文章主要設計了一個基於時序卷積的卷積-逆卷積網絡,來實現對視頻幀的類別分類(作者管這個叫action segmentation,不過我覺得在一維的情況下用這個詞感覺意義不大)。時序卷積能夠比較好的學習長時間的時序模式,今年我也基本上都是使用時序卷積來做自己的工作,感覺比起RNN來更易搭建,調試與優化模型。
該任務的目標是生成一批有可能包含動作片斷的時間區域,而不需要對時間區域進行動作分類。常用的資料庫同樣是THUMOS14以及ActivityNet 1.3 等。常用的測評指標為AR( Average Recall)。注意,實際上時序動作檢測模型去掉分類功能一般都能用來做時序提名生成,此處則主要討論獨立的時序提名生成模型。
[12] Temporal Action Detection with Structured Segment Networks
發表會議:ICCV 2017
性能:THUMOS14 上的AR@200 為48.9% (注意此處作者用的測評指標與之前該領域的測評指標略有不同,主要是閾值方面,統一指標下實測效果AR@200 為39.61%)
這篇文章中提出了TAG (Temporal Action Grouping) 方法。該方法對視頻中的每一幀都用actionness classifier判斷其是動作的概率,再用多閾值聚類的方法生成proposals
[13] TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals
發表會議:ICCV 2017
性能:THUMOS14 上的AR@200 為43.02%
該方法在模型上與[5] 基本相同,是同一個作者的工作。區別主要在於[13]為2分類,[5]為多分類;[5]中多了級聯結構。這篇文章是今年該方向在THUMOS數據集上效果最好的。
[14] SST: Single-Stream Temporal Action Proposals
發表會議:CVPR 2017
性能:THUMOS14 上的AR@200 為37.90%
同樣是ActivityNet 作者他們組的工作,事實上這個方向應該就是他們最先開始挖的坑。這篇文章採用了C3D特徵,GRU編碼以及anchors機制。它的核心claim是「Single-Stream" ,即它在處理t時刻的proposals只看t時刻及之前的特徵,可以算是一種在線的算法吧。
比起17年前,今年該方向的論文數量可以說是大大增長,各數據集上的指標也提高的分快,感覺明年論文也會很多。如前所述,時序動作檢測可以分為提名和分類兩個部分。分類這塊這兩年精度提高的很快,在不少數據集上都已經達到了相當高的準確率。然而目前檢測的準確率還是比較低,所以我個人認為通過改善時序動作提名模型,可以大大提高檢測的準確率。CVPR 2018 我也投稿了一篇關於時序動作提名任務的工作,希望能好運吧~ 如果文章中的介紹有錯誤或是有遺漏歡迎指正~
雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。