雷鋒網AI科技評論按:本文為上海交通大學林天威為雷鋒網(公眾號:雷鋒網)AI科技評論撰寫的獨家稿件,未經許可不得轉載。
視頻中的人體動作分析是計算機視覺研究領域中的一個重要方向,包括動作分類,時序動作檢測,時空動作檢測等等方向。前幾天日本東京大學在arXiv上放出的一篇論文(大概是CVPR投稿文章吧)提出了一個新的人體動作分析問題:第一人稱視頻中的行人軌跡預測問題,並提出了一個新的數據集以及一個新的行人軌跡預測算法。
論文的題目為:Future Person Localization in First-Person Videos [1] (arXiv 1711.11217)。這篇筆記主要對這篇論文進行內容上的提煉和整理,最後附上了自己對這篇論文的討論。有問題歡迎留言指出~
問題定義首先,此處所採用的第一人稱視頻(First-person videos)指可穿戴相機(wearable cameras)所拍攝的視頻,比如GoPro,Google Glass等。基於第一人稱視頻相關的研究主要對應的應用領域包括盲人導航,AR等相關領域。
這篇文章所提出的Future Person Localization問題具體而言,就是已知t時刻及之前幾幀圖像中行人的相關信息,要求算法預測未來幾幀中該行人會出現在圖像中的什麼位置。問題示意圖如下圖所示。關於這個任務的技術有很多的用途,比如幫助行人避開迎面走來的行人,或是幫助移動機器人來規劃運動的路徑。
算法構建要構建行人軌跡預測算法,首先要確定要用什麼信息/特徵來進行行人軌跡的建模與學習。對於一小段視頻中的行人,本文中主要提出了四種feature序列,如下所示:
1.行人檢測框的位置序列(Location);
2.行人檢測框的大小序列(Scale),在第一人稱視角中,行人框的大小實際上隱含了透視投影的關係,即「近大遠小」;
3.行人的骨架序列(Pose),骨架信息主要隱含了行人的動作,姿態,朝向等信息;
4.攝像機本身的運動信息(Ego-motion),由於第一人稱視角中相機本身也是在不斷運動的,所以相機本身的運動也不得不考慮進算法當中,具體而言,就是相機在每兩幀之間的平移和旋轉信息。
所以問題可以表示為,已知t時刻及前Tp幀的四種feature序列,要求預測後Tf幀的行人檢測框位置序列。本文提出了一個很簡單的基於1維卷積的網絡,如下圖所示:
網絡的具體配置如下表所示,基本上就是1D-Conv+BN+ReLU的堆疊。最終的輸出即為所需要的未來檢測框位置序列。
First-Person Locomotion (FPL) 數據集針對第一人稱視頻的行人軌跡預測這個問題,由於沒有現成的資料庫,所以作者自己採集了一個新的資料庫,稱作First-person locomotion (FPL) dataset。這個數據集是在東京的街頭採集的,下圖是數據集中的一些示例圖像。
該數據集包含4.5小時的視頻,包括大概5000段行人的軌跡。在每段軌跡中,本文採用1s的時間窗口,使用前10幀的信息作為輸入特徵,後10幀的行人軌跡作為輸出標籤。此處的定義不是特別明確,可能需要看後續公布的詳細數據集信息。
那麼數據集的這些標籤信息是怎麼得到的呢,該數據集並沒有採用手工標註的形式,而是使用了幾種算法來自動生成標註信息。首先,對於每幀圖像,使用今年CMU開源的OpenPose[2]來提取場景中所有行人的骨架信息,根據骨架信息可以獲得行人的檢測框。其次,使用KCF[3]算法來進行幀間的行人跟蹤,產生很多短的跟蹤序列,再對這些短跟蹤序列按照(1)圖像特徵相似性(2)位置相近性 這兩個規則進行拼接,從而獲得較長的跟蹤序列。此處的特徵相似性使用的是Faster-RCNN所提取的特徵的餘弦距離。通過上述操作,就可以得到行人相關的三種feature序列:行人位置,行人大小以及行人骨架序列。對於相機自身的運動信息,本文則採用了[5]中的算法來進行進行估計。通過上述操作,最終得到了5000段軌跡樣本。
測評方式方面,本文採用了與[6]中相似的方式,使用Final Displacement Error (FDE)作為測評指標。FDE指標即最終預測軌跡和最終實際軌跡之間的L2距離。為了更加精細的評估,該數據集還把行人軌跡分為了1) toward 2) away 3)across三個子集,分別計算了FDE以及3個子集的平均FDE。
實驗結果這篇文章主要與如下幾個方法進行了對比:
ConstVel: 該方法計算輸入軌跡的速度和朝向,直接生成後續的軌跡
NNeighbor:在測試時,選取軌跡最像的16個訓練集軌跡,通過平均來生成輸出軌跡
Social LSTM[6]: 行人軌跡預測的一個state-of-the-art方法,不過並非提出於第一人稱視角的場景。
實驗結果如表所示:
可以看出本文方法比幾個baseline還是要好很多的。
此外作者還對輸入的幾種特徵進行了ablation study,結果如下表所示:
可見綜合多種信息對於軌跡的預測效果有著顯著的提高效果。
本文結果的可視化效果圖如下所示。總體來說效果還不錯。
個人討論以上為這篇文章的基本內容。可以看出,這篇文章主要在行人軌跡預測這個問題中進一步限定了場景(第一人稱視角視頻)並提出了對應的數據集和算法。雖然這篇文章提出的算法比較簡單,但總體還是很有啟發性的:
在第一人稱視角的場景下,這篇文章的方法基本涵蓋了行人軌跡特徵預測所能用到的各種信息,其中骨架信息和相機自身信息我認為是相當重要的。
這個問題其實可以進一步拓展為運動相機場景下的行人軌跡預測問題,這樣就能夠用於智能駕駛等更多的應用場景中了。
本文中的模型構建的非常簡單,可能只是想做一個簡單的baseline吧,採用LSTM網絡或是構建更加複雜的特徵融合算法應該能夠獲得更好的軌跡預測精度。
本文提出的數據集在提取各種信息時,分別採用了kcf,openpose 和 ego-motion estimator 三種算法,其綜合速度應該是不太理想的。所以想要將這個算法用到真實的場景下,還有很多算法優化,工程實現的工作要做。也很值得一做。
參考文獻[1] Takuma Yagi, et.al. Future Person Localization in First-Person Videos. In arXiv preprint arXiv: 1711.11217, 2017.
[2] Z. Cao, T. Simon, S.-E.Wei, and Y. Sheikh. Realtime multi- person 2d pose estimation using part affinity fields. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291 – 7299, 2017.
[3] J. F. Henriques, R. Caseiro, P. Martins, and J. Batista. High- speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3):583–596, 2015.
[4] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with region proposal net- works. In Advances in Neural Information Processing Sys- tems, pages 1–9, 2015.
[5] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. Unsuper- vised learning of depth and ego-motion from video. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851 – 1860, 2017.
[6] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 961–971, 2016.
雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。