論文筆記:第一人稱視角視頻中的行人軌跡預測

2021-01-09 雷鋒網

雷鋒網AI科技評論按：本文為上海交通大學林天威為雷鋒網(公眾號：雷鋒網)AI科技評論撰寫的獨家稿件，未經許可不得轉載。

視頻中的人體動作分析是計算機視覺研究領域中的一個重要方向，包括動作分類，時序動作檢測，時空動作檢測等等方向。前幾天日本東京大學在arXiv上放出的一篇論文（大概是CVPR投稿文章吧）提出了一個新的人體動作分析問題：第一人稱視頻中的行人軌跡預測問題，並提出了一個新的數據集以及一個新的行人軌跡預測算法。

論文的題目為：Future Person Localization in First-Person Videos [1] (arXiv 1711.11217)。這篇筆記主要對這篇論文進行內容上的提煉和整理，最後附上了自己對這篇論文的討論。有問題歡迎留言指出~

問題定義

首先，此處所採用的第一人稱視頻（First-person videos）指可穿戴相機（wearable cameras）所拍攝的視頻，比如GoPro，Google Glass等。基於第一人稱視頻相關的研究主要對應的應用領域包括盲人導航，AR等相關領域。

這篇文章所提出的Future Person Localization問題具體而言，就是已知t時刻及之前幾幀圖像中行人的相關信息，要求算法預測未來幾幀中該行人會出現在圖像中的什麼位置。問題示意圖如下圖所示。關於這個任務的技術有很多的用途，比如幫助行人避開迎面走來的行人，或是幫助移動機器人來規劃運動的路徑。

算法構建

要構建行人軌跡預測算法，首先要確定要用什麼信息/特徵來進行行人軌跡的建模與學習。對於一小段視頻中的行人，本文中主要提出了四種feature序列，如下所示：

1.行人檢測框的位置序列（Location）；

2.行人檢測框的大小序列（Scale），在第一人稱視角中，行人框的大小實際上隱含了透視投影的關係，即「近大遠小」；

3.行人的骨架序列（Pose），骨架信息主要隱含了行人的動作，姿態，朝向等信息；

4.攝像機本身的運動信息（Ego-motion），由於第一人稱視角中相機本身也是在不斷運動的，所以相機本身的運動也不得不考慮進算法當中，具體而言，就是相機在每兩幀之間的平移和旋轉信息。

所以問題可以表示為，已知t時刻及前Tp幀的四種feature序列，要求預測後Tf幀的行人檢測框位置序列。本文提出了一個很簡單的基於1維卷積的網絡，如下圖所示：

網絡的具體配置如下表所示，基本上就是1D-Conv+BN+ReLU的堆疊。最終的輸出即為所需要的未來檢測框位置序列。

First-Person Locomotion (FPL) 數據集

針對第一人稱視頻的行人軌跡預測這個問題，由於沒有現成的資料庫，所以作者自己採集了一個新的資料庫，稱作First-person locomotion (FPL) dataset。這個數據集是在東京的街頭採集的，下圖是數據集中的一些示例圖像。

該數據集包含4.5小時的視頻，包括大概5000段行人的軌跡。在每段軌跡中，本文採用1s的時間窗口，使用前10幀的信息作為輸入特徵，後10幀的行人軌跡作為輸出標籤。此處的定義不是特別明確，可能需要看後續公布的詳細數據集信息。

那麼數據集的這些標籤信息是怎麼得到的呢，該數據集並沒有採用手工標註的形式，而是使用了幾種算法來自動生成標註信息。首先，對於每幀圖像，使用今年CMU開源的OpenPose[2]來提取場景中所有行人的骨架信息，根據骨架信息可以獲得行人的檢測框。其次，使用KCF[3]算法來進行幀間的行人跟蹤，產生很多短的跟蹤序列，再對這些短跟蹤序列按照（1）圖像特徵相似性（2）位置相近性這兩個規則進行拼接，從而獲得較長的跟蹤序列。此處的特徵相似性使用的是Faster-RCNN所提取的特徵的餘弦距離。通過上述操作，就可以得到行人相關的三種feature序列：行人位置，行人大小以及行人骨架序列。對於相機自身的運動信息，本文則採用了[5]中的算法來進行進行估計。通過上述操作，最終得到了5000段軌跡樣本。

測評方式方面，本文採用了與[6]中相似的方式，使用Final Displacement Error (FDE)作為測評指標。FDE指標即最終預測軌跡和最終實際軌跡之間的L2距離。為了更加精細的評估，該數據集還把行人軌跡分為了1) toward 2) away 3)across三個子集，分別計算了FDE以及3個子集的平均FDE。

實驗結果

這篇文章主要與如下幾個方法進行了對比：

ConstVel: 該方法計算輸入軌跡的速度和朝向，直接生成後續的軌跡

NNeighbor：在測試時，選取軌跡最像的16個訓練集軌跡，通過平均來生成輸出軌跡

Social LSTM[6]: 行人軌跡預測的一個state-of-the-art方法，不過並非提出於第一人稱視角的場景。

實驗結果如表所示：

可以看出本文方法比幾個baseline還是要好很多的。

此外作者還對輸入的幾種特徵進行了ablation study，結果如下表所示：

可見綜合多種信息對於軌跡的預測效果有著顯著的提高效果。

本文結果的可視化效果圖如下所示。總體來說效果還不錯。

個人討論

以上為這篇文章的基本內容。可以看出，這篇文章主要在行人軌跡預測這個問題中進一步限定了場景（第一人稱視角視頻）並提出了對應的數據集和算法。雖然這篇文章提出的算法比較簡單，但總體還是很有啟發性的：

在第一人稱視角的場景下，這篇文章的方法基本涵蓋了行人軌跡特徵預測所能用到的各種信息，其中骨架信息和相機自身信息我認為是相當重要的。

這個問題其實可以進一步拓展為運動相機場景下的行人軌跡預測問題，這樣就能夠用於智能駕駛等更多的應用場景中了。

本文中的模型構建的非常簡單，可能只是想做一個簡單的baseline吧，採用LSTM網絡或是構建更加複雜的特徵融合算法應該能夠獲得更好的軌跡預測精度。

本文提出的數據集在提取各種信息時，分別採用了kcf，openpose 和 ego-motion estimator 三種算法，其綜合速度應該是不太理想的。所以想要將這個算法用到真實的場景下，還有很多算法優化，工程實現的工作要做。也很值得一做。

參考文獻

[1] Takuma Yagi, et.al. Future Person Localization in First-Person Videos. In arXiv preprint arXiv: 1711.11217, 2017.

[2] Z. Cao, T. Simon, S.-E.Wei, and Y. Sheikh. Realtime multi- person 2d pose estimation using part affinity fields. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291 – 7299, 2017.

[3] J. F. Henriques, R. Caseiro, P. Martins, and J. Batista. High- speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3):583–596, 2015.

[4] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with region proposal net- works. In Advances in Neural Information Processing Sys- tems, pages 1–9, 2015.

[5] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. Unsuper- vised learning of depth and ego-motion from video. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851 – 1860, 2017.

[6] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 961–971, 2016.

雷鋒網特約稿件，未經授權禁止轉載。詳情見轉載須知。

相關焦點

《甜心選擇2》第一人稱視角補丁怎麼使用第一人稱視角使用方法介紹

Honey Select 2第一人稱視角補丁怎麼使用？想來很多朋友都還不是很清楚吧，所以呢小編今天給大家帶來的就是甜心選擇2第一人稱視角使用方法介紹，需要的朋友不妨進來看看。 Honey Select 2第一人稱視角補丁怎麼使用？
寫網絡小說,為什麼大多數用第三人稱視角,而不用第一人稱?

如果寫小說主角視角為第一人稱「我」，那麼這部作品將會受到很大限制。這也是為什麼大多數小說採用第三人稱，而不用第一人稱。那麼第一人稱寫作到底有哪些方面的限制呢？畢竟第一人稱視角，故事主要圍繞主角已知的事情展開故事講述，這樣的故事必定是已經發生了的，對未知的事情無法預測，這也就限制了這部作品的發展，即便作者想像力再好，那麼這部作品所要講述的故事也沒有多麼複雜，特別是人物複雜，這是根本辦不到的。
使命召喚手遊中,第一人稱視角和第三人稱視角,哪個更有優勢?

作為一款非常刺激的射擊類手遊，使命召喚手遊可以說存在很多讓玩家爭論的內容，其實不僅僅是在使命召喚手遊當中，在所有的射擊手遊當中都有著兩大派系，分別是第一人稱派系和第三人稱派系，因為這是兩種完全不同的視角，那麼這兩種視角有什麼區別呢？
優步開發MultiNet系統預測道路使用者的多種可能軌跡

蓋世汽車訊據外媒報導，優步研究人員在一篇論文中介紹了MultiNet系統，該系統可以根據自動駕駛汽車的雷射雷達數據檢測並預測障礙物的運動。研究人員稱，與現有模型不同，MultiNet利用模型對車輛、行人和騎行者的行為和運動的不確定性進行分析，該模型對監測和預測進行推斷，然後加以改進，從而生成可能的軌跡。（圖片來源：優步）預測障礙物的未來狀態是一項具有挑戰性的任務，但卻是防止道路事故的關鍵。
《星球大戰:戰機中隊》遊戲過程鎖定第一人稱視角

最重要的是視角，就像一些玩家預測的那樣，在遊戲中玩家將被鎖定使用第一人稱視角。在觀察者模式（spectator mode）之外，玩家無法在第三人稱/追蹤視角中進行遊戲。創意總監Ian Frazier在接受Gamespot採訪時證實了這一關鍵細節，並解釋了為什麼能採用第三人稱視角進行遊戲。
新垣結衣帶火了第一人稱視頻?這個新女團全員男友視角上陣

她幾乎所有的作品中都給人一種陽光和青春的感覺，仿佛只要她一笑，整個世界便放晴了。尤其是是她後來拍攝的一組男友視角的短視頻，更是讓一眾粉絲印象深刻，甚至就連我這樣的路人都被深深吸引。新垣結衣男友視角的視頻放出後，也帶火了那種第一人稱視角的視頻拍攝方式。
第一人稱視角(FPV)遙控履帶車

控制部分採用 Arduino，實現了 FPV（第一人稱主視角）攝像頭技術。這款小型的探索履帶車小巧、靈活，是一個非常實用的探索車。同時，分解的製作視頻更有利於初學者理解製作過程和上手。3D 列印履帶車3D組件：車頂 × 1車底盤 × 1無線電機蓋 × 1頂部 FPV（第一人稱視角）外殼 × 1履帶 × 2主動齒輪 × 2
還在糾結SCI論文寫作中是否能夠使用第一人稱?看看專家怎麼說

相信有很多科研萌新都認為在寫SCI論文的時候不應該使用第一人稱，最常見的原因是讀者可能認為這樣的寫作是主觀的，而科學是關於客觀性的。然而，在SCI論文撰寫中使用第一人稱並沒有明文規定。大衛 · 舒爾茨博士，《口才科學》一書的作者，著手研究了在SCI論文撰寫中使用第一人稱是否合適。他查閱了許多關於撰寫研究論文的書籍。他發現一些寫作學術論文的指南實際上提倡使用第一人稱。
身臨其境的電影:全球第一部第一人稱視角電影即將問世!

微信ID:jxv_dy關注金象微電影，每日一部精彩短片第一人稱視角動作電影
第三人稱還是第一人稱視角好? 遊戲視角設計不只是FOV那麼簡單

我們玩過很多遊戲大作，都採用第三人稱視角，如《刺客信條》系列、《古墓麗影》系列、《怪物獵人》系列。
《質量效應:仙女座》第一人稱Mod 兩種視角自由切換

《質量效應：仙女座》第一人稱Mod 兩種視角自由切換 2019-07-10
第一人稱視角鏡頭的力量

第一人稱視覺在電影的早期階段就已經出現，現在這種「主角視角鏡頭」仍然用來吸引觀眾的眼球。
看4位高手如何拍攝第一人稱視角神作

無論靜態還是動態，無論遊戲還是電影，第一人稱視角都能帶來強烈的視覺衝擊，給予觀眾身臨其境的體驗，作品的互動性和真實感更是其他拍攝方式無法比擬的。
代入感更強的機動戰鬥《量子特攻》第一人稱視角射擊搶先體驗報告

拼槍對決、正面交鋒，網易超能戰術競技手遊《量子特攻》全新第一人稱視角已上線！漫遊者們將擁有沉浸感、代入感更強的遊戲體驗，在純粹的技巧比拼下贏得一場場勝利！還有全新的「夏日夢之隊」活動上線，籃球與超能戰術競技相結合，為你送上奇妙又有趣的全新樂趣與獎勵！
代入感更強的機動戰鬥《量子特攻》第一人稱視角射擊搶先體驗報告

拼槍對決、正面交鋒，網易超能戰術競技手遊《量子特攻》全新第一人稱視角已上線！漫遊者們將擁有沉浸感、代入感更強的遊戲體驗，在純粹的技巧比拼下贏得一場場勝利！還有全新的「夏日夢之隊」活動上線，籃球與超能戰術競技相結合，為你送上奇妙又有趣的全新樂趣與獎勵！
《真人快打11》第一人稱MOD 全新視角體驗格鬥遊戲

《真人快打11》第一人稱MOD 全新視角體驗格鬥遊戲時間：2021-01-07 19:04:12 來源：Youtube
傳聞:《生化危機8》仍將採用第一人稱視角克裡斯將回歸

近日YouTube用戶Residence of Evil發布了一段視頻，在其中爆料了許多他所知道的有關《生化危機8》的內幕消息，要點整理如下：-8代將跟7代一樣，依然由伊森擔任主角-遊戲正式名稱或許不直接叫
為什麼我的世界傾向於第一人稱視角,而絕地求生卻傾向於第三人稱

哈嘍，大家好，我是神魚，今天我們來談談為什麼《我的世界》傾向於第一人稱視角，而《絕地求生》卻傾向於第三人稱。《我的世界》和《絕地求生》都是最近很流行的遊戲，《我的世界》主要為生存，屬於沙盒遊戲，比較開放；而《絕地求生》屬於射擊遊戲，主要就是跳傘跑毒開槍。
第一人稱視角來了!《量子特攻》超高機動性的陣營對決!

網易超能戰術競技手遊《量子特攻》，今日正式迎來全新玩法：第一人稱視角，降臨夢見島！畫質全面革新，第一人稱視角領略夢見島上獨一無二的美景，參與陣營對決體驗全新樂趣、贏得最終的勝利！全新視角下，漫遊者們將擁有全新的體驗，現在更新畫質Plus全新版本，還能領取豐厚獎勵哦！
《浴血長空》第一人稱視角即將加入戰場

《浴血長空》第一人稱視角即將加入戰場　　第一人稱視角即將加入《浴血長空》的戰場，射擊戰鬥將更加刺激，高空空戰將更加真實，還有全新海航線戰機的加入，空戰玩法更多樣，戰術策略更豐富！　　告別遊戲，趨向真實　　遊戲加入第一人稱視角，玩家將身臨其境，如同真正駕駛戰機的飛行員一般，通過座艙視角進行遊戲。

論文筆記:第一人稱視角視頻中的行人軌跡預測

相關焦點

《甜心選擇2》第一人稱視角補丁怎麼使用 第一人稱視角使用方法介紹

寫網絡小說,為什麼大多數用第三人稱視角,而不用第一人稱?

使命召喚手遊中,第一人稱視角和第三人稱視角,哪個更有優勢?

優步開發MultiNet系統 預測道路使用者的多種可能軌跡

《星球大戰:戰機中隊》遊戲過程鎖定第一人稱視角

新垣結衣帶火了第一人稱視頻?這個新女團全員男友視角上陣

第一人稱視角(FPV)遙控履帶車

還在糾結SCI論文寫作中是否能夠使用第一人稱?看看專家怎麼說

身臨其境的電影:全球第一部第一人稱視角電影即將問世!

第三人稱還是第一人稱視角好? 遊戲視角設計不只是FOV那麼簡單

《質量效應:仙女座》第一人稱Mod 兩種視角自由切換

第一人稱視角鏡頭的力量

看4位高手如何拍攝第一人稱視角神作

代入感更強的機動戰鬥《量子特攻》第一人稱視角射擊搶先體驗報告

代入感更強的機動戰鬥 《量子特攻》第一人稱視角射擊搶先體驗報告

《真人快打11》第一人稱MOD 全新視角體驗格鬥遊戲

傳聞:《生化危機8》仍將採用第一人稱視角 克裡斯將回歸

為什麼我的世界傾向於第一人稱視角,而絕地求生卻傾向於第三人稱

第一人稱視角來了!《量子特攻》超高機動性的陣營對決!

《浴血長空》第一人稱視角即將加入戰場

《甜心選擇2》第一人稱視角補丁怎麼使用第一人稱視角使用方法介紹

優步開發MultiNet系統預測道路使用者的多種可能軌跡

代入感更強的機動戰鬥《量子特攻》第一人稱視角射擊搶先體驗報告

傳聞:《生化危機8》仍將採用第一人稱視角克裡斯將回歸