【泡泡圖靈智庫】通過觀察靜止的人去學習移動的深度(CVPR)

2021-02-13 泡泡機器人SLAM

泡泡圖靈智庫，帶你精讀機器人頂級會議文章

標題：Learning the depths of moving people by watching frozen people

作者：Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker,

Noah Snavely, Ce Liu, William T. Freeman(Google Research)

來源：CVPR 2019

編譯：楊宇超

審核：譚艾琳

歡迎個人轉發朋友圈；其他機構或自媒體如需轉載，後臺留言申請授權

大家好，今天為大家帶來的文章是——Learning the depths of moving people by watching frozen people，該文章發表於CVPR 2019.

本文提出了一種在單目攝像機和人在場景中自由移動的情況下，預測稠密深度的方法。現有的從單目視頻中恢復動態非剛體深度的方法對目標運動有很強的假設，只能恢復稀疏深度。本文採用數據驅動的方法，從一個新的數據集學習人類的深度:成千上萬的人們模仿人體模型的網際網路視頻，即以各種各樣的自然姿勢定格，手持攝像機在鏡頭前移動。由於人是靜止的，因此可以使用多視圖立體重建生成訓練數據。在推理時，該方法利用場景靜態區域的運動視差線索來指導深度預測。顯示了對目前最先進的單目深度預測方法的改進，並使用預測所得的深度產生了各種3D效果。

1. 一個新的深度預測數據來源，包括大量的網絡視頻，其中攝像機圍繞著自然姿勢靜止的人移動，以及一種生成精確深度圖和攝像機姿勢的方法;

2. 設計並訓練了一種基於深度網絡的模型，用於預測攝像機運動和複雜人體同時運動情況下的密集深度圖。

本文模型預測了當普通相機和場景中的人都在自由移動時(圖1右圖)的密集深度。在Mannequin挑戰數據集上訓練該模型。以各種各樣的自然姿勢定格，而相機則在鏡頭前移動(左)。因為人是靜止的，所以幾何約束成立。這使得可以使用多視點立體來估計深度，從而在訓練過程中起到監督的作用。

Mannequin挑戰是指當攝影師在拍攝場景時，人們會原地不動，擺出有趣的姿勢(如圖2所示)。

1.1 相機位姿估計

使用ORB-SLAM2來識別每個視頻中的可跟蹤序列，並估計每個幀的初始相機姿態。在這個階段，為了提高效率，作者將視頻處理成了一個低解析度版本的視頻，並將視場設置為60度(現代手機相機的典型值)。然後，使用視覺SfM系統以更高的解析度重新處理每個序列，該系統改進了初始相機姿態和內在參數。該方法跨幀提取和匹配特徵，然後執行全局bundle調整優化。最後，利用Zhou等人的技術去除相機運動不平穩的序列。

1.2 用MVS計算稠密深度

使用COLMAP方法恢復每幀的稠密深度圖。由於數據是由網絡視頻組成的，這些視頻涉及到攝像機的運動模糊、陰影、反射等，因此MVS估計的原始深度地圖對於訓練目的來說往往太過嘈雜。本文通過深度過濾機制來解決這個問題。首先利用深度細化方法對離群點深度進行濾波。通過考慮MVS深度與兩幀間運動視差得到的深度的一致性，進一步消除了誤差深度值。對於每一幀，對每個像素點p計算一個標準化的誤差△(p).

1.3 過濾剪輯

有幾個因素會使視頻剪輯不適合訓練。例如，人們可能在視頻的某個點上解凍(開始移動)，或者視頻可能在背景中包含合成的圖形元素。動態對象和合成背景不服從多視圖幾何約束，因此被視為異常值，並被MVS過濾掉，可能只留下很少的有效像素。因此，在兩步清理階段之後，刪除小於20%的像素具有有效MVS深度的幀。

如圖3所示，網絡的輸入包括:(a) RGB圖像，(b)人的掩碼，(c)根據運動視差w.r.t.計算的掩碼深度，一個選定的源圖像，(d)掩碼置信圖。前兩排的低置信度區域(黑圈)表示相機主極附近，視差的深度不可靠且被移除。網絡被訓練成回歸到MVS深度(e)。

2.1 運動視差的深度

視頻中兩幀之間的運動視差提供了我們對場景靜態區域的初始深度估計(假設人是動態的，而場景的其餘部分是靜態的)。在給定參考圖像和源圖像為一對的情況下，利用FlowNet2.0估計了從紅外到正紅外的光流場。利用兩個視圖之間的相對攝像機姿態，利用平面加視差(P+P)表示，從估計的光流場計算出初始深度圖Dpp。

關鍵幀的選擇，如果兩個視圖之間的二維位移很小，或者用單應函數很好地近似(例如，在純相機旋轉的情況下)，那麼運動視差的深度可能是不適定的。為了避免這種情況，在選擇參考幀Ir和相應的源關鍵幀時應用基線準則。

2.2 置信度

數據集中的圖像會有相機運動模糊，陰影，低光照和反射等問題，所以光流往往是帶有噪聲的，在輸入深度圖中增加了不確定性。因此，對網絡進行估計時輸入一個置信度圖c。這使得網絡可以更多地依賴於高置信區域的輸入深度，並有可能利用它來改進對低置信區域的預測。定義非人類區域中每個像素p處的置信值為

3.1 尺度不變的MSE

LMSE表示尺度不變的均方誤差(MSE)。這一項計算的是預測中兩個像素點與真實深度中相同的兩個像素點之間深度的平方log-space差，在所有對有效像素點上取平均值。也就是說查看所有的點對，並懲罰它們的深度值與wr.t.真實深度之比的差異。

3.2 多尺度梯度項

使用一個多尺度梯度項Lgrad，它是預測的深度導數(在x和y方向上)與多尺度下的真實深度導數之間的L1差。這一項允許網絡恢復深度預測圖像的尖銳不連續點和平滑的梯度變化。

3.3 多尺度，邊緣感知平滑項

為了在MVS無法恢復深度的無紋理區域鼓勵深度的平滑插值，使用了一個簡單的平滑項Lsm，它懲罰了基於圖像一階和二階導數的對數深度導數L1範數，並應用於多個尺度。

1. 對MC測試集的評價

在MC測試集上評估了我們的方法，該測試集包含從756個視頻剪輯中提取的29K多張圖像。

定量評價如表1所示。通過比較(I)、(III)和(IV)行，可以清楚地看到，添加環境的初始深度以及置信度圖可以顯著提高人類和非人類區域的性能。向網絡輸入添加人工關鍵點位置將進一步提高性能。注意，如果向網絡輸入一個光流場而不是深度(II)，那麼性能只能與單視圖方法相媲美。從二維光流到深度的映射依賴於相對的攝像機姿態，而網絡沒有給出這些姿態。這一結果表明，該網絡不能隱式學習相對姿態和提取深度信息。

圖4顯示了單視圖模型(I)和完整模型(IDppCMK)之間的定性比較。完整模型結果在人類區域(例如，第一列)和非人類區域(例如，第二列)都更準確。此外，在所有的例子中，人與周圍環境之間的深度關係都得到了改善。

2. 對TUM RGBD數據集的評價

使用了TUM RGBD數據集的一個子集，其中包含了從不同的相機姿態捕捉到的人們執行複雜動作的室內場景。來自該數據集的樣本圖像如圖5(a-b)所示。

圖5為不同方法的定性比較。本文模型深度預測(圖5(f-g))與真實深度非常相似，顯示出高水平的細節和尖銳的深度不連續。

定量比較如表2所示，報告了5種不同的尺度不變誤差度量以及標準RMSE和相對誤差；最後兩個是通過應用一個單一的比例因子來計算的，該因子在最小二乘意義上對齊了預測深度和真實深度。

3. 動態場景的網絡視頻

在網際網路的挑戰視頻(從YouTube和Shutterstock下載)上測試了本文的方法，包括同時進行自然攝像機運動和人體運動。如圖6所示，本文方法的深度預測結果明顯優於基線方法。特別是DORN[7]對網絡視頻的泛化非常有限，Chen等人主要針對網絡照片進行訓練的[3]無法捕捉到準確的深度。

Abstract

We present a method for predicting dense depth in scenarios where both a monocular camera and people in the scene are freely moving. Existing methods for recovering depth for dynamic, non-rigid objects from monocular video impose strong assumptions on the objects motion and may only recover sparse depth. In this paper, we take a data-driven approach and learn human depth priors from a new source of data: thousands of Internet videos of people imitating mannequins, i.e., freezing in diverse, natural poses, while a hand-held camera tours the scene. Because people are stationary, training data can be generated using multi-view stereo reconstruction. At inference time, our method uses motion parallax cues from the static areas of the scenes to guide the depth prediction. We demonstrate our method on real-world sequences of complex human actions captured by a moving hand-held camera, show improvement over stateof- the-art monocular depth prediction methods, and show various 3D effects produced using our predicted depth.

如果你對本文感興趣，想要下載完整文章進行閱讀，可以關注【泡泡機器人SLAM】公眾號。

點擊閱讀原文，即可獲取本文下載連結。提取碼：hjuu

歡迎來到泡泡論壇，這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題，或者想刷帖回答問題，泡泡論壇歡迎你！

泡泡網站：www.paopaorobot.org

泡泡論壇：http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成，希望大家珍惜我們的勞動成果，轉載請務必註明出自【泡泡機器人SLAM】微信公眾號，否則侵權必究！同時，我們也歡迎各位轉載到自己的朋友圈，讓更多的人能進入到SLAM這個領域中，讓我們共同為推進中國的SLAM事業而努力！

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

【泡泡圖靈智庫】通過觀察靜止的人去學習移動的深度(CVPR)

相關焦點

「小薇」為何能通過圖靈測試?

谷歌AI通過圖靈測試:人類的進步還是人性的倒退?

「圖靈學院」通過國家高新技術企業認定

觀察|人機攜手,能寫出通過圖靈測試的好故事嗎

Google Duplex通過圖靈測試人工智慧還會遠嗎?

圖靈測試介紹圖靈機的工作原理詳解

2019年圖靈獎公布!從阿凡達到圖靈獎,皮克斯元老的動畫夢

已通過圖靈測試,人工智慧緣何越來越聰明,它們會「覺醒」嗎?

圖靈的人工智慧世界

圖靈機器人:飛越人工智慧的想像屏障

計算機聊天機器人首次通過圖靈測試人工智慧來臨

南昌圖書館的吵架機器人,能通過「圖靈測試」嗎?是人工還是智能

深度| 如何理解深度學習的優化?通過分析梯度下降的軌跡

超級計算機首次通過圖靈測試,人工智慧時代來臨?

圖靈之謎-《艾倫·圖靈傳》序

千億市值驚豔市場,泡泡瑪特的「泡泡」還能吹多久?

俄羅斯計算機「尤金」成為歷史上第一個通過圖靈測試的人工智慧

CVPR2019爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計

圖靈測試已經過時,人工智慧需要建立一套全新指標

超級計算機首次通過圖靈測試 5分鐘回答所有問題

【泡泡圖靈智庫】通過觀察靜止的人去學習移動的深度(CVPR)

相關焦點

「小薇」為何能通過圖靈測試?

谷歌AI通過圖靈測試:人類的進步還是人性的倒退?

「圖靈學院」通過國家高新技術企業認定

觀察|人機攜手,能寫出通過圖靈測試的好故事嗎

Google Duplex通過圖靈測試 人工智慧還會遠嗎?

圖靈測試介紹 圖靈機的工作原理詳解

2019年圖靈獎公布!從阿凡達到圖靈獎,皮克斯元老的動畫夢

已通過圖靈測試,人工智慧緣何越來越聰明,它們會「覺醒」嗎?

圖靈的人工智慧世界

圖靈機器人:飛越人工智慧的想像屏障

計算機聊天機器人首次通過圖靈測試 人工智慧來臨

南昌圖書館的吵架機器人,能通過「圖靈測試」嗎?是人工還是智能

深度| 如何理解深度學習的優化?通過分析梯度下降的軌跡

超級計算機首次通過圖靈測試,人工智慧時代來臨?

圖靈之謎-《艾倫·圖靈傳》序

千億市值驚豔市場,泡泡瑪特的「泡泡」還能吹多久?

俄羅斯計算機「尤金」成為歷史上第一個通過圖靈測試的人工智慧

CVPR2019爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計

圖靈測試已經過時,人工智慧需要建立一套全新指標

超級計算機首次通過圖靈測試 5分鐘回答所有問題

Google Duplex通過圖靈測試人工智慧還會遠嗎?

圖靈測試介紹圖靈機的工作原理詳解

計算機聊天機器人首次通過圖靈測試人工智慧來臨