【泡泡圖靈智庫】通過觀察靜止的人去學習移動的深度(CVPR)

2021-02-13 泡泡機器人SLAM
 

泡泡圖靈智庫,帶你精讀機器人頂級會議文章

標題:Learning the depths of moving people by watching frozen people

作者:Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker,

Noah Snavely, Ce Liu, William T. Freeman(Google Research)

來源:CVPR 2019

編譯:楊宇超

審核:譚艾琳

歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

    大家好,今天為大家帶來的文章是——Learning the depths of moving people by watching frozen people,該文章發表於CVPR 2019.

    本文提出了一種在單目攝像機和人在場景中自由移動的情況下,預測稠密深度的方法。現有的從單目視頻中恢復動態非剛體深度的方法對目標運動有很強的假設,只能恢復稀疏深度。本文採用數據驅動的方法,從一個新的數據集學習人類的深度:成千上萬的人們模仿人體模型的網際網路視頻,即以各種各樣的自然姿勢定格,手持攝像機在鏡頭前移動。由於人是靜止的,因此可以使用多視圖立體重建生成訓練數據。在推理時,該方法利用場景靜態區域的運動視差線索來指導深度預測。顯示了對目前最先進的單目深度預測方法的改進,並使用預測所得的深度產生了各種3D效果。

    1. 一個新的深度預測數據來源,包括大量的網絡視頻,其中攝像機圍繞著自然姿勢靜止的人移動,以及一種生成精確深度圖和攝像機姿勢的方法;

    2. 設計並訓練了一種基於深度網絡的模型,用於預測攝像機運動和複雜人體同時運動情況下的密集深度圖。

      本文模型預測了當普通相機和場景中的人都在自由移動時(圖1右圖)的密集深度。在Mannequin挑戰數據集上訓練該模型。以各種各樣的自然姿勢定格,而相機則在鏡頭前移動(左)。因為人是靜止的,所以幾何約束成立。這使得可以使用多視點立體來估計深度,從而在訓練過程中起到監督的作用。

    Mannequin挑戰是指當攝影師在拍攝場景時,人們會原地不動,擺出有趣的姿勢(如圖2所示)。

1.1 相機位姿估計

   使用ORB-SLAM2來識別每個視頻中的可跟蹤序列,並估計每個幀的初始相機姿態。在這個階段,為了提高效率,作者將視頻處理成了一個低解析度版本的視頻,並將視場設置為60度(現代手機相機的典型值)。然後,使用視覺SfM系統以更高的解析度重新處理每個序列,該系統改進了初始相機姿態和內在參數。該方法跨幀提取和匹配特徵,然後執行全局bundle調整優化。最後,利用Zhou等人的技術去除相機運動不平穩的序列。

1.2 用MVS計算稠密深度

    使用COLMAP方法恢復每幀的稠密深度圖。由於數據是由網絡視頻組成的,這些視頻涉及到攝像機的運動模糊、陰影、反射等,因此MVS估計的原始深度地圖對於訓練目的來說往往太過嘈雜。本文通過深度過濾機制來解決這個問題。首先利用深度細化方法對離群點深度進行濾波。通過考慮MVS深度與兩幀間運動視差得到的深度的一致性,進一步消除了誤差深度值。對於每一幀,對每個像素點p計算一個標準化的誤差△(p).

1.3 過濾剪輯

    有幾個因素會使視頻剪輯不適合訓練。例如,人們可能在視頻的某個點上解凍(開始移動),或者視頻可能在背景中包含合成的圖形元素。動態對象和合成背景不服從多視圖幾何約束,因此被視為異常值,並被MVS過濾掉,可能只留下很少的有效像素。因此,在兩步清理階段之後,刪除小於20%的像素具有有效MVS深度的幀。

   如圖3所示,網絡的輸入包括:(a) RGB圖像,(b)人的掩碼,(c)根據運動視差w.r.t.計算的掩碼深度,一個選定的源圖像,(d)掩碼置信圖。前兩排的低置信度區域(黑圈)表示相機主極附近,視差的深度不可靠且被移除。網絡被訓練成回歸到MVS深度(e)。

2.1 運動視差的深度

   視頻中兩幀之間的運動視差提供了我們對場景靜態區域的初始深度估計(假設人是動態的,而場景的其餘部分是靜態的)。在給定參考圖像和源圖像為一對的情況下,利用FlowNet2.0估計了從紅外到正紅外的光流場。利用兩個視圖之間的相對攝像機姿態,利用平面加視差(P+P)表示,從估計的光流場計算出初始深度圖Dpp。

    關鍵幀的選擇,如果兩個視圖之間的二維位移很小,或者用單應函數很好地近似(例如,在純相機旋轉的情況下),那麼運動視差的深度可能是不適定的。為了避免這種情況,在選擇參考幀Ir和相應的源關鍵幀時應用基線準則。

2.2 置信度

    數據集中的圖像會有相機運動模糊,陰影,低光照和反射等問題,所以光流往往是帶有噪聲的,在輸入深度圖中增加了不確定性。因此,對網絡進行估計時輸入一個置信度圖c。這使得網絡可以更多地依賴於高置信區域的輸入深度,並有可能利用它來改進對低置信區域的預測。定義非人類區域中每個像素p處的置信值為

3.1 尺度不變的MSE

    LMSE表示尺度不變的均方誤差(MSE)。這一項計算的是預測中兩個像素點與真實深度中相同的兩個像素點之間深度的平方log-space差,在所有對有效像素點上取平均值。也就是說查看所有的點對,並懲罰它們的深度值與wr.t.真實深度之比的差異。

3.2 多尺度梯度項

   使用一個多尺度梯度項Lgrad,它是預測的深度導數(在x和y方向上)與多尺度下的真實深度導數之間的L1差。這一項允許網絡恢復深度預測圖像的尖銳不連續點和平滑的梯度變化。

3.3 多尺度,邊緣感知平滑項

    為了在MVS無法恢復深度的無紋理區域鼓勵深度的平滑插值,使用了一個簡單的平滑項Lsm,它懲罰了基於圖像一階和二階導數的對數深度導數L1範數,並應用於多個尺度。

1. 對MC測試集的評價

    在MC測試集上評估了我們的方法,該測試集包含從756個視頻剪輯中提取的29K多張圖像。

    定量評價如表1所示。通過比較(I)、(III)和(IV)行,可以清楚地看到,添加環境的初始深度以及置信度圖可以顯著提高人類和非人類區域的性能。向網絡輸入添加人工關鍵點位置將進一步提高性能。注意,如果向網絡輸入一個光流場而不是深度(II),那麼性能只能與單視圖方法相媲美。從二維光流到深度的映射依賴於相對的攝像機姿態,而網絡沒有給出這些姿態。這一結果表明,該網絡不能隱式學習相對姿態和提取深度信息。

    圖4顯示了單視圖模型(I)和完整模型(IDppCMK)之間的定性比較。完整模型結果在人類區域(例如,第一列)和非人類區域(例如,第二列)都更準確。此外,在所有的例子中,人與周圍環境之間的深度關係都得到了改善。

2. 對TUM RGBD數據集的評價

  使用了TUM RGBD數據集的一個子集,其中包含了從不同的相機姿態捕捉到的人們執行複雜動作的室內場景。來自該數據集的樣本圖像如圖5(a-b)所示。

    圖5為不同方法的定性比較。本文模型深度預測(圖5(f-g))與真實深度非常相似,顯示出高水平的細節和尖銳的深度不連續。

    定量比較如表2所示,報告了5種不同的尺度不變誤差度量以及標準RMSE和相對誤差;最後兩個是通過應用一個單一的比例因子來計算的,該因子在最小二乘意義上對齊了預測深度和真實深度。

3. 動態場景的網絡視頻

    在網際網路的挑戰視頻(從YouTube和Shutterstock下載)上測試了本文的方法,包括同時進行自然攝像機運動和人體運動。如圖6所示,本文方法的深度預測結果明顯優於基線方法。特別是DORN[7]對網絡視頻的泛化非常有限,Chen等人主要針對網絡照片進行訓練的[3]無法捕捉到準確的深度。


Abstract 

   We present a method for predicting dense depth in scenarios where both a monocular camera and people in the scene are freely moving. Existing methods for recovering depth for dynamic, non-rigid objects from monocular video impose strong assumptions on the objects motion and may only recover sparse depth. In this paper, we take a data-driven approach and learn human depth priors from a new source of data: thousands of Internet videos of people imitating mannequins, i.e., freezing in diverse, natural poses, while a hand-held camera tours the scene. Because people are stationary, training data can be generated using multi-view stereo reconstruction. At inference time, our method uses motion parallax cues from the static areas of the scenes to guide the depth prediction. We demonstrate our method on real-world sequences of complex human actions captured by a moving hand-held camera, show improvement over stateof- the-art monocular depth prediction methods, and show various 3D effects produced using our predicted depth.

如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號

點擊閱讀原文,即可獲取本文下載連結。提取碼:hjuu

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

相關焦點

  • 「小薇」為何能通過圖靈測試?
    2017年,由北京中科匯聯科技股份有限公司研發的「小薇」作為中國第一個通過圖靈測試的作詩機器人,入選中央電視臺《機智過人》節目。圖靈測試是被譽為電腦科學之父的英國數學家圖靈,於1950年提出的一個關於判斷機器是否能夠思考的試驗。圖靈認為,如果人們與電腦進行文字對話後,人無法判定對方是電腦還是人,那就證明電腦會「思考」。
  • 谷歌AI通過圖靈測試:人類的進步還是人性的倒退?
    而在大會的最後一天,谷歌母公司Alphabet董事長、前斯坦福校長約翰軒尼詩道出Duplex已經通過了圖靈測試的消息。一石激起千層浪。● 圖靈測試或許沒有意義作為公認的計算機科學家,馮諾依曼獎和圖靈獎的獲得者,軒尼詩的這番話應該不會被公眾認為是谷歌的噱頭。「機器是否能夠思考」這個問題由來已久,圖靈測試則是判斷某機器能否表現出與人等價或無法區分的智能的一個辦法。
  • 「圖靈學院」通過國家高新技術企業認定
    (原標題:「圖靈學院」通過國家高新技術企業認定) 12月1日,全國高新技術企業認定管理工作領導小組辦公室下發了
  • 觀察|人機攜手,能寫出通過圖靈測試的好故事嗎
    交互的前提是理解,在「斷文解字」這件事上,機器能力已經超出大多數人的想像。兩年前,史丹福大學推出的閱讀理解能力大賽上,計算機的英文閱讀能力已超過人類,此次遊戲更新的技術相比之前又邁進了一大步。從此前的AI獨立寫作到如今的人機攜手創作,「進階版」機器寫手能寫出通過圖靈測試的好故事嗎?
  • Google Duplex通過圖靈測試 人工智慧還會遠嗎?
    在大會的最後一日,Alphabet董事長John Hennessy親口承認:Google Duplex已經在預約領域通過了圖靈測試。 通過圖靈測試! 多麼令人興奮的六個字。被人工智慧所改變的世界藍圖仿佛就在我們眼前鋪展。 人工智慧成果噴薄爆發以來,熱門領域除了機器學習,還有作為計算機語言學、人工智慧和數理邏輯的交叉學科——機器翻譯。
  • 圖靈測試介紹 圖靈機的工作原理詳解
    進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智能。圖靈測試一詞來源於計算機科學和密碼學的先驅阿蘭·麥席森·圖靈寫於1950年的一篇論文《計算機器與智能》,其中30%是圖靈對2000年時的機器思考能力的一個預測,目前我們已遠遠落後於這個預測。
  • 2019年圖靈獎公布!從阿凡達到圖靈獎,皮克斯元老的動畫夢
    ;今年,圖靈獎頒給了點亮創意之光的人。Catmull:和賈伯斯共事26年為CG界帶來革命去年,圖靈獎頒給了熬過寒冬的人。今年,圖靈獎頒給了點亮創意之光的人。Z 緩衝算法也叫深度緩衝器算法,屬於圖像空間消隱算法,該算法有幀緩衝器和深度緩衝器。
  • 已通過圖靈測試,人工智慧緣何越來越聰明,它們會「覺醒」嗎?
    人工智慧機器人是否具有主觀意識,能不能自主思考,這個看似十分難以準確定義的問題,早在上世紀50年代就由數學家、邏輯學家、「人工智慧之父」艾倫·麥席森·圖靈給出了解決辦法。 這便是大名鼎鼎的圖靈測試,只要機器通過這項測試,便可認為它擁有智能。
  • 圖靈的人工智慧世界
    在那個世界裡,具有自主「學習」和「思考」能力的機器分擔了人類在各個領域的工作;能「思考」的機器通過「自主」的學習可以成為工程師、醫生、詩人、棋手、科學家、畫家、音樂家……凡是人類能做的工作,能「思考」的機器都可以做。圖靈的設想及其驗證方式(圖靈測試)為人類塑造了一幅全新的世界圖景。製造一個長得像人或神話中的人物且擁有遠超人類力量的機器的想法自古就有。
  • 圖靈機器人:飛越人工智慧的想像屏障
    簡單來說,現有階段的人工智慧,要在單點勝過人類是很容易的,但是人腦擁有先天性的適應能力,它支撐著人類的複雜情感,比如安慰他人、書寫詩歌、臨場應變以及海闊天空的對話溝通,這讓機器很難模仿得來,因為後者只能遵循事先編寫的程序和規則行事。於是,人工智慧領域開始將「深度學習」作為一種賦能,用於制定相關產品的標準。
  • 計算機聊天機器人首次通過圖靈測試 人工智慧來臨
    摘要:今天圖靈測試 2014 的舉辦方英國雷丁大學發布新聞稿,宣稱俄羅斯人弗拉基米爾·維西羅夫(Vladimir Veselov)創立的人工智慧軟體尤金•古斯特曼(Eugene Goostman)通過了圖靈測試。
  • 南昌圖書館的吵架機器人,能通過「圖靈測試」嗎?是人工還是智能
    南昌圖書館的吵架機器人火了,很多同學對此感到不解,不知道這背後到底是人在控制,還是人工智慧在作答,每次點開評論區都看到很多人為此吵的不可開交。為什麼一個機器人會有如此優異的能力,讓人難辨真偽,它能通過圖靈測試嗎?
  • 深度| 如何理解深度學習的優化?通過分析梯度下降的軌跡
    選自offconvex作者:Nadav Cohen機器之心編譯參與:Panda深度學習很大程度上仍是一個黑箱,但研究者一直沒有停下理解它的步伐。普林斯頓高等研究院的研究者 Nadav Cohen 近日發文介紹了理解深度學習優化的進展以及他們近期在這方面的一項研究成果。
  • 超級計算機首次通過圖靈測試,人工智慧時代來臨?
    此次在英國王家學會共有5臺計算機接受了測試,通過基於文本的對話,考察它們是否能夠讓人們認為他們的談話對象是一個人而不是一臺計算機。該測試要求通過一個5分鐘的鍵盤文字交流讓30%的裁判認為他們的交流對象是人類而不是計算機。此前還沒有計算機可以通過圖靈測試。
  • 圖靈之謎-《艾倫·圖靈傳》序
    (一)關於這本傳記幾年前我頗有些在網上閒聊的熱情,有一次不小心在某個帖子裡脫口而出:「如果我只打算把一本書翻成中文,那麼一定是安德魯·霍奇斯的這本《艾倫•圖靈傳──謎一樣的解謎者 》。」說歸說,我並沒有足夠的毅力和時間去踐約。這本厚厚的傳記,我當時只看過一小部分,印象深刻。
  • 千億市值驚豔市場,泡泡瑪特的「泡泡」還能吹多久?
    大多數人見識過炒幣、炒鞋,沒想到玩具也能炒。一、售賣「盲盒」,「雙十一」銷售額破8000萬,經歷8輪融資2010年,北京泡泡瑪特文化創意有限公司(泡泡瑪特)成立。圍繞藝術家挖掘、IP孵化運營、消費者觸達以及潮玩文化推廣與培育四個領域,泡泡瑪特成為了最大且增長最快的潮流玩具公司。
  • 俄羅斯計算機「尤金」成為歷史上第一個通過圖靈測試的人工智慧
    在2012年的一次測試中,尤金•古特曼也曾成功騙過29.2%的評委,距離通過測試僅一步之遙。英國雷丁大學客座教授凱文·沃維克(Kevin Warwick)指出,尤金•古特曼可以被認為是首臺通過「圖靈測試」的計算機。雖然此前也有一些人聲稱其開發的軟體成功通過了「圖靈測試」,但它們的測試預先設定了討論的話題或提出的問題。
  • CVPR2019爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計
    我們因此提出一種自我監督的模仿學習方法,讓機器人通過自我監督來探索沒見過的環境,從而使它的行為更加適應這些新的環境。這樣一來,智能體在見過和沒見過的環境之間的表現就會更加接近。Wenli:你下一步的工作計劃是什麼?
  • 圖靈測試已經過時,人工智慧需要建立一套全新指標
    我認為圖靈提出的努力目標對我這樣的人工智慧科學家來說並不是一個實用目標。 圖靈測試充滿了限制性因素,圖靈自己在這篇開創性論文中就討論過其中一些。隨著如今人工智慧普遍集成到手機、汽車和家庭中,一個事實越來越明顯:人們更關心他們與機器的交互是實用、無縫和透明的,實現機器與人真假難分的理念已經過時。
  • 超級計算機首次通過圖靈測試 5分鐘回答所有問題
    在「人工智慧之父」阿蘭·圖靈逝世60周年之際,英國雷丁大學本月8日貼出了一份公告,宣布一臺超級計算機首次通過了「圖靈測試」,成功讓人類相信它是一個13歲的男孩。這臺計算機也成為有史以來第一個具有人類思考能力的人工智慧設備,被看做人工智慧發展的裡程碑事件。