泡泡點雲時空,帶你精讀點雲領域頂級會議文章
標題:Embodied Question Answering in Photorealistic Environments with Point Cloud Perception
作者:Erik Wijmans, Samyak Datta, Oleksandr Maksymets, Abhishek Das, Georgia Gkioxari, Stefan Lee, Irfan Essa, Devi Parikh, Dhruv Batra
來源:CVPR2019
編譯:王宇傑
審核:鄭森華
歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權
為了拉近常見的視覺處理任務與機器人利用視覺實現「具身認知」目標之間的距離,我們實例化了一個大型導航任務–在具有真實感的仿真環境中實現「具身問答」(Matterport 3D)。我們詳盡地研究了利用3D點雲,RGB圖像或其組合的導航策略。我們對這些模型的分析揭示了幾個關鍵發現。我們發現,根據文獻[1]中提出的關於模型評估的特殊設置,兩個看似簡單的導航基線方法(僅向前導航和隨機導航)其實表現得很出色,甚至比較難超越。同時,我們發現了一種新的損失加權方案,並稱之為「拐點加權法」,在訓練基於導航+行為克隆的RNN模型時非常重要,並且利用該方法可以獲得比基線更好的效果。此外,我們發現相比於RGB圖像,點云為避障任務提供了更豐富的信號,因此推動了3D深度學習模型在「具身導航」中的應用與研究。
Embodied Question Answering (EmbodiedQA),中文翻譯為「具身問答」,具體任務為在仿真環境中,隨機地在新穎的環境(例如房屋)中放置一個agent,並要求agent回答一個問題,比如「車庫中的汽車是什麼顏色?」。Agent為了能回答該問題,需要進行自主導航(即事先不給定agent環境的地圖),從而找到問題中涉及的實體,比如「車庫中的汽車」,然後以正確的答案(例如「橙色」)做出回應。
該工作是第一個探索端到端訓練的3D感知以在逼真的環境中進行目標驅動的導航任務:
1. 將具身問答(EmbodiedQA)任務(該任務最初在純仿真模擬的SUNCG數據中提出)延伸到了一個與現實更為相近的三維重建數據集Matterport 3D上;
2. 建立了MP3D-EQA數據集,該數據集包含83個環境中的1136個問題和答案,並對常見解決方案進行了詳盡的分析與評估;
3. 發現了一種新的損失加權方案,並稱之為「拐點加權法」,在訓練基於導航+行為克隆的RNN模型時可以獲得比基線更好的效果。
環境:Matterport3D數據集由90個家庭環境組成,這些環境是通過Matterport Pro攝像機拍攝的一系列全景RGB-D圖像捕獲的(請參見下圖a中的示例全景圖)。將所得的點雲對齊並用於重建3D網格(如下圖b所示),然後用語義標籤對其進行注釋。
問題:分為以下三種類型:
1. 位置:<物體>位於哪個房間?
2. 顏色:<物體>是什麼顏色?
3. 顏色室:<房間>中的<物體>是什麼顏色?
其中<>內可以有多個選擇。
EmbodiedQA的Agent必須能理解給定的問題,感知並瀏覽周圍的環境以收集信息,並正確回答才能成功完成任務。考慮一個EmbodiedQA的agent,它通過基於當前狀態st、問題Q、之前的觀察和行動的軌跡 σ_t-1 =(s1,a1,s2,a2,...,st-1,at-1)在每個時間步t預測行動來進行導航。因此有多種模型可以完成以上動作選擇任務,例如強化學習中的行為克隆, Q learning算法等等。
給定一個帶顏色信息的點雲,為了使Agent能夠使用點雲感知世界,我們必須學習一個將點雲映射到觀測表示的函數f:P-> Rd。為此,我們使用了廣泛使用的3D架構PointNet ++。其中,為了更好地學到表徵,採用了3個對編碼器進行預訓練的任務,包括語義分割,顏色信息自編碼和結構信息自編碼(主要指深度)。其具體流程圖見下圖:
對於需要回答的問題,採用了具有128維隱藏狀態的雙層LSTM來編碼。注意,用於導航和回答的問題編碼是單獨學習的。其中,對於問題回答模型,使用了僅問題、注意力機制和空間注意力機制三種模型進行測試;對於導航模型,使用了僅前向和隨機兩個基線模型。
為了訓練模型,人為生成了一個靜態的數據集,用於模擬agent的軌跡。但是,Agent容易一直沿著GT軌跡前進,並重複此過程。因此,帶來了一個問題,即沒有真正學到任何有用信息。為了解決這個問題,我們提出了一個新穎的損失加權方案,並稱之為「拐點加權法」,即我們設定每一時刻的權重,當GT裡當前時刻的動作與前一時刻的動作明顯不同時(即軌跡中的拐點),我們就會加大預測的權重。以此為基礎,我們可以定義一系列預測Yˆ和GT軌跡A之間的拐點加權損失函數:
以上方法主要處理了類別分布嚴重失衡的情況,通過該方案,我們發現在實際的RNN模型中帶來了極大的性能提升。
包含記憶的模型比不包含記憶的模型性能好了很多,很意外地發現基線模型的性能很好
有和沒有問題的基於記憶的導航模型的比較。有趣的是,添加問題似乎並不能幫助進行行為克隆算法所訓練的模型
To help bridge the gap between internet vision-style problems and the goal of vision for embodied perception we instantiate a large-scale navigation task – Embodied Question Answering in photo-realistic environments (Matterport 3D). We thoroughly study navigation policies that utilize 3D point clouds, RGB images, or their combination. Our analysis of these models reveals several key findings. We find that two seemingly naive navigation baselines, forward-only and random, are strong navigators and challenging to outperform, due to the specific choice of the evaluation setting presented by [1]. We find a novel loss-weighting scheme we call Inflection Weighting to be important when training recurrent models for navigation with behavior cloning and are able to outperform the baselines with this technique. We find that point clouds provide a richer signal than RGB images for learning obstacle avoidance, motivating the use (and continued study) of 3D deep learning models for embodied navigation.
如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號。
歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。
有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!
泡泡網站:www.paopaorobot.org
泡泡論壇:http://paopaorobot.org/bbs/
泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!
泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!
商業合作及轉載請聯繫liufuqiang_robot@hotmail.com