【泡泡點雲時空】真實感環境下使用點雲感知的問答

2021-02-20 泡泡機器人SLAM

泡泡點雲時空,帶你精讀點雲領域頂級會議文章

標題:Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

作者:Erik Wijmans, Samyak Datta, Oleksandr Maksymets, Abhishek Das, Georgia Gkioxari, Stefan Lee, Irfan Essa, Devi Parikh, Dhruv Batra

來源:CVPR2019

編譯:王宇傑

審核:鄭森華

歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

為了拉近常見的視覺處理任務與機器人利用視覺實現「具身認知」目標之間的距離,我們實例化了一個大型導航任務–在具有真實感的仿真環境中實現「具身問答」(Matterport 3D)。我們詳盡地研究了利用3D點雲,RGB圖像或其組合的導航策略。我們對這些模型的分析揭示了幾個關鍵發現。我們發現,根據文獻[1]中提出的關於模型評估的特殊設置,兩個看似簡單的導航基線方法(僅向前導航和隨機導航)其實表現得很出色,甚至比較難超越。同時,我們發現了一種新的損失加權方案,並稱之為「拐點加權法」,在訓練基於導航+行為克隆的RNN模型時非常重要,並且利用該方法可以獲得比基線更好的效果。此外,我們發現相比於RGB圖像,點云為避障任務提供了更豐富的信號,因此推動了3D深度學習模型在「具身導航」中的應用與研究。

Embodied Question Answering (EmbodiedQA),中文翻譯為「具身問答」,具體任務為在仿真環境中,隨機地在新穎的環境(例如房屋)中放置一個agent,並要求agent回答一個問題,比如「車庫中的汽車是什麼顏色?」。Agent為了能回答該問題,需要進行自主導航(即事先不給定agent環境的地圖),從而找到問題中涉及的實體,比如「車庫中的汽車」,然後以正確的答案(例如「橙色」)做出回應。

該工作是第一個探索端到端訓練的3D感知以在逼真的環境中進行目標驅動的導航任務:

1. 將具身問答(EmbodiedQA)任務(該任務最初在純仿真模擬的SUNCG數據中提出)延伸到了一個與現實更為相近的三維重建數據集Matterport 3D上;

2. 建立了MP3D-EQA數據集,該數據集包含83個環境中的1136個問題和答案,並對常見解決方案進行了詳盡的分析與評估;

3. 發現了一種新的損失加權方案,並稱之為「拐點加權法」,在訓練基於導航+行為克隆的RNN模型時可以獲得比基線更好的效果。

環境:Matterport3D數據集由90個家庭環境組成,這些環境是通過Matterport Pro攝像機拍攝的一系列全景RGB-D圖像捕獲的(請參見下圖a中的示例全景圖)。將所得的點雲對齊並用於重建3D網格(如下圖b所示),然後用語義標籤對其進行注釋。

問題:分為以下三種類型:

1. 位置:<物體>位於哪個房間?

2. 顏色:<物體>是什麼顏色?

3. 顏色室:<房間>中的<物體>是什麼顏色?

其中<>內可以有多個選擇。

    EmbodiedQA的Agent必須能理解給定的問題,感知並瀏覽周圍的環境以收集信息,並正確回答才能成功完成任務。考慮一個EmbodiedQA的agent,它通過基於當前狀態st、問題Q、之前的觀察和行動的軌跡 σ_t-1 =(s1,a1,s2,a2,...,st-1,at-1)在每個時間步t預測行動來進行導航。因此有多種模型可以完成以上動作選擇任務,例如強化學習中的行為克隆, Q learning算法等等。

    給定一個帶顏色信息的點雲,為了使Agent能夠使用點雲感知世界,我們必須學習一個將點雲映射到觀測表示的函數f:P-> Rd。為此,我們使用了廣泛使用的3D架構PointNet ++。其中,為了更好地學到表徵,採用了3個對編碼器進行預訓練的任務,包括語義分割,顏色信息自編碼和結構信息自編碼(主要指深度)。其具體流程圖見下圖:

    對於需要回答的問題,採用了具有128維隱藏狀態的雙層LSTM來編碼。注意,用於導航和回答的問題編碼是單獨學習的。其中,對於問題回答模型,使用了僅問題、注意力機制和空間注意力機制三種模型進行測試;對於導航模型,使用了僅前向和隨機兩個基線模型。

     為了訓練模型,人為生成了一個靜態的數據集,用於模擬agent的軌跡。但是,Agent容易一直沿著GT軌跡前進,並重複此過程。因此,帶來了一個問題,即沒有真正學到任何有用信息。為了解決這個問題,我們提出了一個新穎的損失加權方案,並稱之為「拐點加權法」,即我們設定每一時刻的權重,當GT裡當前時刻的動作與前一時刻的動作明顯不同時(即軌跡中的拐點),我們就會加大預測的權重。以此為基礎,我們可以定義一系列預測Yˆ和GT軌跡A之間的拐點加權損失函數:

以上方法主要處理了類別分布嚴重失衡的情況,通過該方案,我們發現在實際的RNN模型中帶來了極大的性能提升。

包含記憶的模型比不包含記憶的模型性能好了很多,很意外地發現基線模型的性能很好

有和沒有問題的基於記憶的導航模型的比較。有趣的是,添加問題似乎並不能幫助進行行為克隆算法所訓練的模型

To help bridge the gap between internet vision-style problems and the goal of vision for embodied perception we instantiate a large-scale navigation task – Embodied Question Answering in photo-realistic environments (Matterport 3D). We thoroughly study navigation policies that utilize 3D point clouds, RGB images, or their combination. Our analysis of these models reveals several key findings. We find that two seemingly naive navigation baselines, forward-only and random, are strong navigators and challenging to outperform, due to the specific choice of the evaluation setting presented by [1]. We find a novel loss-weighting scheme we call Inflection Weighting to be important when training recurrent models for navigation with behavior cloning and are able to outperform the baselines with this technique. We find that point clouds provide a richer signal than RGB images for learning obstacle avoidance, motivating the use (and continued study) of 3D deep learning models for embodied navigation.

如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號。

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

相關焦點

  • 【泡泡點雲時空】OpenGF:包含世界各地公開ALS超大規模地面濾波點雲數據集
    泡泡點雲時空,帶你精讀點雲領域頂級會議文章標題:OpenGF: An Ultra-Large-Scale Ground Filtering Dataset Built Upon Open ALS Point Clouds Around the World作者:Nannan Qin, Weikai Tan , Lingfei Ma, Dedong Zhang
  • 【泡泡點雲時空】PVCNN:用於高效3D深度學習的點-體素卷積神經網絡
    泡泡點雲時空,帶你精讀點雲領域頂級會議文章標題:Point-Voxel CNN for Efficient 3D Deep Learning作者:Zhijian Liu, Haotian Tang, Rui Zhu, Yujun Lin, Song Han來源:NIPS 2019編譯:陸煜衡審核:鄭森華
  • 【泡泡點雲時空】Voxel Map:針對視覺SLAM的體素地圖
    泡泡點雲時空,帶你精讀點雲領域頂級會議文章標題:Voxel Map for Visual SLAM作者:Manasi Muglikar, Zichao Zhang and Davide Scaramuzza來源:ICRA 2020編譯:王宇傑審核:lionheart歡迎個人轉發朋友圈;其他機構或自媒體如需轉載
  • 【泡泡點雲時空】R-MVSNet:高解析度多視圖三維重建網絡
    泡泡點雲時空,帶你精讀點雲領域頂級會議文章標題:R-MVSNet: Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference作者:Yao Yao, Zixin Luo, Shiwei Li, Tianwei Shen, Tian Fang, Long Quan
  • 【泡泡一分鐘】LOL:在3D點雲地圖中僅使用雷射雷達的裡程計和定位
    Majdik來源:2020 IEEE International Conference on Robotics and Automation (ICRA)編譯:孫欽審核:柴毅,王靖淇這是泡泡一分鐘推送的第 619 篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權在本文中,我們解決了在城鎮環境中行駛的,配備雷射雷達的車輛的裡程計和定位
  • 【泡泡圖靈智庫】彎曲體素聚類:具有實時性能的3D LiDAR點雲精確分割方法
    給定3D LiDAR點雲,應該如何快速準確地對其進行分割?在移動機器人領域,快速、準確地分割3D LiDAR點雲是一個重要的問題,在分類,跟蹤,SLAM等方面具有廣泛的應用。儘管它很重要,但是現有的方法無法兼顧速度和準確性。尤其是在3D空間中執行分割的方法處理速度太慢,無法實時應用。
  • 推廣 | 智慧城市時空大數據云平臺
    正元智慧城市時空大數據云平臺,是正元「13N2」發展戰略中「一個平臺、兩個標準」的戰略理念,基於《智慧城市時空大數據平臺建設技術大綱(2019版)》和行業需求開發,是智慧城市的時空基礎設施,以新型地理實體為載體,建立覆蓋全市範圍的時空大數據中心和時空信息雲平臺,提供省(市)地理信息+服務、智能分析,為智慧城市管理、行業智慧應用提供數據、服務支撐。
  • 一張網 一顆芯 一張圖 N 個端——打造北鬥精準時空信息雲平臺
    基於局域參考網,先後發展了若干側重實現雙頻精密定位的技術,如網絡實時動態(NRTK), 精密單點定位(PPP) 和PPP-RTK 等。其中, PPP-RTK 融合了NRTK 和PPP 的技術優勢,是目前研究的熱點。例如,基於湖北省連續運行參考站系統的建設為打造北鬥精準時空信息雲平臺打下了堅實基礎,如圖2 所示。
  • 分享(二)丨LiDAR點雲數據
    針對三維城市點雲的分析,已有許多半自動和自動的方法。這是一個有著良好發展前景的研究領域。然而,對於最佳的檢測、分割和分類方法還沒有達成共識。因此,小編推薦8個LiDAR數據集供大家使用,希望不斷提出新的檢測、分割和分類方法。本期分享的LiDAR數據集如下:1.     WHU-TLS點雲數據集2.
  • 時空是真實的嗎?
    物質在自身引力下坍縮形成星系等宇宙結構,氣體雲收縮形成恆星和行星;恆星通過核聚變燃燒它們的燃料來發光;這種光在宇宙中穿行,照亮它所接觸到的任何東西。但除了宇宙中的物體,宇宙還有更多的東西。還有時空結構,它有自己的一套規則:廣義相對論。時空的結構因物質和能量的存在而彎曲,彎曲的時空本身告訴物質和能量如何通過它。但是,到底什麼是時空?它是一個「真實」的東西,還是僅僅是一個計算工具?
  • 當犀牛Rhino與點雲相遇,逆向建模不再是難題
    然而優點逆向三維建模系統具有強大的平臺支撐,能夠將無限量點雲數據加載到繪圖環境,即便是大型的建築工程應用也極其流暢,毫無卡鈍問題,操作順暢,效率自然提升。2.多樣化顯示模式此外優點逆向三維建模系統還具有點雲高程色譜顯示的效果,根據需要自定義色彩,區分高度,顯示效果更清晰。
  • 基於深度學習的三維點雲綜述part2-3D物體檢測與跟蹤
    ,包含點雲形狀分類,點雲檢測和跟蹤,點雲分割,以及部分相關的數據集。他們首先使用裁剪和調整大小的操作從BEV和圖像視圖中提取相等大小的特徵,然後使用逐個元素的平均池化操作去融合這些特徵。Deep continuous fusion for multi-sensor 3D object detection,in ECCV。 該文章利用連續卷積實現了不同解析度下圖像與三維雷射雷達特徵圖的有效融合。
  • 稀疏點雲建模
    相對來講,密集點雲和抄數線都比稀疏點雲更好建模一些。
  • 【泡泡一分鐘】VoteNet:一個3D深度學習的AR校準方法,用於使用深度數據的機器人
    為了使用AR,必須在AR設備和現實環境之間進行校準。處理移動機器人中由於所有物體的移動性造成整個環境的動態變化是一個挑戰。因此,我們提出了一個使用3D深度數據標定AR設備的新穎方法。我們使用頭戴式的AR設備Microsoft Holoens的深度相機進行基於深度學習的校準。因此,我們基於最近發布的VoteNet架構修改了一個神經網絡,該架構可使用Hololens觀測到的原始點雲數據。
  • 【點雲一分鐘】SO-Net:用於點雲分析的自組織網絡
    SO-Net通過構建自組織映射(SOM)來模擬點雲的空間分布。基於SOM,SO-Net對單個點和SOM節點進行分層特徵提取,最終用單個特徵向量來表示輸入點雲。網絡的感受野可以通過進行點對節點的KNN(k近鄰搜索)系統地調整。在識別點雲重建,分類,對象部分分割和形狀檢索等任務中,我們提出的網絡表現出的性能與最先進的方法相似或更好。
  • PDPS-3D點雲數據應用(上)
    圖1使用點雲十分有利於提高工程效率。掃描技術使工程師能夠根據當前存在的數據規劃製造站布局,同時考慮工廠結構,現有資源等,並避免出現問題。例如,如果工程師希望計劃新車型的製造過程,工程師可以使用表示當前製造站的確切布局的點雲作為新生產線的基礎並進行必要的修改,而不是提供計劃可能不準確或過時。此外,還可以定期更新掃描並在Process Designer中維護數據,這在使用工廠的CAD設計時非常困難。在許多情況下,製造車間經常發生變化。創建新的點雲並更新研究是一個簡單的過程。
  • 摩爾格網雲產品體系詳解!
    在不同層級的數據治理和一體化需求背景下,「格網雲」應運而生,問題來了,什麼是「格網雲」?格網雲的核心是格網(也叫網格,Grid),格網是一種空間和時間劃分的剛性框架,是一種用於裝載時空相關信息的貨架,具有離散性、唯一性和穩定性,可以為任意大數據提供時空一致性的管、存、用能力,相當於地球上萬物互聯的統一收納箱。
  • 首個3D點雲+GAN新方法,讓機器人「眼神」更犀利!
    圖 | real 列為真實物體的 3D 點雲圖像,後列為 PCGAN 產生的的結果(來源:該論文)想像一下,家裡的掃地機器人是如何工作的?一般來說,這類需要與環境交互的機器人首先需要在已構建的環境中完成導航任務,這就要求機器人必須能夠感知環境情況並實時做出決策,決定當前如何與其周圍環境進行交互。
  • Open3D點雲操作
    draw_geometries 可視化點雲。使用滑鼠/軌跡板從不同的視角查看幾何體。它看起來像一個稠密的曲面,但實際上它是一個渲染為曲面的點雲。GUI支持各種鍵盤功能。例如,  - 鍵可減小點(surfels)的大小。注意:按 H 鍵可列印出GUI鍵盤指令的完整列表。
  • 讀完這70份「雲遊戲」行業白皮書,我們發現了這6點 | 騰訊5G行業洞察·雲遊戲(下)
    6點 | 騰訊5G行業洞察·雲遊戲(上)▲早在2010年,雲遊戲就已出現,但受限於網絡和技術,僅停留在探索階段。而如果使用5G網絡,足可以支撐4K+60FPS的畫面傳輸,5G 將讓用戶和邊緣節點的往返時延達到10毫秒以內,為雲遊戲構建出最佳的低延時環境。