【泡泡圖靈智庫】Residual 反應式導航:部署在未知環境中的結合經典和學到的導航策略

2021-03-02 泡泡機器人SLAM

泡泡圖靈智庫,帶你精讀機器人頂級會議文章

標題:Residual Reactive Navigation: Combining Classical and Learned Navigation Strategies For Deployment in Unknown Environments.

作者:Krishan Rana, Ben Talbot, Vibhavari Dasagi, Michael Milford, Niko Sünderhauf

來源:ICRA2020

編譯:李卓一

審核:萬應才,李鑫

這是泡泡圖靈智庫推送的第 486篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

大家好,今天為大家帶來的文章是——Residual反應式導航:部署在未知環境中的結合經典和學到的導航策略。

在這項工作中,我們專注於提高學習到的導航策略的效率和泛化,當它從訓練環境遷移到以前未見過的環境。我們提出了機器人操作文獻中residual reinforcement learning框架的擴展,並使其適應在廣闊和非結構化環境中操作機器人。該概念是基於學習residual控制效果添加到一個典型的次優經典控制器,以縮小性能差距,同時在訓練期間指導探索過程,以提高數據效率。我們利用這種緊耦合,提出了一種新的部署策略,switching residual reactive navigation(sRRN),其產生有效的軌跡,同時在策略不確定性較高的情況下依概率切換到經典控制器。我們的方法比端到端方案獲得了更好的性能,並且可以作為一個完整的導航堆棧的一部分,用於現實世界中混亂的室內導航任務。此項目的代碼和培訓環境在https://sites.google.com/view/srrn/home公開提供。

主要貢獻:(1)提出了一種新的連續控制反應式導航智能體部署策略,該策略能在policy不確定的情況下引入模型不確定性來隨機的通知一個切換情況;(2)提出了一個緊耦合的傳統控制器和基於學習的方法,相比於端到端的學習方法,顯著地減少了樣本複雜度和方差;(3)我們展示了方法直接從仿真中遷移至複雜的室內導航任務,並且變現優於端到端方法訓練後的系統。

A.問題描述

我們將問題描述為一個決策過程,其中一個智能體在未知環境中以最短的時間達一個目標位置且避開障礙。文中基於標準的強化學習框架對問題進行建模。

B.估計策略狀態的不確定性

在深度學習文獻中,有很多方法被提出來提取神經網絡的不確定性。隨著深度神經網絡在強化學習領域的擴展,最近的工作已經探索了這些方法對深度強化學習算法的適用性,並得到了滿意的結果,尤其是在安全強化學習領域。

我們將residual reinforcement learning擴展到導航領域,並利用經典控制器和學到的控制器之間的緊耦合來解決訓練環境在遷移到不同環境時所面臨的泛化問題。在高不確定性的條件下,我們利用residual policy的不確定性估計來告知是否切換到先驗(傳統控制器的結果)來實現這一點。首先闡述了該方法的訓練過程,然後給出了部署策略。

A.訓練  

整個由兩個部分組成:一個residual policy和一個傳統的控制器作為先驗(prior)。選用人工勢場法作為先驗(其他先驗控制器也可以被使用),基於先驗的結果,我們使用TD3方法訓練policy。

系統輸入:15維laser bins,機器人距離目標的角度和距離,上一時刻的角速度和線速度,先驗給出的角速度和線速度,共21維的向量。

B.部署

將仿真環境中訓練到的策略直接部署到真實環境中,通常會受到policy無法泛化到未見狀態的問題。我們提出了一個基於上述RRN方法的新型部署策略。通過學習到的residual來增強RRN中的先驗,但是在residual不能泛化狀態的情況下,它可能潛在的惡化系統的性能,限制其可靠性。我們通過引入switching-RRN來解決這個問題,其依概率的關閉學到的residual的影響,只使用先驗。不確定性越高,選擇先驗的概率高於選擇混合行為的概率,先驗是一個可靠的候選項,雖然他不是最優的,但是可以保證沒有碰撞,完成的sRRN算法那在算法1中給出。

(1)訓練評估

我們在訓練過程中每十步評估一次性能表現,與sRRN方法相比,端到端的方法有高的方差,並且需要很多的訓練才能收斂。先驗方法表示出了次優。Residual learning方法顯示出了明顯快速的收斂性,原因為先驗引導探索過程,並且根據policy探索周圍區域來提高潛在收益。在所有的學習案例中,agent都是在稀疏獎勵信號下,識別出到達目標的最快路徑。

(2)部署系統的評估

圖3展示了在未見過環境中的路徑評估,深色的線是A*路徑規劃器的結果,黃色的線是機器人實際運行的軌跡。(a)中使用端到端方法導航失敗,(b)是僅靠先驗完成導航,(c)基於sRRN方法完成導航。Prior雖然成功率較高,但是運行時間更長,原因是人工勢場法震蕩或陷入局部最小值。圖9,展示了真實環境中的對比實驗。


Abstract 

In this work we focus on improving the efficiency and generalisation of learned navigation strategies when transferred from its training environment to previously unseen ones. We present an extension of the residual reinforcement learning framework from the robotic manipulation literature and adapt it to the vast and unstructured environments that mobile robots can operate in. The concept is based on learning a residual control effect to add to a typical sub-optimal classical controller in order to close the performance gap, whilst guiding the exploration process during training for improved data efficiency. We exploit this tight coupling and propose a novel deployment strategy, switching Residual Reactive Navigation (sRRN), which yields efficient trajectories whilst probabilistically switching to a classical controller in cases of high policy uncertainty. Our approach achieves improved performance over end-to-end alternatives and can be incorporated as part of a complete navigation stack for cluttered indoor navigation tasks in the real world. The code and training environment for this project is made publicly available at https://sites.google.com/view/srrn/home.

如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號

點擊閱讀原文,即可獲取本文下載連結。提取碼:nc32

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

相關焦點

  • 聖誕極致誘惑 億通圖靈L3全能導航融匯百態生活
    ……一千個人的聖誕,便有了一千個精彩的過法兒和故事;2009年,你的聖誕怎麼過?    2009年12月3日最新消息,聖誕將至,億通圖靈L3全能導航手機,融匯百態生活所需,優雅上市!億通圖靈L3是一款純平觸摸操作之下的多功能GPS導航手機,由外表到內裡,優雅、實用、人性化,成為其關鍵詞。
  • 【泡泡圖靈智庫】平移不變匹配代價學習用於精確光流估計
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:Displacement-Invariant Matching Cost Learning for Accurate Optical Flow Estimation作者:Jianyuan Wang, Yiran Zhong, Yuchao Dai, Kaihao Zhang, Pan Ji, Hongdong
  • 導航系統中的慣性技術
    未來的主要目標是降低器件的成本、體積/重量和功耗等,具體包括以下幾個方面: ① 材料和工藝:生產廠商採用低勞動密集型生產模式和批量處理技術,選用矽片、石英、或結合光電材料(如鈮酸鋰)等新型材料,製造慣性傳感器。 ② 成本:包括產品自身成本和操作維護費用。
  • 視覺語言導航:造就高智商機器人
    如今,世界科技飛速發展,視覺語言導航技術日臻成熟,高智商的機器人正向我們走來。視覺語言導航,指的是讓智能體跟著自然語言指令進行導航,同時理解指令與視角中可以看見的圖像信息,然後在環境中對自身所處狀態加以調整、修復,做出對應的動作,最終到達目標位置。
  • ar技術與汽車的結合 創造新的導航系統
    當然,AR在汽車領域的應用並不僅僅是看車,不管是與HUD的結合,還是AR實景導航,目前均有車企或科技公司在不斷的進行研發,且AR實景導航已經進入落地階段。 從另一個層面上來說,早在2016年AR技術就已經能夠應用,那麼為何直到現如今仍然是不溫不火的狀態?究其根本,還在於外部科技環境並不能夠支撐AR技術的大規模運營,尤其是網絡帶寬的限制。
  • 衛星導航原理,北鬥導航到底如何?
    北鬥三號系統採用3軌道設計,分別在距離地面21500千米中圓軌道的3個軌道面、赤道上方35800千米高的地球靜止軌道和同高度的傾斜地球同步軌道部署了24顆、3顆和3顆衛星,5顆試驗衛星,總數35顆。其他3家導航系統衛星都處於中圓軌道,而美國GPS有32顆衛星(8顆備份),俄羅斯格洛納斯有29顆(5顆備份),歐盟的伽利略有30顆(3顆備份)。
  • AR導航能成為「路痴」福音嗎
    號稱是「路痴」福音的AR步行導航或許可以做到。  想要解決「路痴」難題,近日高德宣布將聯合OPPO推出國內首個應用SLAM技術的AR步行導航。  這種導航系統是什麼呢?手機AR步行導航是指將AR技術與導航功能結合,通過手機相機即可看到全景路線和終點位置,方便用戶辨別方向。
  • 地圖導航領域大事件!百度地圖+北鬥打造極致精準導航體驗
    近日,北鬥全球衛星導航系統星座部署全面完成。7月1日,百度地圖App上線開屏祝賀海報,意味著「百度地圖+北鬥系統」將為用戶打造更加優質的精準導航體驗。依託北鬥衛星全球組網,百度地圖將充分發揮自身AI與大數據等技術優勢,以業界領先的精準導航技術服務更多領域,提升用戶的出行體驗。
  • 【泡泡圖靈智庫】IN2LAMA: 慣性雷射雷達定位和建圖
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:IN2LAMA: INertial Lidar Localisation And Mapping作者:Cedric Le Gentil, Teresa Vidal-Calleja and Shoudong Huang(Centre for Autonomous Systems at the Faculty
  • 高德攜手阿里推車載AR導航 全新導航方式
    什麼是AR導航高德地圖AR導航利用AR現實增強技術,結合實時實景、GPS、傳感器(陀螺儀、慣導)等科技技術,將地圖和攝像頭實時拍攝到的真實道路情況與AI算法深度融合,由虛擬模型、箭頭、虛線等元素在真實世界為用戶指引方向,何處直行何處轉彎,以及什麼地方有監控等都非常直觀,進一步提供了行車安全。
  • 北鬥三號全球衛星導航系統星座部署全面完成
    ◎ 科技日報記者 付毅飛6月23日9時43分,我國在西昌衛星發射中心用長徵三號乙運載火箭,成功發射北鬥系統第五十五顆導航衛星,暨北鬥三號最後一顆全球組網衛星,至此北鬥三號全球衛星導航系統星座部署比原計劃提前半年全面完成
  • 【泡泡圖靈智庫】使用二次曲面和平面的結構感知SLAM(arXiv)
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:Structure Aware SLAM using Quadrics and Planes作者:Mehdi Hosseinzadeh, Yasir Latif, Trung Pham, Niko Suenderhauf andIan Reid來源:arixiv編譯:李鑫
  • python 導航框 | 嗶哩嗶哩推薦100萬收藏的導航網頁
    value=webbrowser.open("https://www.52pojie.cn/") #吾愛破解 elif x==1: value=webbrowser.open("https://www.csdn.net/") #CSDN elif x==2: value=webbrowser.open("http://www.turingapi.com/") #圖靈機器人
  • 大連名音音響汽車導航——不只是導航
    汽車導航具有的自動語音導航、佳路徑搜索等功能讓您一路捷徑、暢行無阻,集成的辦公、娛樂功能讓您輕鬆行駛、出行功能支持CMMB數位電視可支持CMMB數位電視,在行車過程中隨時收看高清節目,時間了解全球新信息,滿足用戶全方面的需求。
  • 用OPPO和高德地圖的AR步行導航,走遍天下不迷路
    OPPO的每一款新品都堪稱經典,作為定位更高端的OPPO R17系列更是備受矚目,還在R系列裡首次加入的Pro版,所以在不管是在外觀設計上還是性能配置上都有所不同,大家也都有所了解。開啟AR步行導航後,用戶就能通過手機看到「增強」過的周邊環境,還有OPPO手機吉祥物在前方道路上指引該朝哪裡走。如果偏離航向,還會提供語音和方向糾正。
  • 北鬥三號全球衛星導航系統星座提前半年部署完成
    中新網北京6月23日電(郭超凱 楊欣 陳飈)北京時間6月23日9時43分,中國在西昌衛星發射中心用長徵三號乙運載火箭,成功發射北鬥系統第55顆導航衛星暨北鬥三號最後一顆全球組網衛星。至此,北鬥三號全球衛星導航系統星座部署全面完成,比原計劃提前半年。
  • 告別路痴,OPPO高德合作推出AR導航,實景導航超讚
    但是在使用手機導航的過程當中,小編卻發現有時候總會有種種的問題,比如在導航開始前無法確定面朝的方向;在一些比較複雜的路口和小巷,不能準確的指示方向。如果走錯了,就會很麻煩。當你在使用OPPO R17 Pro的時候,打開高德地圖的AR實景導航之後,原本平面的地圖就會立體的形式展現在你的眼前。眼前的景象會通過攝像頭展現在地圖的界面上,同時在視頻上方會覆蓋一根虛擬的線進行方向指示,與實景結合,更加直觀。
  • 圖吧導航雙屏實景導航引「導」行業新境界
    用戶使用該新版圖吧導航,能夠感受到從虛擬導航到「真實環境導航」的轉變,同時能夠感受到現實導航中更為清晰直觀的導航指引。目前階段,AR技術結合地理空間位置信息成為一個重要的發展方向。依託於移動端App應用作為載體,「小露身手」的AR技術就讓實景導航、LBS這種基於位置服務廣受歡迎。這在新版圖吧導航中表現的淋漓盡致。AR實景這一技術,對於普眾來講,還很陌生,但這種技術背後的理念悄然改變我們對周圍人和事物的認識。
  • 自動駕駛定位導航技術概述丨曼孚科技
    另一方面,在GPS無法定位時,車載定位導航系統又可以自動地切換到DR導航方式,直至GPS恢復正常接收後,系統再回到GPS與DR的組合導航。實現導航輸出信息可視化,可以有效解決司機定向難的問題。根據系統利用GPS信息方式的不同,基於Kalman濾波器的GPS/DR組合可分為鬆耦合組合定位和緊耦合組合定位兩種。
  • 地磁導航:地球母親的「金手指」
    隨著人類社會進步和人們對美好生活的不斷追求,衛星導航應用日益廣泛,不可或缺。在人類的生產生活中,除人們常用的衛星導航外,還有慣性導航、地磁導航等多種導航方式。慣性導航,通過測量飛行器加速度,自動進行積分運算而獲得飛行器速度和位置數據,工作時不依賴外界信息,也不易受到幹擾,是一種自主式導航系統。