泡泡圖靈智庫,帶你精讀機器人頂級會議文章
標題:Residual Reactive Navigation: Combining Classical and Learned Navigation Strategies For Deployment in Unknown Environments.
作者:Krishan Rana, Ben Talbot, Vibhavari Dasagi, Michael Milford, Niko Sünderhauf
來源:ICRA2020
編譯:李卓一
審核:萬應才,李鑫
這是泡泡圖靈智庫推送的第 486篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權
大家好,今天為大家帶來的文章是——Residual反應式導航:部署在未知環境中的結合經典和學到的導航策略。
在這項工作中,我們專注於提高學習到的導航策略的效率和泛化,當它從訓練環境遷移到以前未見過的環境。我們提出了機器人操作文獻中residual reinforcement learning框架的擴展,並使其適應在廣闊和非結構化環境中操作機器人。該概念是基於學習residual控制效果添加到一個典型的次優經典控制器,以縮小性能差距,同時在訓練期間指導探索過程,以提高數據效率。我們利用這種緊耦合,提出了一種新的部署策略,switching residual reactive navigation(sRRN),其產生有效的軌跡,同時在策略不確定性較高的情況下依概率切換到經典控制器。我們的方法比端到端方案獲得了更好的性能,並且可以作為一個完整的導航堆棧的一部分,用於現實世界中混亂的室內導航任務。此項目的代碼和培訓環境在https://sites.google.com/view/srrn/home公開提供。
主要貢獻:(1)提出了一種新的連續控制反應式導航智能體部署策略,該策略能在policy不確定的情況下引入模型不確定性來隨機的通知一個切換情況;(2)提出了一個緊耦合的傳統控制器和基於學習的方法,相比於端到端的學習方法,顯著地減少了樣本複雜度和方差;(3)我們展示了方法直接從仿真中遷移至複雜的室內導航任務,並且變現優於端到端方法訓練後的系統。
A.問題描述
我們將問題描述為一個決策過程,其中一個智能體在未知環境中以最短的時間達一個目標位置且避開障礙。文中基於標準的強化學習框架對問題進行建模。
B.估計策略狀態的不確定性
在深度學習文獻中,有很多方法被提出來提取神經網絡的不確定性。隨著深度神經網絡在強化學習領域的擴展,最近的工作已經探索了這些方法對深度強化學習算法的適用性,並得到了滿意的結果,尤其是在安全強化學習領域。
我們將residual reinforcement learning擴展到導航領域,並利用經典控制器和學到的控制器之間的緊耦合來解決訓練環境在遷移到不同環境時所面臨的泛化問題。在高不確定性的條件下,我們利用residual policy的不確定性估計來告知是否切換到先驗(傳統控制器的結果)來實現這一點。首先闡述了該方法的訓練過程,然後給出了部署策略。
A.訓練
整個由兩個部分組成:一個residual policy和一個傳統的控制器作為先驗(prior)。選用人工勢場法作為先驗(其他先驗控制器也可以被使用),基於先驗的結果,我們使用TD3方法訓練policy。
系統輸入:15維laser bins,機器人距離目標的角度和距離,上一時刻的角速度和線速度,先驗給出的角速度和線速度,共21維的向量。
B.部署
將仿真環境中訓練到的策略直接部署到真實環境中,通常會受到policy無法泛化到未見狀態的問題。我們提出了一個基於上述RRN方法的新型部署策略。通過學習到的residual來增強RRN中的先驗,但是在residual不能泛化狀態的情況下,它可能潛在的惡化系統的性能,限制其可靠性。我們通過引入switching-RRN來解決這個問題,其依概率的關閉學到的residual的影響,只使用先驗。不確定性越高,選擇先驗的概率高於選擇混合行為的概率,先驗是一個可靠的候選項,雖然他不是最優的,但是可以保證沒有碰撞,完成的sRRN算法那在算法1中給出。
(1)訓練評估
我們在訓練過程中每十步評估一次性能表現,與sRRN方法相比,端到端的方法有高的方差,並且需要很多的訓練才能收斂。先驗方法表示出了次優。Residual learning方法顯示出了明顯快速的收斂性,原因為先驗引導探索過程,並且根據policy探索周圍區域來提高潛在收益。在所有的學習案例中,agent都是在稀疏獎勵信號下,識別出到達目標的最快路徑。
(2)部署系統的評估
圖3展示了在未見過環境中的路徑評估,深色的線是A*路徑規劃器的結果,黃色的線是機器人實際運行的軌跡。(a)中使用端到端方法導航失敗,(b)是僅靠先驗完成導航,(c)基於sRRN方法完成導航。Prior雖然成功率較高,但是運行時間更長,原因是人工勢場法震蕩或陷入局部最小值。圖9,展示了真實環境中的對比實驗。
Abstract
In this work we focus on improving the efficiency and generalisation of learned navigation strategies when transferred from its training environment to previously unseen ones. We present an extension of the residual reinforcement learning framework from the robotic manipulation literature and adapt it to the vast and unstructured environments that mobile robots can operate in. The concept is based on learning a residual control effect to add to a typical sub-optimal classical controller in order to close the performance gap, whilst guiding the exploration process during training for improved data efficiency. We exploit this tight coupling and propose a novel deployment strategy, switching Residual Reactive Navigation (sRRN), which yields efficient trajectories whilst probabilistically switching to a classical controller in cases of high policy uncertainty. Our approach achieves improved performance over end-to-end alternatives and can be incorporated as part of a complete navigation stack for cluttered indoor navigation tasks in the real world. The code and training environment for this project is made publicly available at https://sites.google.com/view/srrn/home.
如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號。
點擊閱讀原文,即可獲取本文下載連結。提取碼:nc32
歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。
有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!
泡泡網站:www.paopaorobot.org
泡泡論壇:http://paopaorobot.org/bbs/
泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!
商業合作及轉載請聯繫liufuqiang_robot@hotmail.com