機器之心報導
編輯:魔王、小舟、杜偉
CoRL 2020 於 11 月 16-18 日線上舉行,並頒發了多個獎項。來自史丹福大學和維吉尼亞理工的研究者摘得本屆 CoRL 會議的最佳論文獎,華為諾亞方舟實驗室和上海交大等機構學者榮獲最佳系統論文獎,南加州大學研究獲得最佳 Presentation 獎。
昨日,第四屆機器人學習大會(CoRL)公布了最佳論文獎、最佳系統論文獎等獎項。來自史丹福大學和維吉尼亞理工學院的研究《Learning Latent Representations to Influence Multi-Agent Interaction》獲得 CoRL 2020 最佳論文獎,最佳系統論文則由華為諾亞方舟實驗室、上海交大和倫敦大學學院合作的《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》摘得,南加州大學論文《Accelerating Reinforcement Learning with Learned Skill Priors》獲得了最佳 Presentation 獎。
自 2017 年首次舉辦以來,CoRL 迅速成為機器人學與機器學習交叉領域的全球頂級學術會議之一。CoRL 是面向機器人學習研究的 single-track 會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。
CoRL 2020 共收到論文 475 篇,相比 2019 年增長了 20%;接收論文 165 篇,接收率為 34.7%,高於去年的 27.6%。
會議還公布了包含主要關鍵詞(如 legged robots、perception 等)的論文接收率,參見下圖:
最佳論文獎
CoRL 2020 頒發了最佳論文獎,來自史丹福大學和維吉尼亞理工大學的研究者合作的論文獲得該獎項。大會認為這篇論文是「為包括物理機器人環境在內的多個領域中的難題提供了令人信服的解決方案」。
論文:Learning Latent Representations to Influence Multi-Agent Interaction
論文連結:https://arxiv.org/pdf/2011.06619.pdf
作者:Annie Xie、Dylan P. Losey、Ryan Tolsma、Chelsea Finn、Dorsa Sadigh
摘要:與機器人進行無縫交互非常困難,因為智能體是不穩定的。它們會根據 ego 智能體的行為更新策略,ego 智能體必須預見到可能的變化才能做到共同適應(co-adapt)。受人類行為的啟發,研究者認識到機器人不需要明確地建模其他智能體將執行的每一個低級操作。相反,它可以通過高級表示來捕獲其他智能體的潛在策略。
該研究提出一個基於強化學習的框架,用來學習智能體策略的潛在表示,其中 ego 智能體確定其行為與另一智能體未來策略之間的關係。然後 ego 智能體利用這些潛在動態來影響其他智能體,有目的地指導制定適合共同適應的策略。在多個模擬域和現實世界曲棍球遊戲中,該方法優於其他方法,並學會影響其他智能體。
最佳論文入圍名單
此次會議共有四篇論文入圍最佳論文獎項,除了最終得獎的論文以外,其他三篇分別是:
論文:Guaranteeing Safety of Learned Perception Modules via Measurement-Robust Control Barrier Functions
連結:https://arxiv.org/pdf/2010.16001.pdf
作者:Sarah Dean, Andrew J. Taylor, Ryan K. Cosner, Benjamin Recht, Aaron D. Ames(加州大學伯克利分校、加州理工學院)
論文:Learning from Suboptimal Demonstration via Self-Supervised Reward Regression
連結:https://arxiv.org/pdf/2010.11723.pdf
作者:Letian Chen, Rohan Paleja, Matthew Gombolay(喬治亞理工學院)
論文:Safe Optimal Control Using Stochastic Barrier Functions and Deep Forward-Backward SDEs
連結:https://arxiv.org/pdf/2009.01196.pdf
作者:Marcus Aloysius Pereira, Ziyi Wang, Ioannis Exarchos, Evangelos A. Theodorou(喬治亞理工學院、史丹福大學)
最佳系統論文獎
本屆 CoRL 大會的最佳系統論文獎授予了華為諾亞方舟實驗室、上海交大和倫敦大學學院研究者聯合發布的論文《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》。在頒獎詞中,CoRL 稱「該系統完備、考慮周密,為自動駕駛社區帶來了強大的潛在影響」。
連結:https://arxiv.org/pdf/2010.09776.pdf
項目地址:https://github.com/huawei-noah/SMARTS.
作者:Ming Zhou、Jun Luo、Julian Villella、Yaodong Yang 等
摘要:多智能體交互是現實世界自動駕駛領域的基礎組成部分。經歷十幾年的研究和發展,如何與多樣化場景中各類道路使用者進行高效交互的問題依然未能很好地解決。學習方法可以為解決該問題提供很大幫助,但這些方法需要能夠產生多樣化和高效駕駛交互的真實多智能體模擬器。
所以,為了滿足這種需求,來自華為諾亞方舟實驗室、上海交大和倫敦大學學院的研究者開發了一個名為 SMARTS(Scalable Multi-Agent RL Training School)的專用模擬平臺,該平臺支持多樣化道路使用者行為模型的訓練、積累和使用。這些反過來又可以用於創建日益真實和多樣化的交互,從而能夠對多智能體交互進行更深更廣泛的研究。
SMARTS 架構示意圖。
此外,研究者描述了 SMARTS 的設計目標,解釋了它的基本架構以及關鍵特徵,並通過交互場景中具體的多智能體實驗闡釋了其使用流程。研究者還開源了 SMARTS 平臺以及相關的基準任務和評估指標,以鼓勵和推進自動駕駛領域多智能體學習的更多研究。
最佳系統論文獎入圍論文
本屆 CoRL 大會入圍最佳系統論文獎的一篇論文是加州大學伯克利分校學者的《DIRL: Domain-Invariant Representation Learning for Sim-to-Real Transfer》。
連結:http://www.ajaytanwani.com/docs/Tanwani_DIRL_CORL_CR_2020.pdf
作者:Ajay Kumar Tanwani
最佳 Presentation 獎
會議還公布了最佳 Presentation 獎項,從所有 oral presentation 論文中選出了三篇入圍論文,最終來自南加州大學的研究獲得了該獎項。
論文:Accelerating Reinforcement Learning with Learned Skill Priors
連結:https://arxiv.org/pdf/2010.11944.pdf
作者:Karl Pertsch、Youngwoon Lee、Joseph J. Lim(南加州大學)
智能體在學習新任務時嚴重依賴之前的經驗,大部分現代強化學習方法從頭開始學習每項任務。利用先驗知識的一種方法是將在之前任務中學到的技能遷移到新任務中。但是,隨著之前經驗的增加,需要遷移的技能也有所增多,這就對在下遊學習任務中探索全部可用技能增加了挑戰性。還好,直觀來看,並非所有技能都需要用相等的概率進行探索,例如當前狀態可以提示需要探索的技能。
南加州大學的這項研究提出了一個深度潛變量模型,可以聯合學習技能的嵌入空間和來自離線智能體經驗的技能先驗。研究者將常見的最大熵強化學習方法進行擴展,以使用技能先驗引導下遊學習。
該研究在複雜的導航和機器人操作任務中對提出的方法 SPiRL (Skill-Prior RL) 進行驗證,結果表明學得的技能先驗對於從豐富數據集上進行高效技能遷移是必要的。
研究人員放出了其官方 PyTorch 實現,代碼地址:https://github.com/clvrai/spirl。
項目主頁:https://clvrai.github.io/spirl/
最佳 Presentation 獎入圍論文
除最終獲獎的南加州大學論文以外,另外兩篇入圍論文分別來自 Uber ATG 團隊、多倫多大學與谷歌。
論文:Universal Embeddings for Spatio-Temporal Tagging of Self-Driving Logs
連結:https://arxiv.org/pdf/2011.06165.pdf
作者:Sean Segal、Eric Kee、Wenjie Luo、Abbas Sadat、Ersin Yumer、Raquel Urtasun(Uber ATG 團隊、多倫多大學)
論文:Transporter Networks: Rearranging the Visual World for Robotic Manipulation
連結:https://arxiv.org/pdf/2010.14406.pdf
作者:Andy Zeng, Pete Florence, Jonathan Tompson, Stefan Welker, Jonathan Chien Maria Attarian, Travis Armstrong, Ivan Krasin, Dan Duong Vikas Sindhwani, Johnny Lee(Robotics at Google)
CoRL 2020 論文展示視頻和直播參見:https://www.youtube.com/c/conferenceonrobotlearning
參考連結:https://syncedreview.com/2020/11/17/conference-on-robot-learning-corl-2020-underway-best-paper-finalists-announced/