OpenAI 重磅文章出爐,8 種虛擬機器人仿真環境成為亮點

2020-12-17 DeepTech深科技

OpenAI 近期介紹了該實驗室在 2017 年打造的 8 種仿真機器人環境和一種新的強化學習技術,這些技術被用來訓練最終用於真實機器人的人工智慧模型。同時,該實驗室還提出了機器人研究領域的一系列待解答新問題。

8 種仿真機器人環境採用 MuJoCo 物理仿真平臺構建。這 8 種仿真環境是:

拿取

圖丨拿取-到達 v0:把手臂移動到 1 個給定位置實現拿取。

圖丨拿取-碰觸 v0:手臂碰觸一個放在桌面上的小球,讓小球滾過桌面,達到指定位置。

圖丨拿取-持續推送 v0:手臂持續推動一個盒子,直到將其推到指定位置。

圖丨拿取-懸空移動和放置 v0:拿起 1 個盒子,讓其離開桌面,移動到指定位置之上,然後放下。

虛擬手掌

圖丨虛擬手掌 v0:虛擬手掌需要操控拇指和其他 1 根選定手指,讓其碰觸手掌上的指定區域。

圖丨虛擬手掌-方塊掌控 v0:虛擬手掌玩弄手上的方塊,直到方塊的指向和位置符合要求。

圖丨虛擬手掌-蛋掌控 v0:虛擬手掌玩弄一個蛋,直到蛋的指向和位置符合要求。

圖丨虛擬手掌-杆掌控 v0:虛擬手掌玩弄 1 根杆,直到杆的指向和位置符合要求。

目標

以上 8 種仿真環境的共性是,都為虛擬機械手設定了目標,比如把物體推到指定方位,或者轉到指定方位。若目標沒完成,則虛擬機器手得-1 分;若完成,得 0 分——這種計分方法跟 Walker2d-v2 等傳統平臺採用的計分方式有顯著不同。

此外,研究團隊還為不同的仿真環境打造了各自的回報系統。不過,研究人員認為,「稀疏回報」系統最接近真實的機器人運行環境,因此建議用戶優先採納這一獎勵系統。

強化學習算法

研究團隊推出的 Hindsight Experience Replay(HER)強化學習算法可以從失敗中學習。實驗證明,對於大多數機器人領域的研究問題,HER 可以只通過稀疏回報獎勵系統生成可用模型。

HER 原理介紹

研究團隊用拿取-碰觸 v0 仿真環境,解釋了 HER 的工作原理。該仿真環境的目標是:用機械手碰觸一個桌面上的小球,讓小球滾過桌面,擊中目標。首次嘗試不太可能成功,接下來的幾次也不太可能,因此得分始終為-1。傳統的強化學習算法無法在這種一直沒有達成目標的環境中實現學習。

HER 的創新之處在於:即使這幾次都沒有達成預定目標,機械手至少達成了另一個目標。因此,不妨把這個「非預定目標」作為起始。這樣,強化學習算法就可以因為達成了某些目標而實現學習——儘管這個目標不是最終的目標。只要重複這個漸進過程,機械手最後總會實現預定目標。

總之,HER 系統可以在一次也沒有達成原定目標的情況下啟動強化學習。該系統的秘訣是「打哪指哪」,即中間目標是機械手碰球之後才選定的。「打哪指哪」方法是機器學習中的常用方法之一,HER 可以跟任何基於新策略的強化學習算法(off-policy RL algorithm),如 DQN 和 DDPG 等聯合使用。

測試結果

測試表明,HER 在「稀疏回報」獎勵條件下的目標達成仿真環境中表現優異,具體如下圖所示:

圖丨成功率中值(線條)和四分位範圍(陰影區域)都是在虛擬手掌-方框掌控 v0 環境中測試獲得的。

稀疏回報條件下的 DDPG + HER 算法表現最好,不過有趣的是,DDPG + HER 算法在密集回報條件下的表現反而更差。原始 DDPG 算法不管在什麼獎勵條件下,表現都不如人意。此外,各算法的表現差異在大多數實驗環境中保持穩定。

後續研究方向

HER 算法為稀疏回報條件下的複雜目標導向任務提供了一種新的解決手段,但其仍有很大改進空間,具體地,研究團隊提出了如下的後繼研究問題:

1,「打哪指哪」算法的自動化目標設定。目前的「打哪指哪」算法,只能由人工設定中間目標。

2,無偏 HER。目前的中間目標選擇並沒有一個嚴格的規則,這在理論上會導致學習結果的不穩定性,儘管實驗中尚未發現這種情況。但是,研究團隊認為,基於重要性採樣等技術,可以通過嚴格的規則實現無偏 HER。

3,HER 與層級強化學習(hierarchical reinforcement learning, HRL.)的結合。這樣可以將 HER 從單一目標推廣到層級體系中。

4,更多類型的價值函數。是否可以將更多類型的價值函數,如貶值因子(discount factor)或成功閾值(success threshold)納入「打哪指哪」算法中?

5,更快的信息傳輸。大多數新策略深度強化學習算法使用目標網絡保證訓練的穩定性。然而,由於變化在模型中的傳導需要時間,因此對穩定性的要求已經成為限制 DDPG+HER 學習速度的最大因素。或許可以通過採用其他穩定策略的方法來提高速度。

6,HER+多步回報。基於「打哪指哪」和中間目標的 HER 是典型的新策略強化學習算法,因此難以採用多步回報函數(multi-step returns)。然而,多步回報函數的信息反饋速度更快,因此值得研究如何將其納入 HER 算法。

7,既定策略(On-policy)HER。目前,由於引入中間目標,HER 只能使用新策略算法。人但是,PPO 等基於既定策略的算法展示了很高的穩定性,因此有必要研究 HER 如何通過重要性採樣等方法與之聯合。該研究目前已經取得了初步成果。

8,連續活動的強化學習。目前,在連續控制的場合,強化學習算法的表現非常差,一方面由於不連續的外推,另一方面在於回報信息不能及時反饋回來。如何設計強化學習算法以適應連續控制場合仍然是一個問題。

9,將 HER 與其他最新強化學習算法結合。一些可能的選項是優先級經驗回顧(Prioritized Experience Replay)、分布式強化學習(distributional RL)、熵規整化強化學習(entropy-regularized RL,)、逆向課程強化學習(reverse curriculum generation)。

更多信息可以參閱研究團隊發布的技術報告:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

使用新仿真環境的指南

使用新的基於目標的仿真環境,需要對現有仿真環境做出如下改動:

所有基於目標的仿真環境都採用 gym.spaces.Dict 觀察空間。仿真環境應當包括最終目標(esired_goal)、目前達到的目標(achieved_goal)和機器人的狀態(observation)。

仿真系統允許根據目標的改變重新計算回報函數的值,以令基於 HER 的算法可以運行。

研究人員給出了簡單的例子,來演示基於目標的仿真環境,以及「打哪指哪」算法對中間目標的選擇過程。

基於目標的新仿真環境可以與現有的強化學習算法,如 Baselines.Use 等兼容,但需要首先使用 gym.wrappers.FlattenDictWrapper 將觀測空間轉換為所需格式的矩陣。

相關焦點

  • Openai教機器人手解魔方
    機器人也可以通過嘗試和錯誤來學習,但是由於它通常最終都是錯誤的,所以需要非常長的時間。去年六月,我們寫了關於openai教五指機器人手操縱立方體的方法。openai使用的方法利用了相同的實驗和反覆試驗,但是在仿真中,而不是在機器人硬體上。
  • 有電腦就能學 |《安川機器人虛擬仿真教程》視頻課+萬元仿真軟體+專屬資料包
    一個月前,工程客共學社上線了《安川工業機器人操作與編程》43節視頻課。經過一個多月的辛苦籌備,機器人教育專家魏老師又給大家帶來了超級福利——《安川機器人虛擬仿真教程》12節視頻課為什麼說超級福利呢?因為這次不僅送資料,還送安川機器人萬元仿真軟體(福利在後面~)接下來,我們詳細的介紹一下本次安川工業機器人虛擬仿真教程課程相關信息。創建於1915年,是日本最大的工業機器人公司。擁有焊接、裝配、噴塗、搬運等各種各樣的自動化機器人。
  • ROBOGUIDE軟體:機器人輸送帶上下料虛擬仿真操作方法
    因此,機器人輸送帶上下料應用也是非常重要的。上一期為大家介紹了機器人輸送帶上料虛擬仿真的操作方法,本期再來為大家介紹一下輸送帶下料仿真的操作方法。添加機器人在上一期發布的《ROBOGUIDE軟體:機器人輸送帶上料虛擬仿真操作方法》文章的仿真案例項目中添加一臺6軸下料機器人。
  • 工業機器人技術解密之——仿真技術在機器人系統中的應用
    通過預先對機器人及其工作環境乃至生產過程進行模擬仿真,將機器人的運動方式以動畫的方式顯示出來,直觀的顯示機器人及整個生產線的運動情況,能夠有效地輔助設計人員進行機器人虛擬示教、機器人工作站布局、機器人工作姿態優化。
  • Robotstudio軟體:ABB機器人機器視覺位姿引導虛擬仿真
    機器人與視覺系統創建在上一期創建的工件位置隨機生成仿真環境中,添加一臺IRB2600機器人,機器人工具與相機分別使用Robotstudio軟體設備庫中自帶的焊槍AW_Gun_PSF_25、Integrated Vision camera Cam00X。
  • 北京理工大學虛擬仿真團隊:黑科技助力"北京8分鐘"
    輪滑表演、地面投影、動態視頻、熊貓玩偶、隱形機器人……眾多要素完美結合,共同展現了冰雪運動和中國文化的魅力,詮釋了2022年北京冬奧會「人文奧運」和「科技奧運」的精神。這精彩的8分鐘的呈現離不開幕後技術團隊的強大支持,而北京理工大學也是其中之一。2017年6月,北京冬奧組委正式委託北理工軟體學院丁剛毅團隊組建虛擬仿真團隊。
  • ROBOGUIDE軟體搬運應用虛擬仿真:機器人抓手工具添加與配置
    ROBOGUIDE軟體搬運應用虛擬仿真:機器人抓手工具添加與配置 2020-12-
  • 喜報丨我院學生斬獲「華航唯實杯」機器人虛擬仿真大賽國賽中職組...
    4月10日,在全國首屆「華航唯實杯」機器人虛擬仿真大賽中,我院機械工程系工業機器人技術專業張智俊同學榮獲中職組一等獎第一名的佳績,梁勇老師被評為優秀指導教師。  本次比賽由中國機電裝備維修與改造技術協會主辦、北京華航唯實機器人科技股份有限公司承辦,比賽分為中職、高職二個組別,共有全國188所院校627名學生參加。比賽通過考察選手利用計算機輔助軟體對機器人應用工藝的離線編程及仿真能力,引導職業院校工業機器人專業課程改革,提升工業機器人應用人才的技術技能水平。比賽時間緊迫,任務繁重。
  • PDPS機器人虛擬調試 人機工程 第三課 人體取放零件仿真
    接下來進行操作工取放零件動作仿真;2、抓取工件:接著上一課操作工行走到料架旁邊,等待抓取工具。 首先在工具欄中選擇自動抓取命令,這裡選擇用雙手抓取,抓取的對象為料架上面的工件,然後點擊手動調整按鈕(圖中4)分別調整雙手的姿態,完成後點擊創建操作,彈出對話框選擇操作工取件,點擊確定完成取件動作的創建。
  • 虛擬仿真技術讓工科生在家照樣「做實驗」
    而大到教學樓,小到齒輪零件,都是通過虛擬仿真技術生成的,學生們人在家中,即可在線完成一系列實驗操作。  在這個特殊的「超長假期」,天津大學師生正依託虛擬仿真技術創新線上授課以及實驗教學方式,幫助學生「實驗不叫停,求知不掉線」。  虛擬仿真實驗教學項目被譽為具有跨時代意義的「金課」。
  • DELMIA虛擬仿真:機器人程序自動生成功能介紹與使用方法
    大多數的虛擬仿真與離線編程軟體都有機器人運行程序自動生成的功能,利用程序自動生成功能可以快速、準確、高效地創建機器人運行程序,提高示教編程效率、降低停機時間
  • 致青春丨全國首屆「華航唯實杯」機器人虛擬仿真大賽上,技師學院5...
    近日,由中國機電裝備維修與改造協會舉辦的全國首屆「華航唯實杯」機器人虛擬仿真大賽在線上成功舉辦,杭州技師學院5名參賽選手全部獲獎。其中,陳李、陳民壚獲一等獎,童廬藺、葉夢強、陳志杭獲三等獎。   ▲陳民壚   ▲陳李   大賽圍繞工業機器人虛擬仿真技術,以PQArt離線編程軟體為平臺,以工業機器人多工藝基礎教學工作站為實體對象,完成工作站場景搭建、產品塗膠、碼垛拆垛、分揀檢測、多工藝加工等仿真任務
  • 綁手指、蒙布也能行,OpenAI讓機器人單手還原魔方
    這表明強化學習工具不僅僅可以處理虛擬任務,而且還能夠解決需要高度靈活性的真實世界問題。而在機器人過去 60 年的發展歷程中,人類通過雙手可以完成各項複雜的任務,但卻需要針對每項任務設計特定的機器人。那麼,機器人是否可以像人一樣玩魔方呢?自 2017 年 5 月以來,OpenAI 的研究者一直在嘗試訓練類人機械手來解決玩魔方問題。2017 年 7 月,他們在模擬環境下實現了機械手玩魔方。但截至 2018 年 7 月,研究者只能實現玩簡單魔方。
  • VEX虛擬機器人編程軟體VEXcode VR上線
    4月3日,VEX虛擬機器人編程軟體VEXcode VR發布,給廣大VEXers們帶來全新「編程」體驗,幫助大家學習新技能。輕鬆易上手VEXcode VR 是一款基於Scratch開發的圖形化編程軟體,用戶可以通過拖拽語句塊對虛擬機器人進行編程。
  • 院校虛擬仿真實訓室
    目前虛擬仿真技術與高校實驗教學相結合已經開展了多年,隨著信息化和教育的不斷融合,在未來的若干年裡,虛擬仿真教學及其他高科技手段與實驗和實踐教學的結合仍然是一個發展熱點。在虛擬教室中,構建專業的虛擬教學環境,使學生在純沉浸式的環境中進行對應專業學習,同時輔助以聽覺、觸覺等教學設施,可以有效激發學生的學習興趣和創新意識,將傳統教育提升至一個全新的高度。
  • CES 2019亮點匯總:可捲曲電視、5G手機、仿真機器人
    參展的4500家公司也將展出各自的最新產品,如可摺疊屏幕、5G手機及仿真機器人等,眾多科技巨頭均會參展。毫無疑問,可捲曲電視、5G手機、仿真機器人和智能助手將成為本屆國際消費類電子產品展覽會(CES)萬眾矚目的焦點。CES將於1月8日開幕,1月11日結束,為期4天,屆時眾多全球科技巨頭均會參展。
  • 「北京八分鐘」虛擬仿真團隊揭秘
    □新華社記者李江濤 25日晚舉行的平昌冬奧會閉幕式「北京八分鐘」環節,大量虛擬視覺技術的應用給全世界觀眾留下深刻印象,而這背後的「神秘力量」就是來自北京理工大學數字表演與仿真技術實驗室的虛擬仿真團隊。
  • 虛擬仿真「金課」,虛擬仿真技術在各學科的應用
    但在天津大學機械工程實踐教學中心,工程圖學實驗室裡卻是一番「人聲鼎沸」的景象:100多名學生正依託虛擬仿真技術創新線上授課以及實驗教學方式,「體驗」著「工程圖學」的實踐大課。 該校機械學院「工程圖學」授課教師徐健表示:「虛擬仿真技術給課堂帶來了不可思議的變化。」因為虛擬仿真技術的使用讓課程更有參與感,更能吸引學生參與,提高教學效率。
  • 虛擬仿真教育技術在資訊時代的創新應用
    特別是虛擬仿真技術在教育中的應用給教育領域帶來了全新的教育生態。虛擬實境技術是以現實為基礎創設虛擬環境,藉助現代化傳感裝置,來讓體驗者在虛擬和現實的交互作用中獲得親臨真實環境的感受和體驗,從而達到教育的預期效果。這一技術在教育教學中的運用所帶來的是教育理念的革新以及教學手段、方法、技術、內容乃至時空的革命。
  • 沉浸式虛擬仿真教學平臺:VR將成為未來幾十年的新培訓標準
    沉浸式虛擬仿真教學平臺:VR將成為未來幾十年的新培訓標準從器械製造商到培訓機構,整個外科醫生培訓市場都渴望一種更為有效的和可擴展的技能轉移方法,所以紛紛把目光投向正不斷走向成熟的虛擬實境技術。報告同時指出,當外科醫生接受VR培訓時,手術錯誤減少了近50%,而且VR訓練能夠減少50種手術案例的學習曲線。虛擬實境手術培訓具有可擴展性、成本效益高的特點,並且在技能轉移方面表現出非常有效的效果。隨著疫情影響的帶動加速,PrecisionOS等公司的VR方案將成為未來幾十年的新培訓標準。