Huskarl 最近進展:已支持與 OpenAI Gym 環境無縫結合!

2020-12-05 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:近日,Github 上開源的一個專注模塊化和快速原型設計的深度強化學習框架 Huskarl 有了新的進展。該框架除了輕鬆地跨多個 CPU 內核並行計算環境動態外,還已經成功實現與 OpenAI Gym 環境的無縫結合。TensorFlow 發布了相應的文章來報導此研究成果,雷鋒網 AI 科技評論將其編譯如下。

背景概述

深度學習革命在計算機視覺和自然語言處理等領域取得了許多最新的進展和突破。尤其是在深度強化學習這個特別的領域,我們已經看到了非凡的進展。2013 年 DeepMind 出版了「用深度強化學習來玩 Atari」,這個模型只通過觀看屏幕上的像素,就可以學習如何玩 Atari 遊戲。三年後,AlphaGo 擊敗了圍棋世界冠軍,這一舉動吸引了全球觀眾的注意。在這之後,AlphaZero 又打破了從人類比賽中學習的規定,將自我學習推廣到任何完美的信息遊戲,並有效地成為圍棋、西洋棋和日本將棋的世界冠軍。Huskarl 在這樣的深度學習熱潮之下,有了更深入的研究進展。

模型框架

Huskarl 是一個新的開源框架,用於深度強化學習訓練,專注於模塊化和快速原型設計。它基於 TensorFlow 2.0 構建,並使用了 tf.keras API 以實現其簡潔性和可讀性。

Huskarl 最近在 PoweredByTF 2.0 挑戰賽(https://tensorflow.devpost.com/)中獲得第一名,該挑戰賽意在讓研究人員更易於對深度強化學習算法進行運行、測試、優化和對比的操作。

Huskarl 與 TensorFlow 抽象出計算圖的管理以及 Keras 創建高級模型的想法類似,它抽象出了智能體與環境的交互。這便使用戶能夠專注於開發和理解算法,同時還可以防止數據洩漏。Huskarl 可以做到與 OpenAI Gym 環境的無縫結合,其中也包括了 Atari 環境。下面是創建並可視化深度強化學習網絡(DQN)智能體所需的完整代碼,該智能體將學習 cartpole 平衡問題。

創建並可視化深度強化學習網絡(DQN)智能體的完整代碼


Huskarl DQN 智能體學習平衡 cartpole(完整動態圖點擊原文連結查看)

目前 Huskarl 支持的一些算法可以在三類可調智能體上運行。

第一類是 DQN 智能體,它可以實現深度 Q 學習(https://arxiv.org/abs/1509.06461)以及多種增強功能,例如:可變步長跟蹤(variable-step traces)、雙 DQN 和可調整的對抗架構(dueling architecture)。DQN 是一種非策略算法,我們的實現默認使用優先經驗回放(Prioritized experience replay)。DQN 智能體主要處理離散動作空間的問題。

第二類是 A2C 智能體,它採用了同步、多步的「優勢動作-評論」(Advantage Actor-Critic)模型,這是一種基於策略的算法。(有關 A2C 與 A3C 之間差異的更多信息,可參閱此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允許像 A2C 這樣基於策略的算法輕鬆地同時從多個環境實例中獲取經驗數據,這有助於數據的整理過程變得更加穩定,從而更利於學習。

第三類是 DDPG 智能體,它採用了變步長跟蹤的深度確定性策略梯度(Deep Deterministic Policy Gradient)算法,同時在默認情況下也使用優先經驗回放。DDPG 智能體專用於處理連續動作空間的問題。

Huskarl DDPG 智能體學習提升鐘擺

Huskarl 可以輕鬆地跨多個 CPU 內核並行計算環境動態,這非常很有助於如 A2C 和 PPO 這類策略性(從多個並發經驗源中學習數據)算法的加速。首先,如果要同時使用多個環境實例,我們只需為基於策略的智能體和模擬器提供所需數量的環境實例;然後將環境實例分布在多個進程上,這些進程將在可用的 CPU 內核上自動並行化;之後我們只需在調用 sim.train()函數時為 max_subprocesses 參數提供所需的值即可,詳情如下面的代碼段所示。

Huskarl 實現策略性算法加速的代碼段(跳轉原文可查看完整代碼)

另外需要注意的是,為每個環境實例使用不同的策略非常簡單,無需提供單個策略對象,只需提供策略列表即可。

Huskarl A2C 智能體同時學習 16 個環境實例來平衡 cartpole。其中,較粗的藍線表示使用貪婪的目標政策獲得的獎勵,當在其他 15 個環境中起作用時使用高斯ϵ-貪婪(gaussian epsilon-greedy)策略,epsilon 均值從 0 變為 1

但如果在某些簡單環境中,如 cartpole 環境,強行使用多個進程並行會因進程間通信成本增大而減慢訓練速度。因此,只有在計算成本較高的環境下,這種多進程並行才能發揮有利的作用。

所有可運行的智能體都會依賴於每個問題規範,因此,其使用的神經網絡由用戶提供。這些神經網絡是多樣化的(簡單、淺顯、複雜、富有深度均可)。智能體通常會在內部向所提供的神經網絡添加一個或多個層,以便正確地執行它們的預期功能。此外,所有算法都充分利用了自定義 Keras 損失,使其運行能夠儘可能快速與簡潔。目前我們有三個示例(每個智能體一個),這些示例使用了微小的、完全連接的網絡來展示智能體的功能,甚至是使用簡單模型,結果也不會改變。

目前,Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法,PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在計劃中。

Huskarl 支持算法列表

未來計劃

我們計劃加入更新穎的深度強化學習算法,例如近端策略優化算法(PPO,Proximal Policy Optimization),柔性致動/評價算法(SAC,Soft Actor-Critic)和雙延遲深度確定性策略梯度(TD3,Twin Delayed Deep Deterministic Policy Gradient)。

此外,我們還計劃引入內在的獎勵方法,如好奇心方法(curiosity)和賦權方法(empowerment)。其目的是希望用戶能夠更輕鬆地交換和組合深度強化學習算法中的不同組件,例如經驗回放、輔助獎勵以及像堆疊樂高積木一樣的智能體任務。同時,我們還計劃在未來開源多智能體環境和 Unity3D 環境。

原文地址

https://medium.com/@tensorflow/introducing-huskarl-the-modular-deep-reinforcement-learning-framework-e47d4b228dd3 

Github 地址

https://github.com/danaugrs/huskarl 

雷鋒網 AI 科技評論

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • OpenAI開源機器人仿真軟體Roboschool:已整合OpenAI Gym
    Roboschool 項目地址:https://github.com/openai/roboschoolOpenAI Gym 項目地址:https://github.com/openai/gymRoboschool 提供了模擬控制機器人的 OpenAI Gym 新環境。這些環境中的 8 個作為 MuJoCo 預存而實現自由替換,再調試就可以生成更多的逼真動作。
  • OpenAI發布強化學習環境Gym Retro:支持千種遊戲
    目前,它運行在支持 Python 3.5 和 3.6 的 Linux、macOS 和 Windows 系統上。項目連結:https://github.com/openai/retro/tree/developOpenAI 近日發布了完整版遊戲強化學習研究平臺——Gym Retro。
  • OpenAI發布基於Bullet物理引擎集成Gym的機器人仿真開發環境Robo...
    Roboschool作為新的OpenAI 訓練場(OpenAI Gym)開發環境為機器人仿真控制提供了可能。其中八個開發環境可以免費替代現有預設的MuJoCo環境,它們可以重新調整以產生更逼真的運動。此外,我們還包括幾個全新的更具有挑戰性的環境。   Roboschool的發布也使得在同一個環境中同時訓練多個機器人變得容易。
  • 馬斯克的AI野心——OpenAI Gym系統深度解析
    分析最近發布的OpenAI Gym,可以找出他的真正動機。OpenAI Gym是一款用於研發和比較強化學習算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的遊戲,都在範圍中。本文其中一位作者是OpenAI內部研究員,你想知道關於這個系統的一切,他都寫在這裡了。
  • OpenAI Gym 玩遊戲達到人類水平
    事實上,所有這些進展都需要歸功於RL研究。  我差不多也在去年對RL產生了興趣:我參與編寫了Richard Sutton關於RL的書、念完了David Silver關於RL的課程、觀看了John Schulmann關於RL的講座、用Javascript編寫了一個RL庫、夏天一直在DeepMind的DeepRL小組實習、而最近則為OpenAI Gym——一款全新的RL基準測試工具包——的設計和開發提供了一些幫助。
  • 宜家已在最新的Home Smart軟體更新中推出了場景支持
    打開APP 宜家已在最新的Home Smart軟體更新中推出了場景支持 機器人大講堂 發表於 2020-12-02 10:23:08
  • 龍口20精密無縫鋼管型號規格表
    隨著技術不斷發展,無縫鋼管的質量也更加有保障,能夠讓用戶使用的更加放心。無縫鋼管常用的標準是GB/T2102-2006,在選購這款無縫鋼管時,需要朋友們注意其包裝和質量保證書。冷軋無縫鋼管尺寸更加精確,這類無縫鋼管能夠大量的投入到一些流體管道中。若是想要尋找到良好的支撐物,而且能夠接受規格允許範圍之類的偏差,可以購買GB/17395-2008鋼管。
  • OpenAI發布120億參數圖像版GPT-3
    7、將不相關的概念進行結合 語言的組合特性使我們能夠把完全不相關的概念放在一起,從而來描述真實的或想像的事物 8、動物插圖 除了真實世界中不相關概念之間結合外,在藝術創作裡面,有大量的可探索空間:
  • The BMJ:Never mind the gym, do medicine
    Never mind the gym, do medicine I have just completed my first foundation year as a doctor in a large busy district general hospital.
  • 生態環境部舉行新聞發布會 介紹生態環境保護法規標準等工作進展並...
    東營、天津率先達到較高開工率,營口、葫蘆島、濰坊、煙臺、大連、盤錦、濱州等城市後來居上,生態修復項目已全部開工,秦皇島、錦州、唐山等三市分別將未開工項目壓縮至1個。下一步,我部將結合疫情防控要求,採取衛星遙感監測及現場調查核實相結合的方式,持續跟進三省一市及沿海城市(區)生態恢復修復任務進展,督促推動做好渤海生態修復工作。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    此前,GPT-3 的輸出可能會看上去與實際脫節,讓人感覺莫名其妙,這是因為它確實不知道自己在說什麼。因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    例如,增強學習可以用於開發自動駕駛汽車或者教會一個機器人如何生產物件。openai / gymGitHub 地址:https://github.com/openai/gym一個用於開發和比較增強學習算法的工具包。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • 鶴壁市430厚壁不鏽鋼無縫鋼管規格表
    鶴壁市430厚壁不鏽鋼無縫鋼管規格表 ,「17cwujssj7」   無錫新同巨鋼業專業銷售鶴壁市430厚壁不鏽鋼無縫鋼管,提供今日報價。廠家直銷,質量可靠,經久耐用,歡迎諮詢。
  • OpenAI發布「顯微鏡」,可視化神經網絡內部結構
    博客地址:https://openai.com/blog/microscope/說到底,這個顯微鏡更像是一個神經元可視化庫,裡面包含了歷史上重要且普遍研究的計算機視覺模型,如2012年ImageNet挑戰賽冠軍AlexNet,2014年的ImageNet冠軍GoogleNet(又名Inception V1)和ResNet v2。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • 資料| Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化...
    《Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習》共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關係,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法