雷鋒網 AI 科技評論編者按:日前,OpenAI 發布了深度強化學習教育資源 Spinning Up,內容包括易懂的深度強化學習代碼示例、習題、文檔和教程。據 OpenAI 發布的博客稱,零基礎的深度強化學習「小白」通過自學 Spinning Up,也能快速掌握這一技能,甚至成為該領域的從業者。雷鋒網 AI 科技評論對該博文進行編譯如下:
OpenAI 發布的深度強化學習教育資源 Spinning Up,旨在讓所有人學完後,都能成為一位熟練掌握深度強化學習技能的從業者。 Spinning Up 包含了易懂的深度強化學習代碼示例、習題、文檔和教程。
OpenAI 認為深度學習——尤其是深度強化學習——將在強大的 AI 技術發展中發揮核心作用。雖然現在有很多可用的資源能讓人們快速提升深度學習技能,但是深度強化學習的掌握會更具挑戰性。對此,OpenAI 設計了 Spinning Up 這套課程來幫助人們學會使用這些技術,並培養對於這些技術的認知。
OpenAI 開發 Spinning Up 的靈感來源於與其學者和研究員合作的工作,在此過程中,他們發現,如果得到正確的指導和資源,在機器學習方面的經驗很少甚至沒有經驗的人也能夠快速提升為這一領域的從業者。深度強化學習的這份 Spinning Up 資源正是考慮到這種需求所開發的,它已被整合到了 2019 年學者和研究員團隊的課程(https://blog.openai.com/openai-scholars-2019/)中。
OpenAI 還發現,掌握強化學習的技能能夠幫助人們參與到跨學科研究領域中,例如 AI 安全,該領域就涉及到強化學習和其他技能的結合。此外,還有很多人向 OpenAI 尋求從零開始學習強化學習的指導,因而他們決定將所給出的這些非正式建議體系化。
深度強化學習 Spinning Up 包括以下核心內容:
強化學習術語、各類算法以及基本理論的簡介;一篇關於怎樣成長為一名強化學習研究者的總結;一份按照主題排列的重點論文列表;一份完善記錄各類強化學習算法簡介以及單獨實現方式的代碼文檔,這些算法包括:原始的策略梯度(VPG)、信任區域策略優化(TRPO)、近端策略優化(PPO)、深度確定策略梯度(DDPG)等;一些熱身練習題。
提供長期支持
針對這個項目,OpenAI 有以下支持計劃:
高帶寬軟體支持期:發布後的前三周,OpenAI 將快速處理 bug 修復、安裝等問題,以及解決文檔中的錯誤和歧義,並努力簡化用戶體驗,讓他們盡可以簡單地使用 Spinning Up 自學。
2019 年 4 月的主要核查: 發布 Spinning Up 約六個月後,OpenAI 將基於從社區收到的反饋,認真核查軟體包的狀態,並公布未來的改進方案。
內部開發的公開發布: OpenAI 如果在與學者和研究員共事時,對深度強化學習中的 Spinning Up 進行了修改,會將修改發送到公開報告中,並立即向所有人開放。
OpenAI 教育
深度強化學習的 Spinning Up 是 OpenAI 新教育倡議的一部分,在這裡,他們正「spinning up』地來保證實現《OpenAI 章程》的宗旨之一:「尋找創建一個讓全球社區進行協作的方法,從而解決 AGI 的全球化挑戰。」他們希望 Spinning Up 可以讓更多人熟悉深度強化學習,並以此來推動安全、廣泛受益的人工智慧的前進。
2019 年 2 月 2 日,他們將在 OpenAI 舊金山分部舉辦一個深度強化學習 Spinning Up 研修班,包括 3 小時的課程講解和 5 小時的半結構化開源、項目開發和分組會議——整場會議全部由 OpenAI 技術人員進行支持。我們希望參會者有軟體工程經驗,並要求他們有學習過機器學習但沒有正式的機器學習經驗。感興趣的讀者可以填報申請表(https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform)報名。
合作夥伴
OpenAI 還將與其它組織進行合作,來指導人們學會使用這些資源。他們的第一個合作夥伴是加州大學伯克利分校的 Center for Human-Compatible AI (CHAI),二者將在 2019 年初合作舉辦一個關於深度 RL 的研修班,類似於計劃在 OpenAI 舉辦的 Spinning Up 研修班。
Hello World
了解深度強化學習算法表現如何的最好方法,就是運行它們。而有了 Spinning Up,這就變得像下面這段代碼一樣簡單:
python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world
在訓練的最後階段,你將獲得關於如何從實驗中查看數據以及觀看受過訓練的智能體視頻的指導。
Spinning Up 的執行可與 Classic Control、Box2D 和 MuJoCo 任務套件中的 Gym 環境兼容。
另外,考慮到新入門者,OpenAI 為 Spinning Up 設計代碼的思路是,使其儘可能地更短、更友好,以及更易於學習。OpenAI 的目標是,用最少的執行步驟來演示理論如何變成代碼,規避深度強化學習庫中常見的抽象層和模糊層。相比於提高代碼可重用性的模塊化設計,OpenAI 更看重代碼的清晰易讀,代碼重用僅限於日誌記錄和並行化工具。Spinning Up 提供的代碼都帶有注釋,這樣使用者總是能夠明白現在進行到了哪裡,並在相應的閱讀文檔頁面上得到背景材料(和偽代碼)的支持。
Via:https://blog.openai.com/spinning-up-in-deep-rl/ ,雷鋒網 AI 科技評論編譯