動態| 從零開始快速入門深度強化學習,OpenAI 發布學習資源...

2021-01-08 雷鋒網

雷鋒網 AI 科技評論編者按:日前,OpenAI 發布了深度強化學習教育資源 Spinning Up,內容包括易懂的深度強化學習代碼示例、習題、文檔和教程。據 OpenAI 發布的博客稱,零基礎的深度強化學習「小白」通過自學 Spinning Up,也能快速掌握這一技能,甚至成為該領域的從業者。雷鋒網 AI 科技評論對該博文進行編譯如下:

OpenAI 發布的深度強化學習教育資源 Spinning Up,旨在讓所有人學完後,都能成為一位熟練掌握深度強化學習技能的從業者。 Spinning Up 包含了易懂的深度強化學習代碼示例、習題、文檔和教程。

OpenAI 認為深度學習——尤其是深度強化學習——將在強大的 AI 技術發展中發揮核心作用。雖然現在有很多可用的資源能讓人們快速提升深度學習技能,但是深度強化學習的掌握會更具挑戰性。對此,OpenAI 設計了 Spinning Up 這套課程來幫助人們學會使用這些技術,並培養對於這些技術的認知。

OpenAI 開發 Spinning Up 的靈感來源於與其學者和研究員合作的工作,在此過程中,他們發現,如果得到正確的指導和資源,在機器學習方面的經驗很少甚至沒有經驗的人也能夠快速提升為這一領域的從業者。深度強化學習的這份 Spinning Up 資源正是考慮到這種需求所開發的,它已被整合到了 2019 年學者和研究員團隊的課程(https://blog.openai.com/openai-scholars-2019/)中。

OpenAI 還發現,掌握強化學習的技能能夠幫助人們參與到跨學科研究領域中,例如 AI 安全,該領域就涉及到強化學習和其他技能的結合。此外,還有很多人向 OpenAI 尋求從零開始學習強化學習的指導,因而他們決定將所給出的這些非正式建議體系化。

深度強化學習 Spinning Up 包括以下核心內容:

強化學習術語、各類算法以及基本理論的簡介;一篇關於怎樣成長為一名強化學習研究者的總結;一份按照主題排列的重點論文列表;一份完善記錄各類強化學習算法簡介以及單獨實現方式的代碼文檔,這些算法包括:原始的策略梯度(VPG)、信任區域策略優化(TRPO)、近端策略優化(PPO)、深度確定策略梯度(DDPG)等;一些熱身練習題。

提供長期支持

針對這個項目,OpenAI 有以下支持計劃:

高帶寬軟體支持期:發布後的前三周,OpenAI 將快速處理 bug 修復、安裝等問題,以及解決文檔中的錯誤和歧義,並努力簡化用戶體驗,讓他們盡可以簡單地使用 Spinning Up 自學。

2019 年 4 月的主要核查: 發布 Spinning Up 約六個月後,OpenAI 將基於從社區收到的反饋,認真核查軟體包的狀態,並公布未來的改進方案。

內部開發的公開發布: OpenAI 如果在與學者和研究員共事時,對深度強化學習中的 Spinning Up 進行了修改,會將修改發送到公開報告中,並立即向所有人開放。

OpenAI 教育

深度強化學習的 Spinning Up 是 OpenAI 新教育倡議的一部分,在這裡,他們正「spinning up』地來保證實現《OpenAI 章程》的宗旨之一:「尋找創建一個讓全球社區進行協作的方法,從而解決 AGI 的全球化挑戰。」他們希望 Spinning Up 可以讓更多人熟悉深度強化學習,並以此來推動安全、廣泛受益的人工智慧的前進。

2019 年 2 月 2 日,他們將在 OpenAI 舊金山分部舉辦一個深度強化學習 Spinning Up 研修班,包括 3 小時的課程講解和 5 小時的半結構化開源、項目開發和分組會議——整場會議全部由 OpenAI 技術人員進行支持。我們希望參會者有軟體工程經驗,並要求他們有學習過機器學習但沒有正式的機器學習經驗。感興趣的讀者可以填報申請表(https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform)報名。

合作夥伴

OpenAI 還將與其它組織進行合作,來指導人們學會使用這些資源。他們的第一個合作夥伴是加州大學伯克利分校的 Center for Human-Compatible AI (CHAI),二者將在 2019 年初合作舉辦一個關於深度 RL 的研修班,類似於計劃在 OpenAI 舉辦的 Spinning Up 研修班。

Hello World

了解深度強化學習算法表現如何的最好方法,就是運行它們。而有了 Spinning Up,這就變得像下面這段代碼一樣簡單:

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

在訓練的最後階段,你將獲得關於如何從實驗中查看數據以及觀看受過訓練的智能體視頻的指導。

Spinning Up 的執行可與 Classic Control、Box2D 和 MuJoCo 任務套件中的 Gym 環境兼容。

另外,考慮到新入門者,OpenAI 為 Spinning Up 設計代碼的思路是,使其儘可能地更短、更友好,以及更易於學習。OpenAI 的目標是,用最少的執行步驟來演示理論如何變成代碼,規避深度強化學習庫中常見的抽象層和模糊層。相比於提高代碼可重用性的模塊化設計,OpenAI 更看重代碼的清晰易讀,代碼重用僅限於日誌記錄和並行化工具。Spinning Up 提供的代碼都帶有注釋,這樣使用者總是能夠明白現在進行到了哪裡,並在相應的閱讀文檔頁面上得到背景材料(和偽代碼)的支持。

Via:https://blog.openai.com/spinning-up-in-deep-rl/ ,雷鋒網 AI 科技評論編譯

相關焦點

  • 從Zero到Hero,OpenAI重磅發布深度強化學習資源
    機器之心報導 機器之心編輯部 今天,OpenAI 發布了 Spinning Up,這是一份教學資源,旨在讓所有人熟練掌握深度強化學習方面的技能。
  • OpenAI開課了!深度強化學習最全課程包,教程、代碼一網打盡
    大數據文摘出品作者:魏子敏、蔣寶尚繼谷歌和微軟的人工智慧實踐課程後,Elon Musk和Sam Altman主導創立的OpenAI剛剛也發布了一門教學+練手的全能課程「Spinning Up in Deep RL」,希望將他們最擅長的技術——深度強化學習能力分享出來,讓更多技術人掌握。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀摘要本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。
  • OpenAI發布強化學習環境Gym Retro:支持千種遊戲
    項目連結:https://github.com/openai/retro/tree/developOpenAI 近日發布了完整版遊戲強化學習研究平臺——Gym Retro。在本次發布之後,OpenAI 公開發布的遊戲數量將從大約 70 個雅達利和 30 個世嘉遊戲增加到了 1000 多個遊戲,其中包括對任天堂 Game boy 等各種模擬器的支持。
  • OpenAI高調站隊:深度學習框架以後主要用PyTorch
    乾明 發自 凹非寺量子位 報導 | 公眾號 QbitAIOpenAI發布最新消息,不再在各大AI框架中「搖擺」,而是支持PyTorch。這家馬斯克參與創辦、微軟10億美元投資的頂級AI研究機構表示,正在PyTorch上標準化自家深度學習框架。
  • 深度強化學習從入門到大師:通過Q學習進行強化學習(第二部分)
    審核 | 醬番梨         整理 | 菠蘿妹原文連結:https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe深度強化學習從入門到大師
  • 百度推出AI入門必修課系列 7日打卡拿下強化學習
    百度飛槳6月推出的《強化學習7日打卡營-世界冠軍帶你從零實踐》入門強化學習的公開課中,主講師科科介紹說:「由於強化學習可直接與環境交互、從中學習,而非使用人類給的樣本數據,因此它沒有AI其他學習方式的天花板。或許由此讓它找到比人類更好的方案,在遊戲中打敗了人類。」
  • 圖靈獎得主LeCun親授,深度學習課程在線發布|資源
    木易 發自 凹非寺量子位 報導 | 公眾號 QbitAI深度學習作為AI入門的一門必修課程,在網上一直有著許多教學資源。最常見的莫過於吳恩達老師的《深度學習》課程。
  • AI大事件|深度強化學習Bootcamp-視頻講座&實驗
    utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=The%20Wild%20Week%20in%20AI本周,AWS和微軟發布了Gluon,一種新的開源深度學習界面,允許開發人員構建機器學習模型。Gluon現在已經在Apache MXNet上可用了。
  • 深度學習真的可以零基礎入門嗎?
    用一句話來概括:現有的深度學習資源,對學生群體很友好,但對在職工程師並不如此。許多人花大半年時間(有毅力的會更久)研讀了幾本深度學習教材,發現實際操作時仍然不知道該怎麼實現一個具體的東西。鑑於此,AI 慕課學院(mooc.ai)聯合 fast.ai 中文社區,邀請了四名中外深度學習工程師,6 月 17 -18 日在北京太庫(Techcode)進行「12小時零基礎入門深度學習」線下培訓,目標是提供業內對新手最友好的深度學習入門指導,降低學習者跨行從事深度學習開發的門檻。
  • 薦書丨深度學習入門之PyTorch
    講深度學習的書有很多,深度學習的框架也有很多,本書將以 PyTorch 為工具從基礎的線性回歸開始,講到時下最前沿的生成對抗網絡,並在其中穿插 PyTorch 的教學,所以本書不僅僅是深度學習的入門指南,同時也是 PyTorch 的入門教程。本書針對的對象是對深度學習有所了解、用過一些深度學習框架(如使用 Tensor?
  • 深度強化學習入門難?這份資料手把手教會你
    機器之心整理參與:一鳴深度強化學習在機器學習領域的熱度一直很高。最近,GitHub 開源了一份深度強化學習的教程,總結了從 DQN 到彩虹模型的理論和代碼實現。讀者朋友可以根據需要學習研究。教程代碼基於 PyTorch,可在 Colab 中運行。深度強化學習是強化學習中的重要研究領域。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    一些有用的免費資源:《支持向量機簡明教程》,Law 著核函數方法,維基百科詞條詳解支持向量機SVM:快速可靠的分類算法詳解支持向量機(附學習資源)決策樹決策樹提供了另一種分類和回歸的方法。神經網絡入門神經網絡是深度學習的基礎,你可以在單獨的課程中學習神經網絡。但是,我認為理解感知機、多層感知機以及反向傳播算法的概念也很有幫助。
  • 2020下半年,值得關注的10本機器學習、深度學習好書
    本文聚焦於人工智慧背後的機器學習和深度學習技術,為你推薦10本好書,從入門到進階,總有一款適合你。從生活案例中理解算法,發現算法的樂趣,再把算法應用到機器學習中,讓你零基礎掌握算法精髓,快速進入人工智慧開發領域。
  • 深度學習入門Fast.aiV2上線!中文字幕,筆記資源免費
    2.0更新了哪些課程新上線的Fast.ai 2.0是測試版,目前公開的課程分為兩大部分:深度學習任務速成,和更加細緻全面的深度學習基礎。>NLP反向傳播:從零開始的神經網絡CNNGAN如果你已經有了一定的基礎,那麼可以直接開始第二部分課程深度學習基礎。
  • 深度強化學習-深度Q網絡(DQN)介紹
    由DeepDream生成的圖像原始的深度強化學習是純強化學習,其典型問題為馬爾科夫決策過程(MDP)。馬爾科夫決策過程包含一組狀態S和動作A。狀態的轉換是通過概率P,獎勵R和一個折衷參數gamma決定的。
  • 只需十四步:從零開始掌握Python機器學習(附資源)
    選自kdnuggets作者:Matthew Mayo機器之心編譯參與:黃小天、吳攀、晏奇、蔣思源Python 可以說是現在最流行的機器學習語言,而且你也能在網上找到大量的資源。你現在也在考慮從 Python 入門機器學習嗎?
  • 「活動預告」「深度強化學習」線上論壇
    在此背景下,產生了由深度學習和強化學習結合的深度強化學習。深度強化學習被廣泛應用於工業製造、仿真模擬、機器人控制、優化與調度、遊戲博弈等領域,極大地推動了人工智慧和自動化技術的發展。本論壇從自適應動態規劃、強化學習、深度強化學習的基本原理展開,介紹強化學習、深度強化學習在水下採樣、多智能體領域的應用和研究進展,並探討基於強化學習技術的最優控制問題面臨的挑戰與機遇。
  • 資料| 深度學習算法實踐
    不僅如此,作者還結合程式設計師在工作中經常面臨的產品需求,詳細闡述了應該怎樣從算法的角度來看待、分解需求,並結合經典的任務對深度學習算法做了清晰的分析:如何用RNN和CNN結合來提取深度文本特徵?如何開始寫一個Chatbot?如何在Chatbot中應用深度學習?強化學習為什麼這麼強大,強化學習可以用在什麼地方?對於圖形領域的深度網絡來說,是否有通用的提高模型精度的方法?
  • 強化學習到底是什麼,它如何運作?
    但研究人員隨後又嘗試了另一種更加純粹的強化學習方法——從零開始訓練機器模型。最終,新的代理AlphaGo Zero出現,其學習過程完全源自自主摸索、不添加任何人為數據,最終以100-0的碾壓性優勢戰勝了前輩AlphaGo。