OpenAI開課了!深度強化學習最全課程包,教程、代碼一網打盡

2020-12-11 大數據文摘

大數據文摘出品

作者：魏子敏、蔣寶尚

繼谷歌和微軟的人工智慧實踐課程後，Elon Musk和Sam Altman主導創立的OpenAI剛剛也發布了一門教學+練手的全能課程「Spinning Up in Deep RL」，希望將他們最擅長的技術——深度強化學習能力分享出來，讓更多技術人掌握。

先上課程地址

OpenAI地址：

https://spinningup.openai.com/en/latest/index.html

GitHub地址：

https://github.com/openai/spinningup/blob/master/docs/user/running.rst

由OpenAI來上強化學習這門課再合適不過了。今年8月份，OpenAI率領的AI戰隊，就是憑藉這一核心技術能力，在與人類高手對決的DOTA2比賽中，贏得了個人賽，並且在團戰中表現不俗。

強化學習是目前最流行的教機器人玩遊戲的方法之一，也是在複雜場景下，人工智慧進行決策的重要技術。

簡單來解釋下強化學習，假設你交給機器人一個任務，比如拾取金幣，強化學習會在機器人完成任務時給予適當的獎勵。這樣機器人下一次執行任務時，就更願意採取「正確」行動。在經歷數百次、數千次，甚至數百萬次的嘗試之後，機器就能逐漸學習到完成任務時所需的策略。

OpenAI人工智慧研究實驗室一直通過強化學習技術訓練機器人玩遊戲，也一直是這一技術的全球引領者。昨天，OpenAI發博客宣布了深度強化學習教學資源集的正式發布。「Spinning Up in Deep RL」項目內含教程、清晰的RL代碼示例、課程習題、文檔等同步學習資料，稱旨在讓任何人學習成為深度強化學習的熟練實踐者。

在DEEP RL中邁出第一步

在博客中，OpenAI強調了深度強化學習的重要性，雖然市面上有非常多的資源幫助人們快速學習這些知識。但是深入下去還是會遇到非常多的困難。OpenAI發布的Spinning Up能夠幫助人們學習使用這些人工智慧技術並培養對人工智慧的直覺。

據悉，這個項目的設計靈感，來自於和OpenAI學者和研究員計劃的合作。OpenAI觀察到，機器學習非常小白的玩家，如果在一開始能夠獲得正確的指導和資源，就會在短時間大幅度提升他的專業能力。

Spinning Up in Deep RL 還能夠為一些跨學科的領域提供幫助，例如人工智慧安全，不光需要強化學習，還需要其他學科技能的輔助。

OpenAI認為，了解RL算法最好的方法是在代碼中運行一遍，通過藉助Spinning Up，代碼編寫變得會更加簡單：

代碼示例：python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

Spinning Up實現了與Classic Control，Box2D或MuJoCo任務套件中的Gym環境兼容。OpenAI還為新手設計了Spinning Up的代碼。簡潔，友好，易於學習的設計使得小白更容易上手。OpenAI目標是避免通常存在於深度RL庫中的抽象和混淆層。並且對代碼進行了注釋，以便編程者更加了解所使用的代碼。

Spinning Up in Deep RL項目主要由以下幾部分組成：

RL術語，各種算法和基本理論的簡短介紹。一篇關於如何成長為RL研究員的文章。按主題分類的重要論文的精選清單。詳細記錄了關鍵算法的文檔、使用其可以獨立實現代碼，包括： Vanilla Policy Gradient (VPG), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), and Soft Actor-Critic (SAC).當然，為了實踐需要，還有一些必不可少的練習。

OpenAI開啟全球教育計劃

OpenAI也通過這一項目宣告了一個全球教育計劃的開啟，「Spinning Up in Deep RL只是OpenAI新教育計劃的一部分，在一定程度上是對OpenAI願景的延伸：創建一個全球的社區，共同應對AGI的挑戰。OpenAI希望利用這個項目幫助迅速推進安全且廣泛有益的人工智慧。

2019年2月2日，在舊金山OpenA將會I舉辦一場關於Spinning Up in Deep RL的研討會。研討會將包括3小時的講座和5小時的半結構化黑客攻擊，項目開發和分組會議，研討會期間OpenAI技術人員全程指導。

奉上工作坊報名連結，舊金山的讀者可以順路一看哦：

https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform

OpenAI也歡迎更多人參與這一教育項目，並開放了相關工作職位

https://openai.com/jobs/

OpenAI稱還將與其他組織合作，幫助他們開展教育計劃，包括加州大學伯克利分校的人類兼容人工智慧中心（CHAI）。

最後，附上這一課程項目的完整內容表

相關焦點

從Zero到Hero,OpenAI重磅發布深度強化學習資源

Spinning Up 包含清晰的 RL 代碼示例、習題、文檔和教程。在項目主頁中，OpenAI 提供了非常完整的使用教程，包括 Spinning Up 的詳細介紹、各種環境下的安裝方法、收錄的算法，以及實驗實現的教程等。除此之外，OpenAI 也提供了豐厚的學習資料，包括強化學習的入門基礎、結合 Spinning Up 學習 RL 的課程、論文推薦、實驗練習和基準結果參考等。
【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)

Alpha Zero的背後核心技術是深度強化學習，為此，專知特別收錄整理聚合了關於強化學習的最全知識資料，歡迎大家查看！/drl強化學習系列之三:模型無關的策略評價http://www.algorithmdog.com/reinforcement-learning-model-free-evalution【整理】強化學習與MDPhttp://www.cnblogs.com/mo-wang/p/4910855.html強化學習入門及其實現代碼http://www.jianshu.com/p/165607eaa4f9深度強化學習系列
深度強化學習入門到精通--資料綜述

當然，強化學習也面臨很多問題，希望我們一起解決，讓強化學習變得更好！[1]1. 視頻（從入門到放棄）1.1 騰訊_周沫凡_強化學習、教程、代碼https://www.bilibili.com/video/av16921335?
【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)

【導讀】轉載來自ty4z2008（GItHub）整理的機器學習&深度學習知識資料大全薈萃，包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品！昨天介紹了第一篇：【乾貨薈萃】機器學習&深度學習知識資料大全集(一)（論文/教程/代碼/書籍/數據/課程等）今天第二篇：介紹:使用卷積神經網絡的圖像縮放
伯克利提出綜合深度強化學習工具包rlpyt,同時調和3個深度學習無模型算法

From: BAIR; 編譯: T.R從2013年起深度強化學習就逐漸在遊戲對抗和模擬機器人控制等領域嶄露頭角，各種各樣的算法走入了繁榮的深度學習時代
B站教學,全中文課程:港中文周博磊強化學習課程完結

周博磊老師博士畢業於麻省理工學院，現任香港中文大學信息工程系助理教授，研究方向主要為機器感知和決策，重點是通過學習可解釋、結構化的表徵，使機器能夠在複雜的環境中感知、推理和行動。今年 3 月份，受疫情影響，宅在家上課的周老師做出了一個決定：把自己每周的《強化學習綱要》課程用中文講一遍，並上傳到 B 站。這一消息吸引了上萬人圍觀。這可能也是全網第一個中文強化學習課程。
OpenAI 新研究:通過自適應參數噪聲提升強化學習性能

代碼地址：https://github.com/openai/baselines參數噪聲可以幫助算法更有效地探索周圍的環境，思考所有可能的動作。在經過 216 次 DDPG 無噪聲的訓練迭代之後，模型將會變得效率低下，而加入參數噪聲的訓練方法將會讓模型的的效果大大提升。
reddit高贊資源:20h系統性深度學習&強化學習課程,視頻、PPT、代碼全都有 | 免費

最近，一套深度學習和強化學習的免費課程在reddit上引起網友關注，獲贊690+。只因其不僅形式豐富，還綜合了基礎理論和具體應用，幫你將幾何學、統計學等相關理論串聯起來，解決複雜的問題。對於初學者來說，稱得上是個學習大禮包了。
【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)

通過學習，你也將實現多個功能學習/深度學習算法，能看到它們為你工作，並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識（特別是熟悉的監督學習，邏輯回歸，梯度下降的想法），如果你不熟悉這些想法，我們建議你去這裡機器學習課程，並先完成第II，III，IV章（到邏輯回歸）。
【B站課程】B站學強化學習?港中文周博磊變身up主,中文課程已上線

新冠疫情還未退散，目前國內很多大學仍然沒有返校開學的計劃，不過留在家中的我們已經可以獲得越來越多的線上學習內容。此前有很多國內外學校已經把自家的 AI 課程搬到了線上。不過對於不少人來說，YouTube 和英文是個問題。有沒有直接在 B 站上開課的教授呢？最近，香港中文大學（CUHK）信息工程系助理教授周博磊就有了一個大膽的想法，他決定把自己每周的《強化學習》課程用中文在 B 站上進行直播。
時間序列預測教程;OpenAI 談對抗樣本:自然語言處理入門 | AI 開發...

這是澳大利亞機器學習專家 Jason Brownlee 撰寫的教程，提供了一套用 Python 語言處理時間序列預測問題的模板。該教程一步步向讀者展示了應該用什麼工具、如何操作，以及為什麼這樣操作。全文包含代碼長達兩萬字，是迄今為止最權威、最詳細的時間序列預測入門教程之一。具有相當學習價值。
進大廠全靠自學,微軟&頭條實習生現身說法:我是這樣自學深度學習的丨課程傳送門

由於資料課程非常多，建議大家存下來慢慢看。學好Python和數學作為深度學習從業者，最重要的基礎，一是代碼，二是數學。代碼的選擇毋庸置疑，一定要學Python，畢竟這是當今深度學習界最火的語言，沒有之一。
業界 | OpenAI舉辦遷移學習競賽:評估強化學習算法表現

，來評判強化學習算法從先前經驗進行泛化的能力。retro-baseline 地址：https://github.com/openai/retro-baselines在 Retro Contest（測試集）上的基線結果表明，即使使用遷移學習，強化學習算法遠遠低於人類表現。圖中虛線表示人類水平。人類只玩 1 小時的遊戲，而算法玩 18 個小時。
B站學強化學習?港中文周博磊變身up主,中文課程已上線

除了直播和課程視頻之外，周博磊還會同步更新課程的代碼，使用的程式語言為 Python，深度學習框架則是 TensorFlow 和 PyTorch 皆可（PyTorch 為主）。和常規的課程一樣，《強化學習綱要》也會在每節課後留下一些作業。
港中文周博磊變身 up 主,強化學習中文課程已上線

除了直播和課程視頻之外，周博磊還會同步更新課程的代碼，使用的程式語言為 Python，深度學習框架則是 TensorFlow 和 PyTorch 皆可（PyTorch 為主）。和常規的課程一樣，《強化學習綱要》也會在每節課後留下一些作業。GitHub 連結：https://github.com/zhoubolei/introRL整個課程共分為基礎課程和高階課程兩大部分。
【教程】AlphaGo Zero 核心技術 - David Silver深度強化學習課程中文學習筆記

Alpha Zero的背後核心技術是深度強化學習，為此，專知有幸邀請到葉強博士根據DeepMind AlphaGo的主要研究人員David Silver《深度強化學習》視頻公開課進行創作的中文學習筆記，在專知發布推薦給大家！
【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero

強化學習智能體在當前狀態st下根據策略π來選擇動作at。環境接收該動作並轉移到下一狀態st+1，智能體接收環境反饋回來的獎賞rt並根據策略選擇下一步動作。強化學習不需要監督信號，在模型未知的環境中平衡探索和利用，其主要算法有Q學習，策略梯度等。Q學習是強化學習最重要的算法之一，其主要更新公式為：其中α是學習率，γ是折扣因子，方括號內表示的是TD誤差。
...2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必不可少

算法：如何處理和分析數據機器學習算法可利用數據執行特定的任務，最常見的機器學習算法有如下幾種：1.監督學習。監督學習使用以及標註過的和結構化的數據，通過制定一組輸入數據集合所需的輸出，機器可以學習如何識別目標並且映射到其他的學習任務上。
北京大學高等深度學習課程

這是阿三的第 126 期分享作者 | 阿三首發 | 程式設計師遇見GitHub大家好，我是阿三，今天給大家帶來的是北京大學的高等深度學習課程
從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...

3.增強學習增強學習可要求算法實現一個特定的目標，它通過獎懲的方式使 Agent 行為性能達到最大。例如，增強學習可以用於開發自動駕駛汽車或者教會一個機器人如何生產物件。oopenai / gymGitHub 地址：https://github.com/openai/gym一個用於開發和比較增強學習算法的工具包。

OpenAI開課了!深度強化學習最全課程包,教程、代碼一網打盡

相關焦點

從Zero到Hero,OpenAI重磅發布深度強化學習資源

【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)

深度強化學習入門到精通--資料綜述

【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)

伯克利提出綜合深度強化學習工具包rlpyt,同時調和3個深度學習無模型算法

B站教學,全中文課程:港中文周博磊強化學習課程完結

OpenAI 新研究:通過自適應參數噪聲提升強化學習性能

reddit高贊資源:20h系統性深度學習&強化學習課程,視頻、PPT、代碼全都有 | 免費

【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)

【B站課程】B站學強化學習?港中文周博磊變身up主,中文課程已上線

時間序列預測教程;OpenAI 談對抗樣本:自然語言處理入門 | AI 開發...

進大廠全靠自學,微軟&頭條實習生現身說法:我是這樣自學深度學習的丨課程傳送門

業界 | OpenAI舉辦遷移學習競賽:評估強化學習算法表現

B站學強化學習?港中文周博磊變身up主,中文課程已上線

港中文周博磊變身 up 主,強化學習中文課程已上線

【教程】AlphaGo Zero 核心技術 - David Silver深度強化學習課程中文學習筆記

【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero

...2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必不可少

北京大學高等深度學習課程

從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...