強化學習聖經:《強化學習導論》第二版公布!Python 實現代碼也有了!

2021-02-23 深度學習專欄

重磅乾貨,第一時間送達

如今強化學習越來越流行,其影響力和熱度也逐漸有趕超深度學習的趨勢!今天給大家介紹一本被稱為強化學習的「聖經」,即 RichardS.Sutton 的經典圖書:《強化學習導論》(第二版)。



作者 Richard S. Sutton 就職於加拿大 iCORE 大學計算機科學系,是強化學習領域的專家。Sutton 是強化學習領域巨擘,在 temporal difference learning, policy gradient methods, the Dyna architecture 等方面都有重大貢獻。自 2003 年起,Sutton 就出任 iCORE 大學計算機科學系的教授,在這裡他領導了強化學習和人工智慧實驗室(RLAI)。


這本書的官網為:

http://incompleteideas.net/sutton/book/the-book-2nd.html

該書總共有 445 頁,包含了三大部分,分別是:

第一部分:列表(Tabular)解決法

第二部分:近似求解法

第三部分:更進一步

其中,第一部分列表(Tabular)解決法,包含了本書的 2-8 章。描述了強化學習算法幾乎所有的核心的概念,介紹了解決有限馬爾科夫決策問題的三類基本方法:動態編程,蒙特卡洛方法、時序差分學習等。

第二部分近似求解法,包含了本書的 9-13 章。將擴展第一部分中介紹的列表法以應用於任意大的狀態空間。

第三部分更進一步,包含了本書的 14-17 章。討論一個強化學習應用的採樣過程,和一些未來的強化學習研究的活躍前沿。

完整的目錄如下:


好消息,這本書的 Python 代碼實現在 GitHub 上開源了。地址為:

https://github.com/JaeDukSeo/reinforcement-learning-an-introduction


為了節約大家的時間,目前小編愛碼士已經將《強化學習導論》第二版的電子版 PDF 整理打包好了,需要的請自行下載。獲取步驟如下:

1. 掃描下方二維碼關注 "程式設計師愛碼士" 公眾號

2. 公眾號後臺回復關鍵詞:強化學習導論

相關焦點

  • 統計學習聖經!經典教材《統計學習導論》Python版
    《統計學習導論》很經典,但習題用的是 R 語言實現,沒關係,這次有份了Python 版。斯坦福經典教材《The Element of Statistical Learning》(簡稱 ESL)被稱為頻率學派的統計學習「聖經」,由三位統計學大師——Trevor Hastie、Robert Tibshirani、Jerome Friedman 共同完成。
  • OpenAI強化學習實戰
    DeepMind公司將深度學習與增強學習結合在一起,在眾多的Atari遊戲中來取得超越人類的表現,基於深度學習和強化學習訓練得到的AlphaGo Zero更是完全從零開始,僅通過自我對弈就能天下無敵。雖然RL目前在許多遊戲環境中都表現很出色,但它對解決需要最優決策和效率的問題而言是種全新方法,而且肯定會在機器智能中發揮作用。OpenAI成立於2015年底,是一個非營利組織。
  • 贈書:Sutton老爺子經典之作,《強化學習》中文第2版
    作為強化學習領域的經典導論性教材,第 2 版《強化學習》中文版從強化學習基本思想出發,深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程、蒙特卡洛方法、
  • 強化學習怎麼入門好?
    ,應用的Keras框架,大約300行代碼,可作為自動駕駛方向的強化學習入門實驗。https://github.com/microsoft/airsim5.桌球遊戲這是應用強化學習的策略梯度算法的桌球遊戲,Andrej Karpathy通過130行代碼實現的,幫助理解強化學習算法。這個非常適合作為強化學習的入門Demo!!!!
  • 深度強化學習(Deep Reinforcement Learning)的資源
    還是2011年,Abtahi等人[3]用DBN替代傳統的強化學習中的逼近器(做RL的人是不是很親切,和Deep mind就差一點兒額!有木有覺得很可惜,幾乎都摸到Nature的門上了)。2012年的時候,Lange[4]這人更進一步開始做應用了,提出Deep Fitted Q學習做車輛控制,不過效果不咋地。
  • openAI最新強化學習庫spinningUp實戰(一)
    強化學習目前來看是deepmind和openAI兩家在爭霸。         強化學習有一個跟一般機器學習不一樣的地方:他的數據集不是固定的,他需要不斷獲取狀態參數,這樣導致復現論文很難,有可能狀態值某一步有些偏差,影響到了action,導致結果誤差較大。
  • 萬字詳述 | 全開源:python寫小遊戲+AI強化學習與傳統DFS/BFS控制分別實現
    內藏乾貨:神經網絡、深度/強化學習講解[2],當時覺得很有趣;但代碼部分沒有開源,於是我便想著復現一下這位 UP 的作品,僅作為學習之用。我們今天來自動控制一個「躲避障礙」的小遊戲,全部由 python 實現,我的項目地址為:•https://github.com/PiperLiu/Amazing-Brick-DFS-and-DRL我希望本文帶給你的收穫有二: ① 如何寫一個簡單的小遊戲,並且提供控制程序的接口; ② 強化學習控制與深度優先搜索有什麼區別
  • 算法聖經《算法導論》第三版習題答案開源!
    >」,選擇「置頂」公眾號重磅乾貨,第一時間送達《算法導論》——一本每個程式設計師都會接觸的算法經典教材!《算法導論》這本書,可以稱作是算法學習領域的聖經了。今天給大家收集了一份非常不錯的資源,就是《算法導論》第三版的習題答案完整版!
  • 深度強化學習領域(2)之大牛雲集
    薩頓被認為是現代計算強化學習的創始人之一,對該領域有幾項重要貢獻,包括時間差異學習和策略梯度方法,這兩種方法為後來的強化學習發展起到了推動作用。Sutton於1978年獲得史丹福大學心理學學士學位,碩士學位。分別於1980年和1984年在麻薩諸塞大學阿默斯特分校獲得計算機科學博士學位,並在Andrew Barto的監督下。
  • 強化學習(一)模型基礎
    ,主要參考的資料是Sutton的強化學習書和UCL強化學習的課程。強化學習在機器學習中的位置強化學習的建模強化學習的簡單實例強化學習在機器學習中的位置強化學習的學習思路和人比較類似,是在實踐中學習,比如學習走路,如果摔倒了,那麼我們大腦後面會給一個負面的獎勵值,說明走的姿勢不好。
  • 【資料總結】| Deep Reinforcement Learning 深度強化學習
    ,強化學習。除了非常厲害的玩家是真的自己手動玩的高分,其實很多高分是通過我們用強化學習的方法來訓練一個模型,讓小鳥自己學習如何不碰到障礙物一直往前飛,獲得最高分。此外,大家熟知的Alpha Go,其實也是強化學習訓練的模型,不過是深度強化學習。
  • Unity機器學習代理ML-Agents強化學習示例解析
    4月,我們進行了第一期Unity ML-Agents 強化學習直播,向廣大開發者介紹了如何使用ML-Agents創建一個強化學習項目,以及如何去訓練它。今天將由Unity技術經理鮑健運帶領大家重溫本次直播的內容。
  • 訓練機器人走迷宮1 – 強化學習之Q Learning
    本系列文章的目的是要實現一個可以自動尋找迷宮路徑的機器人,我們將會使用強化學習的方法訓練一個機器人,它最終能夠在一個迷宮中找到正確的路徑,最終到達出口,而不會掉到坑裡。我們要使用到的強化學習方法為Q Learning,它是最簡單的一種強化學習方法。本系列將包含兩篇文章。
  • 深度強化學習入門到精通--資料綜述
    其中,感知解決what,深度學習已經超越人類水平;決策解決how,強化學習在遊戲和機器人等領域取得了一定效果;認知解決why,知識圖譜、因果推理和持續學習等正在研究。強化學習,採用反饋學習的方式解決序貫決策問題,因此必然是通往通用人工智慧的終極鑰匙。
  • 12 個深度學習最佳教程!值得收藏
    Trask《Python 深度學習》by Francois Chollet《Scikit-Learn與TensorFLow機器學習實用指南》by Aurélien Géron《百頁機器學習》 by Andriy Burkov《強化學習:導論(第二版)》by Richard S. Sutton, Andrew G.
  • 【業界良心】深度強化學習開源環境集
    https://gym.openai.com/envs/#roboticsgym-gazebo2基於ROS2 和 Gazebo 的強化學習環境,達到現實工業機器人控制的水準。https://raisim.com/Stanford Osim-rl控制人體肌肉的強化學習環境
  • B站最強學習資源匯總(Python,數據科學,機器學習)
    而且最重要的是,課程中布置了很多作業,而萬能的網友更是找出了作業答案,並將其公布在了留言區,可以說太良心了,簡直是沒錢報班學習者的福音。學完這門課,你將能夠:理解驅動深度學習的主要技術趨勢;能夠搭建、訓練並且運用全連接的深層神經網絡;了解如何實現高效的(向量化)的神經網絡;理解神經網絡架構中的關鍵參數。第
  • TensorLayer | 深度強化學習實現全家桶
    以下內容授權轉自董豪博士知乎專欄轉載請聯繫作者原文地址:https://zhuanlan.zhihu.com/p/68950847當前,TensorLayer是一款基於TensorFlow計算引擎的通用深度學習開發工具箱,具備透明度高、靈活性強的優點。近日,TensorFlow 2.0 Beta版本發布,預示著終版API基本定型。
  • 開放下載:PRML英文原版、中文譯本、讀書會合集、學習筆記、官方代碼、課程視頻等等
    python 代碼,官方 matlab 代碼,中文譯文,課後答案,PPT,對應大學視頻,學習筆記,小編都匯總了一下,不管怎麼樣,我自己先收藏了一下~毫不誇張地說,PRML 當之無愧算得上是 AI 領域的聖經了。
  • 【全面總結】機器學習經典書 PRML 相關資料全面總結:中文譯本,官方代碼,課程視頻,學習筆記等等
    python 代碼,官方 matlab 代碼,中文譯文,課後答案,PPT,對應大學視頻,學習筆記,小編都匯總了一下,不管怎麼樣,我自己先收藏了一下~毫不誇張地說,PRML 當之無愧算得上是 AI 領域的聖經了。