深度強化學習入門到精通--資料綜述

2021-02-20 深度強化學習實驗室

作者:嶽龍飛 ,編輯:DeepRL

https://github.com/neurondance/deeprl

人工智慧是21世紀最激動人心的技術之一。人工智慧,就是像人一樣的智能,而人的智能包括感知、決策和認知(從直覺到推理、規劃、意識等)。其中,感知解決what,深度學習已經超越人類水平;決策解決how,強化學習在遊戲和機器人等領域取得了一定效果;認知解決why,知識圖譜、因果推理和持續學習等正在研究。強化學習,採用反饋學習的方式解決序貫決策問題,因此必然是通往通用人工智慧的終極鑰匙。我特別喜歡強化學習,深深被其框架所吸引,智能體通過與環境交互來成長,這不就是生命的進化規律嘛!個人作為一名AI獨立研究員,一路也是通過知乎、b站、GitHub、公眾號和各類博客學習過來,非常感謝網絡時代大家的分享,同時將自己在強化學習方面的經驗總結整理分享,既是方便自己學習,也希望能幫助一點刷到這條知乎的朋友們。當然,強化學習也面臨很多問題,希望我們一起解決,讓強化學習變得更好![1]

1. 視頻(從入門到放棄)1.1 騰訊_周沫凡_強化學習、教程、代碼https://www.bilibili.com/video/av16921335?from=search&seid=7037144790835305588https://morvanzhou.github.io/https://github.com/AndyYue1893/Reinforcement-learning-with-tensorflow1.2 DeepMind_David Silver_UCL深度強化學習課程(2015)、PPT、筆記及代碼https://www.bilibili.com/video/av45357759?from=search&seid=7037144790835305588https://blog.csdn.net/u_say2what/article/details/89216190https://zhuanlan.zhihu.com/p/376902041.3 臺大_李宏毅_深度強化學習(國語)課程(2018)、PPT、筆記https://www.bilibili.com/video/av24724071?from=search&seid=7037144790835305588http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.htmlhttps://blog.csdn.net/cindy_1102/article/details/879049281.4 UC Berkeley_Sergey Levine_CS285(294)深度強化學習(2019)、PPT、代碼https://www.bilibili.com/video/av69455099?from=search&seid=7037144790835305588http://rail.eecs.berkeley.edu/deeprlcourse/https://github.com/berkeleydeeprlcourse/homework2. 書籍2.1 強化學習聖經_Rich Sutton_中文書、英文電子書、代碼 ★★★★★(基礎必讀,有助於理解強化學習精髓)https://item.jd.com/12696004.htmlhttp://incompleteideas.net/book/the-book-2nd.htmlhttps://github.com/AndyYue1893/reinforcement-learning-an-introduction2.2 Python強化學習實戰_Sudharsan Ravichandiran、代碼 ★★★★★(上手快,代碼清晰)https://item.jd.com/12506442.htmlhttps://github.com/AndyYue1893/Hands-On-Reinforcement-Learning-With-Python2.3 強化學習精要_馮超 ★★★★(從基礎到前沿,附代碼)https://item.jd.com/12344157.html2.4 Reinforcement Learning With Open AI TensorFlow and Keras Using Python_OpenAI(注重實戰)https://pan.baidu.com/share/init?surl=nQpNbhkI-3WucSD0Mk7Qcg(提取碼: av5p)3. 教程3.1 OpenAI Spinning Up英文版、中文版、介紹by量子位(在線學習平臺,包括原理、算法、論文、代碼)https://spinningup.openai.com/en/latest/https://spinningup.readthedocs.io/zh_CN/latest/index.htmlhttps://zhuanlan.zhihu.com/p/490878703.2 莫煩Python( 通俗易懂)https://morvanzhou.github.io/4. PPT4.1 Reinforcement learning_Nando de Freitas_DeepMind_2019https://pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q4.2 Policy Optimization_Pieter Abbeel_OpenAI/UC Berkeley/Gradescopehttps://pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset5. 算法

請問DeepMind和OpenAI身後的兩大RL流派有什麼具體的區別?

https://www.zhihu.com/question/316626294/answer/627373838三大經典算法5.1 DQN

Mnih. Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529. (Nature版本)

https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf5.2 DDPG

David. Silver, et al. "Deterministic policy gradient algorithms." ICML. 2014.

http://proceedings.mlr.press/v32/silver14.pdf5.3 A3C

Mnih. Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International conference on machine learning. 2016.

https://www.researchgate.net/publication/301847678_Asynchronous_Methods_for_Deep_Reinforcement_Learning6. 環境6.1 OpenAI Gym6.2 Google Dopamine 2.0https://github.com/google/dopamine6.3 Emo Todorov Mujoco6.4 通用格子世界環境類https://zhuanlan.zhihu.com/p/28109312https://cs.stanford.edu/people/karpathy/reinforcejs/index.html7. 框架7.1 OpenAI Baselines(代碼簡潔,使用廣泛)https://github.com/openai/baselines7.2 百度 PARL( 擴展性強,可復現性好,友好)https://github.com/paddlepaddle/parl7.3 DeepMind OpenSpiel(僅支持Debian和Ubuntu,28種棋牌類遊戲和24種算法)https://github.com/deepmind/open_spiel8. 論文8.1 清華張楚珩博士 ★★★★★[2]https://zhuanlan.zhihu.com/p/46600521 張楚珩:強化學習論文匯總8.2 NeuronDance ★★★★https://github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL8.3 paperswithcode ★★★★https://www.paperswithcode.com/area/playing-gameshttps://github.com/AndyYue1893/pwc8.4 Spinning Up推薦論文 ★★★★★https://zhuanlan.zhihu.com/p/503430779. 會議&期刊9.1 會議:AAAI、NIPS、ICML、ICLR、IJCAI、 AAMAS、IROS等9.2 期刊:AI、 JMLR、JAIR、 Machine Learning、JAAMAS等9.3 計算機和人工智慧會議(期刊)排名https://www.ccf.org.cn/xspj/rgzn/https://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247490957&idx=1&sn=b9aa515f7833ba1503be298ac2360960&source=41#wechat_redirecthttps://www.aminer.cn/ranks/conf/artificial-intelligence-and-pattern-recognition10. 公眾號10.1 深度強化學習實驗室 ★★★★★10.2 機器之心 ★★★★★10.3 AI科技評論 ★★★★10.4 新智元 ★★★11.知乎11.1 用戶許鐵-巡洋艦科技(微信公眾號同名)、Flood Sung(GitHub同名)田淵棟、周博磊、俞揚、張楚珩、天津包子餡兒、JQWang2048 及其互相關注大牛等11.2 專欄David Silver強化學習公開課中文講解及實踐(葉強,很經典)強化學習知識大講堂(《深入淺出強化學習:原理入門》作者天津包子餡兒)智能單元(杜克、Floodsung、wxam,聚焦通用人工智慧,Flood Sung:深度學習論文閱讀路線圖 Deep Learning Papers Reading Roadmap很棒)深度強化學習落地方法論(西交 大牛,實操經驗豐富)深度強化學習(知乎:JQWang2048,GitHub:NeuronDance,CSDN:J. Q. Wang)神經網絡與強化學習(《Reinforcement Learning: An Introduction》讀書筆記)強化學習基礎David Silver筆記(陳雄輝,南大,DiDi AI Labs)12. 博客12.1 草帽BOYhttps://blog.csdn.net/u013236946/category_6965927.html12.2 J. Q. Wanghttps://blog.csdn.net/gsww40412.3 Keavnnhttps://stepneverstop.github.io/12.4 大卜口13. 官網13.1 OpenAI13.2 DeepMindhttps://www.deepmind.com/13.3 Berkeley       https://bair.berkeley.edu/blog/?refresh=1嶽博士,西交大博士研究生,研究多智能體協同控制領域。知乎:https://www.zhihu.com/people/du-li-ren-ge-41本實驗室為了鼓勵和激勵更多的強化學習領域研究者分享個人高質量學習資料和心得,特開通兩項計劃:

DeepRL百人學者計劃

DeepRL特約作者計劃

 申請者請進入公眾號,點擊菜單欄:「導航塔->百人學者計劃、特約作者計劃」進行相關操作。

第13期論文:2020-1-21(共7篇)

第12期論文:2020-1-10(Pieter Abbeel一篇,共6篇)

第11期論文:2019-12-19(3篇,一篇OpennAI)

第10期論文:2019-12-13(8篇)

第9期論文:2019-12-3(3篇)

第8期論文:2019-11-18(5篇)

第7期論文:2019-11-15(6篇)

第6期論文:2019-11-08(2篇)

第5期論文:2019-11-07(5篇,一篇DeepMind發表)

第4期論文:2019-11-05(4篇)

第3期論文:2019-11-04(6篇)

第2期論文:2019-11-03(3篇)

第1期論文:2019-11-02(5篇)

相關焦點

  • 【原創】強化學習精選資料匯總:從入門到精通,看完這些乾貨就夠啦!
    【導讀】本文為大家整理了公眾號之前發過的一系列強化學習資料和學習手冊,包括:強化學習視頻課程、經典課程PPT和書籍分享、頂級會議論文Slides分享、強化學習資料綜述、強化學習相關代碼復現和調參技巧內容這麼豐富,好資料當然就要分享給大家啦。大家可以轉發起來!一起為強化學習領域添磚加瓦!奔湧吧,各位RLer們!視頻(從入門到放棄
  • 資料分享 從入門到精通Swift編程 網盤雲
    資料分享 從入門到精通Swift編程 網盤雲我剛好有這方面的學習資料,如果你也有需要,歡迎聯繫微信:kanhaoke
  • 深度學習-機器學習從入門到深入全套資源分享
    ⭐️        《AI算法工程師手冊》        【完結】深度學習CV算法工程師從入門到初級面試有多遠,大概是25篇文章的距離        計算機相關技術面試必備        算法工程師面試        深度學習面試題目        深度學習500問        AI算法崗求職攻略
  • 零基礎新手自學Python編程教程入門精通學習資料網站大全
    2 怎麼學習Python?這裡主要就是,書籍,網站和視頻。書籍這裡推薦入門的,《Python學習手冊》 ,《流暢的Python》以及《笨辦法學Python》,三本都是入門者可以入手的,學完之後在考慮學習深度學習,爬蟲開發,項目管理,後臺開發等進階知識。
  • 深度學習第56講:強化學習簡介與Q-Learning實例
    從整個機器學習的任務劃分上來看,機器學習可以分為有監督學習、有監督和半監督學習以及強化學習,而我們之前一直談論的圖像、文本等深度學習的應用都屬於監督學習範疇。自編碼器和生成式對抗網絡可以算在無監督深度學習範疇內。最後就只剩下強化學習了。但是我們這是深度學習的筆記,為什麼要把強化學習單獨拎出來講一下呢?
  • 【聖誕特輯】Stata從入門到精通:學習資源推薦
    本次推送對於市面上常見的Stata教程進行了整理匯總,難度覆蓋了入門到精通,並對每項教程附上了簡單介紹和獲取方式。
  • 在線講座 | MATLAB從入門到精通
    MATLAB講座海報培訓主題 MATLAB從入門到精通
  • 強化學習怎麼入門好?
    3.伯克利大學CS 294深度強化學習這個深度強化學習的視頻,在B站上有中文字幕了,還記得我研一看的時候,沒有中文字幕,因為英語不太好,理解起來就比較難。二、強化學習入門練習1.OpenAI Gym目前強化學習編程實戰常用的環境就是OpenAI的gym庫了,支持Python語言編程。
  • 深度學習目標檢測從入門到精通:第一篇
    其中包括傳統的基於特徵的目標檢測方法,更多的是基於深度學習的目標檢測模型,包括近年來目標檢測領域中最炙手可熱的Faster R-CNN,YOLO,SSD等各種算法。本文向初學者一步步從淺到深介紹各種模型,通過閱讀本文,相信你會對目標檢測有系統的理解。
  • 【資料總結】| Deep Reinforcement Learning 深度強化學習
    ,強化學習。除了非常厲害的玩家是真的自己手動玩的高分,其實很多高分是通過我們用強化學習的方法來訓練一個模型,讓小鳥自己學習如何不碰到障礙物一直往前飛,獲得最高分。此外,大家熟知的Alpha Go,其實也是強化學習訓練的模型,不過是深度強化學習。
  • Keras從入門到精通教程(附下載)
    Python視界分享Keras從入門到精通教程來了。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!ty4z2008前言:希望轉載的朋友,你可以不用聯繫我.但是一定要保留原文連結,因為這個項目還在繼續也在不定期更新.希望看到文章的朋友能夠學到更多.此外:某些資料在中國訪問需要梯子.
  • 配書資料83:《UG NX 10中文版從入門到精通》-鍾日銘-人郵
    二、正版配書光碟資料包/光碟內容下載《UG NX 10中文版從入門到精通》配套資源包/光碟內容豐富,使讀者學習起來事半功倍。為了便於丟失配書學習資料的朋友重新找回寶貴的配書學習資料,本公眾號提供作者在百度網盤上存放的正版配書資料內容(版權歸本公眾號作者所有)以供下載學習。
  • AirSim教程:基於端到端深度學習的自動駕駛
    ,但是如果您能仔細閱讀本文推薦的連結,並按照步驟成功搭建文中的案例,相信您一定能入門自動駕駛,並且了解端到端深度學習的實現細節。基於端到端深度學習的自動駕駛:AirSim教程作者:Mitchell Spryn, 微軟軟體工程師IIAditya Sharma, 微軟項目經理▌概述在本教程中,你將學習如何使用從AirSim仿真環境收集的數據來訓練和測試用於自動駕駛的端到端深度學習模型
  • 【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)
    Alpha Zero的背後核心技術是深度強化學習,為此,專知特別收錄整理聚合了關於強化學習的最全知識資料,歡迎大家查看!/drl強化學習系列之三:模型無關的策略評價http://www.algorithmdog.com/reinforcement-learning-model-free-evalution【整理】強化學習與MDPhttp://www.cnblogs.com/mo-wang/p/4910855.html強化學習入門及其實現代碼http://www.jianshu.com/p/165607eaa4f9深度強化學習系列
  • 【專知薈萃14】機器翻譯 Machine Translation知識資料全集(入門/進階/綜述/視頻/代碼/專家,附PDF下載)
    歡迎大家分享轉發~入門學習CIPS青工委學術專欄第9期 | 神經機器翻譯 http://www.cipsc.org.cn/qngw/?p=953基於深度學習的機器翻譯研究進展 http://www.caai.cn/index.php?
  • 綜述 | Google-斯坦福發布~深度學習統計力學
    最近來自谷歌大腦和斯坦福的學者共同在Annual Review of Condensed Matter Physics 發布了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯繫。
  • 【專知薈萃12】信息檢索 Information Retrieval 知識資料全集(入門/進階/綜述/代碼/專家,附PDF下載)
    他的研究專注於利用機器學習方法處理計算語言學問題,其中包括句法分析、計算語義和語用學、文本推理、機器翻譯及面向自然語言處理的遞歸深度學習等,特別是其引領了深度學習在自然語言處理領域的研究。Manning教授是ACM Fellow,AAAI Fellow 和ACLFellow,目前任ACL主席。Manning教授所著的多部書籍都成為了權威經典教材,例如《統計自然語言處理基礎》、《信息檢索導論》等。
  • 深度強化學習(Deep Reinforcement Learning)的資源
    前一段時間收集了好多關於這方面的資料,一直躺在收藏夾中,目前正在做一些相關的工作(希望有小夥伴一起交流)。一、相關文章關於DRL,這方面的工作基本應該是隨著深度學習的爆紅最近才興起的,做這方面的研究的一般都是人工智慧領域的大牛。最早(待定)的一篇可以追溯到2010年,Lange[1]做的相關工作。
  • 全網首發|| 最全深度強化學習資料(永久更新)
    關於本項工作本工作是一項由深度強化學習實驗室(DeepRL-Lab,見文末)發起的公益、開放、開源項目,聯合Deep ReinforcementLearning領域的30+位博士,100+位碩士共同完成,旨在於為每一位深度強化學習愛好者提供一份快速、全面、詳細的學習資料。