作者:嶽龍飛 ,編輯:DeepRL
https://github.com/neurondance/deeprl
人工智慧是21世紀最激動人心的技術之一。人工智慧,就是像人一樣的智能,而人的智能包括感知、決策和認知(從直覺到推理、規劃、意識等)。其中,感知解決what,深度學習已經超越人類水平;決策解決how,強化學習在遊戲和機器人等領域取得了一定效果;認知解決why,知識圖譜、因果推理和持續學習等正在研究。強化學習,採用反饋學習的方式解決序貫決策問題,因此必然是通往通用人工智慧的終極鑰匙。我特別喜歡強化學習,深深被其框架所吸引,智能體通過與環境交互來成長,這不就是生命的進化規律嘛!個人作為一名AI獨立研究員,一路也是通過知乎、b站、GitHub、公眾號和各類博客學習過來,非常感謝網絡時代大家的分享,同時將自己在強化學習方面的經驗總結整理分享,既是方便自己學習,也希望能幫助一點刷到這條知乎的朋友們。當然,強化學習也面臨很多問題,希望我們一起解決,讓強化學習變得更好![1]
1. 視頻(從入門到放棄)1.1 騰訊_周沫凡_強化學習、教程、代碼https://www.bilibili.com/video/av16921335?from=search&seid=7037144790835305588https://morvanzhou.github.io/https://github.com/AndyYue1893/Reinforcement-learning-with-tensorflow1.2 DeepMind_David Silver_UCL深度強化學習課程(2015)、PPT、筆記及代碼https://www.bilibili.com/video/av45357759?from=search&seid=7037144790835305588https://blog.csdn.net/u_say2what/article/details/89216190https://zhuanlan.zhihu.com/p/376902041.3 臺大_李宏毅_深度強化學習(國語)課程(2018)、PPT、筆記https://www.bilibili.com/video/av24724071?from=search&seid=7037144790835305588http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.htmlhttps://blog.csdn.net/cindy_1102/article/details/879049281.4 UC Berkeley_Sergey Levine_CS285(294)深度強化學習(2019)、PPT、代碼https://www.bilibili.com/video/av69455099?from=search&seid=7037144790835305588http://rail.eecs.berkeley.edu/deeprlcourse/https://github.com/berkeleydeeprlcourse/homework2. 書籍2.1 強化學習聖經_Rich Sutton_中文書、英文電子書、代碼 ★★★★★(基礎必讀,有助於理解強化學習精髓)https://item.jd.com/12696004.htmlhttp://incompleteideas.net/book/the-book-2nd.htmlhttps://github.com/AndyYue1893/reinforcement-learning-an-introduction2.2 Python強化學習實戰_Sudharsan Ravichandiran、代碼 ★★★★★(上手快,代碼清晰)https://item.jd.com/12506442.htmlhttps://github.com/AndyYue1893/Hands-On-Reinforcement-Learning-With-Python2.3 強化學習精要_馮超 ★★★★(從基礎到前沿,附代碼)https://item.jd.com/12344157.html2.4 Reinforcement Learning With Open AI TensorFlow and Keras Using Python_OpenAI(注重實戰)https://pan.baidu.com/share/init?surl=nQpNbhkI-3WucSD0Mk7Qcg(提取碼: av5p)3. 教程3.1 OpenAI Spinning Up英文版、中文版、介紹by量子位(在線學習平臺,包括原理、算法、論文、代碼)https://spinningup.openai.com/en/latest/https://spinningup.readthedocs.io/zh_CN/latest/index.htmlhttps://zhuanlan.zhihu.com/p/490878703.2 莫煩Python( 通俗易懂)https://morvanzhou.github.io/4. PPT4.1 Reinforcement learning_Nando de Freitas_DeepMind_2019https://pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q4.2 Policy Optimization_Pieter Abbeel_OpenAI/UC Berkeley/Gradescopehttps://pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset5. 算法請問DeepMind和OpenAI身後的兩大RL流派有什麼具體的區別?
https://www.zhihu.com/question/316626294/answer/627373838三大經典算法5.1 DQNMnih. Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529. (Nature版本)
https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf5.2 DDPGDavid. Silver, et al. "Deterministic policy gradient algorithms." ICML. 2014.
http://proceedings.mlr.press/v32/silver14.pdf5.3 A3CMnih. Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International conference on machine learning. 2016.
https://www.researchgate.net/publication/301847678_Asynchronous_Methods_for_Deep_Reinforcement_Learning6. 環境6.1 OpenAI Gym6.2 Google Dopamine 2.0https://github.com/google/dopamine6.3 Emo Todorov Mujoco6.4 通用格子世界環境類https://zhuanlan.zhihu.com/p/28109312https://cs.stanford.edu/people/karpathy/reinforcejs/index.html7. 框架7.1 OpenAI Baselines(代碼簡潔,使用廣泛)https://github.com/openai/baselines7.2 百度 PARL( 擴展性強,可復現性好,友好)https://github.com/paddlepaddle/parl7.3 DeepMind OpenSpiel(僅支持Debian和Ubuntu,28種棋牌類遊戲和24種算法)https://github.com/deepmind/open_spiel8. 論文8.1 清華張楚珩博士 ★★★★★[2]https://zhuanlan.zhihu.com/p/46600521 張楚珩:強化學習論文匯總8.2 NeuronDance ★★★★https://github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL8.3 paperswithcode ★★★★https://www.paperswithcode.com/area/playing-gameshttps://github.com/AndyYue1893/pwc8.4 Spinning Up推薦論文 ★★★★★https://zhuanlan.zhihu.com/p/503430779. 會議&期刊9.1 會議:AAAI、NIPS、ICML、ICLR、IJCAI、 AAMAS、IROS等9.2 期刊:AI、 JMLR、JAIR、 Machine Learning、JAAMAS等9.3 計算機和人工智慧會議(期刊)排名https://www.ccf.org.cn/xspj/rgzn/https://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247490957&idx=1&sn=b9aa515f7833ba1503be298ac2360960&source=41#wechat_redirecthttps://www.aminer.cn/ranks/conf/artificial-intelligence-and-pattern-recognition10. 公眾號10.1 深度強化學習實驗室 ★★★★★10.2 機器之心 ★★★★★10.3 AI科技評論 ★★★★10.4 新智元 ★★★11.知乎11.1 用戶許鐵-巡洋艦科技(微信公眾號同名)、Flood Sung(GitHub同名)田淵棟、周博磊、俞揚、張楚珩、天津包子餡兒、JQWang2048 及其互相關注大牛等11.2 專欄David Silver強化學習公開課中文講解及實踐(葉強,很經典)強化學習知識大講堂(《深入淺出強化學習:原理入門》作者天津包子餡兒)智能單元(杜克、Floodsung、wxam,聚焦通用人工智慧,Flood Sung:深度學習論文閱讀路線圖 Deep Learning Papers Reading Roadmap很棒)深度強化學習落地方法論(西交 大牛,實操經驗豐富)深度強化學習(知乎:JQWang2048,GitHub:NeuronDance,CSDN:J. Q. Wang)神經網絡與強化學習(《Reinforcement Learning: An Introduction》讀書筆記)強化學習基礎David Silver筆記(陳雄輝,南大,DiDi AI Labs)12. 博客12.1 草帽BOYhttps://blog.csdn.net/u013236946/category_6965927.html12.2 J. Q. Wanghttps://blog.csdn.net/gsww40412.3 Keavnnhttps://stepneverstop.github.io/12.4 大卜口13. 官網13.1 OpenAI13.2 DeepMindhttps://www.deepmind.com/13.3 Berkeley https://bair.berkeley.edu/blog/?refresh=1嶽博士,西交大博士研究生,研究多智能體協同控制領域。知乎:https://www.zhihu.com/people/du-li-ren-ge-41本實驗室為了鼓勵和激勵更多的強化學習領域研究者分享個人高質量學習資料和心得,特開通兩項計劃:「DeepRL百人學者計劃」
「DeepRL特約作者計劃」
申請者請進入公眾號,點擊菜單欄:「導航塔->百人學者計劃、特約作者計劃」進行相關操作。第13期論文:2020-1-21(共7篇)
第12期論文:2020-1-10(Pieter Abbeel一篇,共6篇)
第11期論文:2019-12-19(3篇,一篇OpennAI)
第10期論文:2019-12-13(8篇)
第9期論文:2019-12-3(3篇)
第8期論文:2019-11-18(5篇)
第7期論文:2019-11-15(6篇)
第6期論文:2019-11-08(2篇)
第5期論文:2019-11-07(5篇,一篇DeepMind發表)
第4期論文:2019-11-05(4篇)
第3期論文:2019-11-04(6篇)
第2期論文:2019-11-03(3篇)
第1期論文:2019-11-02(5篇)