作者 | David Abel
編輯 | DeepRL
ICML 是 International Conference on Machine Learning的縮寫,即國際機器學習大會。ICML如今已發展為由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級會議。其中強化學習便是該會議很重要的一個話題,每年都有非常多的投稿。本文整理了David Abel總結的ICML2018、2019兩年的深度強化學習筆記,詳看正文。
1
ICML-2019-RL-Note
作者整理簡介:我在本次會議的RL分場上度過了大部分時間(可惜錯過了所有主題演講), 所以我的大部分反思(和筆記)都集中在RL:
關於非策略評估和非策略學習的大量工作(例如,參見Hanna 等人[35],Le等人[49],Fujimoto等人[26],Gottesman等人的工作)等[32]探索再次成為一個熱門話題(參見Mavrin等人[57],Fatemi等人[25],Hazan等人[37],Shani等人[76]的工作)。除了策略評估(以及其他一些評估),這也是RL中的基本問題之一。一些非常好的工作繼續澄清分布式RL [10](參見[74,57,67]的工作)。作者認為我們需要標準化RL中的評估。並不是說我們只需要一個單一的方法或一個域,而是目前評估協議中有太多差異。元學習&元強化學習
元學習算法通用方法
Choose a form of Pr(φi | Dtrain i , θ).Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.
為什么元強化學習有用?
幾乎所有問題都與現有方法的樣本效率低下有關。將TRPO應用於真正的機器人時,機器人需要花費數天或數周的時間才能開始取得任何進展(學習步行)。
通常情況下,智能體的目標是學習一個策略最大化累計期望獎勵。
而且,RL目標的元學習問題是學習
,因此,元RL問題如下:
其優化過程如下:
當然元學習有它的優勢,也有對應的挑戰。
挑戰1:超量配置:元學習需要任務分配,一些元學習方法可能會過度適合這些任務分配。
挑戰2:任務設計:通常必須手動選擇這些任務分配,或者它們的多樣性不足以鼓勵正確的行為。很難以正確的方式選擇任務分配!
挑戰3:了解哪種算法過度擬合:許多不同的方法(黑盒,基於優化的非參數方法),但是我們不知道哪種算法最容易遭受元過度擬合。
圖強化學習
圖模型最近在深度學習中特別的人們,然而在強化學習中也是獨領風騷:TibGM: A Graphical Model Approach for RL
還有包括分布式強化學習,理論等相關內容,詳見文末PDF2019
2
ICML-2018-RL-Note
Github查看(歡迎star倉庫):
https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source
(*本文為 AI科技大本營轉載文章,轉載請聯繫原作者)
◆
2019 中國大數據技術大會(BDTC)再度來襲!豪華主席陣容及百位技術專家齊聚,15 場精選專題技術和行業論壇,超強幹貨+技術剖析+行業實踐立體解讀,深入解析熱門技術在行業中的實踐落地。
即日起,限量 5 折票開售,數量有限,掃碼購買,先到先得!