編者按:與無模型強化學習(MFRL)相比,以模型為基礎的強化學習(MBRL)有著怎樣的優勢和特點呢?MBRL是怎樣步步發展,又可以達成怎樣的目標呢?本期,來聽聽上海交通大學張偉楠副教授講授以模型為基礎的強化學習,希望能幫助大家更全面地了解這一強化學習方向。
轉載來源:中國科學院自動化研究所
備註:該課程來自於近日國內外知名高校和研究機構的強化學習領域研究者共同發起的RLChina 2020強化學習夏令營。該夏令營以在線公開課的形式開展,課程內容包括嚴謹的數學推導、最新的研究結果和理論。相關課程視頻在ZOOM、B站同步直播。中科院自動化所(公眾號:casia1956)獲得課程主講老師授權,做不改變原意的課程概要編輯整理。
本期,上海交通大學John Hopcroft中心副教授張偉楠帶來《以模型為基礎的強化學習(Model-based Reinforcement Learning, MBRL)》。張偉楠副教授從無模型強化學習與有模型強化學習的對比開始,結合基於黑盒的有模型強化學習的發展歷史,講解了有模型強化學習諸多算法的基本概念、算法起源、實現原理、理論分析以及實驗結果等,同時對白盒模型的反向傳播進行了介紹。最後,他對比了基於黑盒模型與白盒模型的MBRL算法,對MBRL領域今後的發展方向進行了前瞻性的總結概述。
張偉楠副教授認為MBRL將會是接下來幾年強化學習領域的研究熱點,可以應用於多智能體強化學習(Multi-Agent RL,MARL)。面對複雜問題時,如何實現高質量的環境建模將是這一方向未來研究的熱點。
張偉楠 上海交通大學電院John Hopcroft中心長聘教軌副教授
https://v.qq.com/x/page/o31332chibw.html
張偉楠副教授由深度強化學習的不足引入,總結了MBRL的優勢,並在之後的部分中介紹18年以來MBRL的最新工作。他區分了Model-based和Model-free的特點和優勢與不足,介紹了Model-based中主要研究思路和研究重點。
第一章
本章介紹了90年代前MBRL的研究思路,以及早期一些經典算法,包括Q-planning、Sutton提出的著名的Dyna-Q,並通過一個簡單的例子反映Dyna-Q對提升採樣效率的顯著程度。
第二章 Shooting Method
shooting方法,即獲得模型後在不學習的情況下通過採樣得到最優policy的方法,也叫Model Predictive Control。張偉楠副教授介紹了基礎的隨機shooting(RS)、PETS(Probabilistic Ensemble with Trajectory Sampling)、POPLIN,並比較了PETS和POPLIN方法的效果。
第三章 Theoretic Bounds and Methods
本章主要介紹模型有多「準」即模型的邊界和學習模型的算法。介紹的第一個邊界是真實的模型和估計模型之間值函數的差Value Discrepancy Bound以及它的前提假設,並由此產生的同時訓練模型和policy的調度算法Meta-Algorithm及其收斂性證明。
接著,他介紹了2019年SLBO(Stochastic Lower Bound Optimization)算法、目前效果最出眾的算法之一MBPO(Model-based Policy Optimization)和張偉楠團隊基於MBPO提出的BMPO(Bidirectional Model-based Policy Optimization)方法。並展示了這些算法與其他算法比較的實驗結果。
第四章 Backpropagation through paths
前面3章主要介紹的都是黑盒模型,本章開始介紹白盒模型中的後向傳播。主要內容有:
總結
張偉楠副教授的個人主頁:http://wnzhang.net