以模型為基礎的強化學習

2020-09-10 人工智慧前沿學生論壇

編者按:與無模型強化學習(MFRL)相比,以模型為基礎的強化學習(MBRL)有著怎樣的優勢和特點呢?MBRL是怎樣步步發展,又可以達成怎樣的目標呢?本期,來聽聽上海交通大學張偉楠副教授講授以模型為基礎的強化學習,希望能幫助大家更全面地了解這一強化學習方向。

轉載來源:中國科學院自動化研究所

備註:該課程來自於近日國內外知名高校和研究機構的強化學習領域研究者共同發起的RLChina 2020強化學習夏令營。該夏令營以在線公開課的形式開展,課程內容包括嚴謹的數學推導、最新的研究結果和理論。相關課程視頻在ZOOM、B站同步直播。中科院自動化所(公眾號:casia1956)獲得課程主講老師授權,做不改變原意的課程概要編輯整理。


本期,上海交通大學John Hopcroft中心副教授張偉楠帶來《以模型為基礎的強化學習(Model-based Reinforcement Learning, MBRL)》。張偉楠副教授從無模型強化學習與有模型強化學習的對比開始,結合基於黑盒的有模型強化學習的發展歷史,講解了有模型強化學習諸多算法的基本概念、算法起源、實現原理、理論分析以及實驗結果等,同時對白盒模型的反向傳播進行了介紹。最後,他對比了基於黑盒模型與白盒模型的MBRL算法,對MBRL領域今後的發展方向進行了前瞻性的總結概述。

張偉楠副教授認為MBRL將會是接下來幾年強化學習領域的研究熱點,可以應用於多智能體強化學習(Multi-Agent RL,MARL)。面對複雜問題時,如何實現高質量的環境建模將是這一方向未來研究的熱點。

張偉楠 上海交通大學電院John Hopcroft中心長聘教軌副教授


觀看課程

https://v.qq.com/x/page/o31332chibw.html

課程概要

張偉楠副教授由深度強化學習的不足引入,總結了MBRL的優勢,並在之後的部分中介紹18年以來MBRL的最新工作。他區分了Model-based和Model-free的特點和優勢與不足,介紹了Model-based中主要研究思路和研究重點。


第一章

本章介紹了90年代前MBRL的研究思路,以及早期一些經典算法,包括Q-planning、Sutton提出的著名的Dyna-Q,並通過一個簡單的例子反映Dyna-Q對提升採樣效率的顯著程度。


第二章 Shooting Method

shooting方法,即獲得模型後在不學習的情況下通過採樣得到最優policy的方法,也叫Model Predictive Control。張偉楠副教授介紹了基礎的隨機shooting(RS)、PETS(Probabilistic Ensemble with Trajectory Sampling)、POPLIN,並比較了PETS和POPLIN方法的效果。


第三章 Theoretic Bounds and Methods

本章主要介紹模型有多「準」即模型的邊界和學習模型的算法。介紹的第一個邊界是真實的模型和估計模型之間值函數的差Value Discrepancy Bound以及它的前提假設,並由此產生的同時訓練模型和policy的調度算法Meta-Algorithm及其收斂性證明。

接著,他介紹了2019年SLBO(Stochastic Lower Bound Optimization)算法、目前效果最出眾的算法之一MBPO(Model-based Policy Optimization)和張偉楠團隊基於MBPO提出的BMPO(Bidirectional Model-based Policy Optimization)方法。並展示了這些算法與其他算法比較的實驗結果。


第四章 Backpropagation through paths

前面3章主要介紹的都是黑盒模型,本章開始介紹白盒模型中的後向傳播。主要內容有:

  • 從DPG(Deterministic Policy Gradient)引入,解釋當確定性環境變為隨機環境後求梯度的方法。
  • SVG(Stochastic Value Gradient)算法,即在當前位置如何優化policy參數的問題。
  • 2020年最新的MAAC(Model-Augmented Actor Critic)算法及實驗結果。


總結


張偉楠副教授的個人主頁:http://wnzhang.net


相關焦點

  • 強化學習基礎-對偶梯度上升
    該方法的核心思想是把目標函數轉換為可以迭代優化拉格朗日對偶函數。其中拉格朗日函數 ? 和拉格朗日對偶函數 g 定義為: 即為 長按連結點擊打開或點擊【強化學習基礎:對偶梯度上升】: https://ai.yanxishe.com/page/TextTranslation/1427 AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網 盤點圖像分類的竅門動態編程:
  • 專欄| 學習何時做分類決策,深度好奇提出強化學習模型Jumper
    :Jumper,該論文將文本分類問題建模成離散的決策過程,並通過強化學習來優化,符號化表徵模型的決策過程具有很好的可解釋性,同時分類效果也達到最高水平。同樣,我們也假設我們的訓練標籤僅包含最終結果,並且沒有給出關於模型應該做出決定的步驟的監督信號。也就是說,我們通過強化學習在弱監督信號情況下訓練 Jumper 模型。圖 1 Jumper 模型在閱讀段落的決策過程Jumper 模型主要由編碼層、控制器、符號輸出層構成。
  • 強化學習系列之四:模型無關的策略學習
    模型無關的策略學習,是在不知道馬爾科夫決策過程的情況下學習到最優策略。
  • 用TensorForce快速搭建深度強化學習模型
    AlphaGo第一作者Davild Silver就認為通用人工智慧需要強化學習結合深度學習來實現,即AGI=DL+RL。當時選擇TensorForcce是因為需要在ROS框架下開發,而如上表列出的,它完全支持Python2,且包含很多主流的強化學習算法、支持OpenAI Gym、DeepMind Lab等常用於強化學習算法測試的基準環境。
  • 天津大學、東京大學等研究:用深度強化學習檢測模型缺陷
    新智元專欄作者:段義海【新智元導讀】天津大學多智能體與深度強化學習實驗室與東京大學、日本 AIST 研究所合作的一篇論文,提出利用深度強化學習方法來檢測信息物理系統(CPS)模型中的缺陷。與傳統方法相比,深度強化學習方法在大多數情況下能夠通過更少次的模擬實驗找出系統的缺陷。
  • 強化學習總體介紹-初步搭建強化學習理論體系(一)
    前言兩年前接觸強化學習是通過莫煩的課程,那時候對強化學習整體有一個基礎的認識,最近聽了David Silver的課程後又建立起了完整的強化學習體系,故連載
  • 強化學習應用簡介
    如下圖所示,強化學習與計算機科學、工程、數學、經濟學、心理學、神經科學、機器學習、最優控制、運籌學、博弈論、條件反射、獎賞系統等都有內在的聯繫。此圖為David Silver強化學習英文版課件的中文翻譯。強化學習/人工智慧、運籌學、最優控制這些學科都以應用數學、優化、統計為基礎,同時為科學工程各方面的應用提供工具。
  • 增強模型的探索能力-強化學習NoisyNet原理及實現!
    本文我們將介紹另一種方法:NoisyNet,該方法通過對參數增加噪聲來增加模型的探索能力。論文地址:https://arxiv.org/abs/1706.10295v11、NoisyNet的原理我們的噪聲通常添加在全連接層,考慮我們全連接層的前向計算公式:假設兩層的神經元個數分別為p個和q個,那麼w是q*p的,x是p維的,y和b都是q維的。
  • 強化學習應用簡述
    強化學習/人工智慧、運籌學、最優控制這些學科都以應用數學、優化、統計為基礎,同時為科學工程各方面的應用提供工具。運籌學、最優控制一般需要模型;比如混合整數規劃、隨機規劃等數學表達式就是模型的體現。模型一般不準確、測不準;參數估計一般有誤差。強化學習可以不用模型,直接通過數據進行訓練,從而做出接近最優或最優的決策。數據可以來自完美模型、精準仿真器、或大數據。
  • 強化學習簡介(一)
    強化學習是建立在這樣的「獎勵假說」上的:即所有的問題的解決(強化學習目標)都能夠被表述為期望累積獎勵的最大化。        3、強化學習智能體的組成部分強化學習中的智能體可以由以下三個組成部分中的一個或多個組成:1)、策略(Policy)策略是決定智能體行為的機制,是智能體的行為函數,狀態St作為輸入,行動At作為輸出。策略通常有兩種形式:一種是確定性的policy,即從歷史經驗中學習得到;另外一種是個隨機的policy,通過概率模型決策。
  • 賽爾原創 | ACL 2018 基於強化學習的中文零指代消解模型
    在這個過程中,我們利用了基於策略梯度的深度強化學習算法進行零代詞的選擇。每一時刻,我們的狀態定義為輸入的零代詞和對應時刻的候選先行語以及之前判斷出的所有先行語,動作定義為選中和未選中兩個動作--選中代表零代詞和候選先行語可以消解。這樣,我們就可以利用強化學習的方法進行零代詞的消解工作。下邊來詳細介紹強化學習模型
  • 【乾貨】強化學習介紹
    這一強化學習過程可以被建模為如下的一組循環過程。 強化學習循環輸出狀態、行為、獎勵的序列。整體的目標是最大化全局reward的期望。 獎勵假設是核心思想在強化學習中,為了得到最好的行為序列,我們需要最大化累積reward期望。
  • 強化學習(一)入門介紹
    本講將對強化學習做一個整體的簡單介紹和概念引出,包括什麼是強化學習,強化學習要解決什麼問題,有一些什麼方法。
  • 學術分享丨簡述機器人學習中的強化學習與模仿學習
    現代機器人學習技術的兩大主要研究方向為強化學習和模仿學習。強化學習技術最早由加拿大計算機科學家Richard S. Sutton 和其博士階段導師Andrew G. Barto 所倡導,強化學習的基本模型構建在人類的認知心理學和行為科學的研究基礎之上。通過觀測人類和其他動物基於反饋的技能學習機制,強化學習將學習目標設定為最大化環境給予智能體特定行動的獎勵。
  • UC伯克利 ICLR 論文:論如何教強化學習模型騎自行車去金門大橋?
    雷鋒網 AI 科技評論按:本文的作者是來自加州大學伯克利分校人工智慧實驗室(BAIR)的博士生 Vitchyr Pong,他的主研方向為深度強化學習。強化學習(Reinforcement learning, RL)中似乎存在類似的現象。按照強化學習的說法,實驗結果證明,一些任務更適合於無模型(嘗試和犯錯)方法,而另外一些任務則更適合於基於模型的方法(規劃)。然而,騎自行車的類比也強調了這兩個系統並不是完全獨立的。特別是,說學騎自行車的過程只是試錯法的說法也是過於簡化。
  • 谷歌發布最新元學習框架「DVRL」,用強化學習量化模型中每個數據點...
    昨日,他們發表了一篇博客,詳細敘述了用強化學習評估訓練數據的影響。 你是否還在使用大規模數據集進行無腦訓練呢? 實際上,如果數據集包含低質量或標籤不正確的數據,通常可以通過刪除大量的訓練樣本來提高性能。
  • 將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC
    強化學習(RL)是一種讓智能體根據經驗學習決策的框架。離策略強化學習是眾多強化學習變體中的一種,其中每個智能體使用由其它智能體收集到的數據(離策略數據)以及它自己收集到的數據進行訓練,從而學習「機器人行走和抓取」等可泛化技能。
  • 強化學習基礎篇(二十七)Model-free控制
    強化學習基礎篇(二十七)Model-free控制終於推進到控制部分了,控制的問題才是核心。幾乎所有強化學習方法都可以被很好地描述為GPI。image.png如果評估過程和改善過程都穩定下來,即不再發生變化,那麼價值函數和策略必須都是最優的,如上圖(右)所示。
  • 資源 | UC Berkeley CS 294深度強化學習課程(附視頻、學習資料)
    本文主要介紹了課程中的強化學習主題,涉及深度強化學習的基本理論與前沿挑戰。CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。該課程為各位讀者提供了強化學習的進階資源,且廣泛涉及深度強化學習的基本理論與前沿挑戰。本文介紹了該課程主要討論的強化學習主題,讀者可根據興趣愛好與背景知識選擇不同部分的課程。
  • DeepMind推出深度學習與強化學習進階課程(附視頻)
    在探討深度學習的過程中,這兩條線交匯在一起,其中的深度神經網絡被訓練為強化學習背景下的函數逼近器。課程中的深度學習部分首先介紹了神經網絡及使用 TensorFlow 的監督學習,接下來探討了卷積神經網絡、循環神經網絡、端到端及基於能量的學習、優化方法、無監督學習、注意力及記憶。