學界 | DeepMind提出元梯度強化學習算法,顯著提高大規模深度強化學習應用的性能

2021-02-20 機器之心

選自arXiv

作者:Zhongwen Xu、Hado van Hasselt、David Silver

機器之心編譯

參與:Pedro、路

近日,來自 DeepMind 的研究者 David Silver 等人發布論文,提出一種基於梯度的元學習算法,可以在線調整元參數,使得回報既能適應具體問題,又能隨著時間動態調整以適應不斷變化的學習環境。

強化學習(RL)的核心目標是優化智能體的回報(累積獎勵)。一般通過預測和控制相結合的方法來實現這一目標。預測的子任務是估計價值函數,即在任何給定狀態下的預期回報。理想情況下,這可以通過朝著真值函數(true value function)的方向不斷更新近似價值函數來實現。控制的子任務是優化智能體選擇動作的策略,以最大化價值函數。理想情況下,策略只會在使真值函數增加的方向上更新。然而,真值函數是未知的,因此,對於預測和控制,我們需要將採樣回報作為代理(proxy)。強化學習算法家族 [Sutton,1988;Rummery 和 Niranjan,1994;van Seijen 等,2009;Sutton 和 Barto,2018] 包括多種最先進的深度強化學習算法 [Mnih 等,2015;van Hasselt 等,2016;Harutyunyan 等,2016;Hessel 等,2018;Espeholt 等,2018],它們的區別在於對回報的不同設定。

折扣因子 γ 決定了回報的時間尺度。接近 1 的折現因子更關注長期的累計回報,而接近 0 的折現因子優先考慮短期獎勵,更關注短期目標。即使在明顯需要關注長期回報的問題中,我們也經常觀察到使用小於 1 的折扣因子可以獲得更好的效果 [Prokhorov 和 Wunsch,1997],這一現象在學習的早期體現得尤為明顯。眾所周知,許多算法在折扣因子較小時收斂速度較快 [Bertsekas 和 Tsitsiklis,1996],但過小的折扣因子可能會導致過度短視的高度次優策略。在實踐中,我們可以首先對短期目標進行優化,例如首先用 γ= 0 進行優化,然後在學習取得一定效果後再不斷增加折扣 [Prokhorov and Wunsch,1997]。

我們同樣可以在不同的時間段設定不同的回報。一個 n 步的回報需要考慮 n 步中獎勵的累積,然後添加第 n 個時間步時的價值函數。λ-回報 [Sutton,1988;Sutton 和 Barto,2018] 是 n 步回報的幾何加權組合。在任何一種情況下,元參數 n 或 λ 對算法的性能都很重要,因為他們影響到偏差和方差之間的權衡。許多研究人員對如何自動選擇這些參數進行了探索 [Kearns 和 Singh,2000,Downey 和 Sanner,2010,Konidaris 等,2011,White and White,2016]。

還有很多其他的設計可以在回報中體現出來,包括離策略修正 [Espeholt 等,2018,Munos 等,2016]、目標網絡 [Mnih 等,2015]、對特定狀態的強調 [Sutton 等,2016]、獎勵剪裁 [Mnih 等,2013],甚至獎勵本身 [Randløv 和 Alstrøm,1998;Singh 等,2005;Zheng 等,2018]。

本論文主要關注強化學習的一個基本問題:便於智能體最大化回報的最佳回報形式是什麼?具體而言,本論文作者提出通過將回報函數當作包含可調整元參數 η 的參數函數來學習,例如折扣因子 γ 或 bootstrapping 參數 λ [Sutton,1988]。在智能體與環境的交互中,元參數 η 可以在線進行調整,使得回報既能適應具體問題,又能隨著時間動態調整以適應不斷變化的學習環境。研究者推導出一種實用的、基於梯度的元學習算法,實驗表明它可以顯著提高大規模深度強化學習應用的性能。

圖 1:在各自的馬爾可夫獎勵過程(頂部)中,狀態依賴可調整參數(a)bootstrapping 參數 λ 或(b)折扣因子 γ 的元梯度學習結果圖示。在底部顯示的每個子圖中,第一幅圖展示了元參數 γ 或 λ 在訓練過程中的變化情況(10 個種子下的平均值 - 陰影區域覆蓋了 20%-80%)。第二幅圖顯示了每種狀態下 γ 或 λ 的最終值,分別指奇/偶狀態的高/低值(小提琴圖顯示不同種子的分布情況)。

表 1:與不使用元學習的基線 IMPALA 算法相比,元學習折扣參數 γ、時序差分學習參數 λ,或學習二者的結果。研究者使用的是 [Espeholt et al,2018] 最初報告的折扣因子 γ= 0.99 以及調整後的折扣因子 γ= 0.995(見附錄 C); 為了公平比較,研究者將元目標中的交叉驗證折扣因子 γ』設置為相同的值。

論文:Meta-Gradient Reinforcement Learning(元梯度強化學習)

論文連結:https://arxiv.org/abs/1805.09801

摘要:強化學習算法的目標是估計和/或優化價值函數。然而與監督學習不同,強化學習中沒有可以提供真值函數的教師或權威。相反,大多數強化學習算法估計和/或優化價值函數的代理。該代理通常基於對真值函數的採樣和 bootstrapped 逼近,即回報。對回報的不同選擇是決定算法本質的主要因素,包括未來獎勵的折扣因子、何時以及如何設定獎勵,甚至獎勵本身的性質。眾所周知,這些決策對強化學習算法的整體成功至關重要。我們討論了一種基於梯度的元學習算法,它能夠在線適應回報的本質,同時進行與環境的互動和學習。我們將該算法應用於超過 2 億幀 Atari 2600 環境中的 57 場比賽,結果表明我們的算法取得了目前最好的性能。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero
    強化學習不需要監督信號,在模型未知的環境中平衡探索和利用,其主要算法有Q學習,策略梯度等。Q學習是強化學習最重要的算法之一,其主要更新公式為:其中α是學習率,γ是折扣因子,方括號內表示的是TD誤差。強化學習由於其優秀的決策能力在人工智慧領域也得到了廣泛應用,代表工作TD-Gammon。
  • 深度強化學習算法與應用研究現狀綜述
    概述了基於值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,並綜述了深度強化學習在視頻遊戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最後,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
  • 強化學習應用簡述
    線性組合的係數則需要由學習算法確定。我們也可以用非線性函數近似,尤其是使用深度神經元網絡,也就是最近流行的深度學習所用的網絡結構。如果把深度學習和強化學習結合起來,用深度神經元網絡來表達狀態、值函數、策略、模型等,我們就得到了深度強化學習(deep reinforcement learning, deep RL)。這裡深度神經元網絡的參數需要由學習算法來確定。
  • 強化學習應用簡介
    線性組合的係數則需要由學習算法確定。我們也可以用非線性函數近似,尤其是使用深度神經元網絡,也就是最近流行的深度學習所用的網絡結構。如果把深度學習和強化學習結合起來,用深度神經元網絡來表達狀態、值函數、策略、模型等,我們就得到了深度強化學習(deep reinforcement learning, deep RL)。這裡深度神經元網絡的參數需要由學習算法來確定。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    看似深度強化學習和人類的學習方式完全不同:有人認為,這種差異在於二者的樣本效率(學習系統達到任何選定目標性能水平所需的數據量)。基於這一標準,一代 Deep RL 確實與人類學習者有著極大的不同。為了在 Atari 遊戲或西洋棋等任務中獲得專業人士級表現,深度強化學習系統需要比人類多幾個數量級的訓練數據。
  • DeepMind推出深度學習與強化學習進階課程(附視頻)
    涉及的應用領域包括目標識別和自然語言處理。第一課視頻截圖深度強化學習部分介紹了馬爾科夫決策過程、動態規劃、無模型預測與控制、值函數近似、策略梯度方法、學習與規劃整合、探索/利用困境等。涉及的應用領域包括學習玩經典棋盤遊戲或電子遊戲等。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    當這一擔憂被帶到深度強化學習第一波浪潮時,後續的 AI 工作創建了一些方法,允許深度 RL 系統更快、更高效地學習。兩種有趣且有前景的技術分別是 episodic memory 和元學習。除了作為 AI 技術以外,利用 episodic memory 和元學習的深度 RL 方法還在心理學和神經科學上有直接且有趣的應用。
  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    ,即大腦也應用了這種算法。自從 2013 年以來,深度強化學習開始受到關注:在強化學習中使用深度神經網絡來學習更強的表示,使強化學習算法解決了精巧性和實用度等問題。分布式強化學習是一種能讓神經網絡更好地進行強化學習的算法之一。在許多的情況下,尤其是很多現實情況中,未來獎勵的結果實際上是依據某個特定的行為而不是一個完全已知的量進行的預測,它具有一定的隨機性。
  • 深度強化學習——從DQN到DDPG
    隨後,同樣是DeepMind提出的DDPG,則可以解決有著高維或者說連續動作空間的情境。它包含一個策略網絡用來生成動作,一個價值網絡用來評判動作的好壞,並吸取DQN的成功經驗,同樣使用了樣本池和固定目標網絡,是一種結合了深度網絡的Actor-Critic方法。一、強化學習
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • DeepMind開源了強化學習庫「松露」,團隊自身也嚴重依賴它
    思路是模塊化,強調靈活度:如果把造智能體想像成搭積木,許多關鍵的、常用的木塊都在這裡集合了:比如,DQN (深度Q網絡) 、DDPG (深度確定策略梯度),以及IMPALA (重要性加權演員學習者架構)
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • DDPG:針對連續動作空間的深度強化學習方法
    為了有效解決上述問題,深度強化學習有效的將強化學習的決策優勢和深度學習的強大表徵能力相結合,如圖3所示,使用強化學習定義問題和優化目標,使用深度學習來求解策略函數或者價值函數,在很多任務上均取得了巨大的成功。
  • NIPS2019 | 深度強化學習重點論文解讀
    這一觀察結果使我們能夠引入Deep Reinforcement Learning算法的自然擴展來解決大規模BMDP問題,並在口語對話和自動駕駛兩個模擬應用上驗證了方法: 其次,將無約束的政策空間視為混合神經和程序化表示,這使得能夠採用最先進的深度政策梯度方法。第三,通過模仿學習將投射步驟作為程序綜合,並利用當代組合方法完成這項任務。最後提出了IPPG的理論收斂結果,以及三個連續控制域的經驗評估。實驗表明,IPPG可以明顯優於現有技術
  • 強化學習基礎-對偶梯度上升
    接下來,我們將應用梯度上升來更新 λ 以便最大化g。 g的梯度是: 可視化 讓我們想像一下這個算法是如何工作的。 想要繼續查看該篇文章相關連結和參考文獻? 長按連結點擊打開或點擊【強化學習基礎:對偶梯度上升】: https://ai.yanxishe.com/page/TextTranslation/1427 AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網 盤點圖像分類的竅門動態編程:
  • 深度強化學習------入門總結
    強化學習(Reinforcement learning,RL)是機器學習的一個分支,並且有著跟監督學習、無監督學習完全不同的機制。在強化學習中,智能體(agent)與環境的交互中根據獲得的獎勵或懲罰不斷的學習知識,更加適應環境,是機器學習裡面最類似人類學習過程的一個模型。
  • ICLR 2018 DeepMind論文精華一覽
    我們開發了兩種離策略(off-policy)算法,並證明它們可與深度強化學習中的最新技術展開競爭。我們的方法在樣本效率、早熟收斂以及對超參數設置的魯棒性方面優於現有方法。我們的主要貢獻是用於分層策略的熵正則化策略梯度公式,以及基於隨機值梯度的離策略梯度算法。我們將證明我們的方法可有效地應用在幾種模擬機器人操作任務上。
  • 資源 | UC Berkeley CS 294深度強化學習課程(附視頻、學習資料)
    本文主要介紹了課程中的強化學習主題,涉及深度強化學習的基本理論與前沿挑戰。CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。該課程為各位讀者提供了強化學習的進階資源,且廣泛涉及深度強化學習的基本理論與前沿挑戰。本文介紹了該課程主要討論的強化學習主題,讀者可根據興趣愛好與背景知識選擇不同部分的課程。
  • NeurIPS論文解讀|強化學習與自動機器學習(文末贈書)
    在深度強化學習問題中,策略優化方法需要處理函數近似以及離線數據的使用問題。常用的策略梯度算法不能很好地處理離線數據,導致過早收斂和不穩定等問題。這篇論文介紹了在重複使用離線數據時能穩定策略優化訓練的方法。主要思想是引入現有的策略和產生離線數據的行為策略之間的Bregman散度來保證安全的策略更新。
  • 【強基固本】深度強化學習(Deep Reinforcement Learning)入門
    地址:https://www.zhihu.com/people/huaqingsong過去的一段時間在深度強化學習領域投入了不少精力,工作中也在應用DRL解決業務問題。子曰:溫故而知新,在進一步深入研究和應用DRL前,階段性的整理下相關知識點。