如何解決稀疏獎勵下的強化學習?

2020-11-25 澎湃新聞

原創 Synced 機器之心

機器之心分析師網絡

作者：仵冀穎

編輯：Joni Zhong

如何解決稀疏獎勵下的強化學習？本文將介紹常用方法以及相關論文。

強化學習（Reinforcement Learning，RL）是實現強人工智慧的方法之一，在智能體（Agent）與環境的交互過程中，通過學習策略（Policy）以最大化回報或實現特定的目標。在實際應用場景中，RL 面臨一個重要的問題：agent 無法得到足夠多的、有效的獎勵（Reward），或者說 agent 得到的是稀疏獎勵（Sparse Reward），進而導致 agent 學習緩慢甚至無法進行有效學習。

然而對於人類來說，即便在稀疏獎勵的狀態下仍然能夠持續學習。人類的學習也可以看做是內在動機和外在動機激勵下的學習過程，關於內在動機和外在動機的激勵機器之心也有過專門介紹，感興趣的讀者可以具體看一下。

人類在日常生活中其實每天能夠收穫的獎勵很少，但是也在持續的學習，改進自己的知識和能力，我們當然希望 agent 也能如此，也能夠在得到稀疏獎勵的情況下持續的進行有益的學習。本文重點探討的就是在存在稀疏獎勵的情況下引導 agent 繼續學習或探索的強化學習問題。

目前解決稀疏獎勵下的強化學習主要有兩類方法：一是，利用數據改進 agent 的學習，包括已有數據、外部數據等；二是，改進模型，提升模型在大狀態、大動作空間下處理複雜問題的能力。具體的，利用數據改進 agent 學習的方法包括好奇心驅動（Curiosity Driven）、獎勵重塑（Reward Shaping）、模仿學習（Imitation Learning）、課程學習（Curriculum Learning）等等。改進模型的方法主要是執行分層強化學習（Hierarchical Reinforcement Learning），使用多層次的結構分別學習不同層次的策略來提高模型解決複雜問題的能力，以及元學習（Meta-Learning）的方法。

本文針對每一類方法選擇了一篇近兩年的文章進行示例性介紹，以了解稀疏獎勵下的強化學習的最新研究進展。

一、利用數據改進 agent 的學習

1. 好奇心驅動（Curiosity Driven）

論文：Episodic Curiosity through Reachability

論文地址：https://arxiv.org/pdf/1810.02274.pdf

本文是 Google、Deepmind 和蘇黎世聯邦理工學院的研究人員提出「好奇心驅動」的強化學習新方法，發表在 ICLR 2019 中。該方法改變了 agent「好奇心」的生成方式和獎勵機制，將 agent 對環境信息觀察的記憶信息引入獎勵機制中，有效降低了 agent「原地兜圈」、「拖延」等不良行為，提升了強化學習模型的性能。

本文引入「好奇心（Curiosity）」的基本思路是：只對那些需要花費一定努力才能達到的結果給予獎勵（這部分結果一定是在已經探索過的環境部分之外）。以探索環境所需要的步驟數量來衡量這些努力。為了估計步驟數量，本文訓練了一個神經網絡近似器：給定兩個觀測值，預測將它們分開需要執行多少步。圖 1 給出了通過可達性（Reachability）來說明行動的新穎性（Novelty）的概念。圖中的節點是觀測值，邊是可能的轉換。藍色的節點已經在記憶內存中，綠色的節點可以在 k=2 步內從記憶內存中到達（不新穎），橙色的節點距離較遠—需要超過 k 步才能到達（新穎）。

本文方法的工作原理如下。Agent 在一個周期（Episode）開始時從一個空的記憶內存開始，在每一步都將當前觀察結果與記憶中的觀察結果進行比較，以通過可達性來確定新穎性。如果當前觀察確實是新穎的，即從記憶中的觀察到達到閾值需要更多的步驟，則 agent 會獎勵自己並將當前觀察添加到記憶內存中。這個過程一直持續到當前周期結束，且將內存清空。

圖 1. 通過可達性來定義新穎性

1.1 周期好奇性（Episodic Curiosity）

本文討論的 agent 在有限的持續時間 T 的周期內以離散時間步長與環境進行交互。在 t 時刻，基於觀察環境空間 O，環境提供給 agent 一個觀察值 o_t，以概率策略π(o_t)從一系列動作 A 中採樣到動作 a_t，同時收穫獎勵 r_t、新的觀察結果 o_t+1 以及周期結束的標識。agent 的目標是優化獎勵的加權組合期望。

在存在稀疏獎勵 r_t 的情況下，本文引入一個周期好奇性（Episodic Curiosity，EC）模塊。EC 模塊的目的是在生成獎勵 r_t 的同時生成一個獎勵紅利：b，從而得到增強獎勵：

從 RL 的角度分析，該增強獎勵是一個密集獎勵（Dense Reward）。在這樣的密集獎勵下學習，速度更快、更穩定，往往能獲得更好的最終任務累積獎勵 S。

EC 模塊的輸入是當前的環境 o，輸出為獎勵紅利 b。EC 模塊包括參數組件和非參數組件。其中，參數組件包括一個嵌入網絡 E 和一個比較網絡 C。E 和 C 同時訓練以預測可達網絡，具體見圖 2。

圖 2. 左：可達（R）網絡架構。右圖：R 網絡內部結構。R 網絡是根據 agent 在行動中遇到的一系列觀察結果進行訓練的。

此外，圖 2 中的 EC 模塊中還包括兩個非參數組件：一個周期性一個記憶緩衝區 M 和一個獎勵紅利估計函數 B。完整的 EC 模塊見圖 3。該模塊將當前的觀測值作為輸入，並計算出一個獎勵紅利。對於新的觀測值，該獎勵紅利會更高。這個紅利隨後與任務獎勵相加，用於訓練 RL 的 agent。

圖 3. 利用 EC 模塊進行獎勵紅利計算

嵌入網絡和比較器網絡（Embedding and comparator networks）。這兩個網絡被設計成共同作用於估計一個觀測值 o_i 從另一個觀測值 o_j 作為可達性網絡的一部分的在 k 步內可到達的情況：

R 網絡是一個用邏輯回歸來作為訓練損失（logistic regression lost）的分類器網絡：如果兩個觀測值在 k 步內可以相互到達的概率低，它預測的值接近於 0。當這個概率高時，它預測的值接近於 1。在周期好奇性裡面，這兩個網絡是分開使用的，以節省計算和內存。

周期性記憶（Episodic memory）。記憶緩衝區 M 存儲了使用嵌入網絡 E 計算得到的當前事件中過去觀測值的嵌入，記憶緩衝區的容量 K 有限，以避免內存和性能問題。每一個計算步驟中，當前觀察的嵌入可能會被添加到內存中。超出容量時怎麼辦？作者發現一個在實踐中行之有效的解決方案是用當前元素替換內存中的隨機元素。這樣一來，內存中的新元素仍然比舊元素多，但舊元素並沒有被完全忽略。

獎勵紅利估算模塊（Reward bonus estimation module）。該模塊的目的是檢查內存中是否有可達到的觀測值，如果沒有發現，則為當前時間步長分配更大的獎勵紅利。該檢查是通過比較器網絡將內存中的嵌入與當前嵌入進行比較。本質上，這種檢查保證了在內存中沒有任何觀測值可以通過從當前狀態中只採取幾個動作來達到，這也是本文對新穎性（Novelty）的描述。

在計算紅利的算法中，比較器網絡使用下列數值填充可達性緩衝區：

其中，e 是記憶緩存中的嵌入值。然後，從可達性緩衝區計算出內存緩衝區和當前嵌入的相似度分數為：

其中，F 為聚合函數。理論上，F=max 是一個很好的選擇，然而，在實踐中，它很容易出現來自參數嵌入和比較器網絡的離群值。本文發現以 90% 作為最大值的穩健替代效果很好。

計算好奇性紅利如下：

其中，參數 α 的選擇取決於任務獎勵的尺度，參數β決定了獎勵信號，一般 β=0.5 適合於固定周期，β=1 適合於周期長度變化的場景。

當計算得到的紅利 b 大於預先確定的閾值，將 b 增加到內存中。引入閾值檢查的原因是，如果每一個觀測嵌入都被添加到內存緩衝區，那麼當前步驟的觀測總是可以從上一步到達。因此，獎勵將永遠不會被授予。最後，本文還探索了訓練可達性網絡的兩種設置：使用隨機策略和與任務解決策略一起使用（在線訓練）。

1.2 實驗分析

本文在不同的環境中驗證了所提出的方法，包括 VizDoom，DMLab 和 MuJoCo。VizDoom 中的實驗驗證了本文能夠正確復現之前最先進的好奇心方法 ICM（Pathak 等人，2017）[1]。DMLab 中的實驗能夠廣泛測試本文方法的泛化性能以及其它基線算法—DMLab 提供了方便的程序級生成功能，使作者能夠在數百個級別上訓練和測試 RL 方法。最後，在 MuJoCo 中的實驗展示了本文方法的通用性。三種環境下的任務見圖 4。

圖 4. 實驗中考慮的任務實例。(a)VizDoom 靜態迷宮目標，(b)DMLab 隨機迷宮目標，(c)DMLab 鑰匙門謎題，(d)MuJoCo 第一人稱視角的好奇心螞蟻運動。

本文使用的對比基線算法包括經典的開源 RL 算法 PPO（https://github.com/openai/baselines），引入 ICM 的 PPO（PPO+ICM）[4]以及 PPO+Grid Oracle。PPO+Grid Oracle 方法的理念是：由於我們可以訪問 agent 在所有環境中的當前 (x; y) 坐標，我們也能夠直接將世界分解為 2D 單元（2D cells），並獎勵 agent 在周期中訪問儘可能多的單元（獎勵紅利與訪問的單元數量成正比）。在一個周期結束時，單元格訪問次數歸零。

圖 5. 任務獎勵作為 VizDoom 任務訓練步驟的函數（越高越好）。

圖 5 給出了將任務獎勵作為 VizDoom 任務訓練步驟的函數變化曲線。通過分析，作者得出以下幾點結論。首先，本文對 PPO+ICM 基線算法的復現是正確的，結果符合文獻[4]。其次，本文方法在最終性能上與 PPO+ICM 基線不相上下，三個子任務的成功率都很快達到 100%。最後，在收斂速度方面，本文算法明顯快於 PPO+ICM—本文方法達到 100% 成功率與 PPO+ICM 相比至少快 2 倍。

圖 6. 任務獎勵作為 DMLab 任務訓練步驟的函數（越高越好）。

圖 6 給出了將任務獎勵作為 DMLab 任務訓練步驟的函數變化曲線。這個實驗旨在評估大規模的迷宮目標任務的泛化性能。作者在數百個關卡上進行訓練，同時也在數百個保持關卡上進行測試。作者在 DMLab 模擬器中使用「探索目標位置大」（表示為「Sparse」）和「探索障礙目標大」（表示為「Sparse+Doors」）級別。在這些關卡中，agent 從隨機生成的迷宮中的一個隨機位置開始（布局和紋理在周期開始時都是隨機的）。在 1800 步 4 次重複的時間限制內（相當於 2 分鐘），agent 必須儘可能多次地達到目標。每到達一個目標，它就會被重置到迷宮中的另一個隨機位置，並必須再次前往目標。每次達到目標，agent 就會獲得獎勵 + 10，其餘時間獎勵為 0。

作者發現，即使對於普通的 PPO 算法來說，標準任務「Sparse」其實也是相對容易完成的。原因是 agent 的起點和目標在地圖上的採樣是相互獨立的，例如有時兩者恰好在同一個房間，這就簡化了任務。由圖 6，在使用 20M 4 重複步數的相同環境交互的情況下，本文方法在三個環境中的表現都優於基線方法 PPO+ICM。「Sparse」環境相對簡單，所有方法都能合理的完成目標任務。在「Very Sparse」和「Sparse+Doors」的環境下，本文方法相對於 PPO 和 PPO+ICM 的優勢更加明顯。

在 MuJoCo 實驗中，通過引入 EC 模塊，MuJoCo 螞蟻學會了基於第一人稱視角的好奇心移動。標準的 MuJoCo 環境是一個帶有統一或重複紋理的平面—沒有什麼視覺上的好奇心。為了解決這個問題，作者將 400x400 的地板鋪成 4x4 大小的方塊。每個周期開始時，都會從一組 190 個紋理中隨機分配一個紋理給每塊方塊。螞蟻在 400x400 的地板的中間的 200x200 的範圍內隨機初始化一個位置。一個周期持續 1000 步。如果螞蟻質量中心的 z 坐標高於 1.0 或低於 0.2，則周期提前結束（即滿足標準終止條件）。為了計算好奇心獎勵，作者只使用安裝在螞蟻上的第一人稱視角攝像頭（這樣就可以使用與 VizDoom 和 DMLab 中相同架構的好奇心模塊）。

此外，作者還進行了一個實驗，任務獎勵極其稀少 -- 稱之為「Escape Circle」。獎勵的發放方式如下：在半徑為 10 的圓圈內獎勵為 0，從 10 開始，每當 agent 通過半徑為 10+0.5k 的同心圓時，給予一次性獎勵 1。最終的實驗結果見表 1。本文方法明顯優於基線（優於最佳基線 10 倍）。

表 1. MuJoCo 螞蟻學習運動

1.3 文章小結

本文提出了一種基於周期性記憶內存和可達性思想的新的好奇心模塊，利用「好奇心」的概念本質上拓展了強化學習中的獎勵（reward）。而且作者表示引入該模塊的方法效果遠超已有的方法。在今後的工作中，作者希望讓 RL 的策略（Policy）能夠不僅是通過獎勵（Reward）來意識到記憶，而是通過行動（Action）。作者設想，是否能在測試時間內，利用基於可達性檢索的記憶內容來指導探索行為？這將為小樣本環境下（few-shot）新任務的探索和完成提供新的研究方向。

2. 獎勵重塑（Reward Shaping）

論文：Reward-Free Exploration for Reinforcement Learning

論文地址：https://arxiv.org/pdf/2002.02794.pdf

本文是最新的關於獎勵重塑方法的文章，它將強化學習分為兩個階段：探索階段（exploration phase）和規劃求解（planning phase）階段。其中，在探索階段不接受任何獎勵信息，只是在狀態空間上探索並得到一個探索性的策略，執行該策略得到數據集；在規劃階段，對於任意一個給定的獎勵函數，利用數據集估計出來的遷移函數（Transition Function），應用標準的強化學習方法求解策略。

本文工作最主要的技術挑戰是處理那些難以到達的狀態環境。在這種情況下，由於無法到達這些狀態環境進行數據收集，很難學習到準確度較高的轉移算子（Transition operator）。令λ(s)表示遵循任意策略訪問狀態 s 的最大概率，本文關注的問題是將狀態空間劃分為兩組：（1） λ(s)較小的、對獎勵優化共享極小的狀態，以及（2）其它所有的狀態。作者引入了一種嚴格的分析方法，使得能夠完全「忽略」難以訪問的狀態，只要求以概率比例 λ(s) 訪問其餘的狀態。

本文是一篇重點闡述數學理論分析和證明的文章。我們對算法的主體進行了了解，關於數學證明相關的具體內容，感興趣的讀者可閱讀文獻原文。

2.1 算法分析

本文提出的方法包括如下步驟：（1）學習到一個策略ψ，允許以合理的概率訪問所有「重要」的狀態；（2）通過執行策略ψ收集到足夠多的數據；（3）使用收集到的數據計算經驗轉移矩陣；（4）對於每個獎勵函數 r，利用轉移矩陣和獎勵 r 激活規划算法找到近似最優的策略。其中，探索階段執行前兩個步驟，規劃求解階段執行後兩個步驟。

探索的目標是訪問所有可能的狀態，以便 agent 能夠收集足夠的信息，以便最終找到最優策略。然而，在馬爾可夫決策過程（Markov decision process, MDP）中，無論 agent 採取何種策略，都有可能出現某些狀態很難達到的情況。首先，圖 1 給出了「重要」狀態的概念。圖 1 中共 5 個狀態，s0 為初始狀態。agent 僅能從 s0 遷移到其它狀態，無論 agent 採取什麼動作其它狀態都會消失，也就是都會產生狀態轉移。對於狀態 s0，使用藍色箭頭表示如果採取 a1 行動時的過渡，用紅色箭頭表示如果採取 a2 行動時的過渡。行動後箭頭上的數字是過渡概率。在這個例子中，s4 是不重要的，因為它永遠不可能達到。

圖 1. 重要狀態示意圖

作者在文章中證明了利用算法 2，可以從底層分布μ中收集數據。也就是說，所有重要的狀態和動作都會以合理的概率被μ分布所訪問。對於步驟 h 的每一個狀態 s，算法 2 首先創建一個獎勵函數 r，除了步驟 h 的狀態 s 之外，這個獎勵函數 r 始終為零，然後當 agent 與環境交互時，可以適當地給這個設計好的獎勵 r 來模擬一個標準的 MDP。這個獎勵 r 的 MDP 的最優策略正是最大化到達（s，h）的概率的策略。本文使用 Euler 算法逼近這個最優政策 [5]。

在規劃階段，賦予 agent 獎勵函數 r，並根據 r 和探索階段收集的數據集 D 找到一個接近最優的策略。具體見算法 3。作者在文章中證明了只要探索階段收集的數據數量足夠多，輸出策略不僅是具有過渡矩陣的估計 MDP 的近優策略，也是真正 MDP 的近優策略。

2.2 文章小結

作者在文章中真對這一算法給出了大量數學證明，感興趣的讀者可以閱讀原文。文章最後，作者對未來的研究方向進行了展望。作者認為，在技術層面上，一個有趣的研究方向是理解無獎勵 RL 的樣本複雜度，其預先指定的獎勵函數在探索階段是不可觀察的。另一個有趣的方向是為具有函數逼近的設置設計無獎勵的 RL 算法。本文的工作突出並引入了一些在函數逼近環境中可能有用的機制，例如重要狀態的概念和覆蓋保證。未來研究將重點關注如何將這些概念推廣到函數逼近的環境中。

3. 模仿學習（Imitation Learning）

論文：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

論文地址：https://arxiv.org/abs/1905.11108v3

本文是對強化學習中行為克隆（Behavioral Cloning，BC)方法的改進，最新接收於 ICLR2020。本文使用了一個簡單、穩定的獎勵：將與示範狀態下的示範動作相匹配的動作獎勵 + 1，而其它動作獎勵為 0，引入 Soft-Q-Learning 算法，提出了適用於高維、連續、動態環境的模仿學習算法。

基於行為克隆的標準方法是利用監督學習來貪婪地模仿演示的動作，而不推理動作的後果。由此產生的複合錯誤可能會導致 agent 逐漸偏離了所演示的狀態。因此，行為克隆面對的最大問題是，當 agent 偏離到標準分布之外的狀態時，agent 不知道如何回到所標準的演示狀態。

為了解決這個問題，該論文利用生成對抗網絡（generative adversarial imitation learning，GAIL）引入行為克隆的基本思想就是訓練 agent 不僅要模仿演示的動作，而且要訪問演示的狀態。

直觀地講，對抗式方法通過為 agent 提供（1）在演示狀態下模仿演示行動的激勵，以及（2）在遇到新的、分布外的狀態時採取引導其回到演示狀態的行動的激勵來鼓勵長時段的模仿（Long-horizon imitation）。本文所提出的方法是在不進行對抗性訓練的情況下實現 (1) 和(2)，即使用恆定的獎勵（Constant Reward）代替學習的獎勵。

3.1 方法描述

本文使用 Soft-Q Learning（SQIL）來實例化方法[6]，使用專家演示來初始化代理的經驗記憶緩存區，在演示經驗中設置獎勵為常數 r=+1，在 agent 與環境交互時收集的所有新經驗中設置獎勵為常數 r=0。此外，由於 SQIL 並沒有採取策略強化型學習，所以 agent 不一定要訪問演示狀態才能獲得積極的獎勵。相反，agent 可以通過重播最初添加到其經驗記憶緩存區中的演示來獲得積極獎勵。因此，SQIL 可以用於高維、連續的隨機環境中。具體 SQIL 的算法流程見算法 1：

其中 δ^2 計算公式為：

δ^2 表示平方軟貝爾曼誤差（soft Bellman error），Q_θ表示 Soft Q 函數。r 為不依賴於狀態或動作的常數。作者在文章中證明了 SQIL 相當於行為克隆的一種變體，它使用正則化來克服狀態分布的轉變。SQIL 相當於在行為克隆的基礎上增加了一個正則化項，將狀態轉換為動態信息納入到模仿策略中，從而實現長時段模仿。作者對這個觀點進行了進一步證明：

在具有連續狀態空間 S 和離散行動空間 A 的無限邊際馬爾科夫決策過程 (infinite-horizon Markov Decision Process，MDP) 中，假設專家遵循的政策 Π 能夠最大化獎勵 R(s；a)。政策 Π 形成基於動作 actions 的波茨曼分布（Boltzmann distribution）

其中，Q 表示 Soft Q 函數，給定軟貝爾曼誤差，Q 值為獎勵和動態變化的函數值：

在本文的的模仿任務環境（imitation setting）中，獎勵和動態變化都是未知的。專家通過在環境中推演政策並產生狀態轉換（s,a,s』）∈D_demo，生成一組固定的演示 D_demo。

用標準行為克隆訓練模仿策略，相當於擬合一個參數模型，使負對數似然損失最小化：

本文使用一個 Soft Q 函數 Q_θ來表示政策，而不直接顯式地對政策進行建模：

由此，可以通過最大似然目標函數訓練 Q_θ：

3.2 實驗分析

本文在四個基於圖像的遊戲—賽車（Car Racing）、Pong、Breakout 和太空入侵者（Space Invaders）—以及三個基於狀態的任務—Humanoid、HalfCheetah 和 Lunar Lander 上對 SQIL 與基線算法 BC 和 GAIL 進行了實驗。

表 1 中的結果顯示，當初始狀態沒有變化時，SQIL 和行為克隆（BC）的表現同樣好。該任務非常簡單，即使 BC 也能獲得高額獎勵。在無擾動條件下（右列），儘管 BC 有眾所周知的缺點，但 BC 的表現仍大幅超過 GAIL。這表明 GAIL 中的對抗式優化會大幅阻礙學習。當從 S_0^train 開始時，SQIL 的表現比 BC 好得多，表明 SQIL 能夠泛化到新的初始狀態分布，而 BC 不能。

表 1. 訓練後 100 集的平均獎勵

圖 1. 基於圖像的任務結果

圖 1 給出了幾個基於圖像的任務結果。圖 1 中的結果顯示，SQIL 在 Pong、Breakout 和 Space Invaders 上的表現優於 BC。BC 存在複合誤差，而 SQIL 則沒有。

圖 2 給出在低維 MuJoCo 中實現連續控制的 SQIL 實例。這個 SQIL 的實例與 MuJoCo 的 Humanoid（17 DoF）和 HalfCheetah（6 DoF）任務的 GAIL 進行了比較。結果顯示，SQIL 在這兩個任務上的表現都優於 BC，並且與 GAIL 的表現相當，這說明 SQIL 可以成功地部署在具有連續動作的問題上，並且 SQIL 即使在少量演示的情況下也能表現良好。

圖 2. SQIL：連續 10 次訓練的最佳表現

3.3 文章小結

本文作者在文章的結論部分對 SQIL 的工作進行了小結。作者表示，本文尚未證明 SQIL 是否與專家的狀態佔有率相匹配，作者未來工作的將會嘗試驗證 SQIL 是否具有這一特性。此外，後續研究的另一個方向是使用 SQIL 來恢復獎勵函數。例如，通過使用一個參數化的獎勵函數，以軟貝爾曼誤差項來模擬獎勵，而不是使用恆定獎勵。這可以為現有的對抗式逆增強學習（inverse Reinforcement Learning， IRL）算法提供一個更簡單的替代方案。

4. 課程學習（Curriculum Learning）

論文：Automated curricula through setter-solver interactions

論文地址：https://arxiv.org/pdf/1909.12892.pdf

課程學習是一種從簡單概念到複雜問題逐步學習的方法，1993 年，RNN 的鼻祖 Jeffrey Elman 首次提出了採用課程學習的方式來訓練神經網絡。在他的文章中[1]，Jeffrey Elman 說到「人類在許多方面與其他物種不同，但有兩個方面特別值得注意：人類具有超乎尋常的學習能力，以及，人類達到成熟所需的時間特別長。人類學習的適應性優勢是明顯的，可以說，學習為行為的非遺傳性傳承創造了基礎，這可能會加速我們物種的進化。」

本文是 ICLR 2020 中的一篇文章。文章將課程學習模擬人類教育依賴於課程的概念，通過將任務分解為更簡單、靜態的挑戰，並給予密集的獎勵，從而建立起複雜的行為。雖然課程對 agent 也很有用，但手工製作課程很耗時。本文探索在豐富的動態環境中自動生成課程。利用設定者 - 求解者（setter-solver）範式，展示了考慮目標有效性、目標可行性和目標覆蓋率對構建有用課程的重要性。

4.1 方法描述

本文模型由三個主要部分組成：解算器（Solver） - 用來訓練的目標條件 agent；設定器（Setter，S）—用來為 agent 生成目標課程的生成模型；判斷器（Judge，J）—可以預測 agent 目前目標可行性的判別模型。訓練機制見圖 1。解算器 agent 使用分布式學習設置對設置者生成的目標進行訓練，以計算策略梯度。對於設定器訓練來說，有三個概念很重要：目標有效性、目標可行性和目標覆蓋率。如果存在一個解算器 agent 策略，它實現這個目標的概率是非零，則稱這個目標是有效的。這個概念與解算器的現行政策無關。可行性表達了目標目前是否可以由解算器實現。具體來說，如果解算器實現目標的概率為 f，則稱該目標具有可行性 f∈[0,1]。因此，可行性目標的集合將隨著解算器的學習而演變。判斷器是一個可行性的學習模型，通過監督學習對解算器的結果進行訓練。最後，目標覆蓋率表示設定器產生的目標的可變性（熵）。

圖 1. 訓練機制

4.1.1 解算器（Solver）的獎勵和損失

在每個周期開始時，agent 會收到一個由設定器採樣的目標 g，並在周期結束時獲得一個單一的獎勵 R_g。如果解算器實現了目標，則獎勵 R_g 為 1，如果在固定的最大時間後沒有實現目標，則獎勵 R_g 為 0。可以用任何 RL 算法來訓練該解算器。

4.1.2 判斷器（Judge）的損失

判斷器被訓練成一個二元分類器來預測獎勵。本文使用交叉熵損失函數來訓練判斷器，輸入分布則由設定器定義，標籤是通過在這些目標上測試解算器獲得的：

4.1.3 設定器（Setter）的損失

本文為設定器定義了三種損失，體現了目標有效性、可行性和覆蓋率的概念。

有效性（Validity）：描述為能夠增加設定器生成解算器已經實現的目標的概率的生成性損失，具體為：

其中，g 是解算器實現的目標中的樣本，不管它在該周期中的任務是什麼。ξ 是少量的噪聲，以避免過度擬合。p() 表示在固定的高斯先驗知識下對 S 的潛在狀態進行抽樣的概率。

可行性（Feasibility）：描述鼓勵設定器選擇與判斷器當前對解算器的可行性估計最為匹配的目標的損失，具體為：

該損失均勻地採樣一個期望的可行性 f（以訓練設定器在一定難度範圍內提供目標），然後試圖使設定器產生判斷器評定為與該期望可行性相匹配的目標。

覆蓋率（Coverage）：描述鼓勵設定器選擇更加多樣化目標的損失。該損失有助於使設定器覆蓋儘可能多的目標空間。具體為：

該損失使設定器的條件熵的平均值最大化。設置器被訓練成使總損失最小化

4.2 實驗分析

本文所採用的實驗環境為：

（1）三維尋色（3D color finding）。一個用 Unity（http://unity3d.com）構建的半現實的 3D 環境，由一個包含彩色物體和家具的房間組成（圖 2a）。agent 可以移動和查看周圍的情況，並可以拿起、操作和放下物體。這就形成了一個複雜的 46 維行動空間。在每個周期開始時，物體和家具被隨機放置在房間周圍。agent 收到一種顏色（或一對顏色）作為目標，如果在其視圖中心的一個 patch（或兩個相鄰的 patch）包含接近這個目標的平均顏色，就會得到獎勵。本文還使用了這種環境的一個擴展版本，其中房間的牆壁、天花板和地板，以及所有的物體，都被程序化地重新著色成每個周期隨機選擇的兩種顏色之一（圖 2b）。

（2）網格世界的鍊金術（Grid-world alchemy）。二維網格世界環境，包含各種雙色物體（圖 2c）。每個周期對物體的顏色隨機取樣。解算器可以在網格中移動，並可以走過一個物體來拾取它。它一旦拿起一個物體，就無法放下。如果它已經攜帶了另一個對象，兩個對象將系統性地組合成一個新的對象。解算器接收一個目標對象作為輸入，如果它產生一個類似的對象，就會得到獎勵。

在每個實驗中，無論使用什麼設置器進行訓練，作者都在一個固定的任務測試分布上進行評估，以便在不同條件下有一個公平的比較。在這兩種環境中，有效任務的空間（可以由專家完成）在設定器可表達的任務空間中佔據很小的體積。

圖 2. 實驗環境

在複雜的任務環境中，通過基於難度的探索來發現期望的行為可能並不可行。一個任務可能有很多困難的方式，其中大部分與最終希望代理實現的目標無關。通過針對期望目標分布與期望目標損失，設定器可以推動解算器更高效地掌握期望任務（圖 3a）。作者首先在 3D 尋色環境中進行探索。實驗目標是 12 種亮色對的分布。在沒有設定器的情況下發現這些亮色對是非常困難的。因此，只對期望的分布進行訓練的結果是沒有學習。無目標的 setter-solver 設置最終可以學習這些任務。在鍊金術任務中，情況有些不同（圖 3b）。

本文實驗所選擇的分布是困難的任務：該分布包括了房間中一半的物體。然而，由於設定器面臨著學習條件生成分布（它是內置在期望分布中的）的困難挑戰，作者發現從期望分布中學習（如果有的話）會導致更早的學習。這也再次強調了學習生成目標的複雜性，特別是當有效的目標分布是以複雜的、非線性的方式存在於環境狀態中時。

圖 3. 在已知目標分布的情況下的理想目標分布。((b)和 (c) 的性能分別是過去 5000 次和 1000 次實驗的平均數)。

4.3 實驗結果

本文通過理論分析和實驗驗證了 setter-solver 方法的有效性，以及使其能夠在不同環境的複雜任務中工作的擴展。本文的工作是這一思想的起點，作者認為，本文概述的策略是一個非常有意義的研究方向，有希望能夠實現在日益複雜的任務中自動設計 agent 的學習課程。

二、改進模型

5. 分層強化學習（Hierarchical Reinforcement Learning）

論文：Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards

論文地址：https://papers.nips.cc/paper/8421-hierarchical-reinforcement-learning-with-advantage-based-auxiliary-rewards.pdf

本文為 NeurIPS 2019 中的一篇文章，主要介紹了一種分層強化學習的框架。

分層強化學習（Hierarchical Reinforcement Learning，HRL）是一種用於解決具有稀疏和延遲獎勵的長時段問題（Long-horizon problems）的有效方法。

本文提出了一個引入基於先進函數的輔助獎勵的 HRL 框架（HRL with Advantage function-based Auxiliary Rewards，HAAR），HAAR 能夠基於高層政策的優勢函數對低層技能訓練設置輔助獎勵。引入這種輔助獎勵，可以實現在不使用特定任務知識的情況下，高效、同步地學習高層政策和低層技能。

5.1 方法描述

圖 1. HAAR 示意圖

圖 1 給出了 HAAR 的工作流程。在 i 時刻，agent 的狀態(s_i)^h 採取了一個使用獨熱向量（one-hot vector）表徵的高層動作(a_i)^h。π_l 為使用動作 (a_i)^h 和狀態 (s_i)^l 作為輸入的神經網絡，輸出一個低層動作 (a_i)^l。不同的低層技能表示為 (a_i)^h 分別輸入到該神經網絡中。神經網絡 π_l 可以表徵低層技能。選中的低層技能執行 k 個步驟：

之後，高層政策輸出新的動作。高層獎勵(r_t)^h 為 k 個步驟的環境反饋累積值：

基於高層的先進函數的計算低層獎勵(r_t)^l。HAAR 的算法如下：

在每一輪迭代過程中，首先通過運行聯合策略 π_joint 對一批 T 個低層時間步長進行抽樣調查（算法 1 第五行）。之後，計算輔助獎勵 (r_t)^l 並替換環境反饋的獎勵 r_t（算法 1 第六行）。最後，利用可信區域政策優化（Trust Region Policy Optimization，TRPO）算法[7] 更新 π_h 和 π_l（算法 1 第七、八行）。

單靠稀疏的環境獎勵很難提供足夠的監督以使低層技能適應下遊任務。本文引入高層優勢函數（high-level advantage function）設置低層技能的輔助獎勵。針對狀態 (s_t)^h 的動作 (a_t)^h 的函數定義為：

為了鼓勵選定的低層技能能夠達到數值較大的狀態，本文將估計的高層優勢函數設置為對低層技能的輔助獎勵。

為了簡化計算，本文對優勢函數進行一步估算（one-step estimation）。由於低層的技能是任務無關的（task-agnostic）且不區分高層狀態，本文將總的輔助獎勵平均分配給每一個低層步長：

這種輔助獎勵功能的直觀解釋是，當技能的時間擴展執行將稀疏的環境獎勵快速備份到高層狀態時，可以利用高層值函數來指導低層技能的學習。此外，作者在文中還證明了 HAAR 保留了用於每一層級訓練的優化算法的單調性，並且單調地改進了聯合策略。

5.2 實驗分析

本文使用文獻 [8] 提出的基準分層任務進行實驗。實驗設計的觀察空間使得低層技能不受任務的限制，而高層的政策則儘可能的更具普遍性。低層只能訪問 agent 存儲在 s_l 中的關節角度。這種低層觀察的選擇需要在預訓練階段獲得最少的領域知識，這樣才能將技能成功遷移到不同的領域集合中。與其他 HRL 實驗不同，agent 無法訪問任何直接顯示其絕對坐標的信息（x、y 坐標或自頂向下的視圖，如 HRL 研究實驗中常用的那樣）。這使得本文實驗中的任務對 agent 來說更難，但缺可以減輕對環境的過度適應，並向 π_h 和 π_l 引入潛在的可遷移性。

圖 2 給出了本文實驗環境的圖示。其中，圖 2（a）為螞蟻迷宮（Ant Maze）。螞蟻到達如圖 2（a）所示的迷宮中的指定位置會得到獎勵，隨機化螞蟻的起始位置以獲得均勻的狀態採樣；圖 2（b）為遊泳者迷宮（Swimmer Maze）。遊泳者在如圖 2（b）所示的迷宮中到達目標位置時將獲得獎勵；圖 2（c）為螞蟻聚集（Ant Gather）。螞蟻因收集分布在有限區域的食物而受到獎勵，同時因觸碰炸彈而受到懲罰。

圖 2. 本文用的環境集合

作者使用幾個效果較好的 HRL 方法作為基線方法進行對比實驗，包括：SNN4HRL[9]、HAC[10]、HIRO[11]和非分層方法 TPRO[7]。

由圖 3 的實驗結果可以看出，HAAR 明顯優於其它基線方法。所有曲線的結果取超過 5 次的平均值，陰影誤差條表示 95% 的置信區間。SNN4HRL 在遊泳者迷宮任務中的成功率高於螞蟻迷宮任務，這是因為即使低層的技能沒有得到很好的調整，遊泳者也不會被絆倒。然而，在遊泳者迷宮中，HAAR 仍然優於 SNN4HRL。在不到 200 次迭代之後，HAAR 達到了幾乎 100% 的成功率。

螞蟻採集任務面臨的主要挑戰不是稀疏的獎勵，而是問題的複雜性，因為螞蟻採集任務中的獎勵比迷宮環境中的獎勵要密集得多。儘管如此，HAAR 仍然取得了比基準算法更好的結果。這表明，HAAR 雖然最初是為稀疏獎勵任務設計的，但也可以應用於其他場景。TRPO 本身是非層的，不適用於長時間稀疏獎勵問題。TRPO 在所有迷宮任務中的成功率幾乎為零。在螞蟻收集任務中，TRPO 的平均回報率有所上升，這是因為螞蟻機器人學會了保持靜止，而不會因為接收到死亡獎勵 - 10 而摔倒。

圖 3. 螞蟻迷宮、遊泳者迷宮和螞蟻聚集任務的成功率或平均回報率的學習曲線。

為了進一步展示 HAAR 與其他最先進的 HRL 方法相比是如何取得如此優異的性能，作者對上述實驗結果進行了更深入的研究。在圖 4 中，作者比較了螞蟻迷宮任務訓練前後的低層技能。在圖 4 中，（a）和（b）分別展示了在訓練前後收集的一批低層技能經驗。螞蟻總是在中心進行初始化，並使用單一技能在任意時間內行走。比較（b）和（a），我們注意到螞蟻學會了右轉（黃色的技能 1）和前進（紅色的技能 0），並且在（c）的迷宮任務中很好地利用了這兩種技能。

圖 4：（a）螞蟻初始低層技能的可視化圖，（b）螞蟻迷宮輔助獎勵訓練後的低層技能，（c）在螞蟻迷宮中用 HAAR 訓練螞蟻后的樣本軌跡。

5.3 文章小結

本文使用 TRPO 進行在線策略訓練，樣本效率不高，計算能力成為 HAAR 在非常複雜的環境下應用的主要瓶頸。將非政策性訓練與本文提出的層級結構結合起來可能有助於提高樣本效率。由於低層技能初始化方案對性能有著顯著的影響，探索低層技能初始化方案的最佳工作方式也是未來的研究方向。

6. 元學習（Meta-Learning）

論文：Learning to Generalize from Sparse and Underspecified Rewards

論文地址：https://arxiv.org/pdf/1902.07198.pdf

本文是 Google AI 最新發布的一篇文章。本文提出了一種元獎勵學習（Meta Reward Learning, MeRL）來解決未指定獎勵不足的問題。MeRL 通過優化輔助獎勵函數向 agent 提供更精細的反饋。MeRL 引入了一個用於保存成功軌跡（Successful trajectory）的記憶緩存，使用一種新的探索策略來學習稀疏獎勵。MeRL 在不使用任何專家演示的情況下自動學習輔助獎勵函數，使其能夠獲得更廣泛的應用，這有別於以往的獎勵學習方法（例如上一篇分析的文章）。

6.1 方法分析

本文重點研究語義分析中的弱監督問題，其目標是從問答對中自動發現邏輯程序，而不需要任何形式的程序監督。例如，給定一個問題「哪個國家獲得銀牌最多？」和一個相關的 Wikipedia 表，agent 需要能夠生成一個類似 SQL 的程序來得到正確的答案（即「Nigeria」）。

圖 1. 算法圖示

MeRL 在處理未指定獎勵時的思路是：實現意外成功的虛假軌跡和程序對 agent 的泛化性能是有害的。為了解決這一問題，MeRL 優化了一個更加複雜的輔助獎勵函數，該函數可以根據動作軌跡的特徵區分意外成功和有目的成功。通過元學習，在保持驗證集上最大化訓練代理的性能，優化輔助獎勵。圖 2 為 MeRL 的原理圖示。

圖 2. MeRL 原理圖：利用輔助獎勵模型得到的獎勵信號訓練 agent，利用 agent 的泛化誤差訓練輔助獎勵。

圖 2 表示，智能體在學習過程中應該能夠學習一個輔助的獎勵函數，這個函數是基於在一個保持有效的集合上（包括元學習獎勵、環境和智能體本身的獎勵）都能使用該獎勵函數訓練的良好的策略。換言之，我們希望學習到有助於政策更好地推廣的獎勵功能。

本文提出了兩種具體的方法來實現這一思想。(1) 基於基於梯度的 MetaLearning (MAML) (Finn et al., 2017)（算法 1）[2]（）；(2) 使用 BayesOpt (Snoek et al., 2012) 作為無梯度黑盒優化器（算法 2）[3]。使用經典 MAML 實現的方法記做 MeRL。作者將使用 BayesOpt 優化算法的方法記做（Bayesian Optimization Reward-Learning， BoRL）。

首先，我們來介紹 MeRL 方法。MeRL 的完整算法如下：

在 MeRL 的每次迭代中，同時更新策略參數 θ 和輔助獎勵參數 ϕ。訓練策略 π_θ 以最大化目標函數：

使用訓練數據集和輔助獎勵優化該目標函數，以使驗證數據集上的元訓練目標 O_val 最大化

MeRL 要求 O_val 可微。為了解決這個問題，本文只使用緩衝區(B_val)^+ 中包含 D_val 上下文成功軌跡的樣本來計算 O_val。由於無法訪問真實程序(ground truth programs)，在非交互環境中使用波束搜索（Beam Search）、在交互環境中使用貪婪解碼，使用未指定獎勵的訓練策略生成成功的軌跡。驗證目標是使用訓練目標上一個梯度步驟更新後獲得的策略計算的，因此，輔助獎勵通過更新的策略參數 θ' 影響驗證目標，如下所示：

其次，我們介紹 BoRL。BoRL 算法的完整流程如下：

在 BoRL 的每次實驗中，通過最大化使用驗證目標上的後驗分布計算的獲取函數來採樣輔助獎勵參數。在對獎勵參數進行採樣後，在固定迭代次數下優化訓練數據集上的 O_RER 目標。訓練結束後，在驗證數據集上評估策略，以更新後驗分布。BoRL 不要求驗證目標函數 O_val 相對於輔助獎勵參數是可微的，因此可以直接優化所關心的評價指標。

BoRL 比 MeRL 更具靈活性，因為可以使用 BoRL 優化驗證集中的任何不可微目標，但 MeRL 只能用於可微目標。BoRL 算法相對於 MeRL 算法的另一個優點是，與基於局部梯度的優化算法相比，它對獎勵參數進行全局優化。然而，由於可以訪問要優化的目標的梯度，MeRL 比 BoRL 在計算效率上要高得多。此外，MeRL 能夠在整個策略優化過程中適應輔助獎勵，而 BoRL 只能表達在策略優化過程中保持不變的獎勵函數。

6.2 實驗分析

作者在兩個弱監督語義分析基準任務 WIKITABLEQUESTIONS[12]和 WIKISQL[13]上評估了本文方法。用一個簡單的指令跟蹤環境進行實驗，這個環境是一個大小為 NxN 的簡單迷宮，迷宮中隨機分布著 K 個致命陷阱。位於迷宮四角之一的球門。具體如圖 3。向盲 agent 輸入一系列（左、右、上、下）指令。它勾勒出一條最優路徑，agent 可以通過該路徑達到目標而不被困住。如果 agent 在一定數量的步驟內成功達到目標，則它將獲得 1 的獎勵，否則為 0。

圖 3. 簡單迷宮中的指令

表 1. WIKITABLEQUESTIONS 上的結果

表 2. 在 WIKISQL 上只使用弱監督的結果

表 1 和表 2 分別給出了兩個基準任務上的實驗結果。對比算法包括 MAPO[14]以及 MAPOX（IML 的探測能力與 MAPO 的泛化能力相結合）。MeRL 在 WikiTableQuestions 和 WikiSQL 基準上的實驗分別比以前的工作提高了 1.2% 和 2.4%。通過執行更好的探索，MAPOX 在兩個數據集上的效果都優於 MAPO。此外，MeRL 和 BoRL 在 WIKITABLEQUESTIONS 中的效果都優於 MAPOX。

6.3 文章小結

設計區分最優和次優行為的獎勵函數對於將 RL 應用於實際應用是至關重要的。本文的研究朝著無需任何人監督的獎勵函數建模方向邁出了一小步。在以後的工作中，作者希望從自動學習密集獎勵函數的角度來解決 RL 中的信用分配問題。

三、本文總結

從本文選擇的幾篇文章可以看出，利用數據改進稀疏獎勵下 agent 學習的方法大多還是通過不同的方式改進或者引入新的獎勵。例如，對獎勵進行重塑（第二種方法）、設計新的獎勵模塊（第一種方法），以及引入新的獎勵學習的方法（第三種方法和第四種方法）等等。而直接改進模型的方法則是直接重新設計經典的 RL 學習模型或框架，例如將其改變為多層的結構（第五種方法）或引入元學習的理念（第六種方法）等等。

針對稀疏獎勵下的強化學習對於強化學習在工業場景中的實際應用有著重要意義，在不同的任務中應用哪種方法或哪些方法的組合可以獲得更好的效果，值得更加深入的研究和探索。

參考文獻

[1] Elman J L . Learning and development in neural networks: The importance of starting small[J]. Cognition, 1993, 48(1):71-99. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.128.4487&rep=rep1&type=pdf

[2] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning (ICML), 2017.

[3] Jasper Snoek, Hugo Larochelle, and Ryan Adams. Practical Bayesian optimization of machine learning algorithms. In NIPS, pages 2960–2968, 2012.

[4] Deepak Pathak, Pulkit Agrawal, Alexei A Efros, and Trevor Darrell. Curiosity-driven exploration by self-supervised prediction. In International Conference on Machine Learning (ICML), volume 2017, 2017.

[5] Andrea Zanette and Emma Brunskill. Tighter problem-dependent regret bounds in reinforcement learning

without domain knowledge using value function bounds. arXiv preprint arXiv:1901.00210, 2019.

[6] Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcement learning with deep energybased

policies. arXiv preprint arXiv:1702.08165, 2017.

[7] John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, and Pieter Abbeel. Trust region policy optimization. In ICML, 2015.

[8] Yan Duan, Xi Chen, Rein Houthooft, John Schulman, and Pieter Abbeel. Benchmarking deep reinforcement learning for continuous control. arXiv e-prints, page arXiv:1604.06778, Apr 2016.

[9] Carlos Florensa, Yan Duan, and Pieter Abbeel. Stochastic neural networks for hierarchical reinforcement learning. In Proceedings of The 34th International Conference on Machine Learning, 2017.

[10] Andrew Levy, George Konidaris, Robert Platt, and Kate Saenko. Learning multi-level hierarchies with hindsight. 2018.

[11] Ofir Nachum, Shixiang (Shane) Gu, Honglak Lee, and Sergey Levine. Data-efficient hierarchical reinforcement learning. In Advances in Neural Information Processing Systems 31, pages 3303–3313. 2018.

[12] Pasupat, P. and Liang, P. Compositional semantic parsing on semi-structured tables. ACL, 2015.

[13] Zhong, V., Xiong, C., and Socher, R. Seq2sql: Generating structured queries from natural language using reinforcement

learning. arXiv:1709.00103, 2017.

[14] Liang, C., Norouzi, M., Berant, J., Le, Q. V., and Lao, N. Memory augmented policy optimization for program

synthesis and semantic parsing. In Bengio, S., Wallach, H., Larochelle, H., Grauman, K., Cesa-Bianchi, N., and Garnett, R. (eds.), Advances in Neural Information Processing Systems 31, pp. 9994–10006. 2018.

分析師介紹：

本文作者為仵冀穎，工學博士，畢業於北京交通大學，曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理，現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺，愛好科研，希望能保持學習、不斷進步。

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡，已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家，利用自己的學業工作之餘的閒暇時間，通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識，並從中獲得了自身的能力成長、經驗積累及職業發展。