解讀72篇DeepMind深度強化學習論文

2021-02-22 深度強化學習實驗室

來源：王小惟的知乎https://zhuanlan.zhihu.com/p/70127847

編輯：DeepRL

論文下載方法：pdf合集下載見文章末尾

DRL領域交流與討論加微信：NeuronDance

關於DeepMind：

DeepMind，位於英國倫敦，是由人工智慧程序師兼神經科學家戴密斯·哈薩比斯(Demis Hassabis)等人聯合創立，是前沿的人工智慧企業，其將機器學習和系統神經科學的最先進技術結合起來，建立強大的通用學習算法。最初成果主要應用於模擬、電子商務、遊戲開發等商業領域。

目前，Google 旗下的 DeepMind 已經成為 AI 領域的明星，據外媒 2016年6月8日，DeepMind 欲將其算法應用到醫療保健行業，包括計劃在 5年內使用機器學習處理英國國家醫療服務體系。

本文對DeepMind公司幾年以來的72篇文章做了簡短的解讀，對涉及到的知識點進行了匯總，並且為各位愛好者提供了論文的pdf合集（72篇論文合集，通過文章末尾下載地址直接獲取）

2015-ICML-workshop-Massively Parallel Methods for Deep Reinforcement Learning

提出第一個用於深度強化學習的大規模分布式架構（Gorila），只是簡單地將DQN結合PS（Parameter server）來進行分布式地訓練。不停地用當前的DQN與環境進行交互，獲得experience（s，a，r，s'），然後存在buffer中；learner部分sample buffer中的experience，進行學習，並將參數update到parameter server中。

2015-NIPS-Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning

利用mutual information來幫助agent進行探索，但是以前常用的方法（Blahut-Arimoto algorithm）不適用，於是提出變分推理和DL，提供了一種可擴展優化互信息的新方法（一樣是轉化為lower bound然後再優化的）。（stochastic optimisation algorithm that allows for scalable information maximisation and empowerment-based reasoning directly from pixels to actions.）

2015-NIPS-Learning Continuous Control Policies by Stochastic Value Gradients

相比普通的基於sampling returns from the real environment然後採用likelihood ratio的policy gradient。這邊考慮的是如果我們可以獲得一個可差分的環境模型，那麼我們可以結合policy, model, and reward function to compute an analytic policy gradient by backpropagation of reward along a trajectory。（這樣的方式被稱為：Value gradient methods）。然後為了解決之前的Value gradient只能用來訓練deterministic policies，這邊可以結合 experience database來做調整，進而訓練stochastic policy。然後利用「re-parameterization」，擴展到隨機環境中隨機策略的優化。

2015-AAAI-Deep Reinforcement Learning with Double Q-learning

將Double Q learning的思路與DQN相結合，緩解了Q value overestimate的問題。vanilla DQN的target value的計算為：，而Double DQN採用：。（更一般的，在Double Q learning中，其實是兩個Q-table互相作為target，隨機選擇一者進行更新，而Double DQN是target network提供value的估計，online network來選擇action）

2016-arXiv-POLICY DISTILLATION

這篇論文從訓練一個滿足多個task的網絡出發，設計一個框架（上圖）和幾個loss來滿足目標。（這邊雖然寫的是DQN，但是在transfer的時候，為了能夠transfer概率，對於Q value做了softmax來做橋梁。）第一個loss是類似監督學習，利用當前最優的(s,a)來訓練策略，即，採用negative log likelihood loss (NLL)，。第二個loss是直接在Q value的數值大小直接做mean-squared-error loss (MSE) 。第三個是採用KL divergence 。

這篇文章另外說到的一點是：可以通過留存較好的經驗來訓練更穩定的policy。

2015-AAAI-Compress and Control

提出一種 information-theoretic policy evaluation的方法（Compress and Control， CNC）。進一步值函數可以用壓縮表徵或者density model來表示。

2016-arXiv-Learning and Transfer of Modulated Locomotor Controllers

如果所示，分為low-level（LL） controller和high-level（HL） controller。LL的policy採用非循環神經網絡：與，其中o為observation，c為HL的輸出。通過LL網絡輸出，如果方差確定的話，可以直接輸出即可，然後採用Gaussian policy來sample出實際的action：。HL採用循環神經網絡，。此外，LL可以採用預訓練過的policy作為基準，然後只訓練頂層policy即可。

2016-arXiv-Iterative Hierarchical Optimization for Misspecified Problems (IHOMP)

研究Misspecified Problems (MP)中採用hierarchical policy來緩解MP問題。Misspecified Problems (MP)可以簡單理解成對於問題的建模出現錯誤，導致policy無法學的好，或者無法學到。

以(a)中（i）為例，agent需要在s區域能從起點（左下角）到達右上角的G。如果我們建模錯誤，讓agent只能選擇直線行走，那麼這個問題是沒有解的。這邊的思路其實是引入option的思路，將一個MDP拆分成local-MDP，然後在local-MDP中求解。

2016-arXiv-Model-Free Episodic Control

偏向從生物的視角來做，研究hippocampal episodic control是否能夠有效的學習到sequential decision-making task。

簡而言之，就是採樣，然後統計return ，留存每個下最大的，然後在需要決策時候，先判斷這個需要做決策的state 對應的是否被採用過，如果有採用的過的話，就利用之前存下的最大的來作為這個的估值，如果沒有的話，那麼就就是其他action的均值。（那篇 faster and slower，也是用的這個思路）

2016-arXiv-Progressive Neural Networks

如圖所示，每個output代表一個task，所以是從左到右進行訓練。舉例，在訓練代表的task時，最右側的網絡的每一層的輸入分為兩個部分組成(假設為第i層)：1. 自己網絡本身的上一層的輸入，即，2. 之前task訓練過後的網絡的上一層輸入: 。

2016-ICLR-Continuous control with deep reinforcement learning

deep deterministic policy gradient（DDPG），將DPG的思想擴展到NN下。與PG不同在於：對於中的進行求導，然後利用鏈式法則得到對應的更新梯度。採用Ornstein-Uhlenbeck process來增加noise輔助探索，同時採用「soft」 target updates來平穩target network的參數更新。

2016-ICLR-PRIORITIZED EXPERIENCE REPLAY

對於Buffer中的sample進行改進，簡而言之：如果online Q network和target Q network在某些（s，a，r，s'）的 pair上的誤差不高時（即相應的loss不高），那麼利用這個pair的loss來做online Q network的更新，相應的parameter的改變可能微乎其微，所以在更新的時候，我們更多的是需要考慮loss較大的（s，a，r，s'），來引導相應parameter的更新與調整。另外就是考慮到sample的bias，可以用IS修正。這邊提了一下實現：可以採用sum-tree data structure來組織buffer

2016-ICML-Continuous Deep Q-Learning with Model-based Acceleration

DQN與傳統Q-learning一樣，因為存在argmax的操作，所以很難擴展到連續控制的環境中。這裡是提出Normalized Advantage Functions的設置，在的基礎上,通過假設可以寫成 , 那麼很明顯為非正數，那麼對應的的argmax則是對應的為0即可，那麼max對應的。

另外一點就是：專家的經驗可以利用領域中的一些規則或者模型來獲取，比如：我們可以先用數據fitted一個局部線性模型來預測環境的動態性，然後用卡爾曼濾波來找出如何到達某個state，進而進行學習。

2016-ICML-Dueling Network Architectures for Deep Reinforcement Learning

借鑑的思路來進行網絡結構的設計，在最後一層Q value的輸出採用兩個stream來做合併：。這樣的話，一部分關注的是當前state的好壞，另外一個部分是考慮在這個state下採用哪個action更好。

2016-ICML-Asynchronous Methods for Deep Reinforcement Learning

相比採用buffer的DQN，這篇論文提出採用多個並行環境同時採樣來緩解數據之間的相關性對於網絡更新帶來的影響。實際上這篇文章是提出一個並行採樣的思路，然後並將其運用在了q-learning，sarsa，ac上，代表性的就是A3C（Asynchronous advantage actor-critic）。其實後來openai有報告說Asynchronous沒有什麼用，A2C效果就夠好了。

2016-NIPS-Unifying Count-Based Exploration and Intrinsic Motivation

採用density models來進行pseudo-count，之後利用count的結果來給予額外的探索的bound，進而鼓勵探索。這裡有意思的做法就是：1. 怎麼利用density models來進行pseudo-count，就是section 3，主要就是相應的密度怎麼更新，怎麼知道每個state下的count的個數；2. 解釋了一波與Intrinsic Motivation的關係，在section 4中。

2016-NIPS-Strategic Attentive Writer for Learning Macro-Actions

提出STRategic Attentive Writer (STRAW) architecture 來做隱式的plan，從而implicitly learn useful temporally abstracted macro-actions in an end-to-end manner。簡而言之，就是輸入input（比如圖像），然後輸出後續中每個step可能採取的action的概率，還有每個time step下，重新規劃的概率。

2016-NIPS-Learning to Communicate with Deep Multi-Agent Reinforcement Learning

如果所示，就是提出兩種不同的組織方式，然後解釋成end-to-end地在學習通訊

2016-NIPS-Deep Exploration via Bootstrapped DQN

其實Bootstrapped的目的就是為了模擬一個s下每個action對應的Q的distribution，當這個distribution越確定時，則這個s下每個a的Q變化不大，這意味著，這個s下的這個a（及其後續的影響）很確定，沒有必要做探索。如果這個distribution變化大時，就代表對於這個action採樣可能不夠（或者環境本身具有一定隨機，需要進一步採樣）。算法中的mask是指說產生的可以由哪幾個head來學習，這其實是需要調參的地方。

2016-NIPS-Learning values across many orders of magnitude

之前的DQN在Atari為了能夠訓練穩定，會對reward進行預處理，比如全部都clip到[-1,1]之類的做法，這樣的做法其實是需要事先知道reward的範圍的，同時採用不同的clip方法會嚴重影響agent訓練後性能。這裡是提出採用adaptive normalization。

2016-AAAI-Increasing the Action Gap: New Operators for Reinforcement Learning

提出 family of optimality-preserving operators, of which the consistent Bellman operator is a dis- tinguished member.

2017-arXiv-Structure Learning in Motor Control: A Deep Reinforcement Learning Model

傳統的model-base方法中有一大類是利用env model來進行planning的，然後這篇文章是考慮了meta-learning的那種setting，就是存在一系列的Task T。這邊的改進就是通過實際環境的(r,o)來調整規劃使用的model。

2017-arXiv-LEARNING TO REINFORCEMENT LEARN

簡而言之，將上一時刻採用的action，reward也輸入到網絡中，因為這裡的網絡採用的RNN（LSTM）之類的，所以agent其實能夠有能力感知到，所以有一定能力以此推斷出是屬於那個task的。具體結果見圖：

2017-arXiv-Connecting Generative Adversarial Networks and Actor-Critic Methods

分析了一下Actor-Critic與GAN的異同點。

2017-arXiv-Learning human behaviors from motion capture by adversarial imitation

簡而言之，就是直接從reward來做learning容易出現一些奇奇怪怪（鬼畜）的action，同時一些更複雜的任務可能無法學習到，比如：對於控制一個人型機器人走到某個goal，同時躲避障礙的任務。在這樣的任務中，其實是需要控制人形機器人的各個關節來站立，行走，然後才是滿足相應的goal，而控制關節站立和行走其實蠻難的了（如果你的reward就是考慮goal給予reward，我覺得agent最後說不定和大蛇丸，伏地魔一樣，在地板上扭動地『遊』過去）

然後這邊的想法是能不能從人類的一些demonstrations來學習出一些sub-skill，然後利用這些skill來做進一步的learning。這裡是採用gail的思想來進行learning，首先是對數據打上標籤，比如向左走的一類，向右走的一類，然後用gail來產生reward（discriminator），之後利用這個reward來訓練底層的policy（sub-skill），注意這邊是有context variable的（類似label），然後high level在利用環境的reward，learning出一個輸出context variable的策略。

2017-arXiv-Emergence of Locomotion Behaviours in Rich Environments

這篇論文提出另外一種形式的PPO（Proximal Policy Optimization。八卦：這篇文章比正主John Schulman的PPO寫的還早，聽了別人在NIPS2016的Tutorials，然後就搞了一下，所以這個是與John Schulman不同的形式的PPO）

因為TRPO要算Hessian-vector太慢了，所以這邊是直接將KL當成一個優化的部分，當前KL比較大時（也就是前後policy差異大時）主要關注約束KL不要太大（通過在loss中調高KL的權重），反之亦然。此外，這邊也提出分布式的PPO，即見下圖的算法部分。

另外就是有一個網路結構，將agent自身信息與環境信息分別過網絡，再合併。

2017-arXiv-Leveraging Demonstrations for Deep Reinforcement Learning on Robotics Problems with Sparse Rewards

RL通常在密集的反饋（reward）中能夠有比較好的表現，在稀疏的反饋的環境中（Sparse Rewards）就可能表現差一些。所以人們會設計一些輔助的reward或者shapping來進行learning。這篇文章沒有這麼做，而是通過Demonstrations來引導agent進行學習：將Demonstrations和實際的data放在buffer中，prioritized replay mechanism來控制sample的比例，從而在Sparse Rewards中進行有效的learning。

2017-arXiv-Learning model-based planning from scratch

簡而言之：將未來可能的n-step動態性也作為policy的一部分輸入，從而進行更好的決策。提出的框架是採用Manager來控制進行幾步的Imagination的，然後將Imagination相關的內容結合實際真實的state來讓底層的controller作出更好的決策。

2017-ICLR-SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY

即actor critic with experience replay (ACER)。即借鑑了Retrace estimator的方法，同時考慮了IMPORTANCE WEIGHT TRUNCATION WITH BIAS CORRECTION。另外就是提了一個EFFICIENT TRUST REGION POLICY OPTIMIZATION。內容有點多，建議細讀論文。

2017-ICLR-COMBINING POLICY GRADIENT AND Q-LEARNING

提出PGQ來結合Q-learning和policy gradient的好處。通過1.策略梯度的熵正則化和2.貝爾曼方程的不動點來將policy還有Q結合在一起，推導過程不展開，直接說結論：和。然後結合貝爾曼殘差和熵正則化的策略梯度更新進行加權即可。具體可以看天津包子餡兒師兄的知乎文章。

2017—ICLR-LEARNING TO PERFORM PHYSICS EXPERIMENTS VIA DEEP REINFORCEMENT LEARNING

一篇偏向運用的文章，問題的設定為：需要agent在交互式模擬環境中估計對象的一些屬性，比如such as mass and cohesion of objects。在這些環境中，agent可以操縱對象並觀察後果。然後實驗表明DRL具有估計的能力。

2017-ICLR-RECURRENT ENVIRONMENT SIMULATORS

目的是為了更好地預測下一幀，這篇文章提出下面的網絡結構，將action和hidden state representation結合在一起，然後提出action-conditioned LSTM來進行更新。

2017—ICLR-REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS

本文針對迷宮類型的環境設置了一系列的輔助loss，來幫助spare reward的設置下進行learning。從大的視角來看，就是告訴我們，可以通過設置輔助的任務（UNSUPERVISED AUXILIARY TASKS）來幫助agent進行學習。

2017-ICML-DARLA/ Improving Zero-Shot Transfer in Reinforcement Learning

簡而言之，分三步走：（1）學習state的embedding，（2）學習policy，（3）transfer，進行遷移。

這邊的假設是：兩個任務（MDP）之間除了state space不同外，action space一樣，transition函數和reward函數結構接近（比如一個是仿真機器人，一個是真實機器人）。

所以如果能學習到一個MDP之間的state mapping的話，那麼策略其實就能夠復用了，這邊採用來學習state的embedding。然後直接用這個embedding來作為policy的輸入，學習相應的行為。所以對於一個新的MDP，如果也符合上述假設，那麼policy就可以復用了。

2017-ICML-A Distributional Perspective on Reinforcement Learning

定義了一下Distributional Bellman Operators，從原來學習mean Q變成學習Q的distribution 。（另外比較出名的就是：51-atom agent (from here onwards, C51) ）

2017-ICML-FeUdal Networks for Hierarchical Reinforcement Learning

如下圖所示，一個分層結構，Manager給出一個向量形式的goal，然後交給底層worker，worker的目的就是一方面在c step後達到影響的goal指引的方向：z + w,(這裡的w是goal做完處理之後的向量，相當於goal在z的隱空間中給予了一個方向的目標指導)。訓練時：manager就是學習出一個最大化外部c step的reward的goal，然後worker一方面滿足這個goal，另外一方面最大化外部reward。

2017-ICML-Count-Based Exploration with Neural Density Models

在Unifying Count-Based Exploration and Intrinsic Motivation的基礎上，採用PixelCNN來作為Density Model，說明一個更好的density model能夠輔助更好的exploration

2017-NIPS-Successor Features for Transfer in Reinforcement Learning

即利用 successor representation (SR）的概念，即，進一步提出Successor features來對Q值進行分解：

進一步就是可以online地學習。遷移到同樣環境動態的另外task上，只需要學習特定task的即可。比如：在同一個迷宮中，環境動態性 + policy 是一樣的，那麼這個policy對於新目標的好壞，就只需要learning出就可以評價。

2017-NIPS-Programmable Agents

簡而言之，想讓agent執行用形式語言表達的描述性程序。這邊的實際做法就是構造出形式語言所對應的矩陣表示形式，還有環境的矩陣表示形式。之後利用特定的操作來獲得對應的action。這樣的做法比較少見，還是建議看論文，比較難描述。

2017-NIPS-Deep Reinforcement Learning from Human Preferences

簡單而言之，就是agent與環境做交互，產生一系列的trajectory，然後由人類對其中的一部分trajectory（sample出來的）來標記偏好的label，比如 trajectory 比 trajectory 好。接下去就是利用偏好的label來learning相應的reward的序關係：，相應訓練比好的loss為：，反之亦然，就可以訓練出相應的reward funciton了。

2017-NIPS-A multi-agent reinforcement learning model of common-pool resource appropriation

將DQN運用在common-pool resource的問題上，來做更深入的仿真與分析，同時定義了一些指標：Utilitarian metric，Sustainability metric，Equality metric，Peace metric。然後分析不同因素對於最終learning出來結果的影響。

2017-NIPS-Imagination-Augmented Agents for Deep Reinforcement Learning

提出了imagination core（IC），如下圖所示，在policy（與value）network中，明顯地向前做N-step的Imagination來輔助更好的決策。

2017-NIPS-Robust Imitation of Diverse Behaviors

簡而言之：用一個（bi-directional LSTM）VAE Encoder來做embedding vector的提取（即 z），然後policy利用embedding vector和state來做出action的選擇。這樣的好處是，雖然在一些state下有不同的行為（Diverse Behaviors），但是從T step的角度來看，就是比較好區分的（這些信息編碼在z中）。

這邊policy的訓練時，採用GAIL來learning出discriminator來作為reward的signal。

2017-NIPS-A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

本文說independent reinforcement learning (InRL)容易對其他人採用的policy過擬合，所以沒有辦法泛化。這裡提出採用joint-policy correlation（JPC）來衡量這種過擬合：其實就是訓練policy後，agent分別採用不同的策略在環境中做交互，然後統計n次episode的return，然後計算 , 是指一起訓練的reward（return），是指agent採用不是同時訓練的policy的reward（return）。然後提出一種混合了之前一列技術的方法（InRL, iterated best response, double oracle, and fictitious play）。

2017-NIPS-Distral: Robust Multitask Reinforcement Learning

Distral (Distill & transfer learning)。簡而言之，之前的multitask或多或少都是希望通過參數共享來加快學習（比如對於圖片的特徵提取層）。但是在實際中，由於任務之間的梯度方向可能會互相干擾，同時不同任務的reward尺度（observation的數值尺度）會不一樣大，這就進一步限制了parameter weight的大小，同樣也會出現梯度大小等不同的情況等等。既然共享參數會存在這樣一系列的問題，這裡採用了另外的一套框架，即在每個任務中學習特定的policy，然後在學習過程中進行knowledge的共享。即：將這些policy都蒸餾到一個中心的policy 中，同時也利用這個來對特定的任務下的policy做正則化來進行約束（感覺就是knowledge transfer過去）。

在訓練特定任務時，policy最大化環境的累積收益，同時加上對於的KL散度來做約束，還有相應的entropy正則來鼓勵探索。

在訓練中心式的policy，就是對於其他所有特定任務的策略的KL散度的最小化。

更近一步，這邊提了一下不同的訓練方式，比如一起訓練，間隔訓練等，具體就去看paper即可。

2017-ICRA-Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates

將上述提到的NAF在真實的機器人上進行實驗，同時結合異步（�並行）的思想，驗證了有效性。

2017-CoRL-The Intentional Unintentional Agent: Learning to Solve Many Continuous Control Tasks Simultaneously

簡而言之：見下圖，同時學習多個任務，然後共用一部分底層的網絡。這邊的說法是：比單任務快，甚至有些單任務不能學到的，這裡也有機會學到。

2018-arXiv-Unicorn: Continual learning with a universal, off-policy agent

Unicorn stands for 「UNIversal Continual Off-policy Reinforcement learNing」.

關注continual learning的設置，這邊採用了Universal Value Function Approximators (UVFAs)來做multi-task的訓練。UVFA與普通的Q不同在於：不同的Q採用s，a作為輸入（index），而UVFA多了一個goal。即：與。然後進行multi-task的聯合優化。

2018-arXiv-Kickstarting Deep Reinforcement Learning

結合policy distillation和PBT（population based training）來進行訓練。簡而言之，就是對於teacher的knowledge採用cross-entropy loss（或者其他也行吧）來做knowledge的transfer。由於存在多個teacher（task），所以在加loss的時候存在多個權重，權重的設置至關重要，這邊才有PBT來調整權重，搜索出最好的training效果來。

2018-arXiv-Observe and Look Further: Achieving Consistent Performance on Atari

為了緩解 diverse reward distributions, reasoning over long time horizons 和 exploring efficiently，提出一系列的操作：Transformed Bellman Operator（處理learn stably independent of the reward distribution），temporal consistency (TC) loss（避免the network from prematurely generalizing to unseen states ）和Ape-X DQfD 來加速RL agent的學習速度。

Transformed Bellman Operator：之前的操作是將reward的distribution reduce到[-1, 1]之間，這邊採用對於Q來做reduce。，這邊的h即是用來做reduce的函數（比如線性壓縮），具體的文章說：如果h是linear or the MDP is deterministic，那就會有unique fixed point。

Temporal Consistency (TC) loss：約束前後兩次網絡參數更新後，Q value的變化不要太大（同一state，action的Q）。

Ape-X DQfD：如圖，就是sample的時候sample出一部分的demonstration

2018-arXiv-Safe Exploration in Continuous Action Spaces

簡而言之，這邊文章是希望解決一些帶約束的優化問題（比如，溫度控制希望維持溫度在一定範圍內，機器人的動作不能太大），具體的做法是：提出一個Linear Safety-Signal Model，在每個state下進行矯正action，從而滿足約束。

2018-ICML-Machine Theory of Mind

設計了一個Theory of Mind(感覺可以翻譯成心智)neural network（ToMnet），ToMNet是採用meta-learning來可以刻畫那種少見的行為的。能夠模擬來自不同populations的隨機，算法和DRL agent。

2018-ICML-More Robust Doubly Robust Off-policy Evaluation

偏理論的研究，提出more robust doubly robust (MRDR)，is to learn the parameters of the DM（Direct Method） model by minimizing the variance of the DR（doubly robust） estimator.

2018-ICML-Path Consistency Learning in Tsallis Entropy Regularized MDPs

偏理論的研究，We first derive a sparse consistency equation that specifies a relationship between the optimal value function and policy of the sparse ERL along any system trajectory. Crucially, a weak form of the converse is also true, and we quantify the sub-optimality of a policy which satisfies sparse consistency, and show that as we increase the number of actions, this sub-optimality is better than that of the soft ERL optimal policy. We then use this result to derive the sparse PCL algorithms. We empirically compare sparse PCL with its soft counterpart, and show its advantage, especially in problems with a large number of actions.

2018-ICML-Mix & Match – Agent Curricula for Reinforcement Learning

這個我寫過詳細的知乎文章，看具體的文章即可。

2018-ICML-Learning to Search with MCTSnets

在MCTS的基礎上，learn where, what and how to search。結構與算法如下：

2018-ICML-Progress & Compress/ A scalable framework for continual learning

簡而言之，因為continual learning中存在兩個問題：遺忘 + 快速學習。所以這邊提出兩個方法來解決這些挑戰：

為了避免遺忘，這裡採用：knowledge base來進行知識的存儲。在每次學習一個新task後，採用the active column is distilled into the knowledge base, taking care to protect any previously acquired skills.

為了快速學習，這邊採用：利用knowledge base來connected to an active column that is employed to efficiently learn the current task

2018-ICML-The Uncertainty Bellman Equation and Exploration

提出uncertainty Bellman equation (UBE)，進行不確定性的傳遞，從而更好的探索。具體內容建議看下論文。

2018-NIPS-Relational recurrent neural networks

首先說明：confirm our intuitions that standard memory architectures may struggle at tasks that heavily involve an understanding of the ways in which entities are connected。然後提出Relational Memory Core (RMC) ，就是多head的attention改善缺陷。（實驗有部分是RL的）

2018-NIPS-Inequity aversion improves cooperation in intertemporal social dilemmas

利用了inequity-averse individuals are personally pro-social and punish defectors的idea，擴展到SSD（sequential social dilemma），來促進合作。

2018-NIPS-Meta-Gradient Reinforcement Learning

關注的問題：what would be the best form of return for the agent to maximise? RL最終的目的是最大化平均的return，有兩種常見的learning的setting：MC和TD（或者n-step）。這邊的做法就是在一步TD的target和n-step（MC）的target做加權和，然後動態進行調整來進行快速學習。

2018-NIPS-Playing hard exploration games by watching YouTube

用demonstrations能夠加速RL的學習過程，但是在現實世界中完美demonstrations很難產生。比如不同版本（山寨）的遊戲的state，transition可能有略微的不同，那麼如果只是略微不同的話，那麼還是有機會進行利用的。

這邊實際就在做demonstrations的微調(mapping到可以用的空間或者叫對其)，使得略微不同的demonstrations能夠進行復用。

第一步：對demonstrations進行mapping（利用video和聲音），然後mapping到同一個表示上，這樣就可以用其他的demonstrations的了。第二步：用一個YouTube video來做嵌入，來encourages an agent to imitate human gameplay。

2018-ICLR-NOISY NETWORKS FOR EXPLORATION

常見的探索方式，比如e-greedy是在action space的維度加入noise來幫助探索的，這邊是另闢蹊徑，在網絡的參數中加入noise來幫助探索，並驗證了在A3C與DQN中，在參數中加入noise比entropy 和e-greedy更好。這邊的具體實現如下圖所示，就是將網絡中layer的參數寫成幾部分組成：均值 + noise（方差），然後這個noise的大小可以通過leanring對應的權重來控制。

2018-AAAI-Rainbow: Combining Improvements in Deep Reinforcement Learning

將下圖中的方法結合在一起，叫做Rainbow。（一圖勝千言）

2018-AAMAS-Value-Decomposition Networks For Cooperative Multi-Agent Learning

這裡的setting是：有一組合作的agent，他們共享一個reward signal，但是不知道是由誰來影響（提升）了這個共享的reward。如下圖所示，左邊是一般形式的multiagent中每個agent independent學習（執行）的過程，右邊就是提出來的VDN（Value-Decomposition Networks），通過在最後一層對所有的agent的做求和，視為，然後希望通過訓練來自動對每個agent做信度分配，來知道是那個agent引起了的變化。這裡的最基本假設是：，即共享的reward signal本質上是由多個agent的實際reward的累積和。

2018-RSS-Reinforcement and Imitation Learning for Diverse Visuomotor Skills

就是機器人上的運用：1.設計輔助任務幫助CNN提取特徵，2. 用GAIL來learning出reward的signal輔助訓練。

2018-RSS-Learning by Playing – Solving Sparse Reward Tasks from Scratch

提出：Scheduled Auxiliary Control (SAC- X), 利用輔助的任務來幫助學習（探索）主任務。通過上次的scheduler來選擇相應的task，然後底層的目標學習：最大化主任務reward + 相應輔助任務的reward。

2019-02-12-ArXiv-SUCCESS AT ANY COST: VALUE CONSTRAINED MODEL-FREE CONTINUOUS CONTROL

直接將RL用在機器人的環境中容易導致高振幅，高頻率控制信號的策略（bang-bang控制）。雖然這樣的策略可以在模擬系統中實現最佳解決方案，但它們通常不適用於現實世界，因為bang-bang控制可能導致磨損和能量消耗增加，並且傾向於激發不期望的二階動態。所以本文提出一種新的基於約束的方法，該方法定義了收益的下限，同時最小化了一個或多個cost（例如control effort），並使用拉格朗日鬆弛來學習：滿足期望約束的控制策略的參數和用於優化的拉格朗日乘數。

2019-ICLR-EMERGENT COORDINATION THROUGH COMPETITION

Multiagent, 提出distributed population-based-training with continuous control的框架，結合automatic optimization of shaping reward channels，在連續控制的環境中進行end-to-end的學習。同時引入了automatically optimizing separate discount factors for the shaping rewards來促進sparse long-horizon team rewards and corresponding cooperative behavior。並採用counterfactual policy divergence來分析agent的行為.

2019-ICLR-Value Propagation Networks

利用Value Propagation (VProp)，擴展了VIN（Value Iteration Networks ），分為：Value-Propagation Module與Max-Propagation Module。

其中Value-Propagation Module是先用embedding function來提取出相應的r和p，然後直接做多次迭代。然後Max-Propagation module (MVProp), in which only positive rewards are propagated.

2019-ICLR-LEARNING TO UNDERSTAND GOAL SPECIFICATIONS BY MODELLING REWARD

希望設計出一種遵循instruction-conditional的RL agent。看下圖，其實就是在state外，額外多拼接一個指令。然後reward model是來判別是否完成指令（通過state），然後給reward的。

關於作者：

1、搜索「Deep-RL」或者掃描下面"二維碼"，關注本公眾號

2、後臺回復關鍵字回覆：DM72

解讀72篇DeepMind深度強化學習論文

相關焦點

深度強化學習(Deep Reinforcement Learning)的資源

深度強化學習入門到精通--資料綜述

【重磅】61篇NIPS2019深度強化學習論文及部分解讀

【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)

DeepMind開源圖深度學習(GraphDL)工具包,基於Tensorflow和Sonnet

【乾貨】2017年深度學習必讀31篇論文(附論文下載地址)

2017年深度學習必讀31篇論文(附下載地址)

深度 | David Silver全面解讀深度強化學習:從基礎概念到AlphaGo

DeepMind發布神經網絡、強化學習庫,網友:推動JAX發展

DeepMind開源了強化學習庫「松露」,團隊自身也嚴重依賴它

DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點

【業界良心】深度強化學習開源環境集

【強基固本】深度強化學習(Deep Reinforcement Learning)入門

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

強化學習應用介紹(上)

深度 | DeepMind提出神經元刪除法:通過理解每個神經元來理解深度學習

NIPS 2017 深度學習論文集錦 (2)

【OpenAI】深度強化學習關鍵論文列表

2017深度學習優秀論文盤點 | 資源

深度強化學習(一)----深度學習介紹系列