專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...

2020-12-13 機器之心Pro

選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀

摘要

本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。接著我們會介紹深度 Q 網絡(Deep Q-Network,DQN)及其拓展、異步方法(asynchronous methods)、策略優化(policy optimization)、獎勵(reward)及規劃(planning)。在這之後,我會討論注意和記憶(attention and memory)機制、非監督學習及學習去學習。隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。

1 導語

強化學習(RL)實際上是關於序列決策的一種工具,它能夠解決包括科學研究、工程文理等學科的一系列問題(Sutton and Barto, 2017)。

增強學習及神經網絡的結合可以追溯到 1990 年代(Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015)。而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。

我們已見證了諸多突破性進展——深度 Q 網絡(Mnih et al., 2015)、AlphaGo(Silver et al., 2016)及可微分神經計算機(Graves et al., 2016)。還有一些全新的架構及應用,包括異步方法(Mnih et al., 2016)、對抗網絡架構(Dueling Network Architectures,Wang et al., 2016a)、價值迭代網絡(value iteration networks,Tamar et al., 2016)、用於機器翻譯的雙學習(dual learning for machine translation,He et al., 2016a)、口語對話系統(spoken dialogue systems,Su et al., 2016b)、信息提取(information extraction,Narasimhan et al., 2016)、 引導性策略搜索(guided policy search,Levine et al., 2016a)、 生成對抗模仿學習(generative adversarial imitation learning,Ho and Ermon,2016)、非監督的強化及輔助學習(unsupervised reinforcement and auxiliary learning,Jaderberg et al., 2017)及神經架構設計(neural architecture design,Zoph and Le, 2017)等等。在這篇概述中,我們主要關注近幾年的工作成果,當然也只能覆蓋不完全的、一小部分成果。

我們將給讀者一系列的參考資料以幫助其進一步學習:

強化學習(Sutton and Barto, 2017; Szepesvari, 2010; Bertsekas, 2012; Powell, 2011; Bertsekas and Tsitsiklis, 1996; Puterman, 2005; Littman, 2015; Kaelbling et al., 1996)

深度學習(LeCun et al., 2015; Goodfellow et al., 2016; Bengio, 2009; Deng and Dong, 2014)

機器學習(Jordan and Mitchell, 2015; Hastie et al., 2009;Bishop,2011;Murphy,2012;Jamesetal.,2013)

實用機器學習建議(Domingos,2012;Zinkevich,2017)

人工智慧(Russell and Norvig, 2009)

神經網絡中的深度學習(Schmidhuber,2015)

自然語言處理(Hirschberg and Manning,2015;Deng and Liu, 2017)

機器人學(Kober et al., 2013)

遷移學習(Taylor and Stone、2009;Panand Yang,2010;Weiss et al., 2016)

半監督學習(Zhu and Goldberg,2009)

貝葉斯強化學習(Ghavamzadeh et al., 2015)

口語對話系統(Hinton et al., 2012;He and Deng,2013;Young et al., 2013)

人工智慧安全(Amodei et al., 2016; Garcia and Fernandez,2015)

蒙特卡洛搜索(MCTS)(Browne et al., 2012;Gelly et al., 2012)

多代理強化學習(Shoham et al., 2003;Busoniu et al., 2008)

博弈論(Leyton-Brown and Shoham,2008)等等。

我們將會在 23 節中列舉強化學習資源。在 goo.gl/KoXIQC 及 goo.gl/1Q1lzg 參見強化學習的應用。

該概述的大綱如下:第二節,深度學習及強化學習的背景知識及對測試平臺的介紹;第三節,對深度 Q 網絡及其拓展的介紹;第四節,異步放法的介紹;第五節,策略優化;第六節,獎勵;第七節,規劃;第八節,注意和記憶機制,特別是對可微分神經計算機(DNC)的介紹;第九節,非監督學習;第十節;學習去學習(learning to learn);第十一節,遊戲/博弈,包括棋類遊戲、視頻遊戲及非完美信息博弈;第十二節,AlphaGo;第十三屆,機器人學;第十四節,對話系統(聊天機器人);第十五節,機器翻譯;第十六節,文字序列預測;第十七屆,神經架構設計;第十八節,個性化網絡服務;第十九節,醫療;第二十節,金融;第二十一節,音樂生成;第二十二節,一個未回顧論文/話題的待辦清單;第二十四節,討論。

特別地,我們將在 23 節中列舉一系列關於強化學習的資源,包括圖書、在線課程、教程、會議、期刊、研討會乃至博客等。如果非要選擇唯一一個推薦的強化學習的資源,那麼應該是 Sutton 教授的強化學習書(RL Book,Sutton and Barto,2017,第二版正在編輯中)。它覆蓋了強化學習的基礎知識,並介紹了它最新的進展,包括深度 Q 網絡、AlphaGo、梯度策略方法(Policy Gradient Methods)及在心理學與神經科方面的進展。對深度學習而言,則可以選擇 Goodfellow 等人的書(2016)。

2 背景知識

在這一節中,我們將會簡要介紹在深度學習(Sutton and Barto,2017)與深度學習(Goodfellow et al., 2016)方面的基礎知識與概念。

2.1 深度學習

2.2 強化學習

2.3 測試平臺

街機學習環境(Arcade Learning Environment,ALE,Bellemare et al., 2013)是一個由 2600 個 Atari 遊戲構成的用於研發及評估 AI 的框架。DeepMind 團隊則發布了它的第一人稱視角 3D 遊戲平臺 DeepMind Lab(Beattie et al., 2016)。DeepMind 及暴雪會合作以發布星際爭霸 2 的人工智慧研究環境(goo.gl/Ptiwfg)。OpenAI Gym(https://gym.openai.com/)是一個用於開發強化學習算法的工具包。它由一系列環境構成,包括了 Atari 遊戲及模擬的機器人構成,以及一個用於比較及復現結果的網站。OpenAI Universe(https://universe.openai.com/)被用於將任一程序轉換到一個 Gym 環境。Universe 已經集成了許多的環境,包括 Atari 遊戲、flash 遊戲、如 Mini World of Bit Sand 這樣的瀏覽器任務。最近,俠盜獵車手 5(GTA5)也已經被加入到 Universe 中來幫助模擬自動駕駛車輛。FAIR TorchCraft(Synnaeve et al., 2016)是一個為如星際爭霸這樣實時戰略類(RTS)遊戲開發的庫。ViZDoom 是一個基於《毀滅戰士(Doom)》遊戲的為研究視覺強化學習的研究平臺。TORCS 是一個賽車比賽駕駛模擬器(Bernhard Wymann et al., 2014)。MuJoCO(Multi-Joint dynamics with Contact)是一個物理引擎,參見:http://www.mujoco.org/Duan et al., 2016 為連續控制任務給出了一個跑分平臺,開原始碼參見:https://github.com/openai/rllabNogueira and Cho(2016)展示了 WebNav 挑戰,來測試維基百科連結導航。

3 深度 Q 網絡(DEEP Q-NETWORK)

算法 1:深度 Q 網絡,截取自 Mnih et al. (2015)

3.1 雙重 DQN(DOUBLE DQN)

3.2 優先經驗回放(PRIORITIZED EXPERIENCE REPLAY)

3.3 對抗架構(DUELING ARCHITECTURE)

3.4 更多拓展

4 異步方法

算法 2:A3C,每個 actor-learner 線程,來自 Mnih et al. (2016)

5 策略優化

策略通常是隨機的。然而在 2014 年,Silver et al. (2014) 引入確定性策略梯度(DPG)來有效估計策略梯度。Lillicrap et al. (2016) 用深度神經網絡擴展了 DPG。同時我們介紹了幾份近期成果,包括引導策略搜索(Guided Policy Search,Levine et al.,2016a)、信賴域策略優化(Trust Region Policy Optimization,Schulman et al.,2015)、基準測試結果(Duan et al., 2016)以及策略梯度與 Q 學習(O'Donoghue et al., 2017)。

5.1 確定性策略梯度

5.2 深度確定性策略梯度

5.3 引導策略搜索

5.4 信賴域策略優化

5.5 基準測試結果

Duan et al. (2016) 提出了連續控制任務的基準,包括了一些經典任務(如車柱)、具有極大狀態與動作空間的任務(如 3D 人形運動)、部分觀察任務、層次結構任務,並實施了許多算法,包括批處理算法:REINFORCE 算法、截斷性自然策略梯度(TNPG)、獎勵加權回歸(RWR)、相對熵策略搜索(REPS)、信賴域策略優化(TRPO)、交叉熵方法(CEM)、自適應協方差矩陣進化策略(CMA-ES); 也包括在線算法:深度確定性策略梯度(DDPG);還有批處理算法的重複性變體。開源地址:https://github.com/openai/rllab

Duan et al.(2016) 比較了各種算法,並表明 DDPG、TRPO 和截斷性自然策略梯度(TNPG)(Schulman et al., 2015) 在訓練深度神經網絡策略中頗有成效,但分層任務(hierarchical tasks)也還需要更好的算法。

5.6 結合策略梯度與 Q-Learning

6 獎勵

逆向強化學習(IRL/inverse reinforcement learning)是給定觀察最佳行為來確定獎勵函數的問題(Ngand Russell,2000)。在激勵學習或學徒制學習中,代理學習使用來自專家的軌跡樣本並從其演示中執行任務,代理學習沒有強化信號,在訓練時也沒有來自專家的額外數據;模仿學習的兩種主要方法是行為克隆和逆向強化學習;行為克隆被制定為監督學習問題,將狀態行動對(state-action pairs)從專家軌跡(expert trajectories)映射到策略中(Ho and Ermon,2016)。

6.1 生成對抗網絡

6.2 生成對抗式模仿學習

7 規劃

Tamar et al. (2016) 提出了價值迭代網絡(VIN),即一個用於近似價值迭代算法的完全可微分的 CNN 規劃模塊,它可用於學習規劃,例如強化學習中的策略。與傳統的規劃相反,VIN 是無模型的,其中的獎勵和轉移概率是要學習的神經網絡的一部分,從而避免系統識別的問題。VIN 可以通過反向傳播進行端到端訓練,它也可以在一組不同的任務中泛化:VIN 可以泛化在一組不同的任務:簡單的網格世界(gridworlds)、火星車導航、連續控制和用於維基百科連結導航的 WebNav Challenge(Nogueira and Cho, 2016)。價值迭代網絡及決鬥網絡(Wang et al.,2016b)的一個優點便是它們能為強化學習問題設計新型深度神經網絡架構。欲訪問有關 VIN 的博客,請點擊 goo.gl/Dr8gKL。

8 注意和記憶

注意(attention)和記憶(memory)是兩個重要的機制,在許多情況下它們一起發揮作用。

Mnih et al. (2014) 引入循環注意模型(RAM/ recurrent attention model)來關注圖像或視頻的區域或位置的選定序列,用於圖像分類和對象檢測。作者使用 RL 方法特別是 REINFORCE 算法來訓練模型,以克服模型不可微分的問題,並對圖像分類任務和動態視覺控制問題進行實驗。Xu et al. (2015) 整合了圖像字幕的注意,用 REINFORCE 算法訓練硬版本的注意機制,並在 Flickr8k、Flickr30k 和 MSCOCO 數據集上展示了注意的有效性。注意機制也應用到了 NLP 中,如 Bahdanau et al. (2015; 2017),以及應用外部記憶的可微分神經計算機中(Graves et al., 2016)。

Graves et al.(2016) 提出了可微分神經計算機(DNC),其中神經網絡可以從外部存儲器讀取與寫入,使 DNC 可以解決複雜的結構化的問題,而沒有讀寫存儲器的神經網絡卻不能解決。DNC 將內存分配幹擾最小化,並實現了長期存儲。類似於常規計算機,在 DNC 中,神經網絡是控制器,外部存儲器是隨機存取存儲器;並且 DNC 用存儲來表示並操縱複雜的數據結構。不同的是,DNC 使用梯度下降來學習端對端的表示和操縱,而梯度下降的數據是目標導向的。當使用有監督學習來訓練時,DNC 可以解決合成問題來用於自然語言的推理;它可以解決交通網絡中兩個站點之間的最短路徑定位問題和家庭樹中的關係推理問題。當使用強化學習來訓練時,DNC 可以解決一個使用被符號序列指定的變動性目標的移動塊拼圖。DNC 優於正常神經網絡,如 LSTM 或 DNC 的前身神經圖靈機(Graves et al., 2014),若碰到更困難的問題,LSTM 可能會失敗。雖然這些實驗是相對小規模的,我們仍期望看到 DNC 的進一步改進和應用。

欲查閱 Deepmind 對於 DNC 的描述,請點擊 goo.gl/58mgoX。欲查閱注意與/或記憶的更多信息,如 Ba et al. (2014); Eslami et al. (2016); Gregor et al. (2015); Jaderberg et al. (2015); Oquab et al.(2015);Yang et al.(2015);Zagoruyko and Komodakis(2017);Zaremba and Sutskever(2015); Weston et al. (2015); Sukhbaatar et al. (2015); Ba et al. (2016); Danihelka et al. (2016); Kaiser and Bengio (2016),請參閱 goo.gl/ArW2nE 和 goo.gl/UukROv,這是有關注意與記憶的博客。

9 無監督學習

Jaderberget al.(2017) 提出了無監督的強化輔助學習(UNREAL),通過共享一個共同的表徵(representation),並在通常的累積獎勵之外最大化偽獎勵功能,從而提高學習效率。UNREAL 通過學習大量的可能訓練信號而受益,特別是當外部獎勵信號很少被觀察到時。UNREAL 由 RNN-LSTM 基本代理,像素控制,獎勵預測和值函數重放組成。基本代理(base agent)使用 A3C 進行在策略(on-policy)訓練。觀察、獎勵和動作的經驗存儲於答覆緩衝器(reply buffer)內,以供輔助任務使用。輔助策略使用基礎 CNN、LSTM 以及解卷積網絡(deconvolutional network)來使輸入圖像中不同區域的像素強度的變化最大化。獎勵預測模塊通過觀察最後三個幀來預測下一幀中的短期外在獎勵,以解決獎勵稀疏性的問題。值函數重放則會進一步訓練值函數。UNREAL 改善了 A3C 在 Atari 遊戲上的表現,並在 3D Labyrinth 遊戲中表現出色。欲訪問Deepmind有關 UNREAL 的官方博客,請點擊 goo.gl/zhqBGy。

我們將在第 13 節討論使用類似的無監督輔助學習的機器人導航以及生成式對抗網絡(GAN),並在第 6 節討論近期的無監督學習框架。也請參閱Sutton et al.(2011) , 一個用於以無監督感覺運動學習互動來學習知識的可擴展實時架構 Horde.

10 學習去學習(LEARNING TO LEARN)

學習去學習與遷移學習、多任務學習或表徵學習相關,是形成實現強大人工智慧的核心要素之一(Lake et al., 2016)。學習去學習也與元學習(meta learning)和一次性學習(one-shot learning)有關。

Duan et al. (2017) 和 Wang et al. (2016a) 提出通過學習一個靈活的 RNN 模型來處理一系列 RL 任務,從而能夠提高樣本效率,能夠從幾個樣本中學到新任務,並且可以從先驗知識中獲益。此代理使用 RNN 建模,並輸入了觀察、獎勵、行動和終止標誌;它使用 RL,Duan et al.(2017)提出的 TRPO 和 Wang 等(2016a)的 A3C 算法來訓練 RNN 的權重,並且在使用特定 RL 算法解決的多個問題中表現相似。Duan 等在 2017 年使用多臂賭博機、表 MDP 和視覺導航進行了實驗,並指出對於較大型的問題,需要更好的 RL 算法來訓練 RNN。Wang et al.(2016a)對獨立臂賭博機、依賴臂賭博機、持續性臂和 MDP 進行了實驗。未來的工作方向之一便是提高可擴展性。

Li 和 Malik 在 2017 年建議通過將特定的優化算法表示為策略,將收斂速度表示為獎勵,以引導策略搜索(Levine et al.,2016a)來使無約束連續性優化算法自動化。

11 Games(博弈/遊戲)

遊戲為強化學習/人工智慧算法提供了非常好的測試平臺。我們在第 3 節討論了深度 Q 網絡(DQN)及其延展,所有這些都在 Atari 遊戲上做了測試。我們在第 4 節討論了 Mnih et al. (2016),在第 9 節討論了 Jaderberg et al. (2017),在第 13 節討論了 Mirowski et al. (2017)——他們使用了 Labyrinth 作為測試平臺。

西洋雙陸棋和圍棋是完美信息博弈(perfect information games)。我們在 11.1 討論了西洋雙陸棋這樣的棋盤遊戲。在 11.2 討論了 Doom 這樣的視頻遊戲。我們將撲克遊戲放到了 11.3,討論了非完美信息博弈(imperfect information games),其中涉及到了博弈論(game theory)。Labyrinth 和 Doom 等視頻遊戲通常是非完美博弈,但是目前還沒有使用博弈論來解決這些問題。

我們將 AlphaGo(Silver et al., 2016) 單獨成了第 12 節,因為其有很大的重要性。

11.1 棋盤遊戲

11.2 視頻遊戲

11.3 非完美信息博弈

12 AlphaGo

AlphaGo (Silver et al., 2016) 是一個計算機圍棋程序,其在 2015 年 10 月份以 5 局全勝擊敗了歐洲圍棋冠軍,成為了第一個在全尺寸 19×19 棋盤上無讓子地擊敗了人類職業棋手的計算機圍棋程序。不久之後,2016 年 3 月份,AlphaGo 以 4:1 的成績擊敗了曾獲 18 次世界冠軍的圍棋手李世石,引起了世界的廣泛關注。這是人工智慧發展的一個裡程碑。圍棋問題的困難之處不僅在於其超大的搜索空間(search space)——250^150,一個天文數字;而且也是因為其局面評估(position evaluation)的難度非常大,而西洋雙陸棋和西洋棋等遊戲已經通過局面評估得到了解決。

12.1 訓練流程和蒙特卡洛樹搜索(MCTS)

我們在 Silver et al. (2016) 與 Sutton and Barto (2017) 的基礎上簡要討論了 AlphaGo 的工作方式。參見 Sutton and Barto (2017) 中第 16 章可了解 AlphaGo 的詳細和直觀描述。DeepMind 對 AlphaGo 的描述可查閱:goo.gl/lZoQ1d

AlphaGo 是使用深度 CNN 技術、監督學習、強化學習和蒙特卡洛樹搜索(MCTS)(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了兩個階段:神經網絡訓練流程和 MCTS。其訓練流程階段包括根據專家的走子訓練一個監督學習策略網絡、快速部署策略、強化學習策略網絡和強化學習價值網絡。

13-21:強化學習的應用介紹

這幾節介紹了強化學習的不同類型的應用,這裡簡單給出目錄,詳情請查閱原論文。

13 機器人學

14 口語對話系統

15 機器翻譯

16 文本序列預測

17 神經架構設計

18 個性化網絡服務

19 醫療保健

20 金融

21 音樂生成

22 未來工作

下面我們列出了上面的概述中沒有討論到的有趣的和/或重要的研究方向/論文,希望能夠為有興趣進一步研究它們的人提供信息入口。這也將是我們未來工作的一部分。

理解機器學習(understanding deep learning), Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

探索(exploration)如:Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

基於模型的學習(model-based learning)如:Oh et al. (2015); Gu et al. (2016b)

回溯算法(retrace algorithm), Munos et al. (2016)

預測(predictron), Silver et al. (2017)

分層強化學習(hierarchical RL)如:Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017)

遷移/多任務強化學習(transfer/multitask RL)如: Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

零次/一次性學習(zero/one-shot learning)如:Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016)

半監督強化學習(semi-supervised RL)如:Finn et al. (2017)

deep symbolic RL, Garnelo et al. (2016)

內在動機(intrinsic motivation)如:Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

超參數學習(hyperparameter learning)如:Andrychowicz et al. (2016)

信息提取(information extraction)如:Narasimhan et al. (2016)

文本博弈(text games)如:He et al. (2016b); Narasimhan et al. (2015)

語言樹結構學習(language tree-structure learning)如:Yogatama et al. (2017)

問答系統(question answering)如:Shen et al. (2016); Trischler et al. (2016)

大型動作空間(large action space)如:Dulac-Arnold et al. (2016); He et al. (2016c)

適應性規範化(adaptive normalization), van Hasselt et al. (2016b)

自動駕駛載具(self-driving vehicle)如:Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

智能電網(smart grid)如: Wen et al. (2015b)

通信網絡(communication networks)如: Mestres et al. (2016)

物理實驗(physics experiments)如: Denil et al. (2016)

深度概率編程(deep probabilistic programming), Tran et al. (2017)

深度博弈學習(deep learning games), Schuurmans and Zinkevich (2016)

程序學習(program learning)如:Reed and de Freitas (2016)

量子強化學習(quantum RL)如:Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 資源

我們列出了一些用於深度強化學習的資源,當然並不能做到完全。

23.1 書籍

Richard S. Sutton 和 Andrew G. Barto 所著的毫無疑問的和直觀的強化學習書 (Sutton and Barto, 2017)

簡明和理論性的《Algorithms for Reinforcement Learning》,作者:Csaba Szepesvari (Szepesvari, 2010)

一本關於近似動態編程的理論書籍,作者:Dimitri P.Bertsekas(Bertsekas, 2012)

一本面向運籌學的書《Approximate Dynamic Programming》,作者:WarrenB. Powell (Powell, 2011)

《Deep Learning》,作者:IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 課程

David Silver, 強化學習(Reinforcement Learning), 2015, 幻燈片:goo.gl/UqaxlO,視頻:goo.gl/7BVRkT

Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度強化學習(Deep Reinforcement Learning)2017 年春季課程, http://rll.berkeley.edu/deeprlcourse/

Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 機器學習:強化學習(Machine Learning: Reinforcement Learning), goo.gl/eyvLfg

李飛飛、 Andrej Karpathy 和 Justin Johnson, CS231n: 用於視覺識別的卷積神經網絡(Convolutional Neural Networks for Visual Recognition), http://cs231n.stanford.edu

Richard Socher, CS224d: 用於自然語言處理的深度學習(Deep Learning for Natural Language Processing), http://cs224d.stanford.edu

Nando de Freitas, 深度學習課程(Deep Learning Lectures), https://www.youtube.com/user/ProfNandoDF

23.3 教程

David Silver, 深度強化學習(Deep Reinforcement Learning), ICML 2016

Pieter Abbeel 和 John Schulman, 通過策略優化的深度強化學習(Deep Reinforcement Learning Through Policy Optimization), NIPS 2016

吳恩達,使用深度學習開發人工智慧應用的基本要點(Nuts and Bolts of Building Applications using Deep Learning), NIPS 2016

John Schulman,深度強化學習研究的基本要點(The Nuts and Bolts of Deep Reinforcement Learning Research),深度強化學習研討會, NIPS 2016

John Schulman, 深度強化學習(Deep Reinforcement Learning), Deep Learning School, 2016

Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 abbeel deep reinforcement/

David Silver, Deep Reinforcement Learning, 第二屆強化學習與決策多學科會議(RLDM), Edmonton 2015; http://videolectures.net/rldm2015 silver reinforcement learning/

Rich Sutton, Introduction to Reinforcement Learning with Function Approximation, https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcementlearning-with-function-approximation/

Joelle Pineau, 強化學習入門(Introduction to Reinforcement Learning), Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 pineau reinforcement learning/

Deep Learning Summer School, 2016, 2015

23.4 會議、期刊和研討會

NIPS: 神經信息處理系統

ICML: 國際機器學習大會

ICLR: 國際學習表徵大會

RLDM: 強化學習與決策多學科會議

AAAI, IJCAI, ACL, EMNLP, SIGDIAL, ICRA, IROS, KDD, SIGIR, CVPR, 等

Science Robotics, JMLR, MLJ, AIJ, JAIR, PAMI, 等

Nature May 2015, Science July 2015, 搜索關於機器學習/人工智慧的論文

Deep Reinforcement Learning Workshop, NIPS 2016, 2015; IJCAI 2016

Deep Learning Workshop, ICML 2016

23.5 博客

Andrej Karpathy, karpathy.github.io, esp. goo.gl/1hkKrb

Denny Britz, www.wildml.com, 尤其是 goo.gl/MyrwDC

Junling Hu, Reinforcement learning explained -learning to act based on long-term payoffs

鄧力,深度強化學習可以如何幫助打造聊天機器人(How deep reinforcement learning can help chatbots)

Christopher Olah, colah.github.io

在這個信息/社交網絡時代,信息已經超過了我們的極限,比如來自 Twitter、Google+、微信、arXiv 等的信息。有效地篩選最佳信息的技巧變得十分關鍵。

24 討論

這是深度強化學習最好的時代,也是深度強化學習最壞的時代,而原因卻是一樣的:它以驚人的速度在發展。我們已經看到了突破、激動人心的新方法和應用,並且還有望看到更多和見證更快的發展。因此,不管是在深度還是在廣度上,這篇概述都是不完整的。但是,我們也儘量總結這一驚人領域的重要成就並討論其潛在的方向和應用。

深度強化學習這一領域的進步是有目共睹的,在不到兩年時間內,我們就看到 Nature 上發表了三篇使用了深度強化學習的論文:深度 Q 網絡(deep Q-network)(Mnih et al., 2015)、AlphaGo (Silver et al., 2016) 和可微分神經計算機 (Graves et al., 2016);我們也已經見證了許多深度 Q 網絡上的擴展、改進和應用。注意和記憶機制(Graves et al., 2016)也得到了很大的關注。

2016 年,使用了深度強化學習的全新架構和應用在許多頂級會議上被評選為最佳(學生)論文:ICML 上的決鬥網絡(dueling network)架構(Wang et al., 2016a)、ACL 上的口語對話系統(Su et al., 2016b)(學生論文)、EMNLP 上的信息提取(Narasimhan et al., 2016)、以及 NIPS 上的價值迭代網絡(value iteration networks)(Tamar et al., 2016)。激動人心的成就比比皆是:異步方法(Mnihetal.,2016)、用於機器翻譯的雙學習(dual learning)(Heetal., 2016a)、有引導的策略搜索(Levine et al., 2016a)、生成對抗式模仿學習(Hoand Ermon, 2016)、無監督強化和輔助學習(Jaderberg et al., 2017)、神經架構設計(Zoph and Le, 2017)等等。

價值函數是強化學習的核心,比如在深度 Q 網絡及其許多擴展中。策略優化方法已經在許多不同的應用領域得到了關注,比如:機器人、神經架構設計、口語對話系統、機器翻譯、注意(attention)和學習去學習(learning to learn)等等,不能勝舉。新的學習機制也在湧現,比如:使用無監督/半監督/遷移學習來提升學習的質量和速度,而且更多的新機制還將湧現。這是強化學習的復興(Krakovsky, 2016)。事實上,即使是在「人工智慧的冬天」,強化學習和深度學習也在不斷發展進步。

考慮學習模型的問題是非常關鍵的,這些問題包括穩定性、收斂性、準確度、數據效率、可擴展性、速度、簡潔性、可解釋性、穩健性和安全性等。調查評論/批評也是很重要的,這些批評可能來自認知科學領域,涉及到直觀物理學、直觀心理學、因果模型、組合性、學習去學習、實時運行(Lake et al., 2016)等問題;這能夠幫助我們打造出更強大的人工智慧。也請參考 Peter Norvig 的觀點 goo.gl/obvmVB.

在這第三波人工智慧的大潮下,深度學習將會有更為深度的影響,正如我們已經見證的許多成就一樣。強化學習作為一種更為通用的學習和決策範式,將會給深度學習、機器學習和廣義上的人工智慧帶來深遠的影響。這裡提一件有趣的故事,當 Rich Sutton 教授 2003 年在阿爾伯塔大學開始工作時,他將他的實驗室命名為了 RLAI:Reinforcement Learning and Articial Intelligence(強化學習與人工智慧實驗室)。

致謝

感謝來自Baochun Bai,胡峻玲(Junling Hu),Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建議。任何剩餘錯誤為本文作者所出。本文同時受益於各類研討會/網上討論,特別是2016年4月在MIT舉行的AlphaGo研討會,以及2016年10月份『機器之心』北美系列巡遊活動中在多倫多大學、McGill大學和阿爾伯塔大學舉辦的深度(強化)學習研討會。另外也要感謝2016年11月關於David Silver幻燈片的網上研討會,以及幾個微信群組中的討論。

參考文獻(略)

相關焦點

  • 【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero
    圖2.深度強化學習框架深度強化學習早期的主要思路是將神經網絡用於複雜高維數據的特徵提取,轉化到低維特徵空間便於強化學習處理。由於卷積神經網絡對圖像處理擁有天然的優勢,將卷積神經網絡與強化學習結合成了研究熱點。
  • 深度強化學習入門到精通--資料綜述
    其中,感知解決what,深度學習已經超越人類水平;決策解決how,強化學習在遊戲和機器人等領域取得了一定效果;認知解決why,知識圖譜、因果推理和持續學習等正在研究。強化學習,採用反饋學習的方式解決序貫決策問題,因此必然是通往通用人工智慧的終極鑰匙。
  • 多Agent深度強化學習綜述(中文版),21頁pdf
    , DRL)在諸多複雜序貫決策問題中取得巨大突破.由於融合了深度學習強大的表徵能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智慧頗有前景的學習範式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.
  • 深度強化學習算法與應用研究現狀綜述
    概述了基於值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,並綜述了深度強化學習在視頻遊戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最後,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
  • 乾貨分享 | 機器學習、深度學習、nlp、cv從入門到深入全套資源分享
    深度學習之目標檢測的前世今生(Mask R-CNN)深度學習目標檢測模型全面綜述:Faster R-CNN、R-FCN和SSD從RCNN到SSD,這應該是最全的一份目標檢測算法盤點目標檢測算法綜述三部曲基於深度學習的目標檢測算法綜述(一)基於深度學習的目標檢測算法綜述(二)基於深度學習的目標檢測算法綜述
  • 資源|李宏毅中文《機器學習/深度學習》2019上線(附ppt及視頻分享)
    吳恩達、李飛飛等大牛的機器學習、深度學習公開課都乾貨滿滿,惠及很多學者。他的研究方向主要是機器學習(深度學習)和語音識別。Few/Zero shot learning非監督式學習、BERT強化學習、強化學習進階網絡壓縮GAN、GLOW無監督域適應為什麼需要深度學習、深度學習理論
  • GitHub | 機器學習&深度學習&nlp&cv從入門到深入全套資源分享
    深度學習之目標檢測的前世今生(Mask R-CNN)深度學習目標檢測模型全面綜述:Faster R-CNN、R-FCN和SSD從RCNN到SSD,這應該是最全的一份目標檢測算法盤點目標檢測算法綜述三部曲基於深度學習的目標檢測算法綜述(一)基於深度學習的目標檢測算法綜述(二)基於深度學習的目標檢測算法綜述
  • 多任務深度強化學習綜述
    通過考慮典型RL算法的上述兩個缺點,與單任務學習相比,多任務DRL必須能夠提供更好的訓練結果,並維持有限資源下多任務資源需求間的適當平衡。並行多任務學習是強化學習中最流行的多任務學習方法之一[10]。其背後的核心思想是,DRL體系結構將單個學習者(critic)與不同的actor結合在一起。每個actor都生成各自的學習軌跡(一組參數),並將它們同步或異步發送給學習者。
  • 【教程】AlphaGo Zero 核心技術 - David Silver深度強化學習課程中文學習筆記
    Alpha Zero的背後核心技術是深度強化學習,為此,專知有幸邀請到葉強博士根據DeepMind AlphaGo的主要研究人員David Silver《深度強化學習》視頻公開課進行創作的中文學習筆記,在專知發布推薦給大家!
  • 從Zero到Hero,OpenAI重磅發布深度強化學習資源
    給人的第一印象就是,要想在深度強化學習上從 Zero 到 Hero,天天逛這個網站就夠了~ 項目地址:https://spinningup.openai.com/en/latest/ 在 Deep RL 中邁出第一步
  • David Silver深度強化學習課程「中文字幕」— #共同學習
    AlphaGo 底層核心技術包括深度學習(deep learning)、強化學習(reinforcement learning),和蒙特卡洛搜索樹(Monte Carlo tree search)。 課程中也涉及最近的熱點:深度強化學習。強化學習不同於監督學習。強化學習沒有像監督學習中那樣明確的標識,比如分類問題中的類別。同時,強化學習考慮序列決策(sequential decision making)問題,當前的決策就需要進行全局考慮,也會影響以後的決策。而監督學習則只考慮一步決策問題。
  • 資源 | UC Berkeley CS 294深度強化學習課程(附視頻、學習資料)
    本文主要介紹了課程中的強化學習主題,涉及深度強化學習的基本理論與前沿挑戰。CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。該課程為各位讀者提供了強化學習的進階資源,且廣泛涉及深度強化學習的基本理論與前沿挑戰。本文介紹了該課程主要討論的強化學習主題,讀者可根據興趣愛好與背景知識選擇不同部分的課程。
  • 深度學習第56講:強化學習簡介與Q-Learning實例
    因為強化學習發展到現在,早已結合了神經網絡迸發出新的活力,強化學習結合深度學習已經形成了深度強化學習(Deep Reinforcement Learning)這樣的新領域,因為強化學習和深度學習之間的關係以及其本身作為人工智慧的一個重要方向,我們都是有必要在系列筆記裡體現一下的。
  • 圖神經網絡的十大學習資源分享
    字幕組雙語原文:【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行。
  • 資源 | 學到了!UC Berkeley CS 294深度強化學習課程(附視頻與PPT)
    CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。
  • 【乾貨】圖神經網絡的十大學習資源分享
    由於此領域的發展非常迅速,GNN背後的知識還不是那麼容易獲得。目前,你可以在網際網路上以研究論文、文章或博客的形式找到散落在各地的GNN理論。我們缺乏的是一本GNN書籍,或者是一本在線資源彙編,來幫助人們進入了解這個領域的工作。  經過一番搜索,我發現其實有幾個相當不錯的資源,以一種容易理解的方式來解釋GNN。
  • MILA 2018夏季深度學習與強化學習課程資源大放送
    MILA 2018 深度學習與強化學習夏季課程目前已經開放了教學資源,機器之心簡要介紹了該課程所開放的資源與課程主題,讀者可參考這些主題選擇合適的課程
  • 「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)
    本次培訓分為Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜和強化學習五大專題。本次培訓由權威專家主講,提供實驗環境及實驗數據,並提供配套資料,通過剖析工程案例展現機器學習、深度學習落地全過程。培訓暫定2021年1月5日開始,每個專題6天左右,一共28天,直播集訓。本次培訓由淺入深,面向0基礎、不懂機器學習、不具備任何Python基礎的老師和同學。
  • 【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)
    Alpha Zero的背後核心技術是深度強化學習,為此,專知特別收錄整理聚合了關於強化學習的最全知識資料,歡迎大家查看!/drl強化學習系列之三:模型無關的策略評價http://www.algorithmdog.com/reinforcement-learning-model-free-evalution【整理】強化學習與MDPhttp://www.cnblogs.com/mo-wang/p/4910855.html強化學習入門及其實現代碼http://www.jianshu.com/p/165607eaa4f9深度強化學習系列
  • 【乾貨】強化學習介紹
    An introduction to Reinforcement Learning我們基於TensorFlow製作了一門深度強化學習的視頻課程【1】,主要介紹了如何使用TensorFlow實現強化學習問題求解。