專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...

2021-01-08 機器之心Pro

選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀

摘要

本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。接著我們會介紹深度 Q 網絡(Deep Q-Network,DQN)及其拓展、異步方法(asynchronous methods)、策略優化(policy optimization)、獎勵(reward)及規劃(planning)。在這之後,我會討論注意和記憶(attention and memory)機制、非監督學習及學習去學習。隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。

1 導語

強化學習(RL)實際上是關於序列決策的一種工具,它能夠解決包括科學研究、工程文理等學科的一系列問題(Sutton and Barto, 2017)。

增強學習及神經網絡的結合可以追溯到 1990 年代(Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015)。而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。

我們已見證了諸多突破性進展——深度 Q 網絡(Mnih et al., 2015)、AlphaGo(Silver et al., 2016)及可微分神經計算機(Graves et al., 2016)。還有一些全新的架構及應用,包括異步方法(Mnih et al., 2016)、對抗網絡架構(Dueling Network Architectures,Wang et al., 2016a)、價值迭代網絡(value iteration networks,Tamar et al., 2016)、用於機器翻譯的雙學習(dual learning for machine translation,He et al., 2016a)、口語對話系統(spoken dialogue systems,Su et al., 2016b)、信息提取(information extraction,Narasimhan et al., 2016)、 引導性策略搜索(guided policy search,Levine et al., 2016a)、 生成對抗模仿學習(generative adversarial imitation learning,Ho and Ermon,2016)、非監督的強化及輔助學習(unsupervised reinforcement and auxiliary learning,Jaderberg et al., 2017)及神經架構設計(neural architecture design,Zoph and Le, 2017)等等。在這篇概述中,我們主要關注近幾年的工作成果,當然也只能覆蓋不完全的、一小部分成果。

我們將給讀者一系列的參考資料以幫助其進一步學習:

強化學習(Sutton and Barto, 2017; Szepesvari, 2010; Bertsekas, 2012; Powell, 2011; Bertsekas and Tsitsiklis, 1996; Puterman, 2005; Littman, 2015; Kaelbling et al., 1996)

深度學習(LeCun et al., 2015; Goodfellow et al., 2016; Bengio, 2009; Deng and Dong, 2014)

機器學習(Jordan and Mitchell, 2015; Hastie et al., 2009;Bishop,2011;Murphy,2012;Jamesetal.,2013)

實用機器學習建議(Domingos,2012;Zinkevich,2017)

人工智慧(Russell and Norvig, 2009)

神經網絡中的深度學習(Schmidhuber,2015)

自然語言處理(Hirschberg and Manning,2015;Deng and Liu, 2017)

機器人學(Kober et al., 2013)

遷移學習(Taylor and Stone、2009;Panand Yang,2010;Weiss et al., 2016)

半監督學習(Zhu and Goldberg,2009)

貝葉斯強化學習(Ghavamzadeh et al., 2015)

口語對話系統(Hinton et al., 2012;He and Deng,2013;Young et al., 2013)

人工智慧安全(Amodei et al., 2016; Garcia and Fernandez,2015)

蒙特卡洛搜索(MCTS)(Browne et al., 2012;Gelly et al., 2012)

多代理強化學習(Shoham et al., 2003;Busoniu et al., 2008)

博弈論(Leyton-Brown and Shoham,2008)等等。

我們將會在 23 節中列舉強化學習資源。在 goo.gl/KoXIQC 及 goo.gl/1Q1lzg 參見強化學習的應用。

該概述的大綱如下:第二節,深度學習及強化學習的背景知識及對測試平臺的介紹;第三節,對深度 Q 網絡及其拓展的介紹;第四節,異步放法的介紹;第五節,策略優化;第六節,獎勵;第七節,規劃;第八節,注意和記憶機制,特別是對可微分神經計算機(DNC)的介紹;第九節,非監督學習;第十節;學習去學習(learning to learn);第十一節,遊戲/博弈,包括棋類遊戲、視頻遊戲及非完美信息博弈;第十二節,AlphaGo;第十三屆,機器人學;第十四節,對話系統(聊天機器人);第十五節,機器翻譯;第十六節,文字序列預測;第十七屆,神經架構設計;第十八節,個性化網絡服務;第十九節,醫療;第二十節,金融;第二十一節,音樂生成;第二十二節,一個未回顧論文/話題的待辦清單;第二十四節,討論。

特別地,我們將在 23 節中列舉一系列關於強化學習的資源,包括圖書、在線課程、教程、會議、期刊、研討會乃至博客等。如果非要選擇唯一一個推薦的強化學習的資源,那麼應該是 Sutton 教授的強化學習書(RL Book,Sutton and Barto,2017,第二版正在編輯中)。它覆蓋了強化學習的基礎知識,並介紹了它最新的進展,包括深度 Q 網絡、AlphaGo、梯度策略方法(Policy Gradient Methods)及在心理學與神經科方面的進展。對深度學習而言,則可以選擇 Goodfellow 等人的書(2016)。

2 背景知識

在這一節中,我們將會簡要介紹在深度學習(Sutton and Barto,2017)與深度學習(Goodfellow et al., 2016)方面的基礎知識與概念。

2.1 深度學習

2.2 強化學習

2.3 測試平臺

街機學習環境(Arcade Learning Environment,ALE,Bellemare et al., 2013)是一個由 2600 個 Atari 遊戲構成的用於研發及評估 AI 的框架。DeepMind 團隊則發布了它的第一人稱視角 3D 遊戲平臺 DeepMind Lab(Beattie et al., 2016)。DeepMind 及暴雪會合作以發布星際爭霸 2 的人工智慧研究環境(goo.gl/Ptiwfg)。OpenAI Gym(https://gym.openai.com/)是一個用於開發強化學習算法的工具包。它由一系列環境構成,包括了 Atari 遊戲及模擬的機器人構成,以及一個用於比較及復現結果的網站。OpenAI Universe(https://universe.openai.com/)被用於將任一程序轉換到一個 Gym 環境。Universe 已經集成了許多的環境,包括 Atari 遊戲、flash 遊戲、如 Mini World of Bit Sand 這樣的瀏覽器任務。最近,俠盜獵車手 5(GTA5)也已經被加入到 Universe 中來幫助模擬自動駕駛車輛。FAIR TorchCraft(Synnaeve et al., 2016)是一個為如星際爭霸這樣實時戰略類(RTS)遊戲開發的庫。ViZDoom 是一個基於《毀滅戰士(Doom)》遊戲的為研究視覺強化學習的研究平臺。TORCS 是一個賽車比賽駕駛模擬器(Bernhard Wymann et al., 2014)。MuJoCO(Multi-Joint dynamics with Contact)是一個物理引擎,參見:http://www.mujoco.org/Duan et al., 2016 為連續控制任務給出了一個跑分平臺,開原始碼參見:https://github.com/openai/rllabNogueira and Cho(2016)展示了 WebNav 挑戰,來測試維基百科連結導航。

3 深度 Q 網絡(DEEP Q-NETWORK)

算法 1:深度 Q 網絡,截取自 Mnih et al. (2015)

3.1 雙重 DQN(DOUBLE DQN)

3.2 優先經驗回放(PRIORITIZED EXPERIENCE REPLAY)

3.3 對抗架構(DUELING ARCHITECTURE)

3.4 更多拓展

4 異步方法

算法 2:A3C,每個 actor-learner 線程,來自 Mnih et al. (2016)

5 策略優化

策略通常是隨機的。然而在 2014 年,Silver et al. (2014) 引入確定性策略梯度(DPG)來有效估計策略梯度。Lillicrap et al. (2016) 用深度神經網絡擴展了 DPG。同時我們介紹了幾份近期成果,包括引導策略搜索(Guided Policy Search,Levine et al.,2016a)、信賴域策略優化(Trust Region Policy Optimization,Schulman et al.,2015)、基準測試結果(Duan et al., 2016)以及策略梯度與 Q 學習(O'Donoghue et al., 2017)。

5.1 確定性策略梯度

5.2 深度確定性策略梯度

5.3 引導策略搜索

5.4 信賴域策略優化

5.5 基準測試結果

Duan et al. (2016) 提出了連續控制任務的基準,包括了一些經典任務(如車柱)、具有極大狀態與動作空間的任務(如 3D 人形運動)、部分觀察任務、層次結構任務,並實施了許多算法,包括批處理算法:REINFORCE 算法、截斷性自然策略梯度(TNPG)、獎勵加權回歸(RWR)、相對熵策略搜索(REPS)、信賴域策略優化(TRPO)、交叉熵方法(CEM)、自適應協方差矩陣進化策略(CMA-ES); 也包括在線算法:深度確定性策略梯度(DDPG);還有批處理算法的重複性變體。開源地址:https://github.com/openai/rllab

Duan et al.(2016) 比較了各種算法,並表明 DDPG、TRPO 和截斷性自然策略梯度(TNPG)(Schulman et al., 2015) 在訓練深度神經網絡策略中頗有成效,但分層任務(hierarchical tasks)也還需要更好的算法。

5.6 結合策略梯度與 Q-Learning

6 獎勵

逆向強化學習(IRL/inverse reinforcement learning)是給定觀察最佳行為來確定獎勵函數的問題(Ngand Russell,2000)。在激勵學習或學徒制學習中,代理學習使用來自專家的軌跡樣本並從其演示中執行任務,代理學習沒有強化信號,在訓練時也沒有來自專家的額外數據;模仿學習的兩種主要方法是行為克隆和逆向強化學習;行為克隆被制定為監督學習問題,將狀態行動對(state-action pairs)從專家軌跡(expert trajectories)映射到策略中(Ho and Ermon,2016)。

6.1 生成對抗網絡

6.2 生成對抗式模仿學習

7 規劃

Tamar et al. (2016) 提出了價值迭代網絡(VIN),即一個用於近似價值迭代算法的完全可微分的 CNN 規劃模塊,它可用於學習規劃,例如強化學習中的策略。與傳統的規劃相反,VIN 是無模型的,其中的獎勵和轉移概率是要學習的神經網絡的一部分,從而避免系統識別的問題。VIN 可以通過反向傳播進行端到端訓練,它也可以在一組不同的任務中泛化:VIN 可以泛化在一組不同的任務:簡單的網格世界(gridworlds)、火星車導航、連續控制和用於維基百科連結導航的 WebNav Challenge(Nogueira and Cho, 2016)。價值迭代網絡及決鬥網絡(Wang et al.,2016b)的一個優點便是它們能為強化學習問題設計新型深度神經網絡架構。欲訪問有關 VIN 的博客,請點擊 goo.gl/Dr8gKL。

8 注意和記憶

注意(attention)和記憶(memory)是兩個重要的機制,在許多情況下它們一起發揮作用。

Mnih et al. (2014) 引入循環注意模型(RAM/ recurrent attention model)來關注圖像或視頻的區域或位置的選定序列,用於圖像分類和對象檢測。作者使用 RL 方法特別是 REINFORCE 算法來訓練模型,以克服模型不可微分的問題,並對圖像分類任務和動態視覺控制問題進行實驗。Xu et al. (2015) 整合了圖像字幕的注意,用 REINFORCE 算法訓練硬版本的注意機制,並在 Flickr8k、Flickr30k 和 MSCOCO 數據集上展示了注意的有效性。注意機制也應用到了 NLP 中,如 Bahdanau et al. (2015; 2017),以及應用外部記憶的可微分神經計算機中(Graves et al., 2016)。

Graves et al.(2016) 提出了可微分神經計算機(DNC),其中神經網絡可以從外部存儲器讀取與寫入,使 DNC 可以解決複雜的結構化的問題,而沒有讀寫存儲器的神經網絡卻不能解決。DNC 將內存分配幹擾最小化,並實現了長期存儲。類似於常規計算機,在 DNC 中,神經網絡是控制器,外部存儲器是隨機存取存儲器;並且 DNC 用存儲來表示並操縱複雜的數據結構。不同的是,DNC 使用梯度下降來學習端對端的表示和操縱,而梯度下降的數據是目標導向的。當使用有監督學習來訓練時,DNC 可以解決合成問題來用於自然語言的推理;它可以解決交通網絡中兩個站點之間的最短路徑定位問題和家庭樹中的關係推理問題。當使用強化學習來訓練時,DNC 可以解決一個使用被符號序列指定的變動性目標的移動塊拼圖。DNC 優於正常神經網絡,如 LSTM 或 DNC 的前身神經圖靈機(Graves et al., 2014),若碰到更困難的問題,LSTM 可能會失敗。雖然這些實驗是相對小規模的,我們仍期望看到 DNC 的進一步改進和應用。

欲查閱 Deepmind 對於 DNC 的描述,請點擊 goo.gl/58mgoX。欲查閱注意與/或記憶的更多信息,如 Ba et al. (2014); Eslami et al. (2016); Gregor et al. (2015); Jaderberg et al. (2015); Oquab et al.(2015);Yang et al.(2015);Zagoruyko and Komodakis(2017);Zaremba and Sutskever(2015); Weston et al. (2015); Sukhbaatar et al. (2015); Ba et al. (2016); Danihelka et al. (2016); Kaiser and Bengio (2016),請參閱 goo.gl/ArW2nE 和 goo.gl/UukROv,這是有關注意與記憶的博客。

9 無監督學習

Jaderberget al.(2017) 提出了無監督的強化輔助學習(UNREAL),通過共享一個共同的表徵(representation),並在通常的累積獎勵之外最大化偽獎勵功能,從而提高學習效率。UNREAL 通過學習大量的可能訓練信號而受益,特別是當外部獎勵信號很少被觀察到時。UNREAL 由 RNN-LSTM 基本代理,像素控制,獎勵預測和值函數重放組成。基本代理(base agent)使用 A3C 進行在策略(on-policy)訓練。觀察、獎勵和動作的經驗存儲於答覆緩衝器(reply buffer)內,以供輔助任務使用。輔助策略使用基礎 CNN、LSTM 以及解卷積網絡(deconvolutional network)來使輸入圖像中不同區域的像素強度的變化最大化。獎勵預測模塊通過觀察最後三個幀來預測下一幀中的短期外在獎勵,以解決獎勵稀疏性的問題。值函數重放則會進一步訓練值函數。UNREAL 改善了 A3C 在 Atari 遊戲上的表現,並在 3D Labyrinth 遊戲中表現出色。欲訪問Deepmind有關 UNREAL 的官方博客,請點擊 goo.gl/zhqBGy。

我們將在第 13 節討論使用類似的無監督輔助學習的機器人導航以及生成式對抗網絡(GAN),並在第 6 節討論近期的無監督學習框架。也請參閱Sutton et al.(2011) , 一個用於以無監督感覺運動學習互動來學習知識的可擴展實時架構 Horde.

10 學習去學習(LEARNING TO LEARN)

學習去學習與遷移學習、多任務學習或表徵學習相關,是形成實現強大人工智慧的核心要素之一(Lake et al., 2016)。學習去學習也與元學習(meta learning)和一次性學習(one-shot learning)有關。

Duan et al. (2017) 和 Wang et al. (2016a) 提出通過學習一個靈活的 RNN 模型來處理一系列 RL 任務,從而能夠提高樣本效率,能夠從幾個樣本中學到新任務,並且可以從先驗知識中獲益。此代理使用 RNN 建模,並輸入了觀察、獎勵、行動和終止標誌;它使用 RL,Duan et al.(2017)提出的 TRPO 和 Wang 等(2016a)的 A3C 算法來訓練 RNN 的權重,並且在使用特定 RL 算法解決的多個問題中表現相似。Duan 等在 2017 年使用多臂賭博機、表 MDP 和視覺導航進行了實驗,並指出對於較大型的問題,需要更好的 RL 算法來訓練 RNN。Wang et al.(2016a)對獨立臂賭博機、依賴臂賭博機、持續性臂和 MDP 進行了實驗。未來的工作方向之一便是提高可擴展性。

Li 和 Malik 在 2017 年建議通過將特定的優化算法表示為策略,將收斂速度表示為獎勵,以引導策略搜索(Levine et al.,2016a)來使無約束連續性優化算法自動化。

11 Games(博弈/遊戲)

遊戲為強化學習/人工智慧算法提供了非常好的測試平臺。我們在第 3 節討論了深度 Q 網絡(DQN)及其延展,所有這些都在 Atari 遊戲上做了測試。我們在第 4 節討論了 Mnih et al. (2016),在第 9 節討論了 Jaderberg et al. (2017),在第 13 節討論了 Mirowski et al. (2017)——他們使用了 Labyrinth 作為測試平臺。

西洋雙陸棋和圍棋是完美信息博弈(perfect information games)。我們在 11.1 討論了西洋雙陸棋這樣的棋盤遊戲。在 11.2 討論了 Doom 這樣的視頻遊戲。我們將撲克遊戲放到了 11.3,討論了非完美信息博弈(imperfect information games),其中涉及到了博弈論(game theory)。Labyrinth 和 Doom 等視頻遊戲通常是非完美博弈,但是目前還沒有使用博弈論來解決這些問題。

我們將 AlphaGo(Silver et al., 2016) 單獨成了第 12 節,因為其有很大的重要性。

11.1 棋盤遊戲

11.2 視頻遊戲

11.3 非完美信息博弈

12 AlphaGo

AlphaGo (Silver et al., 2016) 是一個計算機圍棋程序,其在 2015 年 10 月份以 5 局全勝擊敗了歐洲圍棋冠軍,成為了第一個在全尺寸 19×19 棋盤上無讓子地擊敗了人類職業棋手的計算機圍棋程序。不久之後,2016 年 3 月份,AlphaGo 以 4:1 的成績擊敗了曾獲 18 次世界冠軍的圍棋手李世石,引起了世界的廣泛關注。這是人工智慧發展的一個裡程碑。圍棋問題的困難之處不僅在於其超大的搜索空間(search space)——250^150,一個天文數字;而且也是因為其局面評估(position evaluation)的難度非常大,而西洋雙陸棋和西洋棋等遊戲已經通過局面評估得到了解決。

12.1 訓練流程和蒙特卡洛樹搜索(MCTS)

我們在 Silver et al. (2016) 與 Sutton and Barto (2017) 的基礎上簡要討論了 AlphaGo 的工作方式。參見 Sutton and Barto (2017) 中第 16 章可了解 AlphaGo 的詳細和直觀描述。DeepMind 對 AlphaGo 的描述可查閱:goo.gl/lZoQ1d

AlphaGo 是使用深度 CNN 技術、監督學習、強化學習和蒙特卡洛樹搜索(MCTS)(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了兩個階段:神經網絡訓練流程和 MCTS。其訓練流程階段包括根據專家的走子訓練一個監督學習策略網絡、快速部署策略、強化學習策略網絡和強化學習價值網絡。

13-21:強化學習的應用介紹

這幾節介紹了強化學習的不同類型的應用,這裡簡單給出目錄,詳情請查閱原論文。

13 機器人學

14 口語對話系統

15 機器翻譯

16 文本序列預測

17 神經架構設計

18 個性化網絡服務

19 醫療保健

20 金融

21 音樂生成

22 未來工作

下面我們列出了上面的概述中沒有討論到的有趣的和/或重要的研究方向/論文,希望能夠為有興趣進一步研究它們的人提供信息入口。這也將是我們未來工作的一部分。

理解機器學習(understanding deep learning), Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

探索(exploration)如:Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

基於模型的學習(model-based learning)如:Oh et al. (2015); Gu et al. (2016b)

回溯算法(retrace algorithm), Munos et al. (2016)

預測(predictron), Silver et al. (2017)

分層強化學習(hierarchical RL)如:Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017)

遷移/多任務強化學習(transfer/multitask RL)如: Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

零次/一次性學習(zero/one-shot learning)如:Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016)

半監督強化學習(semi-supervised RL)如:Finn et al. (2017)

deep symbolic RL, Garnelo et al. (2016)

內在動機(intrinsic motivation)如:Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

超參數學習(hyperparameter learning)如:Andrychowicz et al. (2016)

信息提取(information extraction)如:Narasimhan et al. (2016)

文本博弈(text games)如:He et al. (2016b); Narasimhan et al. (2015)

語言樹結構學習(language tree-structure learning)如:Yogatama et al. (2017)

問答系統(question answering)如:Shen et al. (2016); Trischler et al. (2016)

大型動作空間(large action space)如:Dulac-Arnold et al. (2016); He et al. (2016c)

適應性規範化(adaptive normalization), van Hasselt et al. (2016b)

自動駕駛載具(self-driving vehicle)如:Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

智能電網(smart grid)如: Wen et al. (2015b)

通信網絡(communication networks)如: Mestres et al. (2016)

物理實驗(physics experiments)如: Denil et al. (2016)

深度概率編程(deep probabilistic programming), Tran et al. (2017)

深度博弈學習(deep learning games), Schuurmans and Zinkevich (2016)

程序學習(program learning)如:Reed and de Freitas (2016)

量子強化學習(quantum RL)如:Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 資源

我們列出了一些用於深度強化學習的資源,當然並不能做到完全。

23.1 書籍

Richard S. Sutton 和 Andrew G. Barto 所著的毫無疑問的和直觀的強化學習書 (Sutton and Barto, 2017)

簡明和理論性的《Algorithms for Reinforcement Learning》,作者:Csaba Szepesvari (Szepesvari, 2010)

一本關於近似動態編程的理論書籍,作者:Dimitri P.Bertsekas(Bertsekas, 2012)

一本面向運籌學的書《Approximate Dynamic Programming》,作者:WarrenB. Powell (Powell, 2011)

《Deep Learning》,作者:IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 課程

David Silver, 強化學習(Reinforcement Learning), 2015, 幻燈片:goo.gl/UqaxlO,視頻:goo.gl/7BVRkT

Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度強化學習(Deep Reinforcement Learning)2017 年春季課程, http://rll.berkeley.edu/deeprlcourse/

Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 機器學習:強化學習(Machine Learning: Reinforcement Learning), goo.gl/eyvLfg

李飛飛、 Andrej Karpathy 和 Justin Johnson, CS231n: 用於視覺識別的卷積神經網絡(Convolutional Neural Networks for Visual Recognition), http://cs231n.stanford.edu

Richard Socher, CS224d: 用於自然語言處理的深度學習(Deep Learning for Natural Language Processing), http://cs224d.stanford.edu

Nando de Freitas, 深度學習課程(Deep Learning Lectures), https://www.youtube.com/user/ProfNandoDF

23.3 教程

David Silver, 深度強化學習(Deep Reinforcement Learning), ICML 2016

Pieter Abbeel 和 John Schulman, 通過策略優化的深度強化學習(Deep Reinforcement Learning Through Policy Optimization), NIPS 2016

吳恩達,使用深度學習開發人工智慧應用的基本要點(Nuts and Bolts of Building Applications using Deep Learning), NIPS 2016

John Schulman,深度強化學習研究的基本要點(The Nuts and Bolts of Deep Reinforcement Learning Research),深度強化學習研討會, NIPS 2016

John Schulman, 深度強化學習(Deep Reinforcement Learning), Deep Learning School, 2016

Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 abbeel deep reinforcement/

David Silver, Deep Reinforcement Learning, 第二屆強化學習與決策多學科會議(RLDM), Edmonton 2015; http://videolectures.net/rldm2015 silver reinforcement learning/

Rich Sutton, Introduction to Reinforcement Learning with Function Approximation, https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcementlearning-with-function-approximation/

Joelle Pineau, 強化學習入門(Introduction to Reinforcement Learning), Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 pineau reinforcement learning/

Deep Learning Summer School, 2016, 2015

23.4 會議、期刊和研討會

NIPS: 神經信息處理系統

ICML: 國際機器學習大會

ICLR: 國際學習表徵大會

RLDM: 強化學習與決策多學科會議

AAAI, IJCAI, ACL, EMNLP, SIGDIAL, ICRA, IROS, KDD, SIGIR, CVPR, 等

Science Robotics, JMLR, MLJ, AIJ, JAIR, PAMI, 等

Nature May 2015, Science July 2015, 搜索關於機器學習/人工智慧的論文

Deep Reinforcement Learning Workshop, NIPS 2016, 2015; IJCAI 2016

Deep Learning Workshop, ICML 2016

23.5 博客

Andrej Karpathy, karpathy.github.io, esp. goo.gl/1hkKrb

Denny Britz, www.wildml.com, 尤其是 goo.gl/MyrwDC

Junling Hu, Reinforcement learning explained -learning to act based on long-term payoffs

鄧力,深度強化學習可以如何幫助打造聊天機器人(How deep reinforcement learning can help chatbots)

Christopher Olah, colah.github.io

在這個信息/社交網絡時代,信息已經超過了我們的極限,比如來自 Twitter、Google+、微信、arXiv 等的信息。有效地篩選最佳信息的技巧變得十分關鍵。

24 討論

這是深度強化學習最好的時代,也是深度強化學習最壞的時代,而原因卻是一樣的:它以驚人的速度在發展。我們已經看到了突破、激動人心的新方法和應用,並且還有望看到更多和見證更快的發展。因此,不管是在深度還是在廣度上,這篇概述都是不完整的。但是,我們也儘量總結這一驚人領域的重要成就並討論其潛在的方向和應用。

深度強化學習這一領域的進步是有目共睹的,在不到兩年時間內,我們就看到 Nature 上發表了三篇使用了深度強化學習的論文:深度 Q 網絡(deep Q-network)(Mnih et al., 2015)、AlphaGo (Silver et al., 2016) 和可微分神經計算機 (Graves et al., 2016);我們也已經見證了許多深度 Q 網絡上的擴展、改進和應用。注意和記憶機制(Graves et al., 2016)也得到了很大的關注。

2016 年,使用了深度強化學習的全新架構和應用在許多頂級會議上被評選為最佳(學生)論文:ICML 上的決鬥網絡(dueling network)架構(Wang et al., 2016a)、ACL 上的口語對話系統(Su et al., 2016b)(學生論文)、EMNLP 上的信息提取(Narasimhan et al., 2016)、以及 NIPS 上的價值迭代網絡(value iteration networks)(Tamar et al., 2016)。激動人心的成就比比皆是:異步方法(Mnihetal.,2016)、用於機器翻譯的雙學習(dual learning)(Heetal., 2016a)、有引導的策略搜索(Levine et al., 2016a)、生成對抗式模仿學習(Hoand Ermon, 2016)、無監督強化和輔助學習(Jaderberg et al., 2017)、神經架構設計(Zoph and Le, 2017)等等。

價值函數是強化學習的核心,比如在深度 Q 網絡及其許多擴展中。策略優化方法已經在許多不同的應用領域得到了關注,比如:機器人、神經架構設計、口語對話系統、機器翻譯、注意(attention)和學習去學習(learning to learn)等等,不能勝舉。新的學習機制也在湧現,比如:使用無監督/半監督/遷移學習來提升學習的質量和速度,而且更多的新機制還將湧現。這是強化學習的復興(Krakovsky, 2016)。事實上,即使是在「人工智慧的冬天」,強化學習和深度學習也在不斷發展進步。

考慮學習模型的問題是非常關鍵的,這些問題包括穩定性、收斂性、準確度、數據效率、可擴展性、速度、簡潔性、可解釋性、穩健性和安全性等。調查評論/批評也是很重要的,這些批評可能來自認知科學領域,涉及到直觀物理學、直觀心理學、因果模型、組合性、學習去學習、實時運行(Lake et al., 2016)等問題;這能夠幫助我們打造出更強大的人工智慧。也請參考 Peter Norvig 的觀點 goo.gl/obvmVB.

在這第三波人工智慧的大潮下,深度學習將會有更為深度的影響,正如我們已經見證的許多成就一樣。強化學習作為一種更為通用的學習和決策範式,將會給深度學習、機器學習和廣義上的人工智慧帶來深遠的影響。這裡提一件有趣的故事,當 Rich Sutton 教授 2003 年在阿爾伯塔大學開始工作時,他將他的實驗室命名為了 RLAI:Reinforcement Learning and Articial Intelligence(強化學習與人工智慧實驗室)。

致謝

感謝來自Baochun Bai,胡峻玲(Junling Hu),Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建議。任何剩餘錯誤為本文作者所出。本文同時受益於各類研討會/網上討論,特別是2016年4月在MIT舉行的AlphaGo研討會,以及2016年10月份『機器之心』北美系列巡遊活動中在多倫多大學、McGill大學和阿爾伯塔大學舉辦的深度(強化)學習研討會。另外也要感謝2016年11月關於David Silver幻燈片的網上研討會,以及幾個微信群組中的討論。

參考文獻(略)

相關焦點

  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。
  • 【乾貨】圖神經網絡的十大學習資源分享
    由於此領域的發展非常迅速,GNN背後的知識還不是那麼容易獲得。目前,你可以在網際網路上以研究論文、文章或博客的形式找到散落在各地的GNN理論。我們缺乏的是一本GNN書籍,或者是一本在線資源彙編,來幫助人們進入了解這個領域的工作。  經過一番搜索,我發現其實有幾個相當不錯的資源,以一種容易理解的方式來解釋GNN。
  • 綜述 | Google-斯坦福發布~深度學習統計力學
    ,但是背後的理論作用機制一直沒有得到統一的解釋。最近來自谷歌大腦和斯坦福的學者共同在Annual Review of Condensed Matter Physics 發布了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯繫。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    譜聚類的一個有用的免費資源是:《譜聚類教程》,Von Luxburg U 著聚類算法是無監督學習中的代表,機器之心也曾詳細地介紹過各種聚類方法與實現:機器理解大數據的秘密:聚類算法深度詳解綜述分類、聚類和信息提取算法在文本挖掘領域內的應用如何用Python和機器學習炒股賺錢?
  • 入門| 獻給新手的深度學習綜述
    機器之心認為,這篇綜述對於剛入門的深度學習新手是一份不錯的參考資料,在形成基本學術界圖景、指導文獻查找等方面都能提供幫助。 綜述論文是非常有益的,特別是對某一特定領域的新研究人員。一個研究領域如果在不久的將來及相關應用領域中有很大的價值,那通常很難被實時跟蹤到最新進展。現在,科學研究是一個很有吸引力的職業,因為知識和教育比以往任何時候都更容易分享和獲得。對於一種技術研究的趨勢來說,唯一正常的假設是它會在各個方面有很多的改進。幾年前對某個領域的概述,現在可能已經過時了。
  • 深度強化學習從入門到大師:以刺蝟索尼克遊戲為例講解PPO(第六部分)
    嘗試更改環境,調整超參,嘗試是學習的最佳途徑也是最大樂趣。 花點時間來想想我們從第一節課到現在取得的所有成就:從簡單的文本遊戲(OpenAI taxi-v2)到像毀滅戰士、索尼克這些複雜的遊戲,我們採用越來越強大的模型結構。這真是極好的! 下一回,我們將學習深度強化學習中最有趣的的新內容之一——好奇心驅動的學習。 想要繼續查看該篇文章相關連結和參考文獻?
  • AlphaGo是如何戰勝圍棋高手的?深度學習告訴你
    深度強化學習DRL,其中一個最最經典的應用就是谷歌DeepMind團隊研發的圍棋程序AlphaGo(阿爾法狗)。AlphaGo的勝利將深度強化學習推上新的熱點和高度,成為AI人工智慧歷史上一個新的裡程碑。 有必要跟大家一起探討一下AlphaGo(阿爾法狗),了解一下AlphaGo背後神奇的AI力量。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    -時空數據挖掘深度學習技術全面綜述NeurIPS2020 | Google《圖學習與挖掘》綜述教程,311頁ppt+教程NeurIPS2020 | 圖對比學習 | 結合四種數據擴充方式進行對比學習(附論文代碼連結)NeurIPS2020 | 四篇圖魯棒性研究相關論文一覽方法總結 | 兩篇論文分析解耦/分離/Disentangled/圖神經網絡表示學習
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    在深度學習的世界中,無論您的模型多麼先進,沒有充分對業務充分理解和乾淨的數據都不會走得太遠。這個事實在金融領域尤其如此,在我們的數據集中,只存在股票的開盤價,最高價,最低價,調整後的收盤價和交易量的5個變量。在第一幅圖中,不難發現這些原始數據值不足以訓練機器學習模型。高度相關的變量乍看起來似乎很有希望,但是相關係數極高的缺點是實際上沒有那麼多的信息。
  • ...凝聚精神力量 中國農大「學習強國」學習標兵交流學習心得收穫
    「學習強國」,讓學習更多樣、更個性化。「每天早起第一任務就是完成『學習強國』平臺的積分任務,就像每天佩戴黨徽一樣,強化自身黨員意識。」體育與藝術教學部的束景丹老師分享到,一方面,藉助「學習強國」平臺可以及時了解時事政治,感受「中國精神」、「中國力量」,提高防範危機、挑戰困難等政治意識。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    不過 Deep RL 需要大量的訓練數據,人們開始質疑深度強化學習過於依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。但在本文中,DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。
  • AI求解薛丁格方程;陶大程等深度學習理論進展綜述
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括人工智慧計算薛丁格方程的基態解以及雪梨大學陶大程等的深度學習理論進展綜述。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    選自arXiv作者:張子威、崔鵬、朱文武機器之心編譯參與:路、曉坤深度學習在多個領域中實現成功,如聲學、圖像和自然語言處理。但是,將深度學習應用於普遍存在的圖數據仍然存在問題,這是由於圖數據的獨特特性。近期,該領域出現大量研究,極大地提升了圖分析技術。清華大學朱文武等人綜述了應用於圖的不同深度學習方法。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    對英文原報告感興趣請在本公眾號回復關鍵詞「深度學習統計力學」。深度神經網絡最近在機器學習方面取得了顯著的成功,這就對其成功背後的理論原理提出了深刻的問題。例如,這樣的深層網絡可以計算什麼?我們如何訓練他們?信息是如何通過它們傳播的?為什麼他們泛化能力很好?我們怎麼能教他們想像呢?
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • 「句子級」的深度強化學習方法難以求解器空間
    近期,nlp領域發生了兩件大事,可以說影響了整個rl界,分別是spancer-in-rl(用端到端模型替代完全獨立的backpropagation)以及negowave(深度神經網絡變革rl)。backpropagation和progressivegradientxpress(引入hinton先驗,更多方法變為基於歷史記錄的scheme)都是深度學習起步之初的主流方法,除此之外還有包括reinforcementlearning和proximalandadaptiverl等重要進展。但是深度學習從起步到發展至今,說的上的諸多進展似乎都停留在rl的範疇。
  • 中信所青年理論學習小組召開黨的十九屆五中全會精神專題學習會議
    2020年12月2日,中信所青年理論學習小組召開黨的十九屆五中全會精神專題學習會議,重點圍繞《中共中央關於制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》(以下簡稱《建議》)交流分享學習心得體會,中信所黨委委員