DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習

2021-01-10 手機鳳凰網

近年來,深度強化學習方法給人工智慧領域帶來了很大的進展,在很多領域都超越了人類表現,比如雅達利遊戲、圍棋和無限制德撲。不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。

DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。正如上個月打 TI 8 的 OpenAI Five,它相當於人類玩了「4 萬 5 千年」的 Dota 2 遊戲,如果智能體能像人類那樣「快學習」,也許它的學習能更高效。

其實很多人認為深度強化學習樣本效率低下,學習過程過於緩慢,無法提供了解人類學習的可靠模型。在本文中,DeepMind 研究人員利用最近開發的技術反駁了這一批評。這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。

深度強化學習的快與慢

近期的 AI 研究引出了強大的技術,如深度強化學習。深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。然而深度強化學習需要大量訓練數據,這表明深度強化學習算法與人類學習的底層機制存在根本區別。

當這一擔憂被帶到深度強化學習第一波浪潮時,後續的 AI 工作創建了一些方法,允許深度 RL 系統更快、更高效地學習。兩種有趣且有前景的技術分別是 episodic memory 和元學習。

除了作為 AI 技術以外,利用 episodic memory 和元學習的深度 RL 方法還在心理學和神經科學上有直接且有趣的應用。這些技術揭示了一個微妙但非常重要的洞見,即學習的快與慢之間的基礎聯繫。

深度強化學習的「慢」是指每一個任務都要極其龐大的試錯過程,它不能像人類那樣利用經驗或知識快速學習。但這種慢卻也非常有優勢,智能體能找到更好的解決方案、更具有創新性的觀點等等。反觀深度學習的「快」,我們希望藉助決策經驗,幫助智能體快速學習新任務與新知識。

也許結合了「快」與「慢」的強化學習,才是以後真正理想的強化學習。

強大但慢速:第一波深度強化學習

從這個角度來看,AI 研究中一個極具吸引力的領域是深度強化學習。深度強化學習將神經網絡建模和強化學習相結合。過去幾十年來,深度強化學習一直可望而不可及。直到過去五年裡,它強勢發展為 AI 研究中最激烈的領域之一,在多種任務(比如視頻遊戲、撲克、多人遊戲和複雜的棋盤遊戲)中超越人類表現。

原論文 BOX 1 圖 1:深度強化學習的代表性示例。

除了 AI 領域以外,深度強化學習似乎對心理學和神經科學也有著特殊的興趣。深度 RL 中驅動學習的機制最初是受動物條件作用研究啟發的,並被認為與基於獎勵學習(以多巴胺為中心)的神經機制密切相關。

同時,深度強化學習利用神經網絡來學習支持泛化和遷移的強大表徵,而這正是生物大腦的核心能力。鑑於這些聯繫,深度 RL 似乎為對人類和動物學習感興趣的研究者提供了豐富的想法和假設,無論是行為還是神經科學層面。而這些研究者也的確開始將目光轉向深度強化學習。

同時,對第一波深度強化學習研究的評論也敲響了警鐘。乍一看,深度強化學習系統的學習方式與人類截然不同。有人認為,這種差異在於二者的樣本效率。樣本效率是指學習系統達到任何選定的目標性能所需的數據量。

根據這一衡量標準,最初的深度 RL 系統確實與人類學習者有著很大區別。為了在雅達利視頻遊戲等任務上達到媲美人類專家的水平,深度 RL 系統需要比人類專家多得多(多幾個數量級)的訓練數據 [22]。簡而言之,最初的深度 RL 速度太慢,無法為人類學習提供可信的模型。

這一評論確實適用於自 2013 年出現的第一波深度 RL。但,此後不久,深度 RL 開始發生重要改變,其樣本效率急劇提升。這些方法降低了深度 RL 對大量訓練數據的需求,使其速度大大加快。這些計算技術的出現使得深度 RL 成為人類學習的候選模型,以及心理學和神經科學的見解來源。

本文中,DeepMind 研究人員認為有兩個關鍵的深度 RL 方法緩解了其樣本效率問題:episodic deep RL 和元強化學習。他們探索了這兩種方法是如何加快深度 RL 的,並考慮了深度 RL 對於心理學和神經科學的潛在影響。

Episodic 深度強化學習:通過 episodic memory 進行快速學習

如果增量參數調整是深度 RL 學習速度慢的一個原因,那麼一種解決方法是避免此類增量更新。但簡單地增加學習率(學習率控制梯度下降優化)會導致災難性的幹擾問題。

不過,近期研究表明還有另外一種解決方法:明確記錄過去的事件,然後直接使用該記錄作為制定新決策時的參考點。這就是 Episodic RL,它類似於機器學習中的「非參數」方法和心理學中的「基於實例」或「基於樣本」的學習理論。

當遇到新場景、必須作出執行什麼動作的決策時,該算法會對比當前場景的內部表示和過去場景的表示。之後根據與當前場景最相似的過去場景選擇具備最高值的動作。

當內部狀態表示是根據多層神經網絡來計算時,我們將得到的算法叫做 episodic deep RL。該算法的示意圖詳見下圖。

與標準增量方法不同,episodic deep RL 算法可直接利用過往事件中收集到的信息來指導行為。儘管 episodic deep RL 比較快,之前的深度強化學習方法比較慢,但是前者的快速學習依賴於緩慢的增量學習。正是連接權重的逐漸學習才使得系統形成有用的內部表示或每個新觀測的嵌入。

這些表示的格式是通過經驗學到的,所使用的方法正是構成標準深度 RL 骨幹網絡的增量參數更新。總之,episodic deep RL 的速度是這種較慢的增量學習促成的。也就是說,快速學習根植於慢速學習。

快速學習對慢速學習的依賴並非巧合。除了 AI 領域,這一原則還可應用於心理學和神經科學。

Meta-RL:加速深度強化學習的另一方法

正如原論文前面介紹過的,除了增量式的更新,深度強化學習慢速的第二個原因在於較弱的歸納偏置(inductive bias)。正如偏差-方差權衡概念中所形式化的,快速學習要求學習者使用一組合理大小的假設(hypotheses),且這些假設描述了學習者將要面臨的模式結構。假設配置地越狹隘,那麼學習的速度就越快。

然而,正如前面所預示的,問題是只有在假設空間包含正確的假設情況下,收縮假設集才會加速學習過程。因此,現在出現了一個新的學習問題:學習者如何知道該採用什麼樣的歸納偏置?

該問題有一個非常自然的回答,即借鑑過去的經驗。當然,這種想法顯然在人類日常生活中也是非常自然的。例如我們想要學習使用新的智慧型手機,那麼以前使用智能機或相關設備的經驗將幫助學習過程。

也就是說,以前的經驗會為「新手機如何工作」這個問題提供一個合理的假設集。這些初始的假設即對應於偏差-方差權衡中的「偏差」,它提供一種偏置信息來幫我們快速學習新的知識。

對於標準的深度學習,學習者並沒有這些偏置信息,也就是會有較高的方差,所以學習者會考慮很大範圍內的假設,從而希望找到那一個帶有偏置的最優假設。

利用過去經驗加速新學習過程,這在機器學習中被稱為元學習。毫不奇怪,這個概念源自心理學,它也被稱為「學習如何學習」。在第一篇使用元學習的論文中,Harlow [34] 通過一個實驗巧妙地捕捉了它的原理。

他們發現猴子總能弄清楚一些簡單規則,例如一個不熟悉的物體可能帶來食物,另一個並不會,且不管這兩個物體的左右順序是什麼樣的。所以弄清這樣簡單規則後,再換兩種不同的物體,它也只需一次學習就弄清到底哪個新物體能帶來食物,這就是學習如何學習。

原論文 BOX 3 圖 1 C:Harlow 的實驗,它展示了訓練中動物和智能體的行為變化。

現在再回到機器學習,最近很多研究工作都表明學習如何學習能夠加速深度強化學習。這一通用觀點可以通過多種方式實現,然而,Wang [37] 和 Duan [38] 等研究者提出了一種與神經科學和心理學特別相關的一種方法。

在他們的方法中,

循環神經網絡

可以在一系列相互關聯的強化學習任務中進行訓練。因為網絡中的權重調整非常慢,所以它可以獲得不同任務中的通用知識,但不能快速調整以支持任意單個任務的解決方案。

在這種倩況下,循環神經網絡的動態過程可以實現其獨立的強化學習算法,因此能基於所有過去任務獲得的知識,快速解決新的任務(如下圖所示)。實際上,一個 RL 算法產生另一種強化學習算法,又可以稱之為「meta-RL」。

元強化學習圖示。

與 Episodic 深度強化學習一樣,Meta-RL 再次涉及快速和慢速學習之間的密切聯繫。循環神經網絡的連接在不同任務中慢慢學習與更新,因此跨任務的一般原則或模式能「內嵌」到 RNN 的動態過程中。因此網絡的不同動態過程(或時間步)能實現新的學習算法,也能快速解決某個新任務。

因為慢學習嵌入了足夠多的知識,也就是足夠有用的歸納偏置,所以快速學習就能建立在慢速學習的基礎上了。

Episodic Meta-RL

重要的是,episodic deep RL 和 Meta-RL 並不是互相排斥的。近期研究發現了一種方法可以將二者融合起來,實現互補。在 episodic meta-RL 中,元學習發生在循環神經網絡中。但它上面疊加了一個 episodic memory 系統,該系統使該循環神經網絡中的活動模式復原。

和 episodic deep RL 一樣,該 episodic memory 系統整理過去事件的集合,然後基於當前場景查詢。但是,episodic meta-RL 不是將語境和值估計連接起來,而是將語境與來自循環神經網絡內部或隱藏單元的存儲活動模式連接起來。這些模式很重要,因為它們通過 meta-RL 總結出智能體從單個任務中學得的東西。

在 episodic meta-RL 中,當智能體遇到與過去事件類似的場景時,它首先復原之前事件的隱藏活動,允許之前學得的信息直接作用於當前的策略。episodic memory 允許系統識別之前遇到的任務,然後檢索已經存儲的解決方案。

通過在 bandit 任務和導航任務中的模擬,Ritter 等人 [39] 展示了 episodic meta-RL 和原版 meta-RL 一樣學習強大的歸納偏置,使其能夠快速解決新任務。

更重要的是,當面臨之前見過的任務時,episodic meta-RL 直接檢索並復原之前發現的解決方案,避免重新探索。在遇到新任務時,系統受益於 meta-RL 的快速性;在第二次或之後再遇到時,系統受益於 episodic control 帶來的 one-shot 學習能力。

最後,文章一作 Matthew Botvinick 曾發表演講,詳細介紹了強化學習的快與慢。感興趣的讀者,請戳:

原文地址:https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

相關焦點

  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    數幾十年來,深度強化學習更多的是理論層面的研究,直到近五年來,在電子遊戲、撲克、多人遊戲以及一些複雜的棋盤遊戲中,表現出超人類的技術水平,一躍成為人工智慧研究最激烈的領域之一。這些方法大大降低了深度強化學習對訓練數據量的要求,也就相當於讓深度強化學習變得快多了。這些計算技術的出現使 Deep RL 成為人類學習建模的候選模型,也是心理學和神經科學相關觀點的重要啟蒙。以當下的視角,DeepMind 研究人員在這篇綜述中探究了兩種關鍵的 Deep RL 方法來解決樣本效率問題:Episodic Deep RL和 Meta-RL 。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    正是這種組合被認為有助於人高效地學習,並將這些知識快速靈活地應用於新任務。在 AI 系統中重建這種元學習結構——稱為元強化學習(meta-reinforcement learning)——已經被證明能夠促進智能體(agents)快速、one-shot的學習。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • AI學會「以牙還牙」,OpenAI發布多智能體深度強化學習新算法LOLA
    OpenAI和牛津大學等研究人員合作,提出了一種新的算法LOLA,讓深度強化學習智能體在更新自己策略的同時,考慮到他人的學習過程,甚至實現雙贏。每個LOLA智能體都調整自己的策略,以便用有利的方式塑造其他智能體的學習過程。初步試驗結果表明,兩個LOLA 智能體相遇後會出現「以牙還牙/投桃報李」(tit-for-tat)策略,最終在無限重複囚徒困境中出現合作行為。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習基礎和應用
    最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1. 強化學習和多智能體強化學習我們知道,強化學習的核心思想是「試錯」(trial-and-error):智能體通過與環境的交互,根據獲得的反饋信息迭代地優化。在 RL 領域,待解決的問題通常被描述為馬爾科夫決策過程。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習的基礎和應用
    最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1. 強化學習和多智能體強化學習我們知道,強化學習的核心思想是「試錯」(trial-and-error):智能體通過與環境的交互,根據獲得的反饋信息迭代地優化。
  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    只要學習這些問題的過程(所謂的「適應」)是可區分的,就可以像往常一樣,在具有梯度下降的外循環(元訓練)中對其進行優化。一旦經過訓練,適應程序就可以迅速從少量數據中解決新的相關任務。在此後的幾年裡,元學習應用到了更廣泛的問題上,如視覺導航、機器翻譯和語音識別等等。所以,將強化學習運用到元學習方法內是一個具有挑戰性但又振奮人心的任務,因為這樣的結合將有望使智能體能夠更快速地學習新的任務,這個能力對於部署在複雜和不斷變化的世界中的智能體來說是至關重要的。因為元學習本身的樣本複雜性問題和深度強化學習緊密相關,因此元學習可以通過與深度強化學習相結合來解決這個問題。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    無論是 DeepMind 星際2 AI 「AlphaStar」血虐人類玩家,還是 OpenAI 最終因太過強大而被認為可能有風險所以不公開發布的語言模型 GPT-2,無疑都在過去一年中最轟動的 AI 大事件之列,也吸引了 AI 社區的越來越多的研究者投身深度強化學習研究之列。然而,也有很多反對的聲音認為深度強化學習現在的一系列成果,其實更像是一種虛假的「繁榮」。
  • 深度強化學習從入門到大師:以刺蝟索尼克遊戲為例講解PPO(第六部分)
    case 2:當優勢A<0 如果Ȃt < 0,即該行動為導致消極結果的行動,應該被阻止。因此概率比rt(?)會被減少。但同時進行裁剪,使rt(?)最小只能將降低到1- ?。 同樣,我們不想最大化減少該行動被選中的概率,因為這種貪婪學習會導致策略過大的改變,以至於變得糟糕也說不定。
  • 從NLP終生學習開始,談談深度學習中記憶結構的設計和使用
    雷鋒網 AI 科技評論按:終生學習,簡單說是讓模型有能力持續地學習新的信息,但更重要的是讓模型學習新信息的同時還不要完全忘記以往學習過的內容(避免「災難性遺忘」),是深度學習的長期發展和大規模應用中必不可少的一項模型能力。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。2016年Google與facebook兩個大拿在圍棋領域基於深度學習都發表了文章,其中facebook文章如下:《BETTER COMPUTER GO PLAYER WITH NEURAL NET- WORKAND LONG-TERM PREDICTION》 ;Google文章如下:《Mastering the game of Go with deep neural networks and tree
  • DeepMind 論文三連發:如何在仿真環境中生成靈活行為
    右邊的模型中,我們的智能體使用一種單一的策略網絡(policy network)來模仿此種行走方式。通過一個策略梯度強化學習的全新可擴展變體,我們的智能體學習奔跑、跳躍、蹲伏和轉向,而無需來自環境的明確獎勵指示。  這一學習性行為的亮點的可視化描述可參見 https://goo.gl/8rTx2F 。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    在深度學習的世界中,無論您的模型多麼先進,沒有充分對業務充分理解和乾淨的數據都不會走得太遠。這個事實在金融領域尤其如此,在我們的數據集中,只存在股票的開盤價,最高價,最低價,調整後的收盤價和交易量的5個變量。在第一幅圖中,不難發現這些原始數據值不足以訓練機器學習模型。高度相關的變量乍看起來似乎很有希望,但是相關係數極高的缺點是實際上沒有那麼多的信息。
  • 入門| 獻給新手的深度學習綜述
    我們將在最後兩個章節(即討論和結論)中討論深入學習的現狀和未來。 2. 相關研究 在過去的幾年中,有許多關於深度學習的綜述論文。他們以很好的方式描述了 DL 方法、方法論以及它們的應用和未來研究方向。這裡,我們簡要介紹一些關於深度學習的優秀綜述論文。
  • 強化學習的10個現實應用
    Deepmind使用AI智能體來冷卻Google數據中心是一個成功的應用案例。通過這種方式,節省了40%的能源支出。現在,這些數據中心完全由人工智慧系統控制,除了很少數據中心的專家,幾乎不再需要其他人工幹預。該系統的工作方式如下:當然,具體的措施還是由本地控制系統操作完成。
  • 深度學習之後,我們或許可以從進化論中找到新的突破口
    圖 1:開放的環境與物種間的競爭是達爾文進化論中實現自然進化的兩個重要的驅動力,而這兩個驅動力在最近的 AI 模型演進方法的研究工作中卻沒有體現出來,在同一個世代中,更快的黑斑羚和更快的獵豹比它們更慢的同類更容易生存下來——
  • 強化學習如何使用內在動機?
    RL 算法解決了行為智能體如何在與環境直接交互的同時學習最佳行為策略(通常稱為策略 Policy)的問題。強化學習之父 Barto 在文獻 [2] 中闡述了在 RL 框架中引入內在動機的可能性和重要性。由於環境學習的局限性,RL 存在智能體無法學習可靠策略的問題,通過引入內在動機可以幫助智能體解決環境局限性所帶來的問題:內在動機可使智能體能夠學習有用的環境模型,從而幫助其更有效地學習其最終任務。