谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用...

2020-12-14 電子發燒友

谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習

將門創投 發表於 2020-03-26 11:41:12

近年來隨著強化學習的發展,使得智能體選擇恰當行為以實現目標的能力得到迅速地提升。目前研究領域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來學習預測成功的行為,其中著名的方法包括用於完成雅達利遊戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺競技的AlphaStar,但這類方法需要與環境進行大量的交互限制了其在真實場景中的應用。

而基於模型(model-based)的強化學習方法則額外學習一個簡化的環境模型,這一環境模型使得主體可以預測潛在行為序列的輸出,使得它可以通過假設的場景來在新環境中作出明智的決策,減少了實現目標所需的試錯。先前學習精確的世界模型並將其充分應用於行為學習中還面臨一系列挑戰,但隨著近來像深度規劃網絡(DeepPlanningNetwork, PlaNet)的研究出現,極大地拓展了從圖像中學習出精確世界模型的邊界,但基於模型的方法卻依然受到規劃(planning)機制龐大計算消耗的約束,限制了其在解決複雜任務上的應用。

為了解決這些問題,來自谷歌和DeepMind的研究人員合作提出了一種基於圖像學習出世界模型(world model)的強化學習方法Dreamer,並在此基礎上學習出有遠見的行為。Dreamer基於模型預測的反向傳播來利用世界模型實現高效的行為學習。通過從原始圖像輸入中計算出緊緻的模型狀態,這種方法可以使得主體在單個GPU上並行地從上千個預測序列中進行高效的學習。通過20個基於原始圖像輸入的連續控制基準任務上測評表明,Dreamer在性能、數據效率和計算時間上都達到了先進水平。

Dreamer的基本架構

Dreamer和典型的基於模型方法一樣包含三個過程:學習世界模型、基於世界模型的預測學習行為、在環境中執行學習到的行為來收集新的經驗。為了學習行為,Dreamer中利用價值網絡(valuenetwork )將規劃視野外的獎勵納入考量,同時利用行為網絡(actor network)來高效的計算行為。這三部分可以並行地執行,一直重複運行直到達成目標:

Dreamer主體的三個過程,世界模型基於過去經驗學習、隨後基於這一模型預測,主體通過價值網絡來預測未來獎勵、行為網絡來選擇行為。行為網絡用於與環境交互。

學習世界模型

Dreamer採用了PlaNet的世界模型,通過一系列緊緻的模型狀態來預測輸出,而這些模型狀態則通過輸入圖像計算得到,而不是直接利用圖像來進行處理。它將自動學習得出代表有益於預測未來輸出概念的模型狀態,例如目標類型、位置以及目標與周圍環境的交互等等。給定數據集中一個過去的圖像、行為和獎勵序列,Dreamer按照下圖的方式進行世界模型的學習:

Dreamer 從經驗中學習世界模型,利用過去的圖像(o1–o3)、行為(a1–a2),它將計算出緊緻的模型狀態(綠色圓),並可以基於這些狀態重建出圖像並預測出獎勵。

利用PlaNet世界模型的優勢在於利用緊緻的模型狀態代替了圖像來進行預測,極大地提高了計算效率。這使得模型可以在單個GPU上預並行的預測上千個序列。這種方式同時可以提高模型的泛化性,進行精確的長時視頻預測。為了更好地理解模型的工作原理,下圖展示了將預測序列模型狀態解碼回圖像的結果:

複雜環境下的長程預測結果,上圖顯示了兩個主體未曾遇到過的序列,給定五張輸入圖像,模型對其進行重建並預測出了後續到50步的圖像結果。

高效行為學習

先前基於模型的主體選擇行為的方法分為兩種,要麼通過多個模型預測來進行規劃、要麼通過將世界模型代替模擬器來復用無模型方法的技術,但兩種方法都需要龐大的計算需求,同時也未充分利用學習到的世界模型。此外及時強大的世界模型也會受制於精確預測的長度,很多先前基於模型的主體表現出短視的缺點。Dreamer通過世界模型的預測進行反向傳播學習價值網絡和行為網絡來克服上述局限。

Dreamer通過預測的狀態序列反向傳播獎勵來高效地學習行為網絡用於預測正確的行為,這在無模型方法中是無法實現的。這將告訴Dreamer其多小的行為變化將會影響未來預測的獎勵,使得它可以向最大化獎勵的方向上優化行為網絡。為了考慮預測範圍外的獎勵,價值網絡將估計每一個模型狀態未來的獎勵和,獎勵和價值將反向傳播來優化行為網絡去改善行為。

Dreamer通過模型狀態預測序列來學習長程行為,首先學習每個狀態的長程價值,而後通過反向傳播到行為網絡來預測能夠得到高價值和獎勵的行為。

Dreamer與PlaNet有諸多不同,在環境中的給定狀態下,PlaNet在不同行為序列的多個預測中搜索最佳行為,而Dreamer則避開了這種計算消耗巨大的搜索方式,利用規劃和行為解耦的方式來提高計算效率。一旦在預測序列上訓練好了行為網絡,它將計算與環境交互的行為而無需額外的搜索。此外Dreamer利用價值函數考慮到了規劃以外的獎勵並通過反向傳播提高了規劃的效率。

控制任務上的表現

為了測試Dreamer的性能,研究人員在20個不同的任務上對其進行了測評,包括平衡、控制、運動等多種複雜的強化學習任務。

多種複雜的任務,其輸入為圖像。包括了碰撞、稀疏獎勵、混沌動力學和高自由度甚至三維視角等複雜情況。

研究人員將Dreamer與多個先進的模型進行了比較,包括先前最先進的基於模型的方法PlaNet、無模型方法A3C、結合多種先進手段的無模型方法D4PG。實驗表明,基於模型的主體可以在五百萬幀內完成高效學習,大概對應28小時的仿真,而無模型的方法則需要近100萬幀的學習,大概對應23天的仿真訓練。在20個任務的測評基準上,Dreamer領先於目前最先進的無模型方法D4PG(平均分823>786),同時其與環境的交互大概要少二十倍。此外它最終的結果在所有任務上也超過了先前最好的基於模型方法PlaNet,最終的結果如下圖所示:

Dreamer的性能與其他方法的比較,其得分、數據效率和計算時間都比先前方法要好。

此外研究人員還在連續任務上進行了實驗,以驗證Dreamer面對複雜環境的能力。下面的任務需要不僅需要長程行為預測,同時還需要模型具有空間感知能力。實驗表明Dreamer對於這些更具挑戰的任務依然能夠很好的進行處理:

Dreamer成功的在雅達利遊戲和DeepMind環境中運行,這些離散的任務更具挑戰性。

Dreamer不僅在性能上超越了原有基於模型的方法,同時在計算效率上也大幅提升。研究人員認為Dreamer將為強化學習提供更為堅實的發展根基,同時也將促進更好的表示學習、基於不確定性的方向探索、時域抽象和多任務學習的發展。
       責任編輯:wv 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    之前的研究認為,這些多巴胺神經元對獎勵的預測應當是相同的。但近日,DeepMind 的研究人員通過使用分布式強化學習算法發現,每個多巴胺神經元對獎勵的預測很不相同,它們會被調節到不同水平的「悲觀」和「樂觀」狀態。研究者希望通過這套算法研究並解釋多巴胺細胞對大腦的行為、情緒等方面的影響。
  • Google AI,DeepMind和多倫多大學推出DreamerV2
    Google AI與DeepMind和多倫多大學合作,最近推出了DreamerV2。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    不過 Deep RL 需要大量的訓練數據,人們開始質疑深度強化學習過於依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。但在本文中,DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾於新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現任 Facebook 研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    正如上個月打 TI 8 的 OpenAI Five,它相當於人類玩了「4 萬 5 千年」的 Dota 2 遊戲,如果智能體能像人類那樣「快學習」,也許它的學習能更高效。其實很多人認為深度強化學習樣本效率低下,學習過程過於緩慢,無法提供了解人類學習的可靠模型。在本文中,DeepMind 研究人員利用最近開發的技術反駁了這一批評。
  • DeepMind提出SPIRAL:使用強化對抗學習,實現會用畫筆的智能體
    近日,DeepMind 發布博客,提出一種結合了對抗訓練和強化學習的智能體 SPIRAL。該智能體可與繪圖程序互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色,並像街頭藝人一樣畫畫。這與最近的研究《A Neural Representation of Sketch Drawings》恰恰相反,後者目前仍依賴於從人類演示中學習,是一個時間密集型的過程。DeepMind 設計了一種深度強化學習智能體,該智能體可與計算機繪圖程序(http://mypaint.org/)互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色。
  • ICLR 2018 DeepMind論文精華一覽
    我們將介紹幾種現有方法,它們直接與我們的推導相關。我們開發了兩種離策略(off-policy)算法,並證明它們可與深度強化學習中的最新技術展開競爭。我們的方法在樣本效率、早熟收斂以及對超參數設置的魯棒性方面優於現有方法。
  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    在這項剛剛被發表在Nature的研究中,DeepMind與哈佛大學的研究人員受最近關於分布強化學習的AI研究啟發,提出了一種基於多巴胺的強化學習的方法。接下來,新智元為大家剖析這項研究的來龍去脈。時間差學習算法:完善強化學習預測鏈強化學習是將神經科學和AI相聯繫的最古老,最有力的想法之一。早在1980年代後期,計算機科學研究人員試圖開發一種算法,該算法僅使用「獎懲」作為信號,學習如何獨自執行複雜的行為。
  • DeepMind開源了強化學習庫「松露」,團隊自身也嚴重依賴它
    基於策略針對基於策略的強化學習,這裡既有工具可以輕鬆實現在線方法,比如A2C ,也支持離線的修正技術,比如v-trace。另外,連續動作裡策略梯度的計算,松露也支持。因為,DeepMind在做研究的過程中,也非常依賴這個庫,所以會持續對它進行維護,也會隨時添加新功能。當然,團隊也歡迎強化學習界的小夥伴們,為松露添磚加瓦。多巴胺也是強化學習庫
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 麾下的頂尖人才通常擁有牛津、劍橋、斯坦福或 MIT 等學校的博士學位,並得到 Facebook、蘋果、亞馬遜和微軟等科技巨頭的追捧。DeepMind 發言人表示:「在這些費用覆蓋的時間裡,DeepMind 的突破性成果為解決蛋白質結構預測這一生物學 50 年來重大挑戰奠定了基礎。DeepMind 還與谷歌團隊合作為現實世界帶來影響。
  • DeepMind提出引導式元學習算法,讓元學習器具備自學能力
    DeepMind 的一個研究小組近期提出了一種引導式(Bootstrap)的元學習算法,用於解決元優化以及短視的元目標問題,並讓學習器具備自學能力。 大部分人類學會學習的過程都是應用過往經驗,再學習新任務。然而,將這種能力賦予人工智慧時卻仍是頗具挑戰。自學意味著機器學習的學習器需要學會更新規則,而這件事一般都是由人類根據任務手動調整的。
  • DeepMind首次披露旗下AI專利申請情況,引發熱議
    DeepMind 創始人 Demis Hassabis 博士曾在一篇文章中介紹了其人工智慧方法(地址:https://www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago-google-deepmind-ai)。
  • 強化學習應用簡述
    強化學習也應用於化學分子逆合成和新藥設計。等等。強化學習也已經被用到產品和服務中。谷歌雲的自動機器學習 (AutoML) 提供了自動優化神經元網絡結構設計這樣的服務。臉書開源了Horizon產品和服務,實現通知傳達、視頻流比特率優化等功能。谷歌研發了基於強化學習的YouTube視頻推薦算法。亞馬遜與英特爾合作,發布了一款強化學習實體測試平臺AWS DeepRacer.
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    DeepMind 近年來針對基於種群的多智能體強化學習進行了大量的研究,其最新研究成果近日發表在了國際權威雜誌「Science」上。DeepMind 發博客將這一成果進行了介紹,雷鋒網 AI 科技評論編譯如下。智能體在多玩家電子遊戲中掌握策略、理解戰術以及進行團隊協作是人工智慧研究領域的重大挑戰。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    他們的策略得到科學研究的支持,這些科學研究證明,像象棋這樣的遊戲可以提高戰略思維能力。通過學習如何玩這些複雜的遊戲,機器將獲得思考和採取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過遊戲化學習,嘗試獲得類人的智力和行為。儘管該公司對實現人類智能的機器學習非常感興趣,但它對使用這些技術的安全性也有客觀的看法。
  • 【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero
    早期研究人員提出了多層感知機的概念,並且使用反向傳播算法優化多層神經網絡,但是由於受到梯度彌散或爆炸問題的困擾和硬體資源的限制,神經網絡的研究一直沒有取得突破性進展。隨著計算資源的提升和相應算法的發展,深度學習在人工智慧領域取得了一系列重大突破,包括語音識別、圖像識別及檢測、自然語言處理等。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    DeepMind在最近發表的一篇論文中,提出了可微分歸納邏輯編程方法?ILP,既能解決傳統歸納邏輯編程擅長的符號類任務,也對噪聲數據、訓練集中的誤差有一定容忍度,還可以通過梯度下降來訓練。   怎麼樣?我們來看看DeepMind在官方博客上對這種方法的解讀:
  • 學界 | DeepMind提出關係性深度強化學習:在星際爭霸2任務中獲得最優水平
    近日,這家公司提出了一種「關係性深度強化學習」方法,並在星際爭霸 2 中進行了測試。在星際爭霸 II 學習環境中,DeepMind 的智能體在六個小遊戲中達到了當前最優水平,且在四個遊戲中的表現超越了大師級人類玩家。這種新型強化學習可以通過結構化感知和關係推理提高常規方法的效率、泛化能力和可解釋性。
  • 強化學習應用簡介
    強化學習也應用於化學分子逆合成和新藥設計。等等。強化學習也已經被用到產品和服務中。谷歌雲的自動機器學習 (AutoML) 提供了自動優化神經元網絡結構設計這樣的服務。臉書開源了Horizon產品和服務,實現通知傳達、視頻流比特率優化等功能。谷歌研發了基於強化學習的YouTube視頻推薦算法。亞馬遜與英特爾合作,發布了一款強化學習實體測試平臺AWS DeepRacer.