谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用...

2020-12-23 電子發燒友

谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習

將門創投 發表於 2020-03-26 11:41:12

近年來隨著強化學習的發展,使得智能體選擇恰當行為以實現目標的能力得到迅速地提升。目前研究領域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來學習預測成功的行為,其中著名的方法包括用於完成雅達利遊戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺競技的AlphaStar,但這類方法需要與環境進行大量的交互限制了其在真實場景中的應用。

而基於模型(model-based)的強化學習方法則額外學習一個簡化的環境模型,這一環境模型使得主體可以預測潛在行為序列的輸出,使得它可以通過假設的場景來在新環境中作出明智的決策,減少了實現目標所需的試錯。先前學習精確的世界模型並將其充分應用於行為學習中還面臨一系列挑戰,但隨著近來像深度規劃網絡(DeepPlanningNetwork, PlaNet)的研究出現,極大地拓展了從圖像中學習出精確世界模型的邊界,但基於模型的方法卻依然受到規劃(planning)機制龐大計算消耗的約束,限制了其在解決複雜任務上的應用。

為了解決這些問題,來自谷歌和DeepMind的研究人員合作提出了一種基於圖像學習出世界模型(world model)的強化學習方法Dreamer,並在此基礎上學習出有遠見的行為。Dreamer基於模型預測的反向傳播來利用世界模型實現高效的行為學習。通過從原始圖像輸入中計算出緊緻的模型狀態,這種方法可以使得主體在單個GPU上並行地從上千個預測序列中進行高效的學習。通過20個基於原始圖像輸入的連續控制基準任務上測評表明,Dreamer在性能、數據效率和計算時間上都達到了先進水平。

Dreamer的基本架構

Dreamer和典型的基於模型方法一樣包含三個過程:學習世界模型、基於世界模型的預測學習行為、在環境中執行學習到的行為來收集新的經驗。為了學習行為,Dreamer中利用價值網絡(valuenetwork )將規劃視野外的獎勵納入考量,同時利用行為網絡(actor network)來高效的計算行為。這三部分可以並行地執行,一直重複運行直到達成目標:

Dreamer主體的三個過程,世界模型基於過去經驗學習、隨後基於這一模型預測,主體通過價值網絡來預測未來獎勵、行為網絡來選擇行為。行為網絡用於與環境交互。

學習世界模型

Dreamer採用了PlaNet的世界模型,通過一系列緊緻的模型狀態來預測輸出,而這些模型狀態則通過輸入圖像計算得到,而不是直接利用圖像來進行處理。它將自動學習得出代表有益於預測未來輸出概念的模型狀態,例如目標類型、位置以及目標與周圍環境的交互等等。給定數據集中一個過去的圖像、行為和獎勵序列,Dreamer按照下圖的方式進行世界模型的學習:

Dreamer 從經驗中學習世界模型,利用過去的圖像(o1–o3)、行為(a1–a2),它將計算出緊緻的模型狀態(綠色圓),並可以基於這些狀態重建出圖像並預測出獎勵。

利用PlaNet世界模型的優勢在於利用緊緻的模型狀態代替了圖像來進行預測,極大地提高了計算效率。這使得模型可以在單個GPU上預並行的預測上千個序列。這種方式同時可以提高模型的泛化性,進行精確的長時視頻預測。為了更好地理解模型的工作原理,下圖展示了將預測序列模型狀態解碼回圖像的結果:

複雜環境下的長程預測結果,上圖顯示了兩個主體未曾遇到過的序列,給定五張輸入圖像,模型對其進行重建並預測出了後續到50步的圖像結果。

高效行為學習

先前基於模型的主體選擇行為的方法分為兩種,要麼通過多個模型預測來進行規劃、要麼通過將世界模型代替模擬器來復用無模型方法的技術,但兩種方法都需要龐大的計算需求,同時也未充分利用學習到的世界模型。此外及時強大的世界模型也會受制於精確預測的長度,很多先前基於模型的主體表現出短視的缺點。Dreamer通過世界模型的預測進行反向傳播學習價值網絡和行為網絡來克服上述局限。

Dreamer通過預測的狀態序列反向傳播獎勵來高效地學習行為網絡用於預測正確的行為,這在無模型方法中是無法實現的。這將告訴Dreamer其多小的行為變化將會影響未來預測的獎勵,使得它可以向最大化獎勵的方向上優化行為網絡。為了考慮預測範圍外的獎勵,價值網絡將估計每一個模型狀態未來的獎勵和,獎勵和價值將反向傳播來優化行為網絡去改善行為。

Dreamer通過模型狀態預測序列來學習長程行為,首先學習每個狀態的長程價值,而後通過反向傳播到行為網絡來預測能夠得到高價值和獎勵的行為。

Dreamer與PlaNet有諸多不同,在環境中的給定狀態下,PlaNet在不同行為序列的多個預測中搜索最佳行為,而Dreamer則避開了這種計算消耗巨大的搜索方式,利用規劃和行為解耦的方式來提高計算效率。一旦在預測序列上訓練好了行為網絡,它將計算與環境交互的行為而無需額外的搜索。此外Dreamer利用價值函數考慮到了規劃以外的獎勵並通過反向傳播提高了規劃的效率。

控制任務上的表現

為了測試Dreamer的性能,研究人員在20個不同的任務上對其進行了測評,包括平衡、控制、運動等多種複雜的強化學習任務。

多種複雜的任務,其輸入為圖像。包括了碰撞、稀疏獎勵、混沌動力學和高自由度甚至三維視角等複雜情況。

研究人員將Dreamer與多個先進的模型進行了比較,包括先前最先進的基於模型的方法PlaNet、無模型方法A3C、結合多種先進手段的無模型方法D4PG。實驗表明,基於模型的主體可以在五百萬幀內完成高效學習,大概對應28小時的仿真,而無模型的方法則需要近100萬幀的學習,大概對應23天的仿真訓練。在20個任務的測評基準上,Dreamer領先於目前最先進的無模型方法D4PG(平均分823>786),同時其與環境的交互大概要少二十倍。此外它最終的結果在所有任務上也超過了先前最好的基於模型方法PlaNet,最終的結果如下圖所示:

Dreamer的性能與其他方法的比較,其得分、數據效率和計算時間都比先前方法要好。

此外研究人員還在連續任務上進行了實驗,以驗證Dreamer面對複雜環境的能力。下面的任務需要不僅需要長程行為預測,同時還需要模型具有空間感知能力。實驗表明Dreamer對於這些更具挑戰的任務依然能夠很好的進行處理:

Dreamer成功的在雅達利遊戲和DeepMind環境中運行,這些離散的任務更具挑戰性。

Dreamer不僅在性能上超越了原有基於模型的方法,同時在計算效率上也大幅提升。研究人員認為Dreamer將為強化學習提供更為堅實的發展根基,同時也將促進更好的表示學習、基於不確定性的方向探索、時域抽象和多任務學習的發展。
       責任編輯:wv 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    之前的研究認為,這些多巴胺神經元對獎勵的預測應當是相同的。但近日,DeepMind 的研究人員通過使用分布式強化學習算法發現,每個多巴胺神經元對獎勵的預測很不相同,它們會被調節到不同水平的「悲觀」和「樂觀」狀態。研究者希望通過這套算法研究並解釋多巴胺細胞對大腦的行為、情緒等方面的影響。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    圖源:deepmind他們的策略得到了科學研究的支持,研究表明,象棋這樣的遊戲可以提高戰略思維能力。通過機器學習如何玩這些複雜的遊戲,它們將獲得思考和戰略行動的能力。開源測試平臺被稱為GridWorld,它確保人工智慧對自身、開發人員和其他接觸它的人是安全和無害的。DeepMind的深度強化學習DeepMind通過實施完全不同的技術系統,將深度學習提升到了一個全新的水平。該系統被稱為深度強化學習,與常規人工智慧系統不同,它是完全獨立的。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    其中大部分支出為「人員及其他相關費用」,共計 4.68 億英鎊(約合 6.34 億美元),相比 2018 年的 3.98 億英鎊(約合 5.4 億美元)有所增長。目前,DeepMind 在全球範圍內有大約 1000 名員工,包括世界頂級 AI 研究科學家,其年薪可能超過 100 萬美元。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • DeepMind重磅開源強化學習框架!覆蓋28款遊戲,24個算法
    乾明 邊策 一璞 發自 凹非寺 量子位 報導 | 公眾號 QbitAI沒有DeepMind的命,燒不起DeepMind一樣的研發投入,但你現在可以有DeepMind苦心多年研究出的算法和代碼。剛剛,這家背靠谷歌,燒了數十億元的全球頂尖AI研究機構,開源了史上最全強化學習框架OpenSpiel。
  • 受啟於做夢,DeepMind 提出壓縮 Transformer,並開源書本級數據集PG...
    而另一方面,為了提升對基於長程記憶的推理問題的研究,DeepMind的研究人員也開發了一個書籍級別的語言數據集PG-19。這個新的基準是目前已有的長時記憶基準的兩倍還多,包含的上下文文本是長程語言模型基準測試WikiText-103的10倍以上。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • 谷歌開源RL智能體Dreamer,僅靠圖像學習從機器人到Atari控制策略
    谷歌最近又出了一個它的改進版(已被 ICLR 2020 接收)智能體如何選擇動作來實現其目標,這方面的研究已經取得了快速的進展,這在很大程度上歸功於強化學習(RL)的使用。用於強化學習的無模型方法通過試錯來學習預測成功的動作,這類方法使得 DeepMind 的 DQN 算法能夠玩雅達利遊戲,AlphaStar 在星際爭霸 II 中擊敗世界冠軍,但其需要大量的環境交互,由此限制了它們在真實世界場景中的應用。與無模型 RL 方法不同,基於模型的 RL 方法需要額外地學習環境的簡化模型。
  • DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    論文連結:https://arxiv.org/pdf/2003.13350.pdf57 款雅達利遊戲利用遊戲來評估智能體性能是強化學習研究中的一個普遍做法。強化學習在電子遊戲領域已經展現出了極大的潛力——OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能體分別打敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際 2 玩家。然而研究人員指出,這並不意味著目前的強化學習方法就無懈可擊了。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    此前,基於樹的規劃方法在西洋棋與圍棋等領域取得了巨大的成功。然而,在現實世界中,控制環境的動態變化(dynamics)通常是複雜且不可知的。因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    同一時間,谷歌CEO兼執行長桑達爾·皮查伊 (Sundar Pichai)、斯坦福教授李飛飛、馬斯克等眾多科技大佬也在第一時間轉推祝賀!那麼這場驚動科技圈、生物學界和科學界的重大突破,到底是一項怎樣的研究?
  • 谷歌DeepMind發布最新研究:人類認知心理學開啟人工智慧的「黑盒子」
    6 月 26 日,在最新發布的一篇論文中,DeepMind提出了一種基於認知心理學來研究深度神經網絡的新方法。 然而,美國著名哲學家威拉德·奧曼·奎因多年前設計的一個經典思想實驗,卻向人們展示了這一過程到底有多複雜: 一個語言學家要去一個地方,但那裡的語言和這個語言學家所使用的完全不一樣。於是,這位語言學家想找一位當地人來學習一些本地語言中的詞彙。
  • 學界| 谷歌提出基於強化學習的優化配置方法:可讓TensorFlow更充分...
    近日,谷歌的一篇 ICML 2017 論文提出了一種使用強化學習優化設備配置的方法,據稱可以在一些網絡計算上實現優於專家優化的方法的表現。機器之心對本文進行了摘要介紹。論文:使用強化學習的設備配置優化(Device Placement Optimization with Reinforcement Learning)論文地址:https://arxiv.org/abs/1706.04972摘要過去幾年,我們見證了神經網絡的訓練和推理推動著計算能力需求的增長。
  • DeepMind破解蛋白質摺疊難題
    現在,DeepMind開發的新的深度學習架構已經推動了 CASP14方法的變化,使之能夠達到前所未有的精確度。這些方法的靈感來自生物學、物理學和機器學習領域,當然還有過去半個世紀許多蛋白質摺疊領域的科學家的工作。一個摺疊的蛋白質可以被認為是一個「空間圖形」,其中殘基是節點和邊連接的。
  • 【Nature 重磅】谷歌 DeepMind 發布可微分神經計算機 DNC,深度學習推理能力或大幅提升
    ❶ 業界領袖回溯60年AI歷史,全球對話人工智慧未來挑戰,權威發布2016世界人工智慧名人堂及中國人工智慧產業發展報告;❷ 國際大咖「視頻」遠程參會, Bengio 和李飛飛聯袂寄語中國人工智慧;❸ 探秘訊飛超腦及華為諾亞方舟實驗室,最強CTO與八大研究院院長交鋒;❹ 滴滴CTO與百度首席架構師坐鎮智能駕駛論壇,新智元三大圓桌陣容史無前例;❺ 中國「大狗」與"X-Dog"震撼亮相
  • 械臂最近有點忙:OpenAI教它玩魔方,DeepMind讓它搭積木!
    DeepMind利用智能體遷移學習,將虛擬環境中的知識轉移到現實中的機械臂,效果顯著,機械臂搭積木的成功率從基線方法的12%猛增至62%。來新智元 AI 朋友圈和大咖一起討論吧~教機械手搭積木的最簡單方法是什麼?DeepMind的研究人員最近就在研究這個問題。 只要想用AI解決問題,總是需要大量數據,而目前的機器人技術很難獲得這些數據。
  • 計算機科學:感覺運動空間的擴大是一種新的發展強化的學習方法!
    計算機科學:感覺運動空間的擴大是一種新的發展強化的學習方法!圖片來源:Zimmer,Boniface和Dutech。洛林大學的研究人員最近設計了一種基於無模型深度強化學習和連續感覺運動空間擴大的新型轉學習。