DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步

2020-12-27 網易

  

  作者 | 陳彩嫻、青暮

  近日,DeepMind一篇關於MuZero的論文「Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model」在Nature發表 。 與AlphaZero相比,MuZero多了玩Atari的功能 ,這一突破進展引起科研人員的廣泛關 注。

  

  MuZero通過DQN算法,僅使用像素和遊戲分數作為輸入就可以在Atari視頻遊戲中達到人類的水平。 相對於圍棋、西洋棋、日本將棋,Atari遊戲的規則與動態變化未知且複雜。

  AlphaGo在2016年的圍棋比賽中以4-1擊敗了圍棋世界冠軍李世石;AlphaGo Zero,可以從零通過自我對弈訓練,僅在知道基本遊戲規則的情況下,第二年在性能上超過了AlphaGo;AlphaZero於2017年通過對AlphaGo Zero進行一般化,可以將其應用於其他遊戲,包括西洋棋和日本將棋。

  而據Nature報導, 儘管每步進行的樹搜索計算量較少,但MuZero在玩圍棋方面被證明比AlphaZero稍好。

  
圖註:DeepMind遊戲AI的進化。

  以研究AI打撲克出名的FAIR研究科學家Noam Brown對MuZero評價道:

  

當前人們對遊戲AI的主要批評是:模型不能對現實世界中相互作用進行準確建模。MuZero優雅而令人信服地克服了這個問題(適用於完美信息遊戲)。我認為,這是可以與AlphaGo和AlphaZero相提並論的重大突破!

  

  

  David Silver在接受BBC的採訪中提到, MuZero已經投入實際使用,用於尋找一種新的視頻編碼方式,從而實現視頻壓縮。 「網際網路上的數據大部分是視頻,那麼如果可以更有效地壓縮視頻,則可以節省大量資金。」由於谷歌擁有世界上最大的視頻共享平臺YouTube,因此他們很可能將MuZero其應用到該平臺上。

  

現實世界混亂而複雜,沒有人給我們提供有關其運作方式的規則手冊。但是人類有能力制定下一步的計劃和策略。我們第一次真正擁有了這樣的系統,能夠建立自己對世界運作方式的理解,並利用這種理解來進行這種複雜的預見性規劃,我們以前也在AlphaZero上實現過類似的能力。MuZero可以從零開始,僅通過反覆試驗就可以發現世界規則,並使用這些規則來實現超人的表現。

  

  1

  關於MuZero

  一直以來,構建具有規劃能力的智能體是人工智慧領域的主要挑戰之一。此前,基於樹的規劃方法在西洋棋與圍棋等領域取得了巨大的成功。 然而,在現實世界中,控制環境的動態變化(dynamics)通常是複雜且不可知的。

  因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。

  MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。 在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。

  Atari遊戲是用於測試人工智慧技術的規範視頻遊戲環境,其中,此前基於模型的規劃方法均無效。而在圍棋、西洋棋和日本將棋(用於評估高性能計劃的典型環境)上進行評估時, MuZero算法在無需任何遊戲動態的相關知識,就能與遊戲規則完全匹配。

  
論文地址:https://arxiv.org/pdf/1911.08265.pdf

  在正式推出MuZero之前,DeepMind已在探索智能算法上取得了多項顯著成就:2016年,DeepMind推出了第一個能在圍棋遊戲中擊敗人類的AI程序——AlphaGo。2018年,AlphaGo的繼承者AlphaZero從零開始學習並掌握了圍棋、西洋棋和日本將棋。而MuZero的推出,是DeepMind探索多功能算法的又一突破。

  MuZero由DeepMind團隊於2019年初步提出, 能夠在未知環境中規劃獲勝策略,因此,它也無需提前了解規則,即可掌握圍棋、西洋棋、日本將棋與Atari的相關知識。

  多年來,研究人員一直在尋找既可以學習能夠解釋環境的模型,又可以使用該模型來規劃最佳行動方案的方法。然而,到目前為止,大多數方法都難以在Atari等規則與動態變化均未知且複雜的領域進行有效規劃。

  與其他方法不同的是, MuZero通過學習僅關注規劃環境中最關鍵因素的模型來解決該問題。

  通過將模型與AlphaZero的樹搜索功能相結合,MuZero在Atari基準上取得了最新的技術優勢,同時在圍棋、西洋棋和日本將棋的經典規劃挑戰中與AlphaZero的性能不相上下,展示了強化學習算法的快速飛躍。

  先前,研究人員通過前向搜索與基於模型的規劃等兩種方法來提高AI的規劃能力。

  使用前向搜索的系統(例如AlphaZero)在跳棋、西洋棋和撲克等經典遊戲中取得了顯著成功, 但這類系統之所以取勝,是因為有事先了解遊戲環境的動態變化知識,比如遊戲規則或配備了精確的模擬器。 顯然,這一類系統很難應用於解決混亂的現實問題,因為現實世界的問題通常很複雜,很難用簡單的三兩句規則去概括。

  基於模型的系統則旨在通過學習環境動態的精確模型,然後使用模型進行規劃。但是,對環境的各個方面進行建模非常複雜,導致算法無法在視覺豐富的領域(例如Atari)中競爭。 截至目前為止,在Atari上取得最好結果的是無模型系統,例如DQN,R2D2和Agent57。 無模型算法不使用經過學習的模型,而是通過預測來採取最佳的下一步措施。

  鑑於其他方法的局限性,MuZero沒有嘗試對整個環境建模,而只是對智能體進行決策過程中至關重要的方面進行建模。畢竟,如果在下雨的環境,知道打傘避雨比對空氣中的雨滴行為進行建模更有用。

  具體來說,MuZero對三個環境要素進行建模(這三個要素對於規劃非常重要):

  

  •   價值:當前處境的好壞程度

      

  •   策略:所能採取的最佳行動

      

  •   獎勵:最後一個動作的好壞程度

      

  這三個要素都是使用深度神經網絡來學習,也是MuZero在採取特定行動時考慮後果與做出相應規劃所需要知道的全部內容。

  
圖註:如何使用Monte Carlo樹搜索與Muzero神經網絡進行規劃。Muzero從遊戲的當前位置開始(動畫頂部的示意圖),使用表示功能(H)將觀察內容映射到神經網絡使用的嵌入(S0)。此外,Muzero使用動態函數(G)和預測函數(F)來考慮下一步要採取的動作序列(A),並選擇最佳動作。

  
圖註:MuZero使用其在與環境互動時所收集的經驗訓練神經網絡。這類經驗包括對環境的觀察和獎勵,以及在決定最佳行動時進行的搜索結果。

  
圖註:在訓練過程中,模型與所收集的經驗一同被取消,在每個步驟中預測先前保存的信息:價值函數V預測所觀察到的獎勵之和(U),策略估計(P)預測之前所進行的搜索,獎勵估計R則預測最後觀察到的獎勵(U)。

  這個方法的另一個優點是: MuZero可以反覆使用其學習的模型來改進自己的規劃,而不是從環境中收集新數據。 比方說,在Atari suite的測試中,被稱為MuZero Reanalyze的變體在90%的時間裡使用學習的模型來重新規劃先前episode中應該做但沒有做的事情。

  2

  Muzero的性能

  研究者選擇了四個不同的任務來測試MuZeros的能力,分別是圍棋、西洋棋、日本將棋和Atari套件(Atari suite),其中前三者被用來評估MuZero在挑戰性規劃問題上的表現,Atari套件則作為視覺上更複雜問題的基準。

  

  在所有任務中,MuZero以強化學習算法達到了新的SOTA,其性能優於Atari套件上的所有先前的算法,並且也達到了與AlphaZero相當的在圍棋、西洋棋和日本將棋上的超人性能。

  
圖註:在訓練中分別使用2億幀或200億幀的MuZero在Atari套件上的性能。MuZero在兩個方面都實現了新的SOTA。所有得分均根據人類測試的性能(100%)進行了歸一化,每個實驗設置的最佳結果以粗體顯示。

  研究者還詳細測試了MuZero利用其學習的模型進行規劃的能力。他們從圍棋中經典的精密規劃挑戰開始,在此挑戰中,單步行動可能決定著獲勝或失敗。

  為了驗證更多的規劃會帶來更好的結果這一直覺,研究者對這個問題進行了測試: 如果有更多的時間來規劃每次行動,那麼經過全面訓練的MuZero是否可以變得更強大 (如下左圖所示)?

  結果表明,隨著將每次行動的時間從十分之一秒增加到50秒,MuZero的能力會增加1000 Elo(衡量玩家的相對技能),這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。

  
圖註:(左)隨著規劃每次動作的時間的增加,MuZero的圍棋能力顯著增加。注意MuZero的縮放比例幾乎完美地匹配了可以訪問完美模擬器的AlphaZero。(右)在訓練期間,Atari Games Pac-Man的得分也隨著每次行動的規劃量而增加。圖中每條曲線都顯示了一個不同設置的訓練運行,MuZero允許考慮每次行動的規劃數量不同。

  為了測試這種規劃設置是否還會在整個訓練過程中帶來好處,研究者使用單獨訓練的MuZero實例在Atari遊戲Ms Pac-Man上進行了一組實驗(如上右圖所示)。MuZero允許在每個動作中考慮不同數量的規劃,範圍從5到50。結果證實, 增加每個動作的規劃數量可使MuZero更快地學習並獲得更好的最終性能。

  有趣的是,當MuZero僅允許每步進行6或7次規劃時(這個數字太小而無法覆蓋Ms Pac-Man的所有可用動作),它仍然取得了良好的性能。 這表明MuZero能夠在行動和環境狀態之間的匹配上進行泛化,而無需詳盡搜索所有可能的狀態以有效學習。

  DeepMind表示,MuZero展示了學習環境模型並成功進行規劃的能力,證明了強化學習的重大進步。MuZero的前身AlphaZero已被應用於化學、量子物理學等領域的一系列複雜問題。MuZero強大的學習和規划算法背後的思想可能為應對機器人、工業系統和其他複雜多樣的「遊戲規則」未知的現實世界中的新挑戰鋪平道路。

  1、https://www.deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

  2、https://www.nature.com/articles/s41586-020-03051-4

  3、http://www.furidamu.org/blog/2020/12/22/muzero-intuition/

  4、https://arxiv.org/abs/1911.08265

  5、https://www.bbc.com/news/technology-55403473

  6、MuZero的偽代碼和解釋:https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-3-3-ccea6b03538b

  由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報導, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 從α到μ:DeepMind棋盤遊戲AI進化史
    從書寫了傳奇的 AlphaGo 開始,DeepMind 一直在不斷更新迭代這一系列的新算法,創造了 AlphaGo Zero、AlphaZero 和 MuZero。通用性更強的 MuZero 算法不僅能出色地掌握棋盤遊戲,而且還在 57 款不同的 Atari 遊戲上達到了超越人類的水平。本文將簡單介紹這些算法的演進歷程。
  • 人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    2012 年,他們創建了 Deep Q-Network(DQN)算法來挑戰雅達利的 57 種遊戲,此後又經過了多次改進。但遺憾的是,經過改進的 DQN 也始終沒有克服四種比較難的遊戲:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新發布的 Agent57 改變了這一局面。
  • 新的一年,DeepMind準備讓AI學會「放煙花」
    研究人員相信這項研究可以帶來全新的技術,引導 AI 學會自我學習以及與人類合作的新方法。近日,DeepMind 與 Google Brain 團隊合作發布了 Hanabi 學習環境(HLE)的代碼和論文,這是一個基於流行紙牌遊戲的多智能體學習和即時通信研究平臺。HLE 為 AI 智能體提供了一個遊戲界面,並附帶了一個基於 Dopamine 框架的學習智能體。
  • 教AI打星際2也不難,試試暴雪和DeepMind的工具包 | 附論文+代碼
    安妮 編譯整理量子位 出品 | 公眾號 QbitAI去年年底,DeepMind宣布想教會AI智能體玩《星際爭霸2》(後簡稱星際2),計劃創造出能擊敗人類玩家的智能體
  • AI研究的提速器! DeepMind力薦的JAX到底有多強大?
    JAX 通過 vmap 變換提供了自動矢量化算法,大大簡化了這種類型的計算,這使得研究人員在處理新算法時無需再去處理批量化的問題。JAX 同時還可以通過 pmap 轉換支持大規模的數據並行,從而優雅地將單個處理器無法處理的大數據進行處理。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    智東西(公眾號:zhidxcom)編 | 董溫淑智東西6月15日消息,近日,谷歌旗下人工智慧公司DeepMind訓練出一個會打7人棋類桌遊的AI模型。訓練AI模型參與複雜遊戲已經不是新鮮事。在現實中,人類往往通過更多人的協作完成任務。比如,在完成合同談判、與客戶互動等任務時,人類需要考慮團隊成員中每個人的情況,而現有AI模型還缺乏這方面能力。為了解決這個問題,DeepMind研究人員引入經典7人棋類桌遊《外交風雲(Diplomacy)》訓練AI模型,提升其協作能力。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    Skyline AI新融資$3M來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/03/22/skyline-ai-raises-3m-from-sequoia-capital-to-help-real-estate-investors-make-better-decisions/?
  • 從電玩到圍棋 不懂規則也精通 DeepMind公布新AI技術
    根據DeepMind披露的信息,MuZero的運行方式是為它所遊玩的遊戲創建一個模型,然後依照模型規劃出遊戲中最好的策略、下一步,然後通過遊玩不斷優化這個模型。  MuZero的設計理念是考慮到現實應用環境,算法不必全盤了解所有規範、準則,並創建一個100%準確的模型,而是需要在有限的信息下,達到「夠用」的程度。
  • DeepMind揭露新一代AI系統MuZero:不知遊戲規則也能有效規畫行動
    比較DeepMind的幾代產品,2016年的AlphaGo是透過已知的規則、圍棋領域的知識,再加上人類數據訓練而成,讓它擊敗了全球的圍棋好手;2017年的AlphaGo Zero,則是僅利用已知規則,自我學習而達到與AlphaGo同樣的境界;2018年的AlphaZero也是僅基於已知規則,但把挑戰範圍從圍棋擴大到西洋棋與將棋,便能同時精通這3項棋戲;而最新的
  • DeepMind為明年的AAAI,準備了一份各種DQN的混血
    DQN,全名Deep Q-Network(深度Q網絡),是DeepMind在2013年NIPS Deep Learning Workshop發表論文提出的算法,讓計算機有了靠視覺來玩雅達利遊戲的新技能。2015年,DeepMind完善了DQN,讓這種算法在雅達利遊戲上獲得了更好的成績,登上了Nature封面。
  • 「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...
    同時,Facebook 投入了 1000 萬美元發起「Deepfake 檢測挑戰賽」(Deepfake Detection Challenge,DFDC),競賽於 2019 年末在溫哥華舉行的 NeurIPS 2019 上正式啟動,旨在激勵研究人員以及業餘愛好者尋找能夠識別出由 AI 操縱的視頻算法。Deepfake 檢測結果如何?
  • AI色情創作算法亟需「養料」,非法裸圖數據集「重生」
    拍攝方是一家捷克的色情製作公司Czech Casting,在被告發後,該公司被警方指控販運人口及強姦罪,被判決向其視頻中出現的22名女性支付近1300萬美元,創始人目前仍是FBI頭號通緝犯,這些照片也成為了非法色情素材被禁用。
  • 谷歌DeepMind MuZero 人工智慧可以不學規則掌握遊戲
    早在 2016 年,AlphaGo 先後擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智慧的初代版本,需要事先輸入大量人類對弈數據、規則數據進行訓練,然後才可以進行實戰。AlphaGo 是首個能夠利用神經網絡、樹狀搜索完全掌握圍棋的人工智慧。
  • 《西部世界》:AI(人工智慧)離我們有多近?
    夜幕降臨,所有機器人的記憶被清除,一切歸零,第二天太陽升起,新一批遊客入園。它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學,是一門邊緣學科,屬於自然科學和社會科學的交叉,它企圖了解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究和實際應用有很多方面,機器視覺、指紋識別、人臉識別、視網膜識別、虹膜識別、掌紋識別、專家系統、自動規劃、智能搜索、定理證明、博弈、自動程序設計、智能控制、機器人學、語言和圖像理解
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    AlphaStar 在比賽中展現出了職業選手般成熟的比賽策略,以及超越職業選手水平的微操,甚至可以同時在地圖上多個地點同時展開戰鬥(人類選手在這種狀況下就會吃不少虧)。權重更新規則來自於一種新的、高效的策略離線 actor-critic 算法, 其中含有經驗重放、自我模仿學習和策略蒸餾的思想。
  • DeepMind秀出最強遊戲AI!57場Atari遊戲超過人類,復盤遊戲AI進化史
    智東西(公眾號:zhidxcom)編 | 董溫淑智東西1月12日消息,谷歌旗下人工智慧公司DeepMind開發出史上最智能的代理Agent57。該代理在街機學習環境中表現良好,在57款雅達利遊戲中的表現超過人類平均水平。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新庫,給這個生態注入了新的活力。 Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • DeepMind論文不應帶有錯誤引導成份
    人類研究圍棋兩千多年,只折抵了AlphaGo Zero三天的學習量,若用AlphaZero訓練用的5000TPU加上更優化的算法,可能真的不用一天就夠。如果利用這個技術,多訓練幾天、幾周、甚至幾月(相比圍棋發展史,我覺得花幾個月都非常非常划算),也許極趨近於「圍棋之神」的神AI真能誕生。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • Nature子刊:「AI製藥」新時代!人工智慧預測更好的抗癌藥物組合
    人類為了戰勝癌症開發了大量的治療藥物,但隨著治療時間延長,許多癌症都會對它們產生耐藥性,甚至完全無效。對此,聯合用藥是一種很好的解決耐藥性的策略,同時還能減少單個藥物的用藥劑量,以減輕對患者的毒副作用。