人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類

2020-12-20 機器之心Pro

機器之心報導

機器之心編輯部

讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。時隔數月,DeepMind 在這一方向上更進一步,在 57 款雅達利遊戲中全面超越人類,在這一領域尚屬首次。

DeepMind 在最新發布的預印本論文和博客中介紹了這一進展。他們構建了一個名為 Agent57 的智能體,該智能體在街機學習環境(Arcade Learning Environment,ALE)數據集所有 57 個雅達利遊戲中實現了超越人類的表現。

如果這一說法成立,Agent57 可以為構建更加強大的 AI 決策模型奠定基礎。它還能夠隨著計算量的增加而擴展,訓練時間越長,得分也越高。

論文連結:https://arxiv.org/pdf/2003.13350.pdf

57 款雅達利遊戲

利用遊戲來評估智能體性能是強化學習研究中的一個普遍做法。遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。街機學習環境包含 57 款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。

為什麼要選擇雅達利遊戲?原因有以下幾點:

1. 足夠多樣化,可以評估智能體的泛化性能

2. 足夠有趣,可以模擬在真實環境中可能遇到的情況;

3. 由一個獨立的組織構建,可以避免實驗偏見。

在雅達利遊戲中,我們希望智能體能夠在儘可能多的遊戲中表現良好,對當前所處的遊戲做出最少的假設,而且不使用特定於某個遊戲的信息。

DeepMind 對雅達利遊戲的挑戰很早就開始了。2012 年,他們創建了 Deep Q-Network(DQN)算法來挑戰雅達利的 57 種遊戲,此後又經過了多次改進。但遺憾的是,經過改進的 DQN 也始終沒有克服四種比較難的遊戲:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新發布的 Agent57 改變了這一局面。

DQN 的改進歷程(圖片來源於 DeepMind 官方博客)

強化學習的挑戰

為實現目前的 SOTA 表現,DeepMind 的 Agent57 使用強化學習算法,並同時運行在多臺電腦上,這些 AI 賦能的智能體在環境中選擇能夠最大化獎賞的動作去執行。強化學習在電子遊戲領域已經展現出了極大的潛力——OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能體分別打敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際 2 玩家。然而研究人員指出,這並不意味著目前的強化學習方法就無懈可擊了。

RL 中存在長期信度分配(credit assignment)問題,也就是根據信度選取最能夠產生之後好/壞結果的動作。當獎賞信號具有延遲並且信度分配需要跨越較長動作序列時,以上問題變得尤為困難。另外 RL 還存在探索和災難性遺忘的問題。智能體在遊戲中獲得第一個正獎賞之前,可能需要執行上百個動作,並且智能體很容易被困在從隨機數據裡尋找規律的過程中,或當學習新的信息時突然忘記之前已學到的信息。

NGU(Never Give Up)是一種在兩個層面上通過從內部產生固有獎賞來增強獎勵信號的技術:在單個 episode 中的短期新穎激勵和跨越多個 episode 的長期新穎激勵。使用 episodic 記憶,NGU 學會了一系列用於探索和利用(exploring and exploiting)的策略,最終目標是利用習得策略獲得遊戲的最高得分。

為解決以上問題,DeepMind 團隊在 NGU 基礎上構建了新的 RL 算法。NGU 的缺陷之一為:其通過不同策略來收集相同數量的經驗,而忽略了不同策略在學習過程中的貢獻。與之不同的是,DeepMind 的實現將其探索策略貫穿在智能體的整個生命周期中,這使得智能體能夠根據其所處的不同遊戲有針對性地學習策略。

兩種 AI 模型+元控制器:Agent 57實現最佳策略選擇

Agent57 總體框架(圖片來源於 DeepMind 官方博客)

至於 Agent57 的具體架構,它通過將眾多 actor 饋入到學習器可以採樣的一個中央存儲庫(經驗回溯緩衝器),進而實現數據收集。該緩衝器包含定期剪枝的過渡序列,它們是在與獨立、按優先級排列的遊戲環境副本交互的 actor 進程中產生的。

DeepMind 團隊使用兩種不同的 AI 模型來近似每個狀態動作的價值(state-action value),這些價值能夠說明智能體利用給定策略來執行特定動作的好壞程度,這樣就使得 Agent57 智能體可以適應與獎勵相對應的均值與方差。他們還整合了一個可以在每個 actor 上獨立運行的元控制器,從而可以在訓練和評估時適應性地選擇使用哪種策略。

Agent57 與其他算法的性能對比。圖源:DeepMind。

研究者表示,這個元控制器具有以下兩大優勢:其一,得益於訓練中的策略優先級選擇,它可以使得 Agent57 分配更多的網絡容量來更好地表徵與手邊任務最相關策略的狀態行動值函數;其二,它以一種自然的方式在評估時選擇最佳策略。

實驗結果

為評估 Agent57 的性能,DeepMind 團隊將這種算法與 MuZero、R2D2 和 NGU 等領先算法進行了對比。實踐可知 MuZero 在全部 57 種遊戲中達到了最高平均分(5661.84)和最高中值(2381.51),但也在 Venture 等遊戲中表現很差,得分只到和隨機策略相當的水平。

實際上,與 R2D2(96.93)和 MuZero(89.92)相比,Agent57 的總體表現上限更高(100),訓練 50 億幀即在 51 種遊戲上超越了人類,訓練 780 億幀後在 Skiing 遊戲上超越了人類。

隨後研究人員分析了使用 meta-controller 的效果。與 R2D2 相比其性能可以提高近 20%,即使在 Solaris 和 Skiing 這種智能體需要收集長時間段信息才能學習所需反饋的長期回報遊戲中,也有明顯的效果。

谷歌在博客中表示:「Agent57 最終在所有基準測試集最困難的遊戲中都超過了人類水平。但這並不意味著 Atari 研究的結束,我們不僅要關注數據效率,也需要關注總體表現……未來的主要改進可能會面向 Agent57 在探索、規劃和信度分配上。」

足夠驚豔,但有炒作之嫌?

在 DeepMind 推出 Agent57 之後,其宣稱在所有雅達利遊戲上超越人類的口號吸引了業內人士的關注。但也有網友提出了一些疑問。

下面這位網友對 DeepMind 宣稱的「human」提出了質疑,認為 Agent57 超越的只是「average human」。他以《蒙提祖瑪的復仇》為例,表示 Agent57 的分數(9352.01)只是超越了「average human」(4753.30),但並未打破人類玩家的記錄 1219200.0。

另外,也有人指出了 DeepMind 的研究總是側重於在雅達利等遊戲上的性能表現,應該更多地關注現實世界的實際問題。

不過,人們對於從 DQN 到 Agent57 這一算法改進的「系統樹」保持了肯定的態度。這一方向對於強化學習的進步究竟有多大意義,還需要時間來驗證。

參考連結:

https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmarkhttps://venturebeat.com/2020/03/31/deepminds-agent57-beats-humans-at-57-classic-atari-games/

相關焦點

  • DeepMind為明年的AAAI,準備了一份各種DQN的混血
    DQN,全名Deep Q-Network(深度Q網絡),是DeepMind在2013年NIPS Deep Learning Workshop發表論文提出的算法,讓計算機有了靠視覺來玩雅達利遊戲的新技能。2015年,DeepMind完善了DQN,讓這種算法在雅達利遊戲上獲得了更好的成績,登上了Nature封面。
  • DeepMind秀出最強遊戲AI!57場Atari遊戲超過人類,復盤遊戲AI進化史
    智東西(公眾號:zhidxcom)編 | 董溫淑智東西1月12日消息,谷歌旗下人工智慧公司DeepMind開發出史上最智能的代理Agent57。該代理在街機學習環境中表現良好,在57款雅達利遊戲中的表現超過人類平均水平。
  • 繼星際爭霸II之後,DeepMind新作Agent57在57款經典街機遊戲中秒殺人類
    款街機遊戲中都碾壓人類。去年年初,DeepMind名為「AlphaStar」的遊戲AI,在《星際爭霸2》中以 10:1 大敗人類職業選手,這一戰績讓很多人對AI的擔憂一時甚囂塵上。本周,DeepMind又出新作——Agent57,首個在全部57款Atari街機遊戲中再次碾壓人類選手。而且論文已經公布在axiv上。
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。  MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。 在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。
  • 人類一敗塗地怎麼海豚跳
    18183首頁 人類跌落夢境 人類一敗塗地怎麼海豚跳 人類一敗塗地怎麼海豚跳 來源:網絡
  • 人類一敗塗地體驗版下載
    人類一敗塗地體驗版下載官方簡介:   一款讓你在各種地方,用你那麼充滿了粘力的手,去到你的目的地,能夠完成你的闖關E戲。這裡面最具有特色的當屬於這些小人了,他們渾身都是軟綿綿的,走起路來就顯得非常的都是那種搖晃覺,仿佛時刻都會倒下去一般。
  • 在「直播型遊戲」大火的今年,再看《人類:一敗塗地》帶來的經驗
    回到《糖豆人》剛剛大火的時候,可能很多玩家都會對這款遊戲有些既視感——它有點《Gang Beasts》或者《人類:一敗塗地》的味兒,但實際的玩法差異又很大,似乎很難給這類遊戲下一個相同的定義。事實上,除了「強節目效果、非常適合直播」的共性,傳統的遊戲分類,也不太容易套到這些作品上。
  • 人類一敗塗地手遊上線,「沙雕」快樂才是這款遊戲真正的魅力所在
    知名PC端遊戲《人類將一敗塗地》不知道大家有沒有玩過,這款遊戲是No Brakes Games工作室開發,2016年7月23日發行的,快節奏開放結局物理模擬解謎探索遊戲,遊戲背景設置在奇幻漂流的夢中世界,玩家的目標是通過一系列的解密,來逃離不斷崩塌的夢境,
  • 《人類一敗塗地》手遊歡樂來襲
    包括《小紅書》《網易Lofter》《智聯招聘》《快看漫畫》等等眾多國內大型企業都紛紛把目光投到《人類一敗塗地》手遊,足以看出《人類一敗塗地》手遊潛力無限。 《人類一敗塗地》手遊憑藉沙雕「整活」特點,並沒有在網絡上做過多的宣傳,一切全靠自帶流量,可以說《人類一敗塗地》手遊是被遊戲主播及玩家帶紅的一款遊戲。
  • 人類一敗塗地手遊:官方發布公告,全力解決遊戲卡頓問題
    前言:現在已經進入到了一個網絡,飛速發展的時代,越來越多的人開始關注起來了,網路遊戲,尤其是手機遊戲,已經攻佔了一大部分的市場,最近一段時間,人類一敗塗地的手遊成為了很多玩家關注的焦點,但是因為,上線僅僅不到一個月的時間,所以遊戲內部還存在著一些小的問題,而官方也是正在激勵的整改,就在最近,官方也是發布了一個關於遊戲更新的公告
  • 新的一年,DeepMind準備讓AI學會「放煙花」
    項目 GitHub:https://github.com/deepmind/hanabi-learning-environment《Hanabi》是以日文命名,中文的直接轉寫為「花火」,顧名思義就是煙花的意思,它由法國人 Antoine Bauza 設計。這是一款 2-5 人的合作遊戲,玩家們嘗試通過以正確的順序在桌面上放置卡牌創造完美的煙花。
  • 沙雕遊戲回來了!銷量達千萬,人類一敗塗地手遊12月17日上線
    今年對於遊戲市場肯定是井噴式的一年,首先是《賽博朋克2077》的發售賺足了熱度,預購銷量已經突破了八百萬,上線兩個小時就已經同時在線突破百萬,一時間不夜城成了所有的玩家們流連忘返的地方,但是這個時候卻有這麼一款魔性沙雕的遊戲悄無聲息的即將和我們見面,他就是在曾經PC端銷量高達一千六百萬的
  • 人類一敗塗地手遊版發布,不會玩怎麼辦?
    12月17日人類一敗塗地正式在移動端上線,這個在steam上大賣的遊戲,終於也走進了手遊的領地。人類一敗塗地在17年正式和大家見面,最初發行平臺包括steam,ps4,switch,wegame上,沒有手遊,這款遊戲也並沒有讓更多人知曉,但是今年的12月17日,人類一敗塗地正式進入了手遊玩家的視線。
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    AlphaStar 在比賽中展現出了職業選手般成熟的比賽策略,以及超越職業選手水平的微操,甚至可以同時在地圖上多個地點同時展開戰鬥(人類選手在這種狀況下就會吃不少虧)。這次比賽中的 AlphaStar 是一個重新訓練的新版本,它需要自己控制視角(而不像前面的版本可以直接讀取地圖上所有的可見內容)。這次 MaNa 終於取得了勝利。AlphaStar 的詳細介紹請見下文。
  • 深度強化學習試金石:DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義
    他們這些宣稱很重要,因為《蒙特祖瑪的復仇》這個遊戲對於AI研究來說很重要。與街機學習環境(Arcade Learning Environment,ALE)裡的絕大多數遊戲不同,大多數遊戲現在很容易被利用深度學習的agent解決掉,達到超越人類水平的表現。但《蒙特祖瑪的復仇》一直沒有被深度強化學習方法解決,而且被一些人認為在未來的幾年裡都無法解決。
  • 《人類一敗塗地》小恐龍皮膚怎麼樣 人類跌落夢境小恐龍皮膚介紹速...
    《人類一敗塗地》小恐龍皮膚怎麼樣 人類跌落夢境小恐龍皮膚介紹速圍觀時間:2020-12-17 16:10   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《人類一敗塗地》小恐龍皮膚怎麼樣 人類跌落夢境小恐龍皮膚介紹速圍觀 人類一敗塗地小恐龍皮膚怎麼樣?
  • 《人類一敗塗地》人類跌落夢境進不去解決方法 有困擾的小夥伴看過來
    《人類一敗塗地》人類跌落夢境進不去解決方法 有困擾的小夥伴看過來時間:2020-12-17 16:15   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《人類一敗塗地》人類跌落夢境進不去解決方法 有困擾的小夥伴看過來 人類一敗塗地進不去怎麼辦?
  • 人類一敗塗地手遊銷量突破200萬:休閒遊戲已成玩家娛樂社交首選
    01 《人類一敗塗地》正版手遊正式上線。—— 2016年9月,PC埠有一款名為《人類一敗塗地》的遊戲來到了玩家們的視野之中,當我第一次聽到這個名字,還以為這是一款「毀滅世界」之類的遊戲,但誰曾想,《一敗塗地》居然是一款休閒類遊戲?
  • 人類一敗塗地手遊:遊戲玩不明白?不妨從現實找靈感,這才順暢!
    人類一敗塗地手遊:遊戲玩不明白?不妨從現實找靈感,這才順暢!人類一敗塗地手遊上線以後就受到很多玩家的喜歡,對於老玩家來說又多了一種空閒娛樂的方式,但是對於新手玩家來說這款遊戲無疑是是一項折磨人的舉動!因為很多新手玩家即便是玩上了一兩天,但是仍然沒有將這個遊戲給玩明白!其實如果遊戲玩不明白的話,玩家不妨從現實當中找下靈感,這樣玩起來才順暢!其實新手玩家玩不明白這款遊戲最大的原因在於不知道這個遊戲是做什麼的,這才導致玩家找不到思緒!
  • 女主播愛玩啥遊戲?腐團選擇神武4,小團團入坑人類一敗塗地手遊
    能把自己的模樣放進一款遊戲,足以見得小團團對人類一敗塗地手遊愛得深沉,她應該就是想在喜歡的遊戲裡,寫下一筆屬於自己的濃墨重彩。 羈絆早已建立,小團團和人類一敗塗地手遊是老朋友 其實,在人類一敗塗地的手遊,人類跌落夢境沒上線之前,小團團就非常喜歡在steam玩人類一敗塗地端遊