人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類

2020-12-22 機器之心Pro

機器之心報導

機器之心編輯部

讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。時隔數月,DeepMind 在這一方向上更進一步,在 57 款雅達利遊戲中全面超越人類,在這一領域尚屬首次。

DeepMind 在最新發布的預印本論文和博客中介紹了這一進展。他們構建了一個名為 Agent57 的智能體,該智能體在街機學習環境(Arcade Learning Environment,ALE)數據集所有 57 個雅達利遊戲中實現了超越人類的表現。

如果這一說法成立,Agent57 可以為構建更加強大的 AI 決策模型奠定基礎。它還能夠隨著計算量的增加而擴展,訓練時間越長,得分也越高。

論文連結:https://arxiv.org/pdf/2003.13350.pdf

57 款雅達利遊戲

利用遊戲來評估智能體性能是強化學習研究中的一個普遍做法。遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。街機學習環境包含 57 款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。

為什麼要選擇雅達利遊戲?原因有以下幾點:

1. 足夠多樣化,可以評估智能體的泛化性能

2. 足夠有趣,可以模擬在真實環境中可能遇到的情況;

3. 由一個獨立的組織構建,可以避免實驗偏見。

在雅達利遊戲中,我們希望智能體能夠在儘可能多的遊戲中表現良好,對當前所處的遊戲做出最少的假設,而且不使用特定於某個遊戲的信息。

DeepMind 對雅達利遊戲的挑戰很早就開始了。2012 年,他們創建了 Deep Q-Network(DQN)算法來挑戰雅達利的 57 種遊戲,此後又經過了多次改進。但遺憾的是,經過改進的 DQN 也始終沒有克服四種比較難的遊戲:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新發布的 Agent57 改變了這一局面。

DQN 的改進歷程(圖片來源於 DeepMind 官方博客)

強化學習的挑戰

為實現目前的 SOTA 表現,DeepMind 的 Agent57 使用強化學習算法,並同時運行在多臺電腦上,這些 AI 賦能的智能體在環境中選擇能夠最大化獎賞的動作去執行。強化學習在電子遊戲領域已經展現出了極大的潛力——OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能體分別打敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際 2 玩家。然而研究人員指出,這並不意味著目前的強化學習方法就無懈可擊了。

RL 中存在長期信度分配(credit assignment)問題,也就是根據信度選取最能夠產生之後好/壞結果的動作。當獎賞信號具有延遲並且信度分配需要跨越較長動作序列時,以上問題變得尤為困難。另外 RL 還存在探索和災難性遺忘的問題。智能體在遊戲中獲得第一個正獎賞之前,可能需要執行上百個動作,並且智能體很容易被困在從隨機數據裡尋找規律的過程中,或當學習新的信息時突然忘記之前已學到的信息。

NGU(Never Give Up)是一種在兩個層面上通過從內部產生固有獎賞來增強獎勵信號的技術:在單個 episode 中的短期新穎激勵和跨越多個 episode 的長期新穎激勵。使用 episodic 記憶,NGU 學會了一系列用於探索和利用(exploring and exploiting)的策略,最終目標是利用習得策略獲得遊戲的最高得分。

為解決以上問題,DeepMind 團隊在 NGU 基礎上構建了新的 RL 算法。NGU 的缺陷之一為:其通過不同策略來收集相同數量的經驗,而忽略了不同策略在學習過程中的貢獻。與之不同的是,DeepMind 的實現將其探索策略貫穿在智能體的整個生命周期中,這使得智能體能夠根據其所處的不同遊戲有針對性地學習策略。

兩種 AI 模型+元控制器:Agent 57實現最佳策略選擇

Agent57 總體框架(圖片來源於 DeepMind 官方博客)

至於 Agent57 的具體架構,它通過將眾多 actor 饋入到學習器可以採樣的一個中央存儲庫(經驗回溯緩衝器),進而實現數據收集。該緩衝器包含定期剪枝的過渡序列,它們是在與獨立、按優先級排列的遊戲環境副本交互的 actor 進程中產生的。

DeepMind 團隊使用兩種不同的 AI 模型來近似每個狀態動作的價值(state-action value),這些價值能夠說明智能體利用給定策略來執行特定動作的好壞程度,這樣就使得 Agent57 智能體可以適應與獎勵相對應的均值與方差。他們還整合了一個可以在每個 actor 上獨立運行的元控制器,從而可以在訓練和評估時適應性地選擇使用哪種策略。

Agent57 與其他算法的性能對比。圖源:DeepMind。

研究者表示,這個元控制器具有以下兩大優勢:其一,得益於訓練中的策略優先級選擇,它可以使得 Agent57 分配更多的網絡容量來更好地表徵與手邊任務最相關策略的狀態行動值函數;其二,它以一種自然的方式在評估時選擇最佳策略。

實驗結果

為評估 Agent57 的性能,DeepMind 團隊將這種算法與 MuZero、R2D2 和 NGU 等領先算法進行了對比。實踐可知 MuZero 在全部 57 種遊戲中達到了最高平均分(5661.84)和最高中值(2381.51),但也在 Venture 等遊戲中表現很差,得分只到和隨機策略相當的水平。

實際上,與 R2D2(96.93)和 MuZero(89.92)相比,Agent57 的總體表現上限更高(100),訓練 50 億幀即在 51 種遊戲上超越了人類,訓練 780 億幀後在 Skiing 遊戲上超越了人類。

隨後研究人員分析了使用 meta-controller 的效果。與 R2D2 相比其性能可以提高近 20%,即使在 Solaris 和 Skiing 這種智能體需要收集長時間段信息才能學習所需反饋的長期回報遊戲中,也有明顯的效果。

谷歌在博客中表示:「Agent57 最終在所有基準測試集最困難的遊戲中都超過了人類水平。但這並不意味著 Atari 研究的結束,我們不僅要關注數據效率,也需要關注總體表現……未來的主要改進可能會面向 Agent57 在探索、規劃和信度分配上。」

足夠驚豔,但有炒作之嫌?

在 DeepMind 推出 Agent57 之後,其宣稱在所有雅達利遊戲上超越人類的口號吸引了業內人士的關注。但也有網友提出了一些疑問。

下面這位網友對 DeepMind 宣稱的「human」提出了質疑,認為 Agent57 超越的只是「average human」。他以《蒙提祖瑪的復仇》為例,表示 Agent57 的分數(9352.01)只是超越了「average human」(4753.30),但並未打破人類玩家的記錄 1219200.0。

另外,也有人指出了 DeepMind 的研究總是側重於在雅達利等遊戲上的性能表現,應該更多地關注現實世界的實際問題。

不過,人們對於從 DQN 到 Agent57 這一算法改進的「系統樹」保持了肯定的態度。這一方向對於強化學習的進步究竟有多大意義,還需要時間來驗證。

參考連結:

https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmarkhttps://venturebeat.com/2020/03/31/deepminds-agent57-beats-humans-at-57-classic-atari-games/

相關焦點

  • DeepMind秀出最強遊戲AI!57場Atari遊戲超過人類,復盤遊戲AI進化史
    智東西(公眾號:zhidxcom)編 | 董溫淑智東西1月12日消息,谷歌旗下人工智慧公司DeepMind開發出史上最智能的代理Agent57。該代理在街機學習環境中表現良好,在57款雅達利遊戲中的表現超過人類平均水平。
  • DeepMind的MuZero在多種棋類遊戲中超越人類
    MuZero 算法在西洋棋、日本將棋、圍棋和雅達利(Atari)遊戲訓練中的評估結果。橫坐標表示訓練步驟數量,縱坐標表示 Elo評分。黃色線代表 AlphaZero(在雅達利遊戲中代表人類表現),藍色線代表 MuZero。基於前向搜索的規划算法已經在 AI 領域取得了很大的成功。在圍棋、西洋棋、西洋跳棋、撲克等遊戲中,人類世界冠軍一次次被算法打敗。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    MuZero通過DQN算法,僅使用像素和遊戲分數作為輸入就可以在Atari視頻遊戲中達到人類的水平。相對於圍棋、西洋棋、日本將棋,Atari遊戲的規則與動態變化未知且複雜。因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。
  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    昨天,DeepMind 在《自然》雜誌上發表了一篇論文,正式推出 AlphaGo Zero——人工智慧圍棋程序的最新版本。據稱,這一版本的 AlphaGo 無需任何人類知識標註,在歷時三天,數百萬盤的自我對抗之後,它可以輕鬆地以 100 比 0 的成績擊敗李世乭版本的AlphaGo。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • 剛剛,星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」橫空出世,兩周內進化神速
    與兩位人類對手的比賽相隔約兩周,AI 自學成才,經歷了從與 TLO 對戰時的菜鳥級別,進化到完美操作的過程,尤其是與 MaNa 的對戰,已經初步顯示了可以超越人類極限的能力。由於時間限制,演示中並沒有播放所有比賽,而是在展示了另外一局比賽錄像後,給出了 TLO 五局全敗的戰績。不過所有的錄像都將在 DeepMind 官網上放出,供人下載。
  • 人類一敗塗地手遊:超高自由度,趣味無限,這些點超越我的世界
    最近最火的遊戲莫過於是人類一敗塗地手遊了,眾多主播和玩家們都參與到了這款遊戲中來,因為遊戲的玩法比較特殊並且難度比較高就變成了擁有許多的搞笑玩法在裡面,並且這款遊戲雖然說並不是沙盒遊戲卻依舊十分的自由,玩家們在遊戲中想做什麼就能做什麼不受遊戲的限制,也沒有太多的關卡概念去束縛住玩家們,讓大家自由的體驗遊戲
  • DeepMind AI 想要在《星際爭霸》打贏人類,還是太天真了
    在 AlphaGo 戰勝了韓國圍棋棋手李世石後,DeepMind 創始人戴密斯·哈薩比斯(Demis Hassabis)就曾表示將研究以人工智慧與人類玩其他遊戲,例如即時戰略遊戲《星際爭霸》。不過目前看來,DeepMind AI 要跟人類比賽打《星際爭霸》這事,還是有點兒懸。早在 2015 年,DeepMind AI 就開始用已經雅達利 1977 年發行的遊戲機 Atari 2600 來進行遊戲訓練,整個訓練過程團隊沒有提供任何額外信息幫助,全依靠 AI 自己來一步步學習如何打怪升級。
  • DeepMind第四代:不學規則就能下棋玩遊戲
    近日,谷歌 DeepMind 人工智慧已進化到第四代,名為 MuZero,最突出的能力是無需提前學習規則就可以下棋玩遊戲。谷歌稱 MuZero 可以未知環境中計劃獲勝策略,無需學習規則,便能掌握 Go(圍棋), chess(西洋棋), shogi(日本將棋)和 Atari(電子遊戲)。
  • 人類一敗塗地要怎麼裝死_人類一敗塗地裝死方法一覽
    人類一敗塗地要怎麼裝死?人類一敗塗地裝死方法由小編為大家帶來!人類一敗塗地遊戲中是可以裝死的,裝死在遊戲中可以躲避突然的襲擊,一起來看看吧!人類一敗塗地要怎麼裝死_人類一敗塗地裝死方法一覽   裝死鍵操作  裝死鍵是一個非常有趣的設定。
  • 《人類一敗塗地》遊戲常見問題有哪些 常見問題官方解答
    作為知名大作手機端移植版,相信大夥對人類跌落夢境都有好多問題想要了解,這遊戲要多少錢?手機版和PC版有什麼區別?安卓和ios互通嗎?官方... 人類一敗塗地手遊版《人類跌落夢境》即將於12月17日正式上線了!
  • 《人類一敗塗地》銷量破200萬 我看到了社交的重要性
    12月17日,被玩家稱為「爺青回」的沙雕遊戲《人類:一敗塗地》在預約長達2年後終於正式上線了。雖然《人類:一敗塗地》的定價為12元,在如今的手遊付費市場中也算是一款偏貴的遊戲,但是卻絲毫不影響玩家對該遊戲的熱情,上線之初便吸引了大量的玩家前來下載,首日便獲得了百萬的銷量,刷新了獨立遊戲的銷量史,火爆程度可見一斑。
  • DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
    來源:DeepMind等編輯:大明【新智元導讀】繼AlphaGo在圍棋上碾壓人類後
  • 人類一敗塗地手遊:一個人的工作室,與它暢銷全球的「沙雕」遊戲
    01 爆款休閒遊戲——《人類一敗塗地》。 2016年,《人類一敗塗地》正式登入STEAM遊戲平臺,誰也不曾想到,這個遊戲內容只有軟趴趴「怪人類」的休閒遊戲竟會用自己的方式稱霸遊戲界。
  • Deepmind AI在《星際爭霸2》血虐99.8%人類,登頂宗師段位
    對於大多數遊戲玩家來說,遊戲內置的電腦AI,似乎都是一個笑話,更應該被稱為「人工智障」。 能夠和玩家匹敵的電腦AI往往被分配有超越玩家的資源,比方說《紅警》裡面打十家冷酷的敵人,或是在《魔獸爭霸》裡打令人發狂的電腦,電腦AI的優勢僅來自於遠超玩家的資源和造兵速度,或是對AI取消戰爭迷霧等種種作弊。
  • 人類一敗塗地裝死有什麼用 人類一敗塗地裝死作用及方法
    導 讀 今天小編給大家帶來的是人類一敗塗地裝死作用及方法,人類一敗塗地中玩家是可以裝死的,而且按鍵當中也有一個裝死的鍵位,接下來就和小編一起看看吧,希望大家能夠喜歡
  • 谷歌DeepMind發布最新研究:人類認知心理學開啟人工智慧的「黑盒子」
    隨著神經網絡在解決某些具體問題上的能力已經達到或超越人類水平,認知心理學的研究方法將與人工智慧的黑盒子問題愈發相關。 為了證明這一點,DeepMind設計了一個實驗來解釋人類認知,從而幫助人類進一步了解深度神經網絡是如何解決圖像分類問題。
  • 今天你坑隊友了嗎——《人類一敗塗地》遊戲介紹
    用心玩遊戲,用心做攻略,大家好,我是龍魂遊戲解說,今天我為小夥伴介紹一款以「坑隊友」著稱的遊戲。可能說到坑隊友,許多人都是深惡痛絕的,但有這麼一款遊戲,坑隊友不是它的遊戲內容,但卻成了許多玩家的遊戲重點,它就是在各大直播平臺爆火的《人類一敗塗地》。
  • DeepMind:AI可無須知道規則也能精通遊戲
    > 據外媒報導,DeepMind的使命是向人們展示,人工智慧不僅能夠真正精通遊戲甚至在不需要被告知遊戲規則也能做到這一點。該公司最新的AI代理產品MuZero不僅可以通過具有複雜策略的視覺簡單遊戲如圍棋、西洋棋和日本將棋實現這一目標,還可以通過視覺複雜的雅達利遊戲實現這一目標。 DeepMind的早期AI的成功至少在一定程度上得益於巨大決策樹的非常有效的導航,這些決策樹代表了遊戲中可能的行動。在圍棋或象棋中,這些樹則是由非常具體的規則控制,如棋子的移動位置、這個棋子移動時會發生什麼等等。