機器之心報導
機器之心編輯部
讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。時隔數月,DeepMind 在這一方向上更進一步,在 57 款雅達利遊戲中全面超越人類,在這一領域尚屬首次。
DeepMind 在最新發布的預印本論文和博客中介紹了這一進展。他們構建了一個名為 Agent57 的智能體,該智能體在街機學習環境(Arcade Learning Environment,ALE)數據集所有 57 個雅達利遊戲中實現了超越人類的表現。
如果這一說法成立,Agent57 可以為構建更加強大的 AI 決策模型奠定基礎。它還能夠隨著計算量的增加而擴展,訓練時間越長,得分也越高。
論文連結:https://arxiv.org/pdf/2003.13350.pdf
57 款雅達利遊戲
利用遊戲來評估智能體性能是強化學習研究中的一個普遍做法。遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。街機學習環境包含 57 款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。
為什麼要選擇雅達利遊戲?原因有以下幾點:
1. 足夠多樣化,可以評估智能體的泛化性能
2. 足夠有趣,可以模擬在真實環境中可能遇到的情況;
3. 由一個獨立的組織構建,可以避免實驗偏見。
在雅達利遊戲中,我們希望智能體能夠在儘可能多的遊戲中表現良好,對當前所處的遊戲做出最少的假設,而且不使用特定於某個遊戲的信息。
DeepMind 對雅達利遊戲的挑戰很早就開始了。2012 年,他們創建了 Deep Q-Network(DQN)算法來挑戰雅達利的 57 種遊戲,此後又經過了多次改進。但遺憾的是,經過改進的 DQN 也始終沒有克服四種比較難的遊戲:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新發布的 Agent57 改變了這一局面。
DQN 的改進歷程(圖片來源於 DeepMind 官方博客)
強化學習的挑戰
為實現目前的 SOTA 表現,DeepMind 的 Agent57 使用強化學習算法,並同時運行在多臺電腦上,這些 AI 賦能的智能體在環境中選擇能夠最大化獎賞的動作去執行。強化學習在電子遊戲領域已經展現出了極大的潛力——OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能體分別打敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際 2 玩家。然而研究人員指出,這並不意味著目前的強化學習方法就無懈可擊了。
RL 中存在長期信度分配(credit assignment)問題,也就是根據信度選取最能夠產生之後好/壞結果的動作。當獎賞信號具有延遲並且信度分配需要跨越較長動作序列時,以上問題變得尤為困難。另外 RL 還存在探索和災難性遺忘的問題。智能體在遊戲中獲得第一個正獎賞之前,可能需要執行上百個動作,並且智能體很容易被困在從隨機數據裡尋找規律的過程中,或當學習新的信息時突然忘記之前已學到的信息。
NGU(Never Give Up)是一種在兩個層面上通過從內部產生固有獎賞來增強獎勵信號的技術:在單個 episode 中的短期新穎激勵和跨越多個 episode 的長期新穎激勵。使用 episodic 記憶,NGU 學會了一系列用於探索和利用(exploring and exploiting)的策略,最終目標是利用習得策略獲得遊戲的最高得分。
為解決以上問題,DeepMind 團隊在 NGU 基礎上構建了新的 RL 算法。NGU 的缺陷之一為:其通過不同策略來收集相同數量的經驗,而忽略了不同策略在學習過程中的貢獻。與之不同的是,DeepMind 的實現將其探索策略貫穿在智能體的整個生命周期中,這使得智能體能夠根據其所處的不同遊戲有針對性地學習策略。
兩種 AI 模型+元控制器:Agent 57實現最佳策略選擇
Agent57 總體框架(圖片來源於 DeepMind 官方博客)
至於 Agent57 的具體架構,它通過將眾多 actor 饋入到學習器可以採樣的一個中央存儲庫(經驗回溯緩衝器),進而實現數據收集。該緩衝器包含定期剪枝的過渡序列,它們是在與獨立、按優先級排列的遊戲環境副本交互的 actor 進程中產生的。
DeepMind 團隊使用兩種不同的 AI 模型來近似每個狀態動作的價值(state-action value),這些價值能夠說明智能體利用給定策略來執行特定動作的好壞程度,這樣就使得 Agent57 智能體可以適應與獎勵相對應的均值與方差。他們還整合了一個可以在每個 actor 上獨立運行的元控制器,從而可以在訓練和評估時適應性地選擇使用哪種策略。
Agent57 與其他算法的性能對比。圖源:DeepMind。
研究者表示,這個元控制器具有以下兩大優勢:其一,得益於訓練中的策略優先級選擇,它可以使得 Agent57 分配更多的網絡容量來更好地表徵與手邊任務最相關策略的狀態行動值函數;其二,它以一種自然的方式在評估時選擇最佳策略。
實驗結果
為評估 Agent57 的性能,DeepMind 團隊將這種算法與 MuZero、R2D2 和 NGU 等領先算法進行了對比。實踐可知 MuZero 在全部 57 種遊戲中達到了最高平均分(5661.84)和最高中值(2381.51),但也在 Venture 等遊戲中表現很差,得分只到和隨機策略相當的水平。
實際上,與 R2D2(96.93)和 MuZero(89.92)相比,Agent57 的總體表現上限更高(100),訓練 50 億幀即在 51 種遊戲上超越了人類,訓練 780 億幀後在 Skiing 遊戲上超越了人類。
隨後研究人員分析了使用 meta-controller 的效果。與 R2D2 相比其性能可以提高近 20%,即使在 Solaris 和 Skiing 這種智能體需要收集長時間段信息才能學習所需反饋的長期回報遊戲中,也有明顯的效果。
谷歌在博客中表示:「Agent57 最終在所有基準測試集最困難的遊戲中都超過了人類水平。但這並不意味著 Atari 研究的結束,我們不僅要關注數據效率,也需要關注總體表現……未來的主要改進可能會面向 Agent57 在探索、規劃和信度分配上。」
足夠驚豔,但有炒作之嫌?
在 DeepMind 推出 Agent57 之後,其宣稱在所有雅達利遊戲上超越人類的口號吸引了業內人士的關注。但也有網友提出了一些疑問。
下面這位網友對 DeepMind 宣稱的「human」提出了質疑,認為 Agent57 超越的只是「average human」。他以《蒙提祖瑪的復仇》為例,表示 Agent57 的分數(9352.01)只是超越了「average human」(4753.30),但並未打破人類玩家的記錄 1219200.0。
另外,也有人指出了 DeepMind 的研究總是側重於在雅達利等遊戲上的性能表現,應該更多地關注現實世界的實際問題。
不過,人們對於從 DQN 到 Agent57 這一算法改進的「系統樹」保持了肯定的態度。這一方向對於強化學習的進步究竟有多大意義,還需要時間來驗證。
參考連結:
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmarkhttps://venturebeat.com/2020/03/31/deepminds-agent57-beats-humans-at-57-classic-atari-games/