作者 | 陳彩嫻、青暮
近日,DeepMind一篇關於MuZero的論文「Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model」在Nature發表 。 與AlphaZero相比,MuZero多了玩Atari的功能 ,這一突破進展引起科研人員的廣泛關 注。
MuZero通過DQN算法,僅使用像素和遊戲分數作為輸入就可以在Atari視頻遊戲中達到人類的水平。 相對於圍棋、西洋棋、日本將棋,Atari遊戲的規則與動態變化未知且複雜。
AlphaGo在2016年的圍棋比賽中以4-1擊敗了圍棋世界冠軍李世石;AlphaGo Zero,可以從零通過自我對弈訓練,僅在知道基本遊戲規則的情況下,第二年在性能上超過了AlphaGo;AlphaZero於2017年通過對AlphaGo Zero進行一般化,可以將其應用於其他遊戲,包括西洋棋和日本將棋。
而據Nature報導, 儘管每步進行的樹搜索計算量較少,但MuZero在玩圍棋方面被證明比AlphaZero稍好。
圖註:DeepMind遊戲AI的進化。
以研究AI打撲克出名的FAIR研究科學家Noam Brown對MuZero評價道:
當前人們對遊戲AI的主要批評是:模型不能對現實世界中相互作用進行準確建模。MuZero優雅而令人信服地克服了這個問題(適用於完美信息遊戲)。我認為,這是可以與AlphaGo和AlphaZero相提並論的重大突破!
David Silver在接受BBC的採訪中提到, MuZero已經投入實際使用,用於尋找一種新的視頻編碼方式,從而實現視頻壓縮。 「網際網路上的數據大部分是視頻,那麼如果可以更有效地壓縮視頻,則可以節省大量資金。」由於谷歌擁有世界上最大的視頻共享平臺YouTube,因此他們很可能將MuZero其應用到該平臺上。
現實世界混亂而複雜,沒有人給我們提供有關其運作方式的規則手冊。但是人類有能力制定下一步的計劃和策略。我們第一次真正擁有了這樣的系統,能夠建立自己對世界運作方式的理解,並利用這種理解來進行這種複雜的預見性規劃,我們以前也在AlphaZero上實現過類似的能力。MuZero可以從零開始,僅通過反覆試驗就可以發現世界規則,並使用這些規則來實現超人的表現。
1
關於MuZero
一直以來,構建具有規劃能力的智能體是人工智慧領域的主要挑戰之一。此前,基於樹的規劃方法在西洋棋與圍棋等領域取得了巨大的成功。 然而,在現實世界中,控制環境的動態變化(dynamics)通常是複雜且不可知的。
因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。
MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。 在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。
Atari遊戲是用於測試人工智慧技術的規範視頻遊戲環境,其中,此前基於模型的規劃方法均無效。而在圍棋、西洋棋和日本將棋(用於評估高性能計劃的典型環境)上進行評估時, MuZero算法在無需任何遊戲動態的相關知識,就能與遊戲規則完全匹配。
論文地址:https://arxiv.org/pdf/1911.08265.pdf
在正式推出MuZero之前,DeepMind已在探索智能算法上取得了多項顯著成就:2016年,DeepMind推出了第一個能在圍棋遊戲中擊敗人類的AI程序——AlphaGo。2018年,AlphaGo的繼承者AlphaZero從零開始學習並掌握了圍棋、西洋棋和日本將棋。而MuZero的推出,是DeepMind探索多功能算法的又一突破。
MuZero由DeepMind團隊於2019年初步提出, 能夠在未知環境中規劃獲勝策略,因此,它也無需提前了解規則,即可掌握圍棋、西洋棋、日本將棋與Atari的相關知識。
多年來,研究人員一直在尋找既可以學習能夠解釋環境的模型,又可以使用該模型來規劃最佳行動方案的方法。然而,到目前為止,大多數方法都難以在Atari等規則與動態變化均未知且複雜的領域進行有效規劃。
與其他方法不同的是, MuZero通過學習僅關注規劃環境中最關鍵因素的模型來解決該問題。
通過將模型與AlphaZero的樹搜索功能相結合,MuZero在Atari基準上取得了最新的技術優勢,同時在圍棋、西洋棋和日本將棋的經典規劃挑戰中與AlphaZero的性能不相上下,展示了強化學習算法的快速飛躍。
先前,研究人員通過前向搜索與基於模型的規劃等兩種方法來提高AI的規劃能力。
使用前向搜索的系統(例如AlphaZero)在跳棋、西洋棋和撲克等經典遊戲中取得了顯著成功, 但這類系統之所以取勝,是因為有事先了解遊戲環境的動態變化知識,比如遊戲規則或配備了精確的模擬器。 顯然,這一類系統很難應用於解決混亂的現實問題,因為現實世界的問題通常很複雜,很難用簡單的三兩句規則去概括。
基於模型的系統則旨在通過學習環境動態的精確模型,然後使用模型進行規劃。但是,對環境的各個方面進行建模非常複雜,導致算法無法在視覺豐富的領域(例如Atari)中競爭。 截至目前為止,在Atari上取得最好結果的是無模型系統,例如DQN,R2D2和Agent57。 無模型算法不使用經過學習的模型,而是通過預測來採取最佳的下一步措施。
鑑於其他方法的局限性,MuZero沒有嘗試對整個環境建模,而只是對智能體進行決策過程中至關重要的方面進行建模。畢竟,如果在下雨的環境,知道打傘避雨比對空氣中的雨滴行為進行建模更有用。
具體來說,MuZero對三個環境要素進行建模(這三個要素對於規劃非常重要):
價值:當前處境的好壞程度
策略:所能採取的最佳行動
獎勵:最後一個動作的好壞程度
這三個要素都是使用深度神經網絡來學習,也是MuZero在採取特定行動時考慮後果與做出相應規劃所需要知道的全部內容。
圖註:如何使用Monte Carlo樹搜索與Muzero神經網絡進行規劃。Muzero從遊戲的當前位置開始(動畫頂部的示意圖),使用表示功能(H)將觀察內容映射到神經網絡使用的嵌入(S0)。此外,Muzero使用動態函數(G)和預測函數(F)來考慮下一步要採取的動作序列(A),並選擇最佳動作。
圖註:MuZero使用其在與環境互動時所收集的經驗訓練神經網絡。這類經驗包括對環境的觀察和獎勵,以及在決定最佳行動時進行的搜索結果。
圖註:在訓練過程中,模型與所收集的經驗一同被取消,在每個步驟中預測先前保存的信息:價值函數V預測所觀察到的獎勵之和(U),策略估計(P)預測之前所進行的搜索,獎勵估計R則預測最後觀察到的獎勵(U)。
這個方法的另一個優點是: MuZero可以反覆使用其學習的模型來改進自己的規劃,而不是從環境中收集新數據。 比方說,在Atari suite的測試中,被稱為MuZero Reanalyze的變體在90%的時間裡使用學習的模型來重新規劃先前episode中應該做但沒有做的事情。
2
Muzero的性能
研究者選擇了四個不同的任務來測試MuZeros的能力,分別是圍棋、西洋棋、日本將棋和Atari套件(Atari suite),其中前三者被用來評估MuZero在挑戰性規劃問題上的表現,Atari套件則作為視覺上更複雜問題的基準。
在所有任務中,MuZero以強化學習算法達到了新的SOTA,其性能優於Atari套件上的所有先前的算法,並且也達到了與AlphaZero相當的在圍棋、西洋棋和日本將棋上的超人性能。
圖註:在訓練中分別使用2億幀或200億幀的MuZero在Atari套件上的性能。MuZero在兩個方面都實現了新的SOTA。所有得分均根據人類測試的性能(100%)進行了歸一化,每個實驗設置的最佳結果以粗體顯示。
研究者還詳細測試了MuZero利用其學習的模型進行規劃的能力。他們從圍棋中經典的精密規劃挑戰開始,在此挑戰中,單步行動可能決定著獲勝或失敗。
為了驗證更多的規劃會帶來更好的結果這一直覺,研究者對這個問題進行了測試: 如果有更多的時間來規劃每次行動,那麼經過全面訓練的MuZero是否可以變得更強大 (如下左圖所示)?
結果表明,隨著將每次行動的時間從十分之一秒增加到50秒,MuZero的能力會增加1000 Elo(衡量玩家的相對技能),這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。
圖註:(左)隨著規劃每次動作的時間的增加,MuZero的圍棋能力顯著增加。注意MuZero的縮放比例幾乎完美地匹配了可以訪問完美模擬器的AlphaZero。(右)在訓練期間,Atari Games Pac-Man的得分也隨著每次行動的規劃量而增加。圖中每條曲線都顯示了一個不同設置的訓練運行,MuZero允許考慮每次行動的規劃數量不同。
為了測試這種規劃設置是否還會在整個訓練過程中帶來好處,研究者使用單獨訓練的MuZero實例在Atari遊戲Ms Pac-Man上進行了一組實驗(如上右圖所示)。MuZero允許在每個動作中考慮不同數量的規劃,範圍從5到50。結果證實, 增加每個動作的規劃數量可使MuZero更快地學習並獲得更好的最終性能。
有趣的是,當MuZero僅允許每步進行6或7次規劃時(這個數字太小而無法覆蓋Ms Pac-Man的所有可用動作),它仍然取得了良好的性能。 這表明MuZero能夠在行動和環境狀態之間的匹配上進行泛化,而無需詳盡搜索所有可能的狀態以有效學習。
DeepMind表示,MuZero展示了學習環境模型並成功進行規劃的能力,證明了強化學習的重大進步。MuZero的前身AlphaZero已被應用於化學、量子物理學等領域的一系列複雜問題。MuZero強大的學習和規划算法背後的思想可能為應對機器人、工業系統和其他複雜多樣的「遊戲規則」未知的現實世界中的新挑戰鋪平道路。
1、https://www.deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
2、https://www.nature.com/articles/s41586-020-03051-4
3、http://www.furidamu.org/blog/2020/12/22/muzero-intuition/
4、https://arxiv.org/abs/1911.08265
5、https://www.bbc.com/news/technology-55403473
6、MuZero的偽代碼和解釋:https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-3-3-ccea6b03538b
由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報導, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.