智東西(公眾號:zhidxcom)編譯 |子佩 編輯 |Panken
智東西12月24日消息,繼AlphaGo揚名海外後,DeepMind再推新模型MuZero,該模型可以在不知道遊戲規則的情況下,自學圍棋、西洋棋、日本將棋和Atari遊戲並制定最佳獲勝策略,論文今日發表至《Nature》。
論文連結:https://arxiv.org/pdf/1911.08265.pdf
自2016年,令柯潔流淚、讓李世石沉默的AlphaGo橫空出世,打遍棋壇無人能敵後,AI棋手的名號就此一炮打響,而其背後的發明家DeepMind卻沒有因此止步,四年之內迭代了四代AI棋手,次次都有新突破。
始祖AlphaGo基於人類棋手的訓練數據和遊戲規則,採用了神經網絡和樹狀搜索方法,成為了第一個精通圍棋的AI棋手。
二代AlphaGo Zero於2017年在《Nature》發表,與上代相比,不需要人類棋手比賽數據作為訓練集,而是通過自對抗的方式自己訓練出最佳模型。
三代AlphaZero在2018年誕生,將適應領域拓寬至西洋棋和日本將棋,而不是僅限於圍棋。
第四代、也就是今天新公布MuZero最大的突破就在於可以在不知道遊戲規則的情況下自學規則,不僅在更靈活、更多變化的Atari遊戲上代表了AI的最強水平,同時在圍棋、西洋棋、日本將棋領域也保持了相應的優勢地位。
一、從未知中學習:三要素搭建動態模型
與機器擅長重複性的計算和牢固的記憶不同,人類最大的優勢就是預測能力,也就是通過環境、經驗等相關信息,推測可能會發生的事情。
比如,當我們看到烏雲密布,我們會推測今天可能有雨,然後再重新考慮是否要出門。即使對於僅有幾歲的孩子而言,學會這種預測方式,然後推廣到生活的方方面面也是很容易,但這對於機器來說並不簡單。
對此,DeepMind研究人員提出了兩種方案:前向搜索和基於模型的規划算法。
前向搜索在二代AlphaZero中就已經應用過了,它藉助對遊戲規則或模擬復盤的深刻理解,制定如跳棋、西洋棋和撲克等經典遊戲的最佳策略。但這些的基礎是已知遊戲規則及對可能出現的狀況大量模擬,並不適用情況相對混亂的Atari遊戲,或者未知遊戲規則的情況。
基於模型的規劃則是通過學習環境動態進行精準建模,再給予模型給出最佳策略。但對於環境建模是很複雜的,也不適用於Atari等視覺動畫極多的遊戲。目前來看,能夠在Atari遊戲中獲得最好結果的模型(如DQN、R2D2和Agent57),都是無模型系統,也就是不使用學習過的模型,而是基於預測來採取下一步行動。
也是由於以上兩個方法中的優劣,MuZero沒有對環境中所有的要素進行建模,而是僅針對三個重要的要素:
1、價值:當前處境的好壞情況;
2、策略:目前能採取的最佳行動;
3、獎勵:最後一個動作完成後情況的好壞。
那接下來,我們就來看看MuZero是如何通過這三個要素進行建模。
MuZero從當前位置開始(動畫頂部),使用表示功能H將目前狀況映射到神經網絡中的嵌入層(S0),並使用動態函數(G)和預測函數(F)來預測下一步應該採取的動作序列(A)。
▲基於蒙特卡洛樹狀搜索和MuZero神經網絡進行規劃
那如何知道這一步行動好不好呢?
MuZero會與環境進行互動,也是模擬對手下一步的走向。
▲MuZero通過模擬下棋走向訓練神經網絡。
而每一步棋對於整體棋局的貢獻都會被累加,成為本次棋局最後的獎勵。
▲策略函數P得到每一步預測下法,價值函數V得到每一步的獎勵。
出了減少建模工作量外,這種方法的另一個主要優點就是可以不斷復盤,而不需要得到外界的新數據。這樣的優勢也很明顯,在Atari的測試中,名為MuZero Reanalyze的變體可以利用90%的時間使用學習過的模型進行重新規劃,找到更優策略。
二、MuZero強在哪?追平前輩,拓寬Atari遊戲戰場
MuZero模型分別自學了圍棋、西洋棋、日本將棋以及Atari遊戲,前三者用來評估模型在規劃問題上的表現,Atari則用來評估模型面對視覺遊戲時的表現。
▲MuZero分別在西洋棋、日本將棋、圍棋和Atari遊戲訓練中的評估結果。橫坐標表示訓練步驟數量,縱坐標表示 Elo評分。黃色線代表AlphaZero(在Atari遊戲中代表人類表現),藍色線代表MuZero。
在圍棋、西洋棋和日本將棋中,MuZero不僅在多訓練步驟的情況下達到甚至超過了「前輩」AlphaZero的水平,在Atari遊戲中,MuZero也表現突出。
▲MuZero在Atari遊戲中的性能。所有得分均根據人類測試的性能進行了歸一化,最佳結果以粗體顯示。
為了進一步評估MuZero模型的精確規劃能力,DeepMind的研究人員還進行了圍棋中經典的高精度規劃挑戰,即指下一步就判斷勝負。
為了證實更多的訓練時間能使MuZero模型更強大,DeepMind進行了如下面左圖實驗,當每一步的判斷時間從0.1秒延長到50秒,評價玩家技能的Elo指標能增加1000,相當於業餘棋手和最強職業棋手之間的區別。
而在右圖的Atari遊戲Ms Pac-Man(吃豆小姐)的測試中,也能很明顯地看出訓練時長越長時,模型表現越好。
▲左圖:隨著步驟判斷時間增加,圍棋Elo指標上漲;右圖:訓練時長越長,模型表現越好
結語:出身於遊戲,期待更多應用
基於環境要素建模的MuZero,用在多個遊戲上的「超人」表現證明了卓越的規劃能力,也象徵著DeepMind又一在強化學習和通用算法方面的重大進步。
它的前輩AlphaZero也已投身於化學、量子物理學等領域,切身實地地為人類科學家們解決一系列複雜問題。在未來,MuZero是否可以繼承「家業」,應對機器人、工業製造、未知「遊戲規則」的現實問題所帶來的挑戰,我們拭目以待。
來源:DeepMind