通用版AlphaGo登《Nature》!最強AI棋手,不懂規則也能精通遊戲

2021-01-09 智東西

智東西(公眾號:zhidxcom)編譯 |子佩 編輯 |Panken

智東西12月24日消息,繼AlphaGo揚名海外後,DeepMind再推新模型MuZero,該模型可以在不知道遊戲規則的情況下,自學圍棋、西洋棋、日本將棋和Atari遊戲並制定最佳獲勝策略,論文今日發表至《Nature》。

論文連結:https://arxiv.org/pdf/1911.08265.pdf

自2016年,令柯潔流淚、讓李世石沉默的AlphaGo橫空出世,打遍棋壇無人能敵後,AI棋手的名號就此一炮打響,而其背後的發明家DeepMind卻沒有因此止步,四年之內迭代了四代AI棋手,次次都有新突破。

始祖AlphaGo基於人類棋手的訓練數據和遊戲規則,採用了神經網絡和樹狀搜索方法,成為了第一個精通圍棋的AI棋手。

二代AlphaGo Zero於2017年在《Nature》發表,與上代相比,不需要人類棋手比賽數據作為訓練集,而是通過自對抗的方式自己訓練出最佳模型。

三代AlphaZero在2018年誕生,將適應領域拓寬至西洋棋和日本將棋,而不是僅限於圍棋。

第四代、也就是今天新公布MuZero最大的突破就在於可以在不知道遊戲規則的情況下自學規則,不僅在更靈活、更多變化的Atari遊戲上代表了AI的最強水平,同時在圍棋、西洋棋、日本將棋領域也保持了相應的優勢地位。

一、從未知中學習:三要素搭建動態模型

與機器擅長重複性的計算和牢固的記憶不同,人類最大的優勢就是預測能力,也就是通過環境、經驗等相關信息,推測可能會發生的事情。

比如,當我們看到烏雲密布,我們會推測今天可能有雨,然後再重新考慮是否要出門。即使對於僅有幾歲的孩子而言,學會這種預測方式,然後推廣到生活的方方面面也是很容易,但這對於機器來說並不簡單。

對此,DeepMind研究人員提出了兩種方案:前向搜索和基於模型的規划算法。

前向搜索在二代AlphaZero中就已經應用過了,它藉助對遊戲規則或模擬復盤的深刻理解,制定如跳棋、西洋棋和撲克等經典遊戲的最佳策略。但這些的基礎是已知遊戲規則及對可能出現的狀況大量模擬,並不適用情況相對混亂的Atari遊戲,或者未知遊戲規則的情況。

基於模型的規劃則是通過學習環境動態進行精準建模,再給予模型給出最佳策略。但對於環境建模是很複雜的,也不適用於Atari等視覺動畫極多的遊戲。目前來看,能夠在Atari遊戲中獲得最好結果的模型(如DQN、R2D2和Agent57),都是無模型系統,也就是不使用學習過的模型,而是基於預測來採取下一步行動。

也是由於以上兩個方法中的優劣,MuZero沒有對環境中所有的要素進行建模,而是僅針對三個重要的要素:

1、價值:當前處境的好壞情況;

2、策略:目前能採取的最佳行動;

3、獎勵:最後一個動作完成後情況的好壞。

那接下來,我們就來看看MuZero是如何通過這三個要素進行建模。

MuZero從當前位置開始(動畫頂部),使用表示功能H將目前狀況映射到神經網絡中的嵌入層(S0),並使用動態函數(G)和預測函數(F)來預測下一步應該採取的動作序列(A)。

▲基於蒙特卡洛樹狀搜索和MuZero神經網絡進行規劃

那如何知道這一步行動好不好呢?

MuZero會與環境進行互動,也是模擬對手下一步的走向。

▲MuZero通過模擬下棋走向訓練神經網絡。

而每一步棋對於整體棋局的貢獻都會被累加,成為本次棋局最後的獎勵。

▲策略函數P得到每一步預測下法,價值函數V得到每一步的獎勵。

出了減少建模工作量外,這種方法的另一個主要優點就是可以不斷復盤,而不需要得到外界的新數據。這樣的優勢也很明顯,在Atari的測試中,名為MuZero Reanalyze的變體可以利用90%的時間使用學習過的模型進行重新規劃,找到更優策略。

二、MuZero強在哪?追平前輩,拓寬Atari遊戲戰場

MuZero模型分別自學了圍棋、西洋棋、日本將棋以及Atari遊戲,前三者用來評估模型在規劃問題上的表現,Atari則用來評估模型面對視覺遊戲時的表現。

▲MuZero分別在西洋棋、日本將棋、圍棋和Atari遊戲訓練中的評估結果。橫坐標表示訓練步驟數量,縱坐標表示 Elo評分。黃色線代表AlphaZero(在Atari遊戲中代表人類表現),藍色線代表MuZero。

在圍棋、西洋棋和日本將棋中,MuZero不僅在多訓練步驟的情況下達到甚至超過了「前輩」AlphaZero的水平,在Atari遊戲中,MuZero也表現突出。

▲MuZero在Atari遊戲中的性能。所有得分均根據人類測試的性能進行了歸一化,最佳結果以粗體顯示。

為了進一步評估MuZero模型的精確規劃能力,DeepMind的研究人員還進行了圍棋中經典的高精度規劃挑戰,即指下一步就判斷勝負。

為了證實更多的訓練時間能使MuZero模型更強大,DeepMind進行了如下面左圖實驗,當每一步的判斷時間從0.1秒延長到50秒,評價玩家技能的Elo指標能增加1000,相當於業餘棋手和最強職業棋手之間的區別。

而在右圖的Atari遊戲Ms Pac-Man(吃豆小姐)的測試中,也能很明顯地看出訓練時長越長時,模型表現越好。

▲左圖:隨著步驟判斷時間增加,圍棋Elo指標上漲;右圖:訓練時長越長,模型表現越好

結語:出身於遊戲,期待更多應用

基於環境要素建模的MuZero,用在多個遊戲上的「超人」表現證明了卓越的規劃能力,也象徵著DeepMind又一在強化學習和通用算法方面的重大進步。

它的前輩AlphaZero也已投身於化學、量子物理學等領域,切身實地地為人類科學家們解決一系列複雜問題。在未來,MuZero是否可以繼承「家業」,應對機器人、工業製造、未知「遊戲規則」的現實問題所帶來的挑戰,我們拭目以待。

來源:DeepMind

相關焦點

  • 通用版AlphaGo登《Nature》:最強AI棋手,不懂規則也能精通遊戲
    始祖AlphaGo基於人類棋手的訓練數據和遊戲規則,採用了神經網絡和樹狀搜索方法,成為了第一個精通圍棋的AI棋手。二代AlphaGo Zero於2017年在《Nature》發表,與上代相比,不需要人類棋手比賽數據作為訓練集,而是通過自對抗的方式自己訓練出最佳模型。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了李喆:完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤、棋子和規則。
  • DeepMind全能AI:完全自學規則,攻破多款遊戲,表現碾壓人類!
    來源:環球科學DeepMind用同一個算法,攻克了西洋棋、將棋、圍棋和雅達利遊戲。動圖來源:DeepMind開發出人工通用智能,一直是人工智慧研究的一大目標。此前的許多算法雖能精通諸如圍棋、象棋等遊戲,卻無法「觸類旁通」,每遇到新的遊戲都需要更改框架,重新學習,更不用說將棋類遊戲的方法搬到電腦遊戲上了。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 下一代 AlphaGo,裸考也能拿滿分
    簡單來說,MuZero 更「通用」了,它精通西洋棋、圍棋、將棋,還能在數十款 Atari 遊戲上全面超越過去的 AI 算法和人類。但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和遊戲前完全不知道遊戲規則,完全是通過自己的試驗和摸索,洞悉棋局和遊戲的規則,形成自己的決策。換句話說,AI 會自己「動腦子」了。
  • DM最新全能AI:完全自學規則,表現碾壓人類!
    DeepMind用同一個算法,攻克了西洋棋、將棋、圍棋和雅達利遊戲。動圖來源:DeepMind開發出人工通用智能,一直是人工智慧研究的一大目標。此前的許多算法雖能精通諸如圍棋、象棋等遊戲,卻無法「觸類旁通」,每遇到新的遊戲都需要更改框架,重新學習,更不用說將棋類遊戲的方法搬到電腦遊戲上了。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    經過大約40天的訓練(約2900萬場自玩遊戲),AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    其中,DeepMind團隊描述了一個通用棋類AI「AlphaZero」,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:戰勝最強西洋棋AI Stockfish:28勝,0負,72平;戰勝最強將棋AI Elmo:90勝,2平,8負;戰勝最強圍棋AI AlphaGo Zero:60勝,40
  • 比AlphaGo 更複雜,最強日本麻將 AI 是怎麼煉成的?
    「感覺 ai 的打法都不太能被推理完全,這種基於訓練的對某種特徵做出的反應對於人類來說就是迷啊…」這些評論來自於 B 站上一個系列的視頻,視頻主角是一個名為 Suphx(意為 Super Phoenix)的麻將 AI。2019 年 6 月,有創作者開始製作 Suphx 牌譜的視頻。上傳到 B 站後,引起了不少麻將愛好者的討論。
  • 新阿爾法狗震動圍棋界:棋手的傷感人類的幸運,勝負並非全部
    他曾試著打開這些剛被公布的棋譜,但可能網絡上訪問的人太多,他沒能打開。江鑄久九段說,「看到AlphaGoZero的這個新聞後,我的第一感想是,圍棋的本原是訓練提高人類的腦力,使人變得更加聰慧,繼而去發現,創造無限。我們該怎樣傳授圍棋知識給孩子們?讓孩子們藉助圍棋,發現自己,做最好的自己。向Deepmind團隊致敬!」
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 韓國棋手用來作弊的AI工具Leela Zero,連柯潔都表示:有點...
    當伺服器對棋譜進行訓練後,會產生新的網絡權重,新的權重會與之前的最強權重對局,用以檢驗棋力,如果它在400局中勝率超過55%就會被更新為當前的最強權重。現在每天有近600人為Leela Zero提供訓練棋譜,在最近半年時間內,Leela Zero已經自我對弈700萬局,經歷128次權重更迭。
  • 關於AlphaGo 論文的閱讀筆記
    一個人類棋手一生至多下幾千局棋,就能掌握 AlphaGo 在幾百萬局棋中所訓練出的判斷力,這足以說明,人類學習過程中還有某種本質是暫時還無法用當前的神經網絡程序來刻畫的。 (順便提一句,很多評論認為 AlphaGo 能夠通過觀察一個特定棋手的對局來了解他的棋風以做出相應的對策。至少從論文來看,這幾乎確定是不可能的事。
  • Deepmind Nature論文揭示最強AlphaGo Zero
    今年5月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。同時Hassbis表示:「我們計劃在今年稍晚時候發布最後一篇學術論文,詳細介紹我們在算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。
  • 科學網—AlphaGo引退,但遊戲才剛開始
    接下來,研發團隊將把精力投入到其他重大挑戰中,研發出高級通用算法,或單打獨鬥,為科學家們解決最複雜的問題提供幫助,包括找到新的疾病治療方法、顯著降低能源消耗、發明革命性的新材料等。 DeepMind聯合創始人兼CEO哈薩比斯希望,「AlphaGo 的故事僅僅只是一個開始。
  • 最強大腦遊戲規則是什麼 電視機前的觀眾處於一臉懵狀態
    《最強大腦》這款綜藝真的很強,觀眾連「遊戲規則」都看不懂,選手就比賽了,雖然每次出現遊戲規則的時候,專家團們都會做出解釋,只可惜腦力有限的我們還是聽不懂。然而觀眾卻十分歡喜,不知道觀眾歡喜的是什麼勁兒,也許比賽就是這樣吧!
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……圍棋之神真來了文|體壇周報記者 謝銳比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)
  • AlphaGo今年正式挑戰柯潔 AI引發圍棋觀念轉變
    去年12月29日,「Master」初登弈城。令人迷惑的是,他自稱來自韓國。李哲勇介紹,這是AlphaGo開發者放的煙幕彈,不希望棋手們這麼快猜出它的來歷。「畢竟還在測試,AlphaGo團隊開始想隱藏身份,於是就託我們註冊了一個韓國號。」李哲勇說。  為了方便挑戰棋手,弈城還為初登平臺的「Master」準備了九段帶P(職業)的號。