AlphaGo繼任者:一個算法通吃三大棋類

2020-12-03 讀芯術

全文共2849字,預計學習時長5分鐘

2017年末,AlphaZero誕生——一個可以自學西洋棋,將棋(日本象棋)和圍棋的獨立系統。而它也在比賽中擊敗了三種遊戲各自的世界冠軍程序。來自西洋棋界的看法認為,他們在AlphaZero的棋藝中看到了一種突破性的,變化多端的 「非傳統」遊戲風格,這不同於之前的任何西洋棋程序。

本文是對AlphaZero的全面評估,該評估發表在科學(Science)雜誌上確認並更新了一些初步成果。評估描述了AlphaZero的訓練方法:儘管AlphaZero是從隨機遊戲中開始訓練,沒有內置的專業知識,只知道遊戲的基本規則,它卻可以快速學習每種遊戲,直到成為最強玩家。

前世界西洋棋冠軍Garry Kasparov說道:「我無法掩飾自己的滿足感,它的棋法變化多端,跟我很像!」

這種從零開始學習遊戲的能力,完全不受人類遊戲規範的約束,產生了一種獨特的,非正統的,極具創造力和變化的遊戲風格。西洋棋大師Matthew Sadler和女子國際大師Natasha Regan在他們即將出版的書籍Game Changer(New in Chess,2019年1月)中分析了上千次的AlphaZero西洋棋比賽,他們認為AlphaZero的風格不同於任何傳統的西洋棋。Matthew 說:「這就像發現了過去一些偉大棋手的秘籍一樣」。

傳統的西洋棋程序——包括世界計算機西洋棋冠軍Stockfish和IBM突破性的「深藍」依賴於數千個由高手玩家製作的規則和啟發式方法,這些方法試圖考慮到每盤棋局中所有可能發生的情況。將棋遊戲的程序也是針對於它自身專用的,並且使用了與西洋棋程序類似的搜尋引擎和算法。

而AlphaZero則採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些人工制定的規則,除了遊戲的基本規則之外,AlphaZero對其它一無所知。

為了學習一種遊戲,未經訓練的神經網絡通過強化學習)的反覆試錯過程來進行數百萬局的自我博弈。起初,它完全隨機地走棋,但隨著時間的推移,系統不斷從輸贏中學習經驗,從而調整神經網絡的參數,使其在之後的棋局中選擇更有利的走法。神經網絡的訓練時間取決於遊戲的類型和複雜程度,西洋棋大約需要9個小時,將棋大約需要12個小時,圍棋則大約需要13天。

歷史上唯一一位擁有七大將棋比賽冠軍的九段職業棋手Yoshiharu Habu說道,「它的一些舉動,例如將王移動到棋盤的中心,違反了將棋理論,並且從人的角度來看,它似乎使自己處於危險的位置。但令人難以置信的是,它仍然能掌控著棋盤。其獨特的棋法向我們展示了這些遊戲中還存在著其它的可能性。」

訓練好的神經網絡被用於一種搜索算法——蒙特卡羅樹搜索(Monte-Carlo Tree Search/MCTS),以選擇遊戲中最有利的走法。對於每步棋,AlphaZero僅搜索傳統西洋棋程序中的一小部分走法。例如,在西洋棋中,AlphaZero每秒僅搜索6萬種走法,而Stockfish則要搜索大約6千萬種走法。

我們對經過全面訓練後的神經網絡進行測試,使其與西洋棋中最強大的程序Stockfish、將棋中最強大的Elmo,以及圍棋中最強大的AlphaGo Zero分別進行了比賽。

每個程序都在其最初設計的硬體上運行。Stockfish和Elmo使用44個CPU核心(正如在TCEC世界錦標賽一樣),而AlphaZero和AlphaGo Zero使用一臺機器,配備4個第一代TPUs和44個CPU核心。第一代TPU的推理速度與NVIDIA Titan V GPU等商用硬體大致相似,但其實兩者的架構不具有直接的可比性。所有比賽的時間均控制在每場3小時之內,每步棋限時15秒。

在每場評估中,AlphaZero都令人信服地擊敗了對手:

在西洋棋中,AlphaZero擊敗了2016 年TCEC(第9季)比賽的世界冠軍Stockfish,在1000場比賽中獲勝155場,僅輸掉了6場。為了驗證AlphaZero的魯棒性,還測試了一系列人類選手常見的開局。在每個開局中,AlphaZero都擊敗了Stockfish。我們嘗試了2016年TCEC世界錦標賽中採用的開局,還進行了和最新版Stockfish及一個變種版Stockfish(使用了強大開局)的一系列附加賽。在所有比賽中,AlphaZero都取得了勝利。在將棋中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。在圍棋中,AlphaZero擊敗了 AlphaGo Zero,贏得了61%的比賽。

讓玩家覺得最為著迷的正是AlphaZero獨特的遊戲風格。例如,在西洋棋中,AlphaZero在其自我訓練中獨立發現並演繹了人類常見的思維模式,如開局(openings),保王(king safety)和兵陣(pawn structure)。但是,由於它可以自學所以並不受傳統思維的影響,還開發了自己的直覺和策略,增加了一系列令人興奮的新穎想法,擴展了幾個世紀以來對西洋棋戰略的思考。

前世界西洋棋冠軍Garry Kasparov說道,「一個多世紀以來,西洋棋一直被用作人類和機器認知的羅塞塔石碑。AlphaZero的非凡成就,更新了古老的棋盤遊戲和尖端的科學之間的聯繫。」

Matthew Sadler說道,玩家首先注意到的就是AlphaZero的風格,也就是它以其獨到的力量圍攻對手王棋的方式。支撐著這些的是AlphaZero百變的遊戲方式,這些方式最大限度地提高了它自身的活躍性和移動性,同時最大限度地減少了對手的活躍性和移動性。與直覺相反,AlphaZero似乎對「子力」(material)的重視程度較低,在現代象棋中,每一個棋子都具有一個值,如果一個玩家在棋盤上的棋子值高於對手,那麼他們就具有了子力優勢。相反,AlphaZero在遊戲早期就犧牲了子力,反而在後期中逐漸補償收益。

掌握棋盤遊戲

Matthew 說道,「令人印象深刻的是,AlphaZero能夠在各種各樣的位置和開局中顯示出自己獨道的棋法,」他還觀察到,AlphaZero剛開始就以非常審慎的方式下棋,這一點和人類的掌握全局非常相似。「傳統程序非常強大,幾乎不會出現明顯的錯誤,但在面對沒有具體可計算的位置時會亂了陣腳。面對這些問題時需要「感覺」,「洞察」或「直覺」來解決,而AlphaZero自成一體恰好具備了這些特質。

前世界西洋棋冠軍Garry Kasparov說道,「這裡面蘊含的邏輯知識已經遠遠超出了我最心愛和欣賞的棋局……這些自學成才的機器不僅下得一手好棋,而且還能產生很多值得我們學習的新知識。」

在最近 Magnus Carlsen和 Fabiano Caruana的世界西洋棋冠軍賽( World Chess Championship )中,這種在其他傳統的西洋棋程序中看不到獨特的提供見解的能力,已經被用來為西洋棋迷們提供新見解和評論, Game Changer中還會進一步探討。 Natasha Regan 說道,「AlphaZero對於棋局的分析與其他頂級西洋棋程序甚至頂級大師的對棋局分析的不同之處,真是令人著迷,AlphaZero可以成為整個象棋界強大的教學工具。」

AlphaZero的教學能力在2016年AlphaGo與圍棋界傳奇冠軍李世乭(Lee Sedol)的比賽中就可以看出。在比賽期間,AlphaGo演繹了許多極具創造性的棋法,包括在第二場比賽中的第37步棋,推翻了數百年的思維定式。AlphaZero的很多走棋方式都已經被很多玩家(包括李世乭在內)研究過,李世乭談論第37步棋時說道:「我原本認為AlphaGo是基於概率計算的,它只是一臺機器,但當我看到這一步棋時,我改變了主意,AlphaGo確實很有創造力。」

和圍棋一樣, AlphaZero在西洋棋中的創造力令人振奮,自從計算機時代開始以來,人工智慧一直都面臨著巨大的挑戰,早期的先驅巴貝奇、圖靈、香農、馮·諾依曼都曾試圖設計西洋棋程序。但AlphaZero的意義不僅僅是在西洋棋,將棋或圍棋中。為了創建能夠解決各種現實問題的智能系統,我們需要它們具備能夠總結新情況的靈活性。雖然在這一目標上我們已經取得了一些進展,但它仍然是人工智慧研究中的一項重大挑戰,因為系統往往能夠以非常高的完成度掌握一些特定的技能,但在面對略微不同的任務時就會失敗。

AlphaZero能夠掌握三種不同的複雜遊戲,並且有潛力完成任何完備信息博弈,所以AlphaZero是克服這一問題的重要一步。它表明單個算法可以在一系列設定中學習新知識。儘管還處於早期階段,但是AlphaZero的獨到見解和其在AlphaFold等其他項目中展示出的優異結果,對創建通用學習系統(our mission)充滿信心,這有助於找到一些新的解決方案來處理更多更重要且複雜的科學問題。

留言 點讚 發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組:張琪琦、韋振琛

如需轉載,請後臺留言,遵守轉載規範

相關焦點

  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 揭秘谷歌 AlphaZero:從 AlphaGo 進化,如何通殺棋類遊戲
    事實上,在不到兩個月時間裡,DeepMind就發表了第三篇論文的預印本,表示AlphaGo Zero背後的算法可以應用到任何一種雙人零和完美遊戲中(即沒有任何隱藏元素的遊戲,例如撲克牌中牌面朝下的卡片)。DeepMind將名字中的「Go」去掉了,並將新的系統命名為AlphaZero。本質上來說,它是一個強大的算法。你可以給它輸入人類能想到的最為複雜的規則,讓它去完成一個被人類研究得最為透徹的遊戲。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。
  • 打敗柯潔的AlphaGo有了繼任者AlphaZero 西洋棋/圍棋/將棋通殺
    2017 年的時候,前 AI 圍棋冠軍 AlphaGo 正式退休,之後AlphaZero成為繼任者。在三款棋類比賽中,AlphaZero獲得三局全勝的結果 。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    12月5日,距離發布AlphaGo Zero論文後不到兩個月,他們在arXiv上傳最新論文《用通用強化學習算法自我對弈,掌握西洋棋和將棋》(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm),用看似平淡的標題,平淡地拋出一個炸彈。
  • 超越AlphaGo的AlphaZero出世
    據韓媒報導,超越圍棋人工智慧「AlphaGo」的「AlphaZero」已面世,「AlphaZero」圍棋的特點是在沒有教科書或棋譜的情況下,只要知道遊戲法則,就具備掌握所有棋類遊戲的能力特別是以圍棋為對象,與「AlphaGo」不同的是一個算法可以適用於西洋棋、昭和(日本象棋)等其他棋類遊戲,是AI廣泛應用的重要裡程碑,因此備受期待。
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。研究顯示,通用的強化學習算法,可以實現從零開始,在許多具有挑戰性的領域超越人類水平。該團隊在上述三種棋類遊戲使用相同的算法設置、網絡架構和超參數,為每一種棋類遊戲訓練了獨立的 AlphaZero。訓練從隨機初始化參數開始,進行了 70 萬步(批尺寸為 4096),使用 5000 個第一代 TPU 生成自我對弈棋局和 64 個第二代 TPU 訓練神經網絡。
  • 史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...
    大約一年前,DeepMind--谷歌母公司Alphabet旗下英國人工智慧部門--發布的預印本研究(《自學掌握象棋和將棋的通用強化學習算法在每一個案例中,它都打敗了一個世界冠軍,展示了一種最先進的技巧,即通過完美的信息來學習二人對弈遊戲——也就是說,在遊戲中,任何決定都被告知之前發生的所有事件。DeepMind的聲明之前的確令人印象深刻,但它們沒有經過同行評審。但現在情況出現了新變化。DeepMind今天宣布,經過數月的反覆修改,它在AlphaZero上的工作已經被《科學》(Science)雜誌接受,並登上了頭版。
  • 三大神車的邁凱倫P1終於迎來繼任者!百公裡加速猜猜是多少?
    有部分猜測表示,新車大概率是「三大神車」之一的邁凱倫P1,未來的「繼任者」。(圖/文 網通社 翟彤)
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    新智元報導 來源:DeepMind; Science編輯:文強,三石,大明【新智元導讀】DeepMind最強棋類算法David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」因此,人工智慧研究的一個長期目標就是跳過這一步,創造能在最有挑戰性的領域,不用人類輸入就達到超人水平的算法。我們發表在《自然》期刊上的最新論文,展示了實現該目標的關鍵一步。論文介紹了首個戰勝人類圍棋冠軍的電腦程式AlphaGo的最新進化版本:AlphaGo Zero。AlphaGo Zero更為強大,可以一爭史上最強圍棋手。
  • 為什麼同樣一套段位算法,能讓柯潔風光無限,也能逼瘋無數上分玩家?
    在各式各樣的遊戲成為了年輕人主要社交方式的當下,諸如王者、吃雞的電子競技遊戲佔據了主流市場。不同於休閒或冒險遊戲,它們強調玩家個人技術與團隊協作能力,總有一種「與人鬥其樂無窮」的快樂。既然是競技,就會有高低之分。現在的玩家見面不再像古時武林中人一般難測對方深淺,一個個具體可見的「天梯分」或「段位」就高懸於角色頭頂,水平高低一目了然。
  • AlphaGo對局李世石兩周年紀:AI算法的秘密
    圍棋是一種古老的棋類遊戲,每一步都存在諸多選擇,因此接下來的落子位置很參議會預測——要求對弈棋手擁有強大的直覺與抽象思維能力。正因為如此,人們長久以來一直認為只有人類擅長下圍棋。大多數研究人員甚至認定,還需要數十年才會出現真正具備這種思考能力的AI。但如今距離AlphaGo對李世石的比賽已經過去了兩年(3月8日至3月15日),而本篇文章正是為了紀念這個偉大的日子!
  • GitHub上標星80k的算法筆記,是有什麼與眾不同的魅力?
    程式設計師到底需不需要學習算法?這個問題被爭論的次數絕對不亞於「Java是不是最好的語言」「VIM和Emacs誰是最好的編輯器」「程式設計師是不是需要學習數學」。為了避免陷入這樣的爭論裡,我們先對「算法」一詞做個轉換定義,什麼是算法?
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了李喆:完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤、棋子和規則。
  • 從AlphaGo到Libratus,百頁白皮書詳解機器博弈
    但從事計算機棋牌競技研究的科學家們,所定義的「Computers Games」則是計算機像人一樣會思考和決策的棋類遊戲。為了與計算機遊戲進行區隔,Computer Games 採用的是「機器博弈」或「計算機博弈」這一具有指代性的譯名。
  • 繼任者們:巴菲特之後
    要聞 繼任者們:巴菲特之後 2020年2月26日 21:20:18 國泰君安證券本文來自 微信公眾號「談股問君」,作者: 國泰君安證券 李少君、鍾玲。本文從歷年巴菲特致股東的信中,去發現巴菲特目前最受關注的繼任者Ajit Jain和Greg Abel的風格,以及未來伯克希爾可能的路徑。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。