全文共2849字,預計學習時長5分鐘
2017年末,AlphaZero誕生——一個可以自學西洋棋,將棋(日本象棋)和圍棋的獨立系統。而它也在比賽中擊敗了三種遊戲各自的世界冠軍程序。來自西洋棋界的看法認為,他們在AlphaZero的棋藝中看到了一種突破性的,變化多端的 「非傳統」遊戲風格,這不同於之前的任何西洋棋程序。
本文是對AlphaZero的全面評估,該評估發表在科學(Science)雜誌上確認並更新了一些初步成果。評估描述了AlphaZero的訓練方法:儘管AlphaZero是從隨機遊戲中開始訓練,沒有內置的專業知識,只知道遊戲的基本規則,它卻可以快速學習每種遊戲,直到成為最強玩家。
前世界西洋棋冠軍Garry Kasparov說道:「我無法掩飾自己的滿足感,它的棋法變化多端,跟我很像!」
這種從零開始學習遊戲的能力,完全不受人類遊戲規範的約束,產生了一種獨特的,非正統的,極具創造力和變化的遊戲風格。西洋棋大師Matthew Sadler和女子國際大師Natasha Regan在他們即將出版的書籍Game Changer(New in Chess,2019年1月)中分析了上千次的AlphaZero西洋棋比賽,他們認為AlphaZero的風格不同於任何傳統的西洋棋。Matthew 說:「這就像發現了過去一些偉大棋手的秘籍一樣」。
傳統的西洋棋程序——包括世界計算機西洋棋冠軍Stockfish和IBM突破性的「深藍」依賴於數千個由高手玩家製作的規則和啟發式方法,這些方法試圖考慮到每盤棋局中所有可能發生的情況。將棋遊戲的程序也是針對於它自身專用的,並且使用了與西洋棋程序類似的搜尋引擎和算法。
而AlphaZero則採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些人工制定的規則,除了遊戲的基本規則之外,AlphaZero對其它一無所知。
為了學習一種遊戲,未經訓練的神經網絡通過強化學習)的反覆試錯過程來進行數百萬局的自我博弈。起初,它完全隨機地走棋,但隨著時間的推移,系統不斷從輸贏中學習經驗,從而調整神經網絡的參數,使其在之後的棋局中選擇更有利的走法。神經網絡的訓練時間取決於遊戲的類型和複雜程度,西洋棋大約需要9個小時,將棋大約需要12個小時,圍棋則大約需要13天。
歷史上唯一一位擁有七大將棋比賽冠軍的九段職業棋手Yoshiharu Habu說道,「它的一些舉動,例如將王移動到棋盤的中心,違反了將棋理論,並且從人的角度來看,它似乎使自己處於危險的位置。但令人難以置信的是,它仍然能掌控著棋盤。其獨特的棋法向我們展示了這些遊戲中還存在著其它的可能性。」
訓練好的神經網絡被用於一種搜索算法——蒙特卡羅樹搜索(Monte-Carlo Tree Search/MCTS),以選擇遊戲中最有利的走法。對於每步棋,AlphaZero僅搜索傳統西洋棋程序中的一小部分走法。例如,在西洋棋中,AlphaZero每秒僅搜索6萬種走法,而Stockfish則要搜索大約6千萬種走法。
我們對經過全面訓練後的神經網絡進行測試,使其與西洋棋中最強大的程序Stockfish、將棋中最強大的Elmo,以及圍棋中最強大的AlphaGo Zero分別進行了比賽。
每個程序都在其最初設計的硬體上運行。Stockfish和Elmo使用44個CPU核心(正如在TCEC世界錦標賽一樣),而AlphaZero和AlphaGo Zero使用一臺機器,配備4個第一代TPUs和44個CPU核心。第一代TPU的推理速度與NVIDIA Titan V GPU等商用硬體大致相似,但其實兩者的架構不具有直接的可比性。所有比賽的時間均控制在每場3小時之內,每步棋限時15秒。
在每場評估中,AlphaZero都令人信服地擊敗了對手:
在西洋棋中,AlphaZero擊敗了2016 年TCEC(第9季)比賽的世界冠軍Stockfish,在1000場比賽中獲勝155場,僅輸掉了6場。為了驗證AlphaZero的魯棒性,還測試了一系列人類選手常見的開局。在每個開局中,AlphaZero都擊敗了Stockfish。我們嘗試了2016年TCEC世界錦標賽中採用的開局,還進行了和最新版Stockfish及一個變種版Stockfish(使用了強大開局)的一系列附加賽。在所有比賽中,AlphaZero都取得了勝利。在將棋中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。在圍棋中,AlphaZero擊敗了 AlphaGo Zero,贏得了61%的比賽。
讓玩家覺得最為著迷的正是AlphaZero獨特的遊戲風格。例如,在西洋棋中,AlphaZero在其自我訓練中獨立發現並演繹了人類常見的思維模式,如開局(openings),保王(king safety)和兵陣(pawn structure)。但是,由於它可以自學所以並不受傳統思維的影響,還開發了自己的直覺和策略,增加了一系列令人興奮的新穎想法,擴展了幾個世紀以來對西洋棋戰略的思考。
前世界西洋棋冠軍Garry Kasparov說道,「一個多世紀以來,西洋棋一直被用作人類和機器認知的羅塞塔石碑。AlphaZero的非凡成就,更新了古老的棋盤遊戲和尖端的科學之間的聯繫。」
Matthew Sadler說道,玩家首先注意到的就是AlphaZero的風格,也就是它以其獨到的力量圍攻對手王棋的方式。支撐著這些的是AlphaZero百變的遊戲方式,這些方式最大限度地提高了它自身的活躍性和移動性,同時最大限度地減少了對手的活躍性和移動性。與直覺相反,AlphaZero似乎對「子力」(material)的重視程度較低,在現代象棋中,每一個棋子都具有一個值,如果一個玩家在棋盤上的棋子值高於對手,那麼他們就具有了子力優勢。相反,AlphaZero在遊戲早期就犧牲了子力,反而在後期中逐漸補償收益。
掌握棋盤遊戲
Matthew 說道,「令人印象深刻的是,AlphaZero能夠在各種各樣的位置和開局中顯示出自己獨道的棋法,」他還觀察到,AlphaZero剛開始就以非常審慎的方式下棋,這一點和人類的掌握全局非常相似。「傳統程序非常強大,幾乎不會出現明顯的錯誤,但在面對沒有具體可計算的位置時會亂了陣腳。面對這些問題時需要「感覺」,「洞察」或「直覺」來解決,而AlphaZero自成一體恰好具備了這些特質。
前世界西洋棋冠軍Garry Kasparov說道,「這裡面蘊含的邏輯知識已經遠遠超出了我最心愛和欣賞的棋局……這些自學成才的機器不僅下得一手好棋,而且還能產生很多值得我們學習的新知識。」
在最近 Magnus Carlsen和 Fabiano Caruana的世界西洋棋冠軍賽( World Chess Championship )中,這種在其他傳統的西洋棋程序中看不到獨特的提供見解的能力,已經被用來為西洋棋迷們提供新見解和評論, Game Changer中還會進一步探討。 Natasha Regan 說道,「AlphaZero對於棋局的分析與其他頂級西洋棋程序甚至頂級大師的對棋局分析的不同之處,真是令人著迷,AlphaZero可以成為整個象棋界強大的教學工具。」
AlphaZero的教學能力在2016年AlphaGo與圍棋界傳奇冠軍李世乭(Lee Sedol)的比賽中就可以看出。在比賽期間,AlphaGo演繹了許多極具創造性的棋法,包括在第二場比賽中的第37步棋,推翻了數百年的思維定式。AlphaZero的很多走棋方式都已經被很多玩家(包括李世乭在內)研究過,李世乭談論第37步棋時說道:「我原本認為AlphaGo是基於概率計算的,它只是一臺機器,但當我看到這一步棋時,我改變了主意,AlphaGo確實很有創造力。」
和圍棋一樣, AlphaZero在西洋棋中的創造力令人振奮,自從計算機時代開始以來,人工智慧一直都面臨著巨大的挑戰,早期的先驅巴貝奇、圖靈、香農、馮·諾依曼都曾試圖設計西洋棋程序。但AlphaZero的意義不僅僅是在西洋棋,將棋或圍棋中。為了創建能夠解決各種現實問題的智能系統,我們需要它們具備能夠總結新情況的靈活性。雖然在這一目標上我們已經取得了一些進展,但它仍然是人工智慧研究中的一項重大挑戰,因為系統往往能夠以非常高的完成度掌握一些特定的技能,但在面對略微不同的任務時就會失敗。
AlphaZero能夠掌握三種不同的複雜遊戲,並且有潛力完成任何完備信息博弈,所以AlphaZero是克服這一問題的重要一步。它表明單個算法可以在一系列設定中學習新知識。儘管還處於早期階段,但是AlphaZero的獨到見解和其在AlphaFold等其他項目中展示出的優異結果,對創建通用學習系統(our mission)充滿信心,這有助於找到一些新的解決方案來處理更多更重要且複雜的科學問題。
留言 點讚 發個朋友圈
我們一起分享AI學習與發展的乾貨
編譯組:張琪琦、韋振琛
如需轉載,請後臺留言,遵守轉載規範