Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!

2020-12-04 新智元

新智元報導

來源:DeepMind; Science

編輯:文強,三石,大明

【新智元導讀】DeepMind最強棋類算法AlphaZero今天以Science封面論文形式發表。David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。

史上最強棋類AI降臨!

今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。

一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強西洋棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo)。

現在,DeepMind將完整評估後的AlphaZero公之於眾,不僅驗證了上述結果,還補充了新的提升。

AlphaZero沒有使用人類知識(除了棋類基本規則),從零開始訓練,快速掌握日本將棋、西洋棋和圍棋這三種複雜棋類遊戲,展現出令人耳目一新的獨道風格,拓展了人類智慧,並證明了機器擁有創造性的可能。

西洋棋大師卡斯帕羅夫——20年前輸給IBM深藍的西洋棋世界冠軍,今天在Science發表社論,表示他很高興看到AlphaZero展現出了像他一樣「動態、開放」的棋風:

「傳統觀點以為,機器將通過無休止的枯燥操作趨近完美,最終導致平局。但據我觀察,AlphaZero優先考慮棋子的活動而非盤面上的點數優勢,更喜歡在我看來有風險和激進的地方落子。

「電腦程式通常會反映出編程者的側重和偏見,但由於AlphaZero通過自我對弈訓練,我認為它體現了棋的真諦(truth)。正是這種出色的理解使其能夠超越世界頂級的傳統棋類引擎,而且每秒計算的落子位置要少得多。」

AlphaZero證明了機器也能成為專家,機器生成的知識也值得人類去學習。「AlphaZero以這樣一種強大而有用的方式超越了我們,」卡斯帕羅夫寫道:「只要在虛擬知識(virtual knowledge)能夠生成的領域,這個模型都可能複製到任何其他任務上。」

IBM深藍的共同創造者之一Murray Campbell,也在Science發表評論文章,指出DeepMind論文使用通用的搜索方法,結合蒙特卡羅樹搜索(MCTS),增強了深度強化學習。

「儘管MCTS已經成為圍棋程序中的標準搜索方法,但迄今為止,幾乎沒有證據表明它在西洋棋或將棋中有用。」Campbell寫道:「DeepMind展示了深度強化學習與MCTS算法相結合的力量,從隨機初始化的參數開始,讓神經網絡通過自我對弈不斷更新參數。」

下面,就讓我們一起來看看,AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文,闡述他們如何用5000個TPU,讓AlphaZero快速掌握將棋、西洋棋和圍棋。

用5000個TPU,快速掌握將棋、圍棋和西洋棋

傳統西洋棋的引擎依賴於由人類高手玩家「手工製作」的數千條規則和啟發式方法,它們都試圖解釋遊戲中可能發生的每一種結果。

日本將棋程序也是特定於遊戲的,使用與西洋棋程序類似的搜尋引擎和算法。

AlphaZero則採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些「手工製作」的規則,而這些算法對基本規則之外的遊戲卻一無所知。

在西洋棋中,AlphaZero僅用了4個小時便首次超越了Stockfish;在日本將棋中,AlphaZero在2小時後首次超過Elmo;在圍棋方面,AlphaZero在2016年的比賽中,經過30個小時的鏖戰,首次擊敗了傳奇棋手李世石。註:每個訓練步驟代表了4096個落子位置。

為了學習每一個遊戲,一個未經訓練的神經網絡通過強化學習與自己對打數百萬次。

一開始,它完全是隨機的,但是隨著時間的推移,系統從輸贏中開始學習,並根據神經網絡的參數進行調整,使其在未來可以選擇更有利的走法。

網絡需要的訓練量取決於遊戲的風格和複雜性,西洋棋需要9小時,將棋需要12小時,圍棋需要13天。

「AlphaZero的一些舉動,例如將王將移至棋盤中央是有違將棋理論的,從人類的角度來看,它的這些舉動似乎是將自己置於危險境地。但令人難以置信的是,它仍然控制著局面。AlphaZero獨特的遊戲風格向我們展示了將棋的新可能性。」羽生善治,日本將棋棋士,獲得七項頭銜的「永世稱號」,亦是日本將棋史上第一個達成七冠王與「永世七冠」的人,改寫了將棋界多項歷史紀錄

訓練後的網絡用於指導搜索算法(蒙特卡羅樹搜索,MCTS),選擇遊戲中最有有利的動作。對於每次移動,AlphaZero僅搜索傳統西洋棋引擎所考慮的一小部分位置。

例如,在西洋棋中,它每秒僅搜索6萬個位置,相比之下,Stockfish大約有6千萬個位置。

這些經過全面訓練的系統是在西洋棋(Stockfish)和將棋(Elmo)最強大的「手工引擎」以及我們之前自學的AlphaGo Zero系統(已知最強大的圍棋選手)的幫助下進行測試的。

每個程序都在它們所設計的硬體上運行。Stockfish和Elmo使用了44個CPU核,而AlphaZero和AlphaGo Zero使用了一臺擁有4個第一代TPU和44個CPU核的機器。第一代TPU在推理速度上與NVIDIA Titan V GPU等商用硬體大致相似,但架構並不具有直接可比性。所有的比賽都有時間控制,每場比賽3小時,外加每一步額外的15秒。

在每次評估中,AlphaZero都毫無懸念地擊敗了對手:

在西洋棋比賽中,AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish,贏得155場比賽,在1000場比賽中只輸了6場。為了驗證AlphaZero的穩健性,我們還進行了一系列比賽,這些比賽都是從常見的「人類開局方式」開始的。在每一種開局情況下,AlphaZero都擊敗了Stockfish。我們還與最新開發版本的Stockfish以及它的變體打過比賽,在所有的比賽中,AlphaZero都贏了。在將棋比賽中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。在圍棋比賽中,AlphaZero擊敗了AlphaGo Zero,贏得了61%的比賽。

獨創棋風,拓展人類智慧,邁向通用學習系統重要一步

然而,讓人感到最著迷的是AlphaZero的行棋風格。例如,在西洋棋中,AlphaZero在自我訓練中獨立發現並走出了人類棋手常用的定式,如開局、王不立險地(King safety)和兵的走法。

但是,由於這些都是自學的,因此不會受傳統觀念的影響,AlphaZero還開創出了自己的直覺和策略,產生了一系列令人興奮的新穎思路,為幾個世紀以來西洋棋戰略戰術的思考提供了有益的補充。

過去一個多世紀以來,西洋棋一直被用作衡量人類和機器認知水平的黃金標準。 AlphaZero取得的非凡成果,刷新了這門古老的棋盤遊戲和尖端科學之間的顯著聯繫。前西洋棋世界冠軍 加裡·卡斯帕羅夫

在與AlphaZero對弈時,棋手注意到的第一件事就是它的行棋風格,西洋棋大師Matthew Sadler說道,「它會懷著明確的目的和力量來瓦解對手的王」。Sadler和女子西洋棋大師Natasha Regan一起分析AlphaZero,並寫作出版了專著《Game Changer:AlphaZero的顛覆性西洋棋策略和人工智慧潛力》。

AlphaZero的行棋風格非常靈活,最大限度地提升己方子力配備的靈活性和機動性,同時最大限度地降低對手子力的靈活性和機動性。

與我們的通常想法不同的是,AlphaZero似乎對「子力」本身的重視程度較低,而重視「子力」是現代西洋棋的基本行棋思路,棋盤上每個子都具有價值,如果一個玩家在棋盤上的子力高於對手,那麼他就擁有子力優勢。而AlphaZero甚至願意在棋局早期犧牲子力,以獲得長期收益。

「令人印象深刻的是,AlphaZero在行棋時能將這種風格應用在各種各樣的開局和定式中。」Matthew說道,他也觀察到,AlphaZero從走第一步開始就體現出了這種明確的的性,且一以貫之,其風格體現得非常明顯。

「過去的傳統西洋棋軟體已經非常穩定,幾乎不會出現明顯錯誤,但在面對沒有具體和可計算解決方案的時,其行棋會發生偏差,」他說:「正是在這種時候,才是AlphaZero發揮其'感覺'、'洞察'或'直覺'的地方。」

這種獨特的能力,在其他傳統的西洋棋引擎中是看不到的。目前,AlphaZero已經被用來在世界西洋棋錦標賽上為棋迷們提供有關Magnus Carlsen和Fabiano Caruana(現男子西洋棋等級分前兩名)對局的新見解和評論。

「我們可以看看AlphaZero的分析,與頂級西洋棋大師對棋局的分析,甚至和棋手實戰著法有何不同,這真是令人著迷的一件事。AlphaZero可以作為整個西洋棋社區的強大教學工具。」

AlphaZero的「教誨」,讓我們想起了2016年AlphaGo與圍棋世界冠軍李世乭對弈時的場景。在那次比賽中,AlphaGo走出了許多極具創造性的致勝著法,包括在第2局比賽中的執黑第37手,這手棋推翻了人類數百年的思路。這些著法已經被包括李世乭本人在內的所有級別的棋手和愛好者研究過。

他們對此表示:「我之前還認為AlphaGo是基於概率來計算的,它只是一臺機器。但當我看到這手棋時,我改變了想法。毫無疑問,AlphaGo是有創造性的。

「人機大戰」的影響力已經遠遠超出了西洋棋本身。這些自學成才的專家級機器不僅表現優異,棋力非凡,而且從自己創造的新知識中學習。加裡·卡斯帕羅夫 前西洋棋世界冠軍

和圍棋一樣,我們對AlphaZero在西洋棋上的創造性突破感到興奮,自從計算機時代以來,人工智慧時時面臨著巨大挑戰,包括巴貝奇、圖靈、馮·諾依曼在內的早期計算機先驅人物,都曾試圖設計西洋棋程序,但AlphaZero的用途不僅僅是西洋棋、將棋和圍棋。

為了創建能夠解決各種現實問題的智能系統,它們需要更加靈活,能夠適應新情況。雖然目前在實現這一目標方面取得了一些進展,但AI的通用化問題仍然是研究中的一項重大挑戰,經過訓練的AI系統面對特定任務時能夠以極高標準完成,但任務只要稍有變化往往就會失敗。

AlphaZero掌握了三種不同的複雜遊戲,這可能是朝著解決這一問題邁出的重要一步。儘管目前還處於早期階段,但AlphaZero取得的進步,以及在蛋白質摺疊系統AlphaFold等其他項目上的令人鼓舞的結果,讓我們對實現通用學習系統的使命充滿信心,相信未來我們能夠找到一些新的解決方案,解決最重要、最複雜的科學問題。

DeepMind博客:

https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 騰訊欲搬谷歌雲當救兵,大戰阿里華為,AlphaZero達成終極進化體
    AI畢業生赴美史上最大規模的機器學習技能調查剛剛出爐了。這份調查來自矽谷機器學習公司Diffbot,是史丹福大學風投基金投資的第一家公司。【今日資訊頭條 | Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨】來源:DeepMind; Science
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    大數據文摘出品作者:魏子敏、蔣寶尚阿爾法元(AlphaZero)誕生一周年之際,《自然(Science)》雜誌今天以封面文發布了阿爾法元(AlphaZero具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • AlphaZero:從小白開始制霸多個遊戲
    近日,AlphaGo 的「完全自我博弈加強版」AlphaZero 的論文又登上另一大頂級期刊 Science 的封面。在論文中, AlphaZero 不僅徵服了圍棋,也在將棋、西洋棋等複雜遊戲中實現了超越人類的表現。
  • AlphaZero 榮登《科學》雜誌封面
    而今天,經過同行評議,AlphaZero 一舉登上《科學》雜誌封面。據此前 DeepMind 在 AlphaZero 的論文中介紹,AlphaZero 使用了完全無需人工特徵、無需任何人類棋譜、甚至無需任何特定優化的通用強化學習算法。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    其中,DeepMind團隊描述了一個通用棋類AI「AlphaZero」,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:戰勝最強西洋棋AI Stockfish:28勝,0負,72平;戰勝最強將棋AI Elmo:90勝,2平,8負;戰勝最強圍棋AI AlphaGo Zero:60勝,40
  • 阿爾法狗再進化!通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。該團隊在上述三種棋類遊戲使用相同的算法設置、網絡架構和超參數,為每一種棋類遊戲訓練了獨立的 AlphaZero。訓練從隨機初始化參數開始,進行了 70 萬步(批尺寸為 4096),使用 5000 個第一代 TPU 生成自我對弈棋局和 64 個第二代 TPU 訓練神經網絡。
  • 登上Science,AlphaZero完整論文首次發布
    經過數月的反覆修改,DeepMind 最強棋類遊戲 AI AlphaZero 的完整版論文終於在 Science 發表。圖丨此次論文對應的封面(來源:Science)自從 DeepMind 的 AlphaGo 在圍棋賽場上一戰成名之後,這家 Google 旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的 AlphaZero,AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    QbitAI),作者:乾明 一璞 慄子 曉查不僅會下圍棋,還自學成才橫掃西洋棋和日本將棋的DeepMind AlphaZero,登上了最新一期《科學》雜誌封面論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。
  • 史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    https://carlos-aguayo.github.io/alphazero/有關AlphaZero的原理,你可以閱讀這篇由Silver,David等人撰寫的論文:「Mastering the game of Go without human knowledge」 nature 550.7676
  • ...封面!「恐龍獵人」發現史上最小恐龍,刷新人類對鳥類進化的認知
    3 月 12 日,這篇論文登上了當期《自然》雜誌封面。Nature News 和 Science News 也報導了該研究。研究團隊表示,在緬甸白堊紀琥珀中發現了一隻有史以來最小的恐龍,這一成果無疑對理解恐龍與古鳥類的演化(特別是小型化動物的形態演化)有著重要意義。
  • 揭秘谷歌 AlphaZero:從 AlphaGo 進化,如何通殺棋類遊戲
    這個AI程序起源於在2016年名聲大噪的圍棋AI AlphaGo,而AlphaZero被應用於更多棋類遊戲中,取得了令人可喜的成就。以下為文章全文:幾周前,谷歌AI子公司DeepMind內的一群研究人員在國際權威學術期刊《科學》(Science)上發表了一篇論文,其中描述了一種遊戲領域的人工智慧(AI)。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習,就成功擊敗了與李世石對戰的 AlphaGo v18;又經過了 4 個小時的訓練,它又擊敗了世界頂級的西洋棋程序——Stockfish;緊接著,又是2個小時的訓練之後,世界上最強的日本將棋程序Elmo又敗在了它的手下。看出來了嗎?AlphaZero 或許已經有了些許邁向棋類通用 AI 的跡象!
  • 6大終極生物兵器,一位號稱史上最強,一位能抹殺整個宇宙生命!
    下面我們就來看看奧特曼中的6大終極生物兵器吧!海帕傑頓海帕傑頓是奧特曼系列劇集中少有的幾個擁有著神秘四奧級別實力的怪獸之一,同時其亦是百特星人培育出來的終極生物兵器,初次登場於劇場版《奧特曼傳奇》當中。
  • 解讀AlphaZero:一種人類從未見過的智慧
    2018年12月初,在AlphaZero誕生一周年之際,《自然》雜誌以封面文發布了AlphaZero經過同行審議的完整論文,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。現在,諸如Stockfish和Komodo等當前世界上最強的西洋棋程序仍然在以這種方式下棋。它們喜歡吃掉對手的棋子;它們防守像鋼鐵一樣強悍。
  • 噴火龍最強?《神奇寶貝》小智歷代御三家中有哪些終極進化形態?
    大家好,小編昨天瞎掰的小智的御三家為何獨愛小火龍引起大家的熱(吐)議(槽),險些就要把小編給擠出沙發了(滑稽),幸好小編屁股比較大,噴火龍的沙發也比較寬,不然給擠下沙發就太糗了,那麼承接昨天的話題,噴火龍要是不是最強的話,其他終極進化形態的御三家,還有誰?
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • 卡布西遊巖王犀將超進化方法 史上最強肉盾獲得攻略
    卡布西遊巖王犀將是9月26日新增的妖怪,號稱史上最強肉盾的土系巖王犀將可以由冥圖古犀超進化而成,這裡為大家詳細介紹巖王犀將的超進化方法。 卡布西遊巖王犀將超進化方法介紹: 獲得時間:2014年9月26日~10月16日 獲得地點:活動樂園 獲得方法:參加《史上最強肉盾巖王犀將》活動累積600個土之元神加一隻超過80級的冥圖古犀並設為首選超進化可獲得巖王犀將,或者花費350卡布幣一鍵獲得巖王犀將!
  • 中國學者Science封面論文:甲蟲胸節上的角與翅膀系列同源
    Moczek 團隊首次揭示,甲蟲前胸背部的角由翅膀的系列同源器官進化而來。這項研究對思考如何更好地定義進化新徵(evolutionary novelty)有著重要意義,於 11 月 22 日登上Science封面。