阿爾法狗再進化!通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序

2020-12-05 第一財經

在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。

繼今年10月在《自然》雜誌上發表論文正式推出人工智慧圍棋程序AlphaGo Zero後,Alphabet旗下機器學習子公司DeepMind團隊近日又發表論文稱,最新版本的 AlphaZero 在經過不到一天的訓練後,「令人信服地」打敗了西洋棋和日本將棋頂尖的電腦程式 。

DeepMind稱,AlphaGo Zero算法在圍棋上實現了超人類的成績,使用深度卷積神經網絡,通過強化學習進行自我對弈訓練。此前的的Alpha Go需要與人類進行數千次對弈,從中獲取數據,但AlphaGo Zero從零開始,只有空白棋盤和遊戲規則,達到了超人的性能,以100-0戰勝了曾打敗李世乭的Alpha Go。

近日,該團隊發文表示,在西洋棋和日本將棋上採用了AlphaGo Zero 的通用化版本AlphaZero(只輸入遊戲規則,沒有輸入任何特定領域的知識)。研究顯示,通用的強化學習算法,可以實現從零開始,在許多具有挑戰性的領域超越人類水平。

該團隊在上述三種棋類遊戲使用相同的算法設置、網絡架構和超參數,為每一種棋類遊戲訓練了獨立的 AlphaZero。訓練從隨機初始化參數開始,進行了 70 萬步(批尺寸為 4096),使用 5000 個第一代 TPU 生成自我對弈棋局和 64 個第二代 TPU 訓練神經網絡。

結果顯示,在西洋棋中,AlphaZero 僅僅用 4 小時(30 萬步)就超過了 Stockfish。在日本將棋中,不到 2 小時(11 萬步),AlphaZero 就超過了 Elmo;在圍棋中,AlphaZero 用 8 小時(16.5 萬步)超越 AlphaGo Lee((與李世乭對弈的版本)。

Stockfish是2016 年 Top Chess Engine Championship(TCEC)世界冠軍。Elmo是 Computer Shogi Association(CSA)世界冠軍 Elmo。

人工智慧領域的標誌性事件是 1997 年深藍(Deep Blue)擊敗了人類世界冠軍卡斯帕羅夫。在之後的 20 年內,西洋棋的電腦程式水平一直穩定處於人類之上。Deepmind團隊稱,當前西洋棋最好的程序都是基於強大的搜尋引擎,能搜索數百萬個位置,利用人類專家手動編寫的函數和複雜的特定領域適應性。Stockfish和深藍這種強大的西洋棋程序也使用了類似的架構。

在計算複雜性方面,日本將棋比西洋棋要更難。將棋棋盤更大,任何被吃的棋子都可以改變立場,被放在棋盤的其他位置。之前,最強的將棋程序,如世界冠軍 Elmo 也是到 2017 年才打敗人類世界冠軍。這些程序和計算機西洋棋程序採用了相似的算法,基於高度優化的α-β搜尋引擎,並針對特定領域進行調整。

AlphaZero則完全不同,使用了一個通用的蒙特卡羅樹搜索(MCTS)算法,通過隨機的對遊戲進行推演來逐漸建立一棵不對稱的搜索樹。AlphaZero 是一個通用的強化學習算法——最初為圍棋設計,在除了給定象棋規則之外沒有任何領域知識的情況下,可以在幾小時內達到更優的結果,少了幾千倍的搜索量。此外,該算法不需要修改就可以應用到更具挑戰性的日本將棋上,並再次在數小時內超過了當前最好的程序。

谷歌大腦GoogleBrain負責人Jeff Dean也曾介紹過深藍和AlphaGo的區別。他稱,深藍是通過蠻力搜索,知道接下來該怎麼走。但圍棋比象棋複雜,由於其複雜性很難窮盡算法,「如果沒有足夠的計算能力去探索圍棋的世界,那麼你需要幫助程序認識遊戲過程中的規律以及怎麼樣才能夠像人一樣有本能的去思考如何走棋。」

不過,Deepmind團隊最新公布的Alpha Zero又在AlphaGo Zero上進行了升級。首先,AlphaGo Zero假設對弈的結果為勝/負兩種, 會估計並最優化勝利的概率;而 AlphaZero 則會估計和優化期望的結果,會同時考慮平局或其它可能的結果。

對於圍棋而言,旋轉棋盤和鏡像映射都不會改變其規則。AlphaGo 和 AlphaGo Zero 都運用了這一事實。通過為每個位置生成8次對稱,來增加訓練數據。 但西洋棋和日本將棋是不對稱的,因此AlphaZero不會增加訓練數據,也不會在進行蒙特卡羅樹搜索算法時轉變棋盤位置。

此外,AlphaZero的自我對弈由之前所有迭代過程中最優玩家生成。每次訓練後,新玩家的性能與之前的最優玩家對比,如果新玩家以55%的勝率勝出,便取代之前的最優玩家。相反,AlphaZero 只是維護單個神經網絡連續更新最優解,而不是等待一次迭代的完成。

最後,AlphaGo Zero 通過貝葉斯優化(Bayesian optimisation)搜索超參數,而 Alpha Zero 對所有的對弈重複使用相同的超參數,無需進行針對特定某種遊戲的調整。

DeepMind評估了經充分訓練的AlphaZero 在西洋棋、將棋和圍棋上分別和與Stockfish、Elmo 和經過 3 天訓練的 AlphaGo Zero 進行的 100 場比賽結果,比賽時間控制在一步一分鐘。AlphaZero 和 AlphaGo Zero 使用 4 個 TPU 的單個機器進行比賽。Stockfish 和 Elmo 使用 64 個線程和 1GB 的哈希表進行比賽。AlphaZero 「令人信服地」打敗了所有的對手,沒有輸給 Stockfish 任何一場比賽,只輸給了 Elmo 八場。

除了繼續強化AlphaGo的技能,谷歌也正推廣著圍棋教學。

12月4日,谷歌宣布與聶衛平圍棋道場共同發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動,該活動將包含針對全國4—18歲小棋手的全國青少年圍棋公開賽,公開賽將在全國6個城市舉行分站賽並於北京舉行總決賽。皮查伊和谷歌就是要在這些孩子當中發現最具潛力的「圍棋先鋒」,並用DeepMind發明的AlphaGo圍棋教學方法培訓他們。

谷歌 CEO 桑達爾·皮查伊透露,DeepMind將會基於AlphaGo發明一套圍棋教學工具,很快可以免費下載,讓所有人學習AlphaGo如何下棋。他還表示,這套圍棋教學工具中的數據是從20多萬場人類棋手比賽,以及75場AlphaGo和人類的對抗中積累的。

相關焦點

  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    其中,DeepMind團隊描述了一個通用棋類AI「AlphaZero」,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:戰勝最強西洋棋AI Stockfish:28勝,0負,72平;戰勝最強將棋AI Elmo:90勝,2平,8負;戰勝最強圍棋AI AlphaGo Zero:60勝,40
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。
  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    【網易智能訊12月7日消息】日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • 史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...
    大約一年前,DeepMind--谷歌母公司Alphabet旗下英國人工智慧部門--發布的預印本研究(《自學掌握象棋和將棋的通用強化學習算法
  • 「阿爾法狗」完勝人類,如此尖端技術,為何不能形成產業?
    這是一個很特殊的現象,最初上世紀六七十年代,計算機編程攻克了跳棋,之後又攻克了西洋棋、中國象棋、日本將棋,直到2016年阿爾法狗攻克圍棋達到高潮。一路走來,每一步都震撼世界,每一步都給人工智慧的發展帶來一股熱潮,這是人工智慧發展的一個非常獨特的風景。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    但自那以後,這家Google旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的AlphaGo Zero,而他們的遠期目標是打造出通用的人工智慧機器。雖然這一目標尚顯遙遠,但根據本周DeepMind科學家發表的最新的論文來看,他們已經走在了正確的道路上。
  • AlphaZero:從小白開始制霸多個遊戲
    2017 年底,DeepMind 推出了 AlphaZero——一個從零開始自學西洋棋、將棋和圍棋的系統。它最終在這三個領域都打敗了世界最頂尖的程序。DeepMind 為這些初步結果而感到興奮,也很高興看到棋壇社區成員的反應,他們在和 AlphaZero 的對戰中看到了一種靈活多變的「非常規」、突破性博弈風格,這種風格不同於之前的任何棋類程序。
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • 「阿爾法狗」再進化!通用算法AlphaZero再攻克幾種棋又有何難!
    可定睛一看,這次的 AlphaZero 不是以前那個只會下圍棋的人工智慧了,它是通用的,西洋棋、日本象棋也會下,所以去掉了名字裡表示圍棋的「Go」;不僅如此,圍棋還下得比上次的 AlphaGo Zero 還要好——柯潔在得知 AlphaGo Zero 之後已經感嘆道人類是多餘的了,這次一眾圍棋選手可以牽著西洋棋選手們再痛哭一次了。
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。>4個小時成為了世界級的西洋棋冠軍;2個小時在將棋上達到世界級水平;8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 揭秘谷歌 AlphaZero:從 AlphaGo 進化,如何通殺棋類遊戲
    這個AI程序起源於在2016年名聲大噪的圍棋AI AlphaGo,而AlphaZero被應用於更多棋類遊戲中,取得了令人可喜的成就。以下為文章全文:幾周前,谷歌AI子公司DeepMind內的一群研究人員在國際權威學術期刊《科學》(Science)上發表了一篇論文,其中描述了一種遊戲領域的人工智慧(AI)。
  • 登上Science,AlphaZero完整論文首次發布
    經過數月的反覆修改,DeepMind 最強棋類遊戲 AI AlphaZero 的完整版論文終於在 Science 發表。圖丨此次論文對應的封面(來源:Science)自從 DeepMind 的 AlphaGo 在圍棋賽場上一戰成名之後,這家 Google 旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的 AlphaZero,AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習
  • 圍棋與象棋(中國象棋、西洋棋、日本將棋)該如何選擇?
    就像大家說的,本質上這些棋類都是一項遊戲,沒有什麼高下之分(但我個人認為,單論複雜和難易程度還是圍棋更勝一籌)。圍棋這裡解釋一下「隔壁家孩子數學特別好,圍棋業餘二段,是否說明圍棋可以促進數學思維這個觀點」的問題: 人家孩子聰明,學啥都快,就這樣。 你要學數學就把時間花在數學上啊!
  • 阿爾法狗被碾壓!再進化版本AlphaGo Zero以100:0完勝
    阿爾法狗被碾壓!再進化版本AlphaGo Zero以100:0完勝 如今,說起由谷歌旗下團隊DeepMind所開發的人工智慧(AI)AlphaGo,你的頭腦當中會回想起什麼呢?
  • AlphaZero制勝解讀,通用強化學習算法自我對弈 | 2分鐘論文
    本期論文:用通用強化學習算法自我對弈,掌握西洋棋和將棋Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm觀看論文解讀大概需要 6 分鐘回顧AlphaZero
  • 阿爾法狗來了,騰訊絕藝也來了,中國象棋的人機大戰還會遠嗎?
    近年人工智慧大熱,圍棋方面高潮於李世石、柯潔與阿爾法狗的對弈,由此引發大眾對人與機器相愛相殺的思考,甚至產生對棋類運動發展的質疑。而就在上個月,柯潔與騰訊AI「絕藝」取得一勝一負戰績,只不過這次,柯潔被絕藝讓了兩子。似乎絕藝的出現並沒有引起媒體方面的高度關注。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    DeepMind說,現在AlphaZero已經學會了三種不同的複雜棋類遊戲,並且可能學會任何一種完美信息博弈的遊戲,這「讓我們對創建通用學習系統的使命充滿信心」。AlphaZero到底有多厲害?再總結一下。
  • 精通西洋棋的AI研究員:AlphaZero真的是一次突破嗎?
    很明顯我會著重講西洋棋,但是一些論點是通用的,可推算至將棋或圍棋。本文僅代表個人觀點,可能出現錯誤或誤解,請見諒。 西洋棋可以說是在「人機對戰」和人工智慧中研究最為廣泛的遊戲。該領域的首個突破是 1997 年 IBM 深藍(Deep Blue)擊敗世界冠軍 Garry Kasparov。