AlphaZero制勝解讀,通用強化學習算法自我對弈 | 2分鐘論文

2020-12-05 雷鋒網

雷鋒網:雷鋒字幕組出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時間閱覽前沿技術,了解 AI 領域的最新研究成果。

本期論文:用通用強化學習算法自我對弈,掌握西洋棋和將棋

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

觀看論文解讀大概需要 6 分鐘

回顧AlphaZero

回望2017,DeepMind的AlphaGo是不可跳過的關鍵詞。在這一年,AlphaGo沒有止步不前,還實現了驚人的飛躍。

在打敗幾乎所有高段位圍棋專業選手後,谷歌DeepMind現在開始進軍象棋領域。12月,DeepMind在NIPS大會期間發布了AlpahZero,這是一個通用棋類AI,不僅輕鬆擊敗了最強西洋棋AI和將棋AI,訓練34小時的AlphaZero也勝過了訓練72小時的AlphaGo Zero。

AlphaZero 完全無需人工特徵、無需任何人類棋譜、甚至無需任何特定優化,只需要幾個小時的訓練時間,就可以超越此前最好的算法甚至人類世界冠軍,這是算法和計算資源的勝利,更是人類的頂尖研究成果。

完全自主練習的AlphaZero

AlphaZero是以神經網絡和強化學習為基礎的,在給定比賽規則後,完全通過自主練習進行訓練。

這不同於讓AlphaGo Zero下圍棋,AlphaZero涉及到全新的算法,它和AlphaGo Zero區別在於:第一,象棋的規則是不對稱的,比如,卒只能向前移動,國王和王后一側的王車易位不同,這意味著基於神經網絡的技術效率會變差;第二,落子時,算法不僅要預測二進位的輸贏機率,還可能出現平局,這也要考慮在內。實際上,有時平局是能實現的最好結果。AlphaZero對之前的算法有諸多改進。

要想理解AlphaZero的制勝方式,這裡簡要介紹一下ENO評分,ENO評分是一個評估選手技術水平的數字。目前Magnus Karlssen是ENO評分最高的人類選手,分數在2800左右。幾年前,他在維也納蒙住眼睛同時對戰10名選手並贏得了多數比賽。而Stockfish是目前最好的圍棋引擎之一,ELO評分超過3300分。兩者間500 ELO點數的差距意味著Stockfish和Magnus Karlssen比賽,100場能贏95場。需要注意的是,規則規定相差400點就會取消比賽。

算法對決:AlphaZero VS Stockfish

AlphaZero 和 Stockfish進行了100場比賽。AlphaZero 贏 28場,平72場,輸0場。AlphaZero與Stockfish的對弈過程中,每一步棋都有60秒進行思考,因為兩種算法每走一步最多需要10秒時間,所以時間完全夠用。在硬體配置同為含4個Tenzer處理器的機器的情況下,

AlphaZero僅僅花了4個小時的學習就拿了個大滿貫。

需要注意,Stockfish採用的不是機器學習,而是手寫算法。人們喜歡類比電腦遊戲中的AI,但它們沒有做任何類型的學習。最讓人稱道的是,AlphaZero是一種更通用的算法,還能以極高的水準玩將棋,也就是所謂的日本象棋。這才是最有趣的。因為所用的是通用學習算法,能夠在不投入顯著人力的情況下完成任務,所以相比Stockfish,AlphaZero實用性更強。

論文花絮

關於論文還有兩個更有趣的花絮:一是該算法得出的所有領域知識,都是明確給出的;二是有人可能認為隨著計算機和運算能力的提高,我們所要做的只是提高算法的強度,增加更多要評估的點。我們注意到AlphaZero能穩定擊敗Stockfish的關鍵在於,也許在於AI等效直覺,也就是AlphaZero能夠確認少量的有效走法並且專注其中。

雷鋒網本篇視頻解釋運用了大量材料,裡面有Danny Okink大師和西洋棋大師Daniel Ranch的有趣分析,以及YouTube頻道、網絡圍棋等高質量材料。DeepMind告訴我們,這只是論文的最初版本,所以現在我們先做一個初步觀察,也許在最終論文完成後,再製作第二段視頻反映最新結果。

雷鋒網的學霸們還請自行閱讀論文以獲得更多細節

論文原址:arxiv.org/pdf/1712.01815.pdf

來源 / Two Minute Papers

翻譯 / 安妍

校對 / 凡江

整理 / 孫雲

相關焦點

  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    12月5日,距離發布AlphaGo Zero論文後不到兩個月,他們在arXiv上傳最新論文《用通用強化學習算法自我對弈,掌握西洋棋和將棋》(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm),用看似平淡的標題,平淡地拋出一個炸彈。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    AlphaZero是一個令人大開眼界且超乎尋常的強化學習算法,它以絕對的優勢戰勝了多名圍棋以及西洋棋冠軍。本文將會帶你使用AlphaZero來解決一個益智小遊戲(Dots and Boxes)並將其部署成一個純JavaScript構建的Web應用。
  • AlphaZero:從小白開始制霸多個遊戲
    日本將棋程序也是將棋專用的,使用類似於西洋棋程序的搜尋引擎和算法。 而 AlphaZero 採用了一種完全不同的方法,它用深度神經網絡和通用算法取代了這些人工制定的規則,這些網絡和算法的初始狀態只知道基本規則。
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    DeepMind稱,AlphaGo Zero算法在圍棋上實現了超人類的成績,使用深度卷積神經網絡,通過強化學習進行自我對弈訓練。此前的的Alpha Go需要與人類進行數千次對弈,從中獲取數據,但AlphaGo Zero從零開始,只有空白棋盤和遊戲規則,達到了超人的性能,以100-0戰勝了曾打敗李世乭的Alpha Go。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    ,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。,是創建通用機器學習系統,解決實際問題的重要一步。論文中描述了AlphaZero如何從了解規則開始訓練,並快速學習每個遊戲成為高級玩家。博文中,Deepmind還請來了幾位AlphaZero的人類對手,比如,20年前,在「人機大戰」中被深藍打敗的前世界西洋棋冠軍加裡卡斯帕羅夫,描述了AlphaZero的棋術。
  • 通用算法AlphaZero再攻克幾種棋又有何難!
    雷鋒網 AI 科技評論報導: DeepMind 悄悄放出了一篇新論文,介紹了一個「AlphaZero」。一開始我們差點以為 DeepMind 也學會炒冷飯了,畢竟「從零開始學習」的 AlphaGo Zero 論文 10 月就發出來、大家已經討論了許多遍了。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    同時,這也是經過完整同行審議的AlphaZero論文,首次公開發表。論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • 阿爾法狗再進化 通過自我對弈進行學習
    阿爾法狗再進化:100:0碾壓舊版 阿爾法狗再進化,10月19日谷歌旗下人工智慧研究部門DeepMind發布了新版AlphaGo(阿爾法狗)軟體,它可以完全靠自己學習圍棋 這款名為AlphaGo Zero的系統可以通過自我對弈進行學習,它利用了一種名為強化學習的技術
  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    【網易智能訊12月7日消息】日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • 依據AlphaZero的混合算法,給量子核算帶來新的生機
    例如,經過僅僅四個小時的自我對弈操練,AlphaZero 就在西洋棋中打敗了領先的棋類軟體 Stockfish。並且這完全都是從零初步,一初步AlphaZero底子不知道遊戲規則。丹麥西洋棋大師Peter Heine Nielsen將其比作一個訪問過地球的高級外星物種。現在AlphaZero 現已有效地在圍棋,西洋棋和星際爭霸中打敗對手。
  • 精通西洋棋的AI研究員:AlphaZero真的是一次突破嗎?
    DeepMind 最近發表了一篇關於 AlphaZero 的論文,介紹了一個通過自我學習掌握西洋棋或將棋的系統。 進入正文之前,我首先做個自我介紹。我是一名人工智慧領域研究者,方向是自然語言處理;我同樣也是一名西洋棋大師,目前是韓國的頂尖選手,但是由於我全職科研最近幾年不是很活躍。因此,我會盡力提出一個合理的、有建設性的觀點。
  • AlphaGo後裔AlphaZero創造奇蹟,不到24小時訓練擊敗西洋棋、圍棋...
    昨天,AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。
  • 解讀AlphaZero:一種人類從未見過的智慧
    而本次的完整論文,對一些人認為機器算法下西洋棋沒有價值的論調提出了幾個措辭頗為嚴厲的批評。這是因為,在過去的12個月裡,AlphaZero清楚展示了人類從未見過的一種智慧。下面,就讓我們通過論文來分析下AlphaZero到底。
  • 《自然》收錄「四代AlphaGo」論文,學習算法有望廣泛使用
    ,就能學習出自己的策略;「孫兒」 AlphaZero 則可通過完全信息,利用泛化能力更強的強化學習算法來做訓練,並學會不同的遊戲,如圍棋、西洋棋和日本將棋。就前向搜索方案來說,二代 AlphaZero 已使用過該方案,它在理解遊戲規則的前提下,可通過自我模擬和復盤,去制定下棋時的最佳策略。但在遊戲規則未知的情況下,前向搜索方案就會 「失靈」。就基於模型的規划算法方案來說,它能在學習環境動態後,進行精準建模即環境建模,然後制定出最佳策略。但是,環境建模比較複雜,無法讓機器良好把握 Atari 遊戲。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    但自那以後,這家Google旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的AlphaGo Zero,而他們的遠期目標是打造出通用的人工智慧機器。雖然這一目標尚顯遙遠,但根據本周DeepMind科學家發表的最新的論文來看,他們已經走在了正確的道路上。
  • ICLR 2018最佳論文:基於梯度的元學習算法
    於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網絡和元學習算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    編者按:本月初,在剛剛結束的NIPS 2017大會上Google的DeepMind團隊介紹了其最新的泛化強化學習算法AlphaZero。這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。