AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次發布

2021-02-25 歐洲科技圈

來源:量子位

作者:乾明 一璞 慄子 曉查

不僅會下圍棋,還自學成才橫掃西洋棋和日本將棋的DeepMind AlphaZero,登上了最新一期《科學》雜誌封面。

同時,這也是經過完整同行審議的AlphaZero論文,首次公開發表。

論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。

《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。

DeepMind說,現在AlphaZero已經學會了三種不同的複雜棋類遊戲,並且可能學會任何一種完美信息博弈的遊戲,這「讓我們對創建通用學習系統的使命充滿信心」。

AlphaZero到底有多厲害?再總結一下。

在西洋棋中,AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;

在日本將棋中,AlphaZero訓練2小時就超越了世界冠軍程序Elmo。

在圍棋中,AlphaZero訓練30小時就超越了與李世石對戰的AlphaGo。

AlphaZero有什麼不同

西洋棋有什麼難的?

實際上,西洋棋是計算機科學家很早就開始研究的領域。1997年,深藍擊敗了人類西洋棋冠軍卡斯帕羅夫,這是一個人工智慧的裡程碑。此後20年,西洋棋的算法在超越人類後,一直還在不斷地進步。

這些算法都是由強大的人類棋手和程式設計師構建,基於手工製作的功能和精心調整的權重來評估位置,並且結合了高性能的alpha-beta搜索。

而提到遊戲樹的複雜性,日本將棋比西洋棋還難。日本將棋程序,使用了類似西洋棋的算法,例如高度優化的alpha-beta搜索,以及許多有針對性的設置。

AlphaZero則完全不同,它依靠的是深度神經網絡、通用強化學習算法和通用樹搜索算法。除了基本規則之外,它對這些棋類遊戲一無所知。

其中,深度神經網絡取代了手工寫就的評估函數和下法排序啟發算法,蒙特卡洛樹搜索(MCTS)算法取代了alpha-beta搜索。

AlphaZero深度神經網絡的參數,通過自我博弈的強化學習來訓練,從隨機初始化的參數開始。

隨著時間推移,系統漸漸從輸、贏以及平局裡面,學會調整參數,讓自己更懂得選擇那些有利於贏下比賽的走法。

那麼,圍棋和西洋棋、將棋有什麼不同?

圍棋的對弈結局只有輸贏兩種,而西洋棋和日本將棋都有平局。其中,西洋棋的最優結果被認為是平局。

此外,圍棋的落子規則相對簡單、平移不變,而西洋棋和日本將棋的規則是不對稱的,不同的棋子有不同的下法,例如士兵通常只能向前移動一步,而皇后可以四面八方無限制的移動。而且這些棋子的移動規則,還跟位置密切相關。

儘管存在這些差異,但AlphaZero與下圍棋的AlphaGo Zero使用了相同架構的卷積網絡。

AlphaGo Zero的超參數通過貝葉斯優化進行調整。而在AlphaZero中,這些超參數、算法設置和網絡架構都得到了繼承。

除了探索噪聲和學習率之外,AlphaZero沒有為不同的遊戲做特別的調整。

5000個TPU練出最強全能棋手

系統需要多長時間去訓練,取決於每個遊戲有多難:西洋棋大約9小時,將棋大約12小時,圍棋大約13天。

只是這個訓練速度很難復現,DeepMind在這個環節,投入了5000個一代TPU來生成自我對弈遊戲,16個二代TPU來訓練神經網絡。

訓練好的神經網絡,用來指引一個搜索算法,就是蒙特卡洛樹搜索 (MCTS) ,為每一步棋選出最有利的落子位置。

每下一步之前,AlphaZero不是搜索所有可能的排布,只是搜索其中一小部分。

比如,在西洋棋裡,它每秒搜索6萬種排布。對比一下,Stockfish每秒要搜索6千萬種排布,千倍之差。

△ 每下一步,需要做多少搜索?

AlphaZero下棋時搜索的位置更少,靠的是讓神經網絡的選擇更集中在最有希望的選擇上。DeepMind在論文中舉了個例子來展示。

上圖展示的是在AlphaZero執白、Stockfish執黑的一局西洋棋裡,經過100次、1000次……直到100萬次模擬之後,AlphaZero蒙特卡洛樹的內部狀態。每個樹狀圖解都展示了10個最常訪問的狀態。

經過全面訓練的系統,就和各個領域裡的最強AI比一比:西洋棋的Stockfish,將棋的Elmo,以及圍棋的前輩AlphaGo Zero。

每位參賽選手都是用它最初設計中針對的硬體來跑的:

Stockfish和Elmo都是用44個CPU核;AlphaZero和AlphaGo Zero用的都是一臺搭載4枚初代TPU和44個CPU核的機器。

(一枚初代TPU的推理速度,大約相當於一個英偉達Titan V GPU。)

另外,每場比賽的時長控制在3小時以內,每一步棋不得超過15秒。

比賽結果是,無論西洋棋、將棋還是圍棋,AlphaGo都擊敗了對手:

西洋棋,大比分擊敗2016 TCEC冠軍Stockfish,千場只輸155場。

將棋,大比分擊敗2017 CSA世界冠軍Elmo,勝率91.2%。

圍棋,擊敗自學成才的前輩AlphaGo Zero,勝率61%。

不按套路落子

因為AlphaZero自己學習了每種棋類,於是,它並不受人類現有套路的影響,產生了獨特的、非傳統的、但具有創造力和動態的棋路。

在西洋棋裡,它還發展出自己的直覺和策略,增加了一系列令人興奮的新想法,改變了幾個世紀以來對西洋棋戰略的思考。

西洋棋世界冠軍卡斯帕羅夫也在《科學》上撰文表示,AlphaZero具備動態、開放的風格,「就像我一樣」。他指出通常西洋棋程序會追求平局,但AlphaZero看起來更喜歡風險、更具侵略性。卡斯帕羅夫表示,AlphaZero的棋風可能更接近本源。

卡斯帕羅夫說,AlphaZero以一種深刻而有用的方式超越了人類。

西洋棋大師馬修·薩德勒(Matthew Sadler)和女性國際大師娜塔莎·裡根(Natasha Regan)即將於2019年1月出版新書《棋類變革者(Game Changer)》,在這本書中,他們分析了數以千計的AlphaZero棋譜,認為AlphaZero的棋路不像任何傳統的西洋棋引擎,馬修·薩德勒評價它為「就像以前翻看一些厲害棋手的秘密筆記本。」

棋手們覺得,AlphaZero玩這些遊戲的風格最迷人。

西洋棋特級大師馬修·薩德勒說:「它的棋子帶著目的和控制力包圍對手的王的方式」,最大限度地提高了自身棋子的活動性和移動性,同時最大限度地減少了對手棋子的活動和移動性。

與直覺相反,AlphaZero似乎對「材料」的重視程度較低,這一想法是現代遊戲的基礎,每一個棋子都具有價值,如果玩家在棋盤上的某個棋子價值高於另一個,那麼它就具有物質優勢。AlphaZero願意在遊戲早期犧牲棋子,以獲得長期收益。

「令人印象深刻的是,它設法將自己的風格強加於各種各樣的位置和空缺,」馬修說他也觀察到,AlphaZero以非常刻意的方式發揮作用,一開始就以「非常人性化的堅定目標」開始。

「傳統引擎非常強大,幾乎不會出現明顯錯誤,但在面對沒有具體和可計算解決方案的位置時,會發生偏差,」他說。 「正是在這樣的位置,AlphaZero才能體現出『感覺』,『洞察』或『直覺』。」

這種獨特的能力,在其他傳統的西洋棋程序中看不到,並且已經給最近舉辦的世界西洋棋錦標賽提供了新的見解和評論。

「看看AlphaZero的分析與頂級西洋棋引擎甚至頂級大師級棋手的分析有何不同,這真是令人著迷,」女棋手娜塔莎·裡根說。 「AlphaZero可以成為整個西洋棋圈強大的教學工具。」

AlphaZero的教育意義,早在2016年AlphaGo對戰李世石時就已經看到。

在比賽期間,AlphaGo發揮出了許多極具創造性的勝利步法,包括在第二場比賽中的37步,這推翻了之前數百年的思考。這種下法以及其他許多下法,已經被包括李世石本人在內的所有級別的棋手研究過。

他對第37步這樣評價:「我曾認為AlphaGo是基於概率計算的,它只是一臺機器。但當我看到這一舉動時,我改變了想法。當然AlphaGo是有創造性的。「

不僅僅是棋手

DeepMind在博客中說AlphaZero不僅僅是西洋棋、將棋或圍棋。它是為了創建能夠解決各種現實問題的智能系統,它需要靈活適應新的狀況。

這正是AI研究中的一項重大挑戰:系統能夠以非常高的標準掌握特定技能,但在略微修改任務後往往會失敗。

AlphaZero現在能夠掌握三種不同的複雜遊戲,並可能掌握任何完美信息遊戲,解決了以上問題中重要的一步。

他們認為,AlphaZero的創造性見解,加上DeepMind在AlphaFold等其他項目中看到的令人鼓舞的結果,帶來了創建通用學習系統的信心,有助於找到一些新的解決方案,去解決最重要和最複雜的科學問題。

DeepMind的Alpha家族從最初的圍棋算法AlphaGo,幾經進化,形成了一個家族。

剛提到的AlphaFold,最近可以說關注度爆表。

它能根據基因序列來預測蛋白質的3D結構,還在有「蛋白質結構預測奧運會」之稱的CASP比賽中奪冠,力壓其他97個參賽者。這是「證明人工智慧研究驅動、加速科學進展重要裡程碑」,DeepMInd CEO哈薩比斯形容為「燈塔」。

從2016年AlphaGo論文發表在《自然》上,到今天AlphaZero登上《科學》,Alpha家族除了最新出爐的AlphaFold之外,AlphaGo、AlphaGo Zero和AlphaZero已經全部在頂級期刊Nature和Science上亮相。

期待轟動科研界的AlphaFold論文早日露面。

AlphaZero論文

這篇刊載在《科學》上的論文,題為:

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

作者包括:David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan、Demis Hassabis。

《科學》刊載的論文在此:
http://science.sciencemag.org/content/362/6419/1140

棋局可以在此下載:
https://deepmind.com/research/alphago/alphazero-resources/

DeepMind還特別寫了一個博客,傳送門:
https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

還沒有關注歐洲科技圈?

請掃下方二維碼加入歐洲科技人自己的人脈圈

歐洲科技圈, 是在歐洲成立的架在歐洲人才與中國之間的一座橋梁,是歐洲科技專門人才的人脈網絡。致力於通過「6+6」模式,打造「人才+」的生態系統:即通過集聚海內外高層次人才、高科技項目、科研院所、高校、資本、信息六大資源,為地區與全球合作,提供人才引進、培養、高科技項目落地、創業孵化、技術合作、資本對接六大服務。中心不局限於國籍、區域、膚色、學歷,實現「線上+線下」全天候為全球創新創業人才提供政策諮詢、創業融資、資源整合、行業分析服務。

相關焦點

  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • AlphaZero登上Science封面:從小白開始制霸多個遊戲
    近日,AlphaGo 的「完全自我博弈加強版」AlphaZero 的論文又登上另一大頂級期刊 Science 的封面。在論文中,AlphaZero 不僅徵服了圍棋,也在將棋、西洋棋等複雜遊戲中實現了超越人類的表現。此前不久,DeepMind 還推出了 AlphaFold,成功地根據基因序列預測出蛋白質的 3D 形狀,將人工智慧技術應用在了科學研究領域。
  • 21世紀以來,登上Nature雜誌封面的13篇中國論文
    今天,一起來回顧一下2000年以後,那些登上Nature封面的激動人心的中國研究成果吧。清華全球首款異構融合類腦晶片「天機芯」2019年8月1日刊的《Nature》,封面是清華大學開發出的全球首款異構融合類腦晶片「天機芯」(Tianjic)。
  • AlphaZero:棋類遊戲的「終結者」
    谷歌旗下AI開發部門DeepMind的作品登上了最新一期的《Science》雜誌的封面。
  • AlphaGo繼任者:一個算法通吃三大棋類
    將棋遊戲的程序也是針對於它自身專用的,並且使用了與西洋棋程序類似的搜尋引擎和算法。而AlphaZero則採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些人工制定的規則,除了遊戲的基本規則之外,AlphaZero對其它一無所知。為了學習一種遊戲,未經訓練的神經網絡通過強化學習)的反覆試錯過程來進行數百萬局的自我博弈。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    AlphaZero是一個令人大開眼界且超乎尋常的強化學習算法,它以絕對的優勢戰勝了多名圍棋以及西洋棋冠軍。本文將會帶你使用AlphaZero來解決一個益智小遊戲(Dots and Boxes)並將其部署成一個純JavaScript構建的Web應用。
  • 2018年度SCI期刊影響因子最新發布,Nature、Science、Cell三大神刊...
    2018年度SCI期刊影響因子最新發布,Nature、Science、Cell三大神刊排名前列。新智元摘取其中有關人工智慧、機器學習、計算機視覺、機器人學等領域的期刊並做簡要介紹,希望對讀者選擇投稿期刊、閱讀前沿技術論文有所裨益。 今天,2018年度SCI期刊影響因子正式出爐!
  • AlphaZero:一種人類從未見過的智慧
    電腦程式能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝,舉世譁然,人工智慧概念開始被大眾熟知。2016年末2017年初,該程序在中國棋類網站上以「大師」(Master)為註冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績。
  • AlphaGo Zero又上《Science》封面!谷歌的人工智慧又幹翻人類了!
    盧sir在回顧2018年的時候,發現居然遺漏了一個「知識點」——在2018年的最後一個月, AlphaGo Zero登上了世界頂級學術期刊《科學》雜誌的封面。2016年,AlphaGo Fan以5比0的戰績戰勝了歐洲圍棋冠軍樊麾後,登上了國際學術期刊《自然》的封面,成功引起了人類的注意。
  • 網紅衛星「墨子號」有什麼過人之處,竟登上《科學》封面,讓全球科學家「躁動」? | 外媒說
    (2016年8月16日1時40分,世界首顆量子科學實驗衛星在酒泉衛星發射中心發射升空。)這顆衛星從研製,到發射,直到今天,一直受到人們的持續關注。最近它又登上了著名的期刊《科學》(《Science》)雜誌的封面。6月15日,《科學》雜誌封面上,「墨子號」從星空向地面發出兩道光,好像兩條長腿跨出一大步,象徵著量子通信向實用邁進一大步。
  • 【重磅】AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時完爆人類棋類遊戲
    12月5日,距離發布AlphaGo Zero論文後不到兩個月,他們在arXiv上傳最新論文《用通用強化學習算法自我對弈,掌握西洋棋和將棋》(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm),用看似平淡的標題,平淡地拋出一個炸彈。
  • AlphaZero學棋記
    想像一下,你告訴一個計算機系統如何走棋,並告訴它要學會的下棋規則。一天之後——是的,僅僅24小時——它的水平已經達到了能夠擊敗世界上當下最強大的程序!深度思維公司與AlphaZero大約3年前,谷歌旗下的一家專門從事人工智慧開發的公司——深度思維(DeepMind)將注意力轉向了圍棋這一歷史悠久的遊戲。
  • 將量子計算機當作神經網絡,首次模擬化學反應,谷歌新研究登上...
    他們對兩個中等規模的化學問題進行了變分量子本徵求解器(VQE)模擬,分別求解了氫鏈的結合能(包括H6、H8、H10、H12)和二氮烯的異構化機制,相關研究論文《Hartree-Fock on a superconducting qubit quantum computer》刊登在Science封面上。
  • 下圍棋so easy,AlphaZero開始玩量子計算!
    這類似於職業棋手在下棋時能夠提前想幾步棋。訓練結果是相當驚人的,AlphaZero 很快就摧毀了專業遊戲軟體和人類玩家。例如,經過僅僅四個小時的自我對弈練習,AlphaZero 就在西洋棋中擊敗了領先的棋類軟體 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道遊戲規則。
  • 下圍棋so easy ,AlphaZero開始玩量子計算!
    這類似於職業棋手在下棋時能夠提前想幾步棋。訓練結果是相當驚人的,AlphaZero 很快就摧毀了專業遊戲軟體和人類玩家。例如,經過僅僅四個小時的自我對弈練習,AlphaZero 就在西洋棋中擊敗了領先的棋類軟體 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道遊戲規則。丹麥西洋棋大師Peter Heine Nielsen將其比作一個訪問過地球的高級外星物種。
  • James Charles登上VOGUE封面,男網紅首次登封
    今日,葡萄牙版 VOGUE 雜誌官宣新一期的封面人物為美妝博主James Charles。這是James Charles 首次登上 VOGUE 的封面,他也成為了Youtube美妝博主行業裡第一位解鎖 VOGUE 封面的人,獲得了行業最大的肯定。
  • 登上Nature 封面!「恐龍獵人」發現史上最小恐龍,刷新人類對鳥類...
    當地時間 2020 年 3 月 11 日,《自然》雜誌(Nature)發表了一篇名為 Hummingbird-sized dinosaur from the Cretaceous period of Myanmar(緬甸白堊紀蜂鳥大小的恐龍)的研究論文。3 月 12 日,這篇論文登上了當期《自然》雜誌封面。
  • 為了上期刊封面,科學家們也是拼了!
    用大家耳熟能詳的故事,將論文的主要內容與意義表述出來,讓不同領域的學者甚至普通公眾都能明白,這是石楓選擇「女媧補天」這個封面圖的原因。 實際上,這不是石楓在期刊封面上的首次出鏡了。
  • 「九章」團隊論文「一作」均為90後 最小者1997年出生
    「九章」量子計算原型機(圖源中國之聲)封面新聞記者 陳彥霏新華社報導,12月4日,中國科學技術大學宣布該校潘建偉等人成功構建76個光子的量子計算原型機「九章」,求解數學算法高斯玻色取樣只需12月4日,國際學術期刊《科學》發表了該成果,審稿人評價這是「一個最先進的實驗」「一個重大成就」。封面新聞記者了解到,研發「九章」的團隊中還有一群90後,其中論文4名第一作者分別出生於1995年、1991年、1997年和1990年。
  • 第八屆棋(智力)文化峰會閉幕 林峰獲論文二等獎
    本次峰會評選出了一等獎論文一篇、二等獎論文一篇、三等獎論文兩篇,以及優秀入圍獎10篇。共有五篇西洋棋論文獲獎,其中原中國西洋棋協會副主席林峰獲得論文二等獎!今年是國際棋(智力)文化峰會的第八個年頭。作為目前國內規模最大、研究領域最廣、研究深度最深、影響面最大的棋文化研究專業學術論壇,峰會是國內外棋界的高層管理者、著名棋手、棋文化研究專家、棋類機構負責人和社會各界的有識之士的一次年度大聚會。今年的峰會匯集了來自全球各地的共近百篇論文。