棋壇至尊AlphaGo Zero,不止震驚了圍棋界

2021-01-19 弈客圍棋訂閱號

【弈客圍棋APP 記錄你的圍棋人生】

 

倫敦當地時間2017年10月18日18:00(北京時間19日01:00),AlphaGo再次登上世界頂級科學雜誌——《自然》。

 

Deepmind在《自然》發表的一篇論文Mastering the game of Go without human knowledge中提到,一款新版的AlphaGo電腦程式能夠從空白狀態起,在不需要任何人類輸入的條件下,迅速自學圍棋。這款新程序名叫AlphaGo Zero,以100比0的戰績打敗了它的前任AlphaGo V18(在2016年3月的錦標賽中,其前任打敗了圍棋冠軍Lee Sedol)。

 

人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。

 

文中介紹了AlphaGo Zero,它的學習從零開始,且單純基於與自己的對弈。人類的輸入僅限於棋盤和棋子,沒有任何人類數據。AlphaGo Zero僅用到一張神經網絡,這張網絡經過訓練,成為專門預測程序自身的棋步和棋局的贏家,在每次自我對弈中進步。新程序只使用一臺機器和4個TPU。

 

通過幾天的訓練——包括近500萬局自我對弈——AlphaGo Zero便能夠超越人類並打敗所有之前的AlphaGo版本。隨著程序訓練的進行,它獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解

 


2017年5月,以3:0的比分贏下中國棋手柯潔後,AlphaGo宣布退役,但DeepMind公司並沒有停下研究的腳步。當地時間10月18日,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍,是「自學成才」。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。

 

AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績,對Master接近90%的勝率。「AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據,」AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯說,「最終,我們想要利用它的算法突破,去幫助解決各種緊迫的現實世界問題,如蛋白質摺疊或設計新材料。如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。」

 

3小時,零在亂下。

10小時,發現簡單定式。

16小時,發現小雪崩定式。

19小時,發現死活、厚勢與實地的邏輯。

24小時,發現小目一間高掛定式。

36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。

55小時,發現非人類定式。

72小時,出關。

 

AlphaGo跳過輸入棋譜,完全讓電腦在棋盤上隨機落子開始自我學習。沒學過人類棋譜、沒學過人類棋譜、沒學過人類棋譜,然後再來看效率。

 

三天,達到了李世石版本的水平……

 

21天,超越Master!!!!就是戰勝60比0擊敗人類一流棋手團的版本。

 

40天,成就AlphaGo Zero,有史以來最強的圍棋「選手」,對之前發表過版本的勝率達到了接近90%。這裡用到的技術叫做加強學習:Reinforcement Learning。

 


加強學習(RL)是由行為主義心理學啟發的機器學習領域,涉及軟體代理如何在環境中採取行動,以最大限度地提高累積獎勵的概念。由於其普遍性,在遊戲理論、控制理論、運營研究、信息理論、基於仿真的優化、多代理系統、群體智能、統計學和遺傳算法等諸多方面進行了研究。

 

系統從一個不知道圍棋的神經網絡開始。然後,通過將這個神經網絡與強大的搜索算法相結合,進行自我對弈。當在這個過程中,神經網絡被調整和更新,以預測動作,就像圍棋冠軍那樣越來越強。

 

然後將這個更新的神經網絡與搜索算法重組,以創建一個新的,更強的版本的AlphaGo Zero,並且該過程再次開始。在每次迭代中,系統的性能提高了一小部分,自我遊戲的質量也提高了,導致了越來越精確的神經網絡和更強的AlphaGo Zero版本。這種技術比以前版本的AlphaGo更強大,因為它不再受到人類知識的限制。相反,作為一塊白板,它可以從世界上最強的玩家那裡學習:那就是AlphaGo自己。

 

AlphaGo Zero與其它版本顯著不同在於三點:

 

1、只給了它圍棋規則、黑白子和棋譜,之前的版本有少量的手工修訂。

2、它使用一個神經網絡而不是兩個。AlphaGo的早期版本使用「策略網絡」來選擇下一個落子和「價值網絡」,從每個位置預測遊戲的獲勝者。這些組合在AlphaGo Zero中,使其能夠更有效地進行培訓和評估。

3、AlphaGo Zero不用「Rollout」,其它圍棋軟體是用快速隨機的對弈從盤面來判斷(就是到處試下然後看哪個更好),而AlphaGo Zero是通過強大的神經網絡來精確判斷最強的下法。

 

不同版本AlphaGo的配置,左側是功耗,樊麾版本有4萬瓦,176個GPU,李世石版本一萬瓦。現在的4TPU版本Master和AlphaGo Zero目測一兩千瓦。

 

評估的Elo分,Master是4800多,lphaGo Zero大約是5200左右,可能是李世石版本四個子的差距。只是從ELO數值上看。

 

3小時的時候,和我們初學一樣,胡下。


19小時,學到了很多高級圍棋技巧,知道了死活,外勢、取地這些理念。


70小時,下出高手的水平,盤面多處混戰。


AlphaGo-Zero的訓練時間軸:


首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特徵輸入。


其次,AlphaGo Zero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了「策略網絡」來選擇下一步棋的走法,以及使用「價值網絡」來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。


第三,AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。相反,新版本依靠的是其高質量的神經網絡來評估下棋的局勢。

 


AlphaGo Zero出關後,在內部測試中,Deepmind團隊用更大的神經網絡,更長的時間(40天),更多的自我對弈(2900萬局),訓練了一個加強版的AlphaGo Zero,與Master對戰100番棋,89比11勝出。

 

AlphaGo各個版本的Elo積分如下:

 

AlphaGo Zero:5182分,擊敗當下第一人柯潔

Master:4858分,60比0擊敗人類一流棋手團

AlphaGo V18:3739分,擊敗世界冠軍級棋手李世石

AlphaGo V13: 3144,擊敗歐洲冠軍樊麾

 

附帶解開了一個謎。烏鎮大戰時,Deepmind團隊表示當時的阿爾法圍棋能讓一年前擊敗李世石的那個版本三個子。棋界雖早已服膺阿爾法的棋力,但仍然認為讓三個子是天文數字,不可能。現在,從積分上看,AlphaGo Zero讓AlphaGo V18三個子當無問題。

 

這當然不是說柯潔能讓李世石三個子,而是說烏鎮大戰雖然表面激烈但柯潔沒有一點機會,一切盡在AlphaGo Zero的計算中,真正是深不可測。



Deepmind公司詳解了AlphaGo Zero的更多不同之處,在識別棋盤盤面時,它直接識別黑白棋子,而非要將圖像分類;它僅使用一張人工神經網絡,此前的兩張被合二為一。

 

但更大的革新之處在於,AlphaGo Zero採用了新的算法——強化學習算法。在每一次訓練後,AlphaGo Zero都能根據訓練結果,進一步優化其算法。

 

之所以以李世石的版本作為對比而沒有使用與柯潔對戰的版本進行對比,是因為受到環境所限今年5月在烏鎮與柯潔對戰的AlphaGo其實是一個特殊的離線Alpha Master版本,僅由一個TPU在不連接網絡的情況下完成對戰。

 

無論是擊敗李世乭的版本還是擊敗柯潔的版本,過去的AlphaGo在「學習如何下棋」這個階段,使用的都是大量的人類經典棋譜。它們被告知人類的高手在不同的情況下應該如何應對。而這一次的AlphaGo Zero在學習過程中完全沒有使用任何人類的棋譜,它對玩法的探索完全是從自我對弈中學習的。

 

開始AlphaGo Zero會從非常隨機且無釐頭的下法開始進化,而它的陪練(另一個AlphaGo Zero)的水平也很低。然後AlphaGo Zero會從每一場勝負中,取得經驗,使得自己的棋藝水平不斷提高。

 

David Silver說,很多人相信在人工智慧的應用中計算力和數據是更重要的,但在AlphaGo Zero中他們認識到了算法的重要性遠高於計算力和數據——在AlphaGo Zero中,團隊投入的計算力比打造上一個版本的AlphaGo少使用了一個數量級的計算力。

 

使用了更先進的算法和原理,讓AlphaGo Zero的程序性能本身更加優秀,而不是等待硬體計算力技術的提升。



這個阿爾法從零開始,所以,它的名字叫作零(Zero)。

 

谷歌用這個名字告訴人類,零需要的人類知識是零。它完全沒有向人學棋,通過自我對弈學習。學到第36個小時的時候,已經超過李世石版;學過三天,自我對弈490萬局,學成出關。

 

雖然在我們看來Alphago已經非常了不起,甚至有人說奇點就要臨近,但哈薩比斯認為距離人腦水平的通用智能仍有幾十年的差距,DeepMind仍處於發展的最初階段。

 

 

對於未來世界,我們有種種幻想,但我們最希望技術的進步可以更好的服務與人類,而不是成為毀滅我們的來源。正如DeepMind的願景,用它來創造更美好的世界(USE IT TO MAKE THE WORLD A BETTER PLACE)。

 

零,是能成為開始,也能成為結束的光輝。


圍棋人工智慧進入全新的快車道,我們感謝谷歌對圍棋的卓越貢獻。



相關焦點

  • 【話題】AlphaGo Zero!圍棋之神真來了……
    年底,Alpha Go升級版化身Master在網上對人類高手60連勝,震驚棋界。2017年5月第二次「人機大戰」,Alpha Go2.0版3比0勝柯潔九段,此後宣布不再與人對弈。柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    ZM-GO  | 周末圍棋 弈路伴你 點名關注
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • AlphaGo推出圍棋教學工具 棋館要被踢館了?
    在血洗了整個棋壇之後,AlphaGo並沒有「深藏功與名」,而是推出了一套AlphaGo教學工具,作用就是教人下圍棋。Deepmind公司在昨天夜間上線了AlphaGo教學工具,分享AlphaGo的數據,旨在幫助公眾用新的、啟發性的方式下圍棋。
  • AlphaGo強勢回歸!「血洗」圍棋界,獲60連勝,完勝柯潔、聶衛平等一...
    這幾日,自稱「 Master」的九段圍棋高手攪得整個圍棋界「血雨腥風」,不僅引來諸多圍觀者觀戰,更是讓很多職業高手如 柯潔 、 樸延桓 排隊苦等與其對戰。緣由2016年12月29號晚間,弈城圍棋對戰平臺上一名叫「Master」,註冊地顯示韓國的馬甲在超快棋比賽中連勝多位冠軍。
  • 中國圍棋界「千年一遇的美少女」——黑嘉嘉,中澳混血圍棋女神
    她是圍棋界的傳奇,也是圍棋界的驚喜。黑嘉嘉中澳混血,天生麗質,集智慧與美貌於一身的她已然是圍棋世界的新生代偶像,是圍棋界第一混血美女。她不但棋藝出色,琴棋書畫樣樣精通,她的書法還是是臺灣棋院「鎮院之寶」!聰慧美麗的她,在棋盤內外都擁有一片廣闊的天地。
  • 趣味思考:圍棋界女棋手誰最厲害?
    圍棋界女棋手誰最厲害? 這個問題,要分階段來說,1993年到2003年當然是芮乃偉,2004到2011年,連奪五項世界冠軍的樸智恩是當然的女子棋界第一人。接下來,李赫,王晨星,於之瑩,崔精,吳侑珍,金彩瑛都有機會接過權柄。
  • 新圍棋啟蒙者AlphaGo,和它打開的新世界大門……
    作者:「就像一群高手在華山論劍,突然來了個端機關槍的……」這句有些戲謔的話,是一位網友對「Master」(真身為谷歌 AlphaGo)碾壓整個圍棋界的新聞的評論。雖然是一句玩笑,但這條點評中透出的無奈和絕望,卻一針見血地道出了還沒從震驚中回過神來的圍棋界內外的內心獨白。
  • 唯一贏過AlphaGo一局的棋手退役 棋壇再無李世石
    唯一贏過AlphaGo一局的棋手退役 棋壇再無李世石 2019-11-20 09:37:35當日,2018中國圍棋甲級聯賽第七輪在浙江蓮都開賽,目前世界圍棋「五冠王」柯潔和韓國圍棋高手李世石參賽,這兩位均與人工智慧圍棋AlphaGo比賽過的頂尖棋手再次上演巔峰對決。中新社記者 周禹龍 攝  中新網11月20日電 北京時間19日晚,韓國棋院宣布,36歲的李世石九段,正式辭去職業棋手職務,自此退役退出職業棋壇。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 韓媒:AlphaGo或改變圍棋範式 開拓古老遊戲新境界
    韓媒稱,世界最頂尖圍棋高手李世石九段被谷歌人工智慧程序「阿爾法圍棋(AlphaGo)」以出乎意料的招數連勝兩局。起初看似失誤和臭棋的這些怪招最終被證明是通往勝利的橋梁,或是吃了小虧卻沒有影響大局勝負。打破思維定式之棋竟成「神來之筆」,職業棋手們在震驚之餘預測,AlphaGo可能從此改變圍棋的範式。
  • 你以為人類只有圍棋下不過阿爾法狗嗎?DOTA也玩不過它!
    前段時間,阿爾法狗戰勝圍棋天才李世石的消息在網上迅速走紅,當即很多網友稱,在以後,人類再也不能在圍棋界稱霸了,但是幸運的是,阿爾法狗研發公司稱,以後阿爾法狗不會在和人類進行圍棋比賽。可是,你真的以為只有圍棋你們下不過人工智慧機器人嗎?現在就連DOTA你也玩不過它!
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    本文介紹了騰訊微信翻譯團隊開源的人工智慧圍棋項目 PhoenixGo,該項目是對 DeepMindAlphaGo Zero論文《Mastering the game of Go without human knowledge》的實現。
  • 現實版《女王的棋局》:圍棋界「女神」黑嘉嘉
    來源:環球旅行 (ID:viphuanqiu)最近這段時間電視劇《棋魂》火了,讓圍棋這項運動進入了大家的視線中。說起圍棋大家腦海中都是一些「男棋手」的形象,但其實在圍棋界,有一個被封為「棋手圈裡顏值最高,娛樂圈裡下圍棋最棒」的女棋手。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?
  • 60盤連勝 狂掃棋壇高手 神秘Master就是AlphaGo!
    王昊洋六段、嚴在明三段,就連韓國圍棋第一人樸廷桓九段都未躲過一敗,而且還是必敗局面下的超時負。接著,連笑七段上陣應戰,結果兩戰皆敗。這時候,「吻別」來了。很多人都說,「吻別」一直都被認為就是擁有4個世界冠軍頭銜的,當今中國圍棋第一人柯潔在弈城網的帳號。結果呢? 在兩局較量中,「吻別」輸得沒有還手之力。
  • 奪得百靈杯 柯潔成為圍棋界歷史上最年輕的「七冠王」
    應該說,在第一局的比賽中,申真諝是曾經佔據了一定的優勢的,但是運氣總歸還是屬於「更強的一方」,不管是輸給了年紀、決賽經驗或者是自己的心態,申真諝在本次決賽中是失敗者,柯潔用世界冠軍爭奪中的得獲勝、零封,證明著自己依舊是目前圍棋棋壇的「第一人」。
  • 棋壇最強天才柯潔上綜藝!微博曾引爭議互動4明星,還直播打遊戲
    北京時間4月13日,世界棋壇第一人也是中國圍棋界的頭號王牌柯潔,最近再次出現在了媒體的曝光當中。柯潔此前就已經多次開直播,而且還和網友們互動,並且交流了一些他在學校期間的感受,還直播打遊戲引發熱議。此外,柯潔還正面回應了自己大學選修課選擇圍棋的說法,他覺得這門課比較容易過。不僅如此,柯潔雖然自己是清華的在校學生,但他也同樣在疫情期間當上了一名網課老師,曾用網課軟體給他的同學們上過圍棋的網課。接下來現場又做出了一些互動,給出了一些關於圍棋規則的題目,要求4個嘉賓進行解答,柯潔則是評判答案。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 圍棋界可以名垂青史的棋手有哪些?
    1.聶衛平要說在圍棋留名,那聶衛平就是不二人選,他為中國圍棋的發展奔波勞累了一輩子,為中國圍棋的發展做出了巨大貢獻。擂臺賽上的11連勝帶動了中國圍棋的復興。2.馬曉春,中國圍棋80年代後期的領軍人物,也是中國首個職業圍棋世界冠軍,曾十三連霸名人戰,也曾二連霸天元,風光一時。