從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?

2020-12-05 零鏡網

2017年10月19日,DeepMind在《Nature》雜誌發布了其最新研究成果阿爾法元(AlphaGo Zero),題目很嚇人,叫《無須人類知識掌握圍棋》,並正式推出人工智慧圍棋程序的一個最新版——阿爾法元(AlphaGo Zero),讓業界為之一震。

新版的AlphaGo計算能力空前強大,完全從零開始,不需要任何歷史棋譜的指引,3天超越AlphaGo李世石版本,21天達到Master水平。百戰百勝,棋藝增長遠超阿法狗, 擊潰阿爾法狗100-0。這是迄今最強大的圍棋程序:不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,直接採用自對弈進行訓練。

新一代的達到這樣一個水準,只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。 為什麼阿爾法元能夠完全自己學習?它依靠的到底是什麼?

為什麼阿爾法元能夠完全自己學習?

AlphaGo的前幾代版本,一開始用上千盤人類業餘和專業棋手的棋譜進行訓練,學習如何下圍棋。AlphaGo Zero則跳過了這個步驟,自我對弈學習下棋,完全從亂下開始。

AlphaGo Zero之所以能當自己的老師,是用了一種叫強化學習的新模式。AlphaGo Zero 採用了一個帶參數的深度神經網絡,對棋盤上的每個位置,都會與那個帶參數的神經網絡相結合,使用蒙特卡洛搜索樹來搜索出每一步落子可能性的價值,並且經由一個判斷環節來選擇其中最可能贏的落子方式。輸入的信息是位置信息和歷史下法,輸出的信息是可以落子的可能位置和每個可能位置的價值。

系統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。AlphaGo Zero 完全不使用人類的經驗棋局和定式,只是從基本規則開始摸索,完全自發學習。

升級後的神經網絡與搜索網絡結合成一個更強的新版本AlphaGo Zero,如此往復循環。每過一輪,系統的表現就提高了一點點,自我對弈的質量也提高了一點點。神經網絡越來越準確,AlphaGo Zero的版本也越來越強。使用了更先進的算法和原理,讓AlphaGo Zero的程序性能本身更加優秀,而不是等待硬體算力技術的提升。

雖然這種技術比此前所有版本的AlphaGo都更為強大,但是訓練完成的AlphaGo Zero只能給人們發現它自學成才的許多圍棋打法與人類上千年來總結的知識是不謀而合的,比如打劫、徵子、棋形、布局在對角等,都有人類圍棋的影子。

在人類下象棋的歷史中,曾經發明過許多「定式」。這可以看成是局部的最優解,雙方只要都按照這種定式來下棋,就會取得相同的優勢。在十個小時左右的時候,AlphaGo Zero 發現了簡單的定式;在十六個小時左右,發現了「小雪崩定式」。之後隨著棋局的增多,AlphaGo Zero 的棋力越來越強,直到超過了人類目前能夠掌握的棋力,超越了之前的世界最強AlphaGo。

所以人類棋手也不用傷心,這恰恰證明人類在過去的幾千年裡摸索出了圍棋這一遊戲的「自然規律」,而人工智慧與人類棋手的對比就像是汽車和跑步。每下一步僅需要思考是0.4秒的AlphaGo Zero所產生的美感與人類在緊張對弈時的美感是完全不同的,就像沒有人會把F1方程式當賽跑比賽看一樣。

它依靠的到底是什麼?

報導中常說的「自學成才」其實表達的不算很準確,下棋有多少種走法,機器可以判斷,人卻沒有那麼大的計算量。圍棋的下法總計3的361次方,這個數字極其龐大,比整個宇宙原子總和還要多,因此利用暴力窮舉法來驗證所有走法的可行性顯然不切實際。

David Silver說,很多人相信在人工智慧的應用中算力和數據是更重要的,但在AlphaGo Zero中他們認識到了算法的重要性遠高於算力和數據——在AlphaGo Zero中,團隊投入的算力比打造上一個版本的AlphaGo少使用了一個數量級的算力。

AlphaGo廣為人知的三個部分分別是策略網絡、價值網絡和蒙特卡洛樹搜索。

第一個部分:策略網絡

它所代表的是人類的經驗、歷史的經驗。從公開的論文來看,AlphaGo的策略網絡準確度基本在57%。這個比喻未必特別精確,但類比考試成績,如果期末考試才考了57分,這個成績在人類世界就有點拿不出手了,這能說明什麼?

這個說明了策略網絡和人類可以學到的相比並不是特別厲害,所以Zero在Master之後必然從頭開始尋找更優策略。

第二個部分:價值網絡

根據實踐,價值網絡特別不好訓練,很難獲得一個質量特別好的結果;也就是說價值網絡評估當前棋局形勢的能力其實也不如人類。

第三個部分:蒙特卡洛樹搜索

人類每下一步棋,能考慮到幾十步已經是頂尖的高手,但AlphaGo使用蒙特卡洛樹搜索卻可以搜索幾十萬、幾千萬、幾億步。那不就是高手中的高高手了嘛!

所以綜上所述,在策略網絡和價值網絡都不如人類的情況下,AlphaGo為什麼還能這麼厲害?最根本的原因還是在於它使用的蒙特卡羅樹搜索這塊能力比人強。

這個再次證明了人腦的強大!因AlphaGo Zero是程式設計師開發出來的!程式設計師用算法大腦打敗了人類職業棋手幾千年積累的經驗大腦!這足以說明,在任何需要計算的領域,一定有比經驗更可靠、更精確、價值最大的最優選擇!

下面舉個淺例來簡單說明,首先我們觀察棋盤,容易發現它是一個中心的對稱的,也就是假設黑子第一手下在右上角星位,白子第一手下在左下角星位,實質上和第一手下在左下角星位,白子第一手下在右上角星位是一樣的,只要棋盤順時針轉180度,盤面就完全一樣,而在圍棋的下法裡,這算兩種下法,這樣我們就能省去接近75%的重複圖形。

然而僅僅減去這麼多顯然還不夠,我們發現有些棋顯然無意義或不能放,比如按照棋規,棋不能放在對方的眼位裡,又或者送給別人徵子的自殺棋(棄子不算),這些算起來可以排除將近99.9%的無用的計算,但這仍然不夠,所以下面就要形成一些定式,即雖然你不知道所有走法的對錯,但你知道某些走法一定對,那你開局就往這方面去走,一旦對手走錯就速敗,走對了也只是均勢而已。

最後,大家知道隨著棋盤子擺的越來越多,複雜度就急劇下降,所以勝負往往在中盤就已決定了,後期AI轉用窮舉法足夠應對,翻盤幾乎不可能。

零鏡觀點:

阿爾法狗之所以將圍棋作為人工智慧的試金石,因為圍棋巨大的搜索空間和對棋盤位置和走子精確評估的困難,在很長時間裡圍棋被視作人工智慧最具有挑戰性的傳統遊戲。而阿爾法元的成功證明了記憶是最原始的存儲方式,不是思考方式,它的價值含量並不高;從方法上下功夫比死記硬背強得多,可以說阿爾法元已經從樣本的進化過渡到方法的進化。所以,Zero的誕生,其進步意義就是,人機大戰再無意義!圍棋將回歸其本來面目,那是什麼?

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。 less is more。 2017年起,在某些領域,AI不再需要人類知識。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    10月19日凌晨,在國際學術期刊Nature上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋
  • AlphaGo 圍棋教學工具已發布
    通過對 AlphaGo 和職業與業餘棋手的下法進行比較,探索圍棋的奧妙。小編:看介紹……似乎只教布局…………鬆一口氣……Alpha Go本次投入海量資源給予37w多個選點每個1000w次以上的計算,應該說這是對圍棋布局變化探索的一次大型加速與回饋
  • zero 絕藝解說alphago - CSDN
    DeepMind的這一成果具有指向標意義,證明這個方向的可行性。在科研工程領域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風險就會巨幅下降。我相信從昨天開始,所有做圍棋對弈的研究人員都在開始學習或複製AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。  AlphaGo Zero的工程和算法確實非常厲害。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    這款新程序名叫AlphaGo Zero,以100比0的戰績打敗了它的前任AlphaGo V18(在2016年3月的錦標賽中,其前任打敗了圍棋冠軍Lee Sedol)。 人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。
  • 從零開始下圍棋 AlphaGo Zero更加強大
    直白一點地說,之前打敗圍棋大師李世石的AlphaGo可能需要人類給它提供各種高手棋譜來進行訓練,而Zero就是一個完全的小白,人類也不用教它什麼,只需要告訴它規則,它就能完全通過自學的方法來掌握圍棋。 和前代版本相比,Zero在效率上有著明顯的提升,現在僅需要4塊TPU(由谷歌構建的專門的AI處理器)和72個小時的訓練,就能勝過之前幾個月訓練時間的AlphaGo。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 新版「阿爾法圍棋」從零開始40天稱王
    圖/視覺中國不依靠人類圍棋知識;「從零開始」自學圍棋,僅3天就擊敗前輩版本據新華社電 人工智慧「阿爾法圍棋」在幾次世界矚目的人機大戰後站在圍棋之巔,又以一種新的方式超越了自己:新版本「從零開始」學習圍棋,僅用3天就擊敗前輩版本,40天成為新的王者。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    谷歌人工智慧團隊DeepMind團隊在國際學術期刊《自然》(Nature)上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
  • AlphaGo人肉臂黃士傑:Zero版阿法狗未達極限
    回顧加入 DeepMind 這五年及 AlphaGo 的發展歷史,有四件事對我意義非常大,第一件是在韓國贏了李世石,那天 Demis Hassabis(DeepMind 的 CEO)在推特上寫著:「贏了,AlphaGo 登上月球」。我們最初沒想過會做出這麼強的 AlphaGo,當初是抱持著「探索」的心理開始的。開發過程很辛苦,連過聖誕節時,AlphaGo 都還在自我對弈,同事也都還在工作。
  • 新阿爾法狗震動圍棋界:棋手的傷感人類的幸運,勝負並非全部
    江鑄久九段說,「看到AlphaGoZero的這個新聞後,我的第一感想是,圍棋的本原是訓練提高人類的腦力,使人變得更加聰慧,繼而去發現,創造無限。我們該怎樣傳授圍棋知識給孩子們?讓孩子們藉助圍棋,發現自己,做最好的自己。向Deepmind團隊致敬!」他相信,未來,很多小朋友的圍棋老師可能就是AI(人工智慧)。
  • 被科學家們譽為「世界壯舉」的AlphaGo Zero, 對普通人來說意味著什麼?
    AlphaGo Zero 從最開始的「臭棋簍子」到業餘棋手,再成長為一個能夠考量每一步棋戰略意義的圍棋大師的過程,而這樣的飛躍僅花費了幾天的時間。就是這樣一款程序,被很多圈內人譽為人工智慧領域的「重大進步」,因為輸入遊戲規則之後,它可以在沒有人幫助的情況下,從零開始掌握這門古老的棋盤遊戲。 舊版 AlphaGo 的訓練需要成千上萬份人類對弈的棋局數據,但 AlphaGo Zero 可以在沒有這些幫助下完成學習。
  • 圍棋統計學1:AlphaGo Zero進化史
    本期希望通過探討AlphaGo-Zero進步過程中,不同時期的20盤棋,來進一步探討這些數據的用途。一、勝率趨勢分析這是20局棋勝率趨勢圖的合集,1-20局的順序按照從左到右、從上到下的順序排列。所有的勝率趨勢圖,均來自於弈客鷹眼自動生成。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?
  • 最強「新狗」AlphaGo Zero發布 柯潔:對於它的自我進步來講,人類太...
    這條消息點燃了中國圍棋界,連柯潔也發微博感嘆:對於AlphaGo的自我進步來講,人類太多餘了…… 谷歌今天發布的這款名為AlphaGo Zero有多厲害?據「快科技」網站文章的介紹,它的系統可以通過自我對弈進行學習,它利用了一種名為強化學習的技術。在不斷訓練的過程中,這套系統開始靠自己的能力學會圍棋中的一些高級概念。
  • 棋跡:少年AlphaGo Zero的圍棋成長之路
    令我們驚喜的是,人類終於開始擺脫對已有知識的依賴,給AI一次從新生兒逐步自我成長的機會,正如DeepMind發布的AlphaGo論文中提到的一樣:starting tabula rasa,從一張白紙開始成長。此次創造出來的,是一個從零開始訓練的神經網絡,以及簡單用MCTS算法行棋的AlphaGo Zero。
  • 被科學家譽為「世界壯舉」的AlphaGo Zero, 對普通人意味著什麼?
    AlphaGo Zero 從最開始的「臭棋簍子」到業餘棋手,再成長為一個能夠考量每一步棋戰略意義的圍棋大師的過程,而這樣的飛躍僅花費了幾天的時間。就是這樣一款程序,被很多圈內人譽為人工智慧領域的「重大進步」,因為輸入遊戲規則之後,它可以在沒有人幫助的情況下,從零開始掌握這門古老的棋盤遊戲。舊版 AlphaGo 的訓練需要成千上萬份人類對弈的棋局數據,但 AlphaGo Zero 可以在沒有這些幫助下完成學習。
  • AlphaGo之父詳解「圍棋上帝」是怎樣煉成的
    原文標題:AlphaGo是怎樣煉成的?歷史悠久的圍棋已經流傳了近3000年,但人類一直低估了一點:以第五條線為代表的棋局中部區域。這是AlphaGo之父、DeepMind創始人Demis Hassabis向外界分享AlphaGo背後故事時透露的重要信息。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」哈薩比斯與學習大量人類棋譜起步的前代AlphaGo不同,AlphaGo Zero是從「嬰兒般的白紙」開始,通過3天數百萬盤自我對弈,走完了人類千年的圍棋歷史,並探索出了不少橫空出世的招法。