【話題】AlphaGo Zero!圍棋之神真來了……

2021-02-15 體壇周報

新的人工智慧誕生了,它便是阿爾法元AlphaGo Zero。在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……

圍棋之神真來了

文|體壇周報記者 謝銳

比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。在10月19日世界《自然》雜誌上線的重磅論文中,詳細介紹了谷歌DeepMind團隊最新的研究成果。

阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。

2016年3月,第一次「人機大戰」,Alpha Go1.0版4比1擊敗14個世界冠軍獲得者李世石九段;

年底,Alpha Go升級版化身Master在網上對人類高手60連勝,震驚棋界。2017年5月第二次「人機大戰」,Alpha Go2.0版3比0勝柯潔九段,此後宣布不再與人對弈。

但阿爾法狗團隊並未停止研究,現在研究出來的成果是Alpha Go Zero。與阿爾法狗不同,阿爾法元不再學習人類棋譜,而是在掌握基本規則後,通過左右互博,僅僅40天時間,即成為碾壓Master的人工智慧。

美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。按照時越九段的話說就是,來自未來的著法。

Alpha Go Zero之所以能當自己的老師,是用了一種叫強化學習的新模式。系統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。

在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。升級後的神經網絡與搜索網絡結合成一個更強的新版本Alpha Go Zero,如此往復循環。每過一輪,系統的表現就提高一點點,自我對弈的質量也提高一點點。神經網絡越來越準確,Alpha Go Zero的版本也越來越強。

這種技術比此前所有版本的Alpha Go都更為強大。這是因為,它不再受到人類知識的限制,而能夠從嬰兒般的白紙狀態,直接向世界上最強大的棋手——Alpha Go本身學起。

因為這些改進,Alpha Go Zero的表現和訓練效率都有了很大的提升,僅通過4塊TPU和72小時的訓練就勝過之前訓練用時幾個月的原版Alpha Go。自我對弈40天後,Alpha Go Zero變得更為強大,超過了此前擊敗當今圍棋第一人柯潔的Master亦即Alpha Go2.0版。

柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。Alpha Go Zero也發現了新的知識,發展出打破常規的策略和新招,與它在對戰李世石和柯潔時創造的那些交相輝映,卻又更勝一籌。

不過,這些創造性的時刻給了我們信心:人工智慧會成為人類智慧的增強器,幫助我們人類解決人類正在面臨的一些嚴峻挑戰。儘管才剛剛發展起來,但是Alpha Go Zero已經走出了通向上述目標的關鍵一步。如果類似的技術可以應用在其他結構性問題,比如蛋白質摺疊、減少能耗和尋找新材料上,就能創造出有益於社會的突破。

比阿爾法狗(Alpha Go)更為強大和進步更快的阿爾法元(Alpha Go Zero)誕生後,圍棋界再次被震撼,古力九段發微博:「20年不抵3天啊!我們的傷感,人類的進步!」

阿爾法元通過自學成為圍棋第一高手,其下法固然顛覆了人類棋譜、棋路,但人類還是能看懂,而且其有套路可循。其執黑第一手還是星位,然後直接點對方星位角的三、三,這也是目前棋手們幾乎公認的下法。

比起當初Master在布局一些諸如四路肩衝、六路跳起的驚世駭俗下法,如今阿爾法元在技術上給人類造成的衝擊還不如Master,但其40天時間裡從一張白紙到碾壓Master的高手,這樣的成長速度才令人類震驚不已。

李喆六段發微博:「完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤、棋子和規則。從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。2017年起,在某些領域,AI不再需要人類知識。」

緊跟這條微博之後,李喆又發了條有關阿爾法元的微博:「作為人類棋手,不必悲傷。幾千年前人類規定的座子就在星位,而Alpha Go Zero仍然起手佔角星位,其絕大多數下法都能被人理解,人類累積而成的圍棋認識與完全自學習的Zero達成奇妙共識。在強大的算法面前,道理展現了自身的限度和能力。」

阿爾法元從零起步學習圍棋,完全脫離人類既有圍棋理論和知識的局限,通過強大的自我學習功能達到第一高手水準,但它的一些布局思路與人類幾千年來的智慧成果殊途同歸,這也證明人類圍棋理論的科學性、合理性,並不完全是「糟粕」。

現在問題來了,Alpha Go Zero誕生後,職業棋手以及圍棋培訓的路是不是已走到盡頭?人工智慧專家、美國北卡羅萊納大學夏洛特分校教授洪韜認為沒必要這麼悲觀,「上世紀八九十年代,人工神經網絡的研究迎來了一場大火,學術圈發了成千上萬篇關於神經網絡的論文,從設計到訓練到優化再到各行各業的應用,最後不了了之。」

美國密西根大學人工智慧實驗室主任Satinder Singh也表達了類似觀點:這並非任何結束的開始,人工智慧和人甚至動物相比,所知所能依然極端有限。

其實,阿爾法狗也好,阿爾法元也罷,哪怕它們的著法接近圍棋之神,但它們終究沒有感情、沒有個性,不會弈出「宇宙流」這樣充滿魅力個性的棋來。他們的確精確,但不見個性、不見失誤,因而激不起人類的喜樂哀愁,少了無數樂趣。

Alpha是希臘字母表中的第一個字母α,表示「第一個,最初,開端」,而Go則是源於日語中圍棋的發音,羅馬注音為「go」,和英語「go」的讀音略有差異。雖然圍棋起源於中國,但是日本對它的推廣有極大貢獻,所以國際圍棋的術語多來自日語。

在一個完全可以不走尋常路的年代,只走尋常路的翻譯常常會讓人感到彆扭。

又到了各位腦洞大開的時刻:

某位網友說,應該叫「阿爾法狗」。

對桌同事說,應該叫「阿爾法我去」。

隔壁老王說,應該叫「阿爾法我們走」。

某位不知名人士透露,應該叫「阿爾法走你」。

當然還有人,也就是小編覺得「阿爾法圍棋」這個譯法,的確似乎應該還是更符合規矩一點。

實習編輯|小贊

推廣


《2017-18賽季歐戰指南》(已售罄)和《歐戰寶典》(精裝收藏版,定價69元)已在9月中旬全國上市;點擊圖片,即刻登陸體壇周報京東店進行預定!

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了李喆:完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤
  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    AlphaGo 曾打敗圍棋世界冠軍,Zero 甚至更強大,可以說是歷史上最強的圍棋選手。之前的 AlphaGo 版本首先基於數千場人類圍棋比賽來訓練如何學習圍棋。但 AlphaGo Zero 跳過了這一步,從自己完全隨機的下圍棋開始來學習圍棋。通過這種方式,它快速超越了人類棋手的水平,並且以 100:0 的比分打敗了之前戰勝世界冠軍的 AlphaGo。
  • AlphaGo距圍棋之神還有多遠?
    早前AlphaGo在國際圍棋排名中首次超越人類,成為世界第一,一時間引起輿論譁然,紛紛慨嘆「人類智慧最後的高地」慘被攻陷,就在人們還沒回過神來的時候
  • 柯潔與Alphago的三局人機大戰,棋盤上到底都發生了什麼?
    【弈客圍棋APP 記錄你的圍棋人生】
  • alphago 50盤自戰棋譜的簡單解讀
    目前,所知幾乎所有職業棋手,都在認真研讀和分析這些棋譜,而很多圍棋業餘愛好者也試圖通過這些棋譜,去更好的理解圍棋。作為業餘中的俗手,如果試圖去理解和解讀每一步棋的妙處,我自認為是沒有資格的,只是粗略的根據棋譜的感受,做一些簡單的總結,希望對愛好者更好的了解alphago和圍棋,有所幫助。1、目前貼目規則白棋有利。
  • AlphaGo已下線,AlphaGo Zero從0-1不帶人類尬棋了!
    今天凌晨,谷歌旗下Deepmind團隊在《自然》雜誌發表人工智慧界期待已久的論文《無須人類知識掌握圍棋》(Mastering the game of go without去年,阿法狗代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • 柯潔與alphago的三局,棋盤上到底都發生了什麼
    文 | 春光炸裂我作為圍棋國家二級運動員,儘量講清楚柯潔與alphago的三局,棋盤上到底都發生了什麼。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。最後,用雙曲正切 (Hyperbolic Tangent) 算出 (-1,1) 之間的數值,來表示當前狀態下的贏面多大。在模擬器裡,模擬對方的下一手,以及再下一手,給出應對之策,所以提前的遠不止是一步。
  • AlphaGo Zero:為什麼不懂圍棋的虛竹能夠破珍瓏棋局
    先師當年窮三年心血,這才布成,深盼當世棋道中的知心之士,予以破解。在下三十年來苦加鑽研,未能參解得透。」  就連段譽、慕容復等棋藝冠絕天下的當世才俊也鎩羽而歸,最後反而被幾乎不懂圍棋的虛竹隨意一落子破解了:  「珍瓏的秘奧正是要白棋先擠死了自己一大塊,以後的妙著方能源源而生,這等「擠死自己」的著法,實乃圍棋中千古未有之奇變,任你是如何超妙入神的高手,也決不會想到這一條路上去。任何人所想的,總是如何脫困求生,從來沒人故意往死路上去想。
  • AlphGo zero成長軌跡之9——中國流第四局
    這是 AlphGo zero對 AlphGo 李世石版的第17局,AlphGo zero 執黑中盤勝。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    3、AlphaGo Zero不用「Rollout」,其它圍棋軟體是用快速隨機的對弈從盤面來判斷(就是到處試下然後看哪個更好),而AlphaGo Zero是通過強大的神經網絡來精確判斷最強的下法。 在此前的版本中,AlphaGo用到了「策略網絡」來選擇下一步棋的走法,以及使用「價值網絡」來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。第三,AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。
  • 棋跡:少年AlphaGo Zero的圍棋成長之路
    想在圍棋上贏,你需要雙系統:行棋與勝負,一個斷生死,一個斷地盤。而AlphaGo Zero下圍棋,卻只需要一個系統,它同時包含了走子策略網絡和價值網絡。針對AlphaGo Zero的報導鋪天蓋地,官方解釋不如生動展示。烏鎮智庫整理出兩大有趣的解讀模塊,從圍棋知識徵子入手與雙遊戲對比,後附AlphaGo Zero訓練棋盤復盤,帶你感受Zero的真實段位。
  • 柯潔選修圍棋課上熱搜 網友吐槽:圍棋老師可咋教?
    今天(2月18日),圍棋世界冠軍柯潔在微博發文,「還有沒睡的朋友嘛!一想到明天有早課,有點睡不著。」在和網友的互動中,疑似證實自己在清華選修了圍棋課程。我們一起看看吧!
  • 淺談katago與leela zero之區別
    還是因為它棋力比較強,在同樣40b的神經網絡下,leela zero對katago鮮有勝跡。leela zero和katago都是基於alphazero實現的,但是leela zero幾乎完全按照論文實現的,katago在論文基礎上根據圍棋特性做了很多改進。最大的改進是,alpha zero和leela zero根據勝率來選點,而katago不光根據勝率,還要考慮盤面大小。
  • AlphaGo Zero的工作原理及原因
    這個版本的AlphaGo - AlphaGo Lee在訓練過程中使用了世界上頂尖棋手的大量圍棋遊戲(數據)。幾天前發表的一篇新論文詳細介紹了一種新的神經網絡——AlphaGo Zero,它與之前版本的最大區別就是次版本的AlphaGo不再需要人類來演示如何圍棋!它不僅比以前所有的圍棋棋手(無論是人還是機器)表現都要出色,而且只經過三天的訓練就能做到。本文將進一步解釋它是如何工作以及為什麼工作的。
  • 神秘AI圍棋41連勝被中國棋手終結:人類又看到希望了?
    人類AI圍棋之爭,還在繼續。
  • AlphaGo,圍棋重生的契機
    圍棋重鎮也許淪陷了,但棋藝新的光明也到來了。世界第一人柯潔戰敗後在微博上說,人類對圍棋的理解都是錯的。這句話讓我想起已故的偉大棋手,日本棋聖藤澤秀行先生說:「我對圍棋的理解,大概抵得上『圍棋之神』的百分之七八。」現在,新時代的「圍棋之神」AlphaGo,讓人們對這句話有了更深層次的理解。
  • 清華大學柯潔選修圍棋課,央視稱老師hold得住,網友:老師是誰?
    不少網友也加入了聲討一族,認為柯潔選擇圍棋課是「混學分」,稱其為「鐵分奴」,直言「太過分了」「讓老師難堪」。一些耿直的網友更是打趣:「大家好,我是圍棋選修課老師,我叫alphago!」那麼,柯潔選修圍棋課,真就是混學分嗎?老師不是alphago就真教不了柯潔嗎?
  • 2ch:Google人工智慧AlphaGo戰勝圍棋頂尖棋手李世乭
    參考報導:(新浪體育)註:李世乭,韓國圍棋九段棋手,成長於韓國全羅南道偏僻的飛禽島,所以又被稱為「飛禽島少年」。因中文漢字無「乭」字,故中文媒體多將其簡化為「石」。33.73 ID:qdlj0qUz.netうああaaaa亜あああああああああああああああああ哇啊啊啊aaa啊啊啊啊啊啊啊啊776:名無し名人:2016/03/09(水) 16:31:36.03 ID:NAZEQvBS.netついにきたあああああああああああああああああああああああああああああああああああああ終於來了啊啊啊啊啊啊啊啊
  • AlphaGo Zero論文
    此前,AlphaGo成為首個在圍棋中戰勝人類世界冠軍的系統。AlphaGo的那些神經網絡使用人類專家下棋的數據進行監督學習訓練,同時也通過自我對弈進行強化學習。 在這裡,我們介紹一種僅基於強化學習的算法,不使用人類的數據、指導或規則以外的領域知識。AlphaGo成了自己的老師。我們訓練了一個神經網絡來預測AlphaGo自己的落子選擇和AlphaGo自我對弈的贏家。