AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】

2021-01-19 衝段少年

        10月19日凌晨,在國際學術期刊Nature上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗「前輩」。


        該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解。


        AlphaGo Lee是AlphaGo Zero的「前輩」。擁有48個TPU(神經網絡訓練專用晶片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石。


        AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。就以100:0的戰績擊敗AlphaGo Lee。

  3小時,zero在亂下。

  10小時,發現簡單定式。

  16小時,發現小雪崩定式。

  19小時,發現死活、厚勢與實地的邏輯。

  24小時,發現小目一間高掛定式。

  36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。

  55小時,發現非人類定式。

  72小時,出關。

        AlphaGo zero出關後,在內部測試中,Deepmind團隊用更大的神經網絡,更長的時間(40天),更多的自我對弈(2900萬局),訓練了一個加強版的AlphaGo zero,與AlphaGo Master對戰100盤,89比11勝出。

        柯潔在微博中不禁再次感慨:「一個純淨、純粹自我學習的AlphaGo是最強的...對於AlphaGo的自我進步來講...人類太多餘了」

        古力感嘆:「20年不抵3天啊,我們的傷感,人類的進步!」

        唐韋星表示:「看了之後不知道說什麼了,它確實不需要我們的知識,之前版本用了好幾年被這個40天的打敗似乎就是我們拖後腿了,ps,我現在突然想到未來簡史說的人類的分層,小部分成為神,大部分是廢物」。

        關注「衝段少年」公眾號,點擊菜單「道場」---「Zero棋譜」 查看棋譜;

        點擊下方「查看原文」,即可欣賞AlphaGo Zero 83盤棋譜。

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了這款新程序名叫AlphaGo Zero,以100比0的戰績打敗了它的前任(在2016年3月的錦標賽中,其前任打敗了圍棋冠軍Lee Sedol)。人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」相關閱讀:阿爾法狗之父:AlphaGo Zero 3天走完千年棋史 澎湃新聞記者 虞涵棋 王心馨倫敦當地時間10月18日18:00(北京時間19日01:00),谷歌旗下的DeepMind團隊公布了進化後的最強版AlphaGo ,代號AlphaGo Zero。新版本的AlphaGo究竟有多厲害?
  • 阿爾法狗0-100慘敗,新版AlphaGo Zero百戰百勝,AI顛覆性飛躍
    2016年,橫空出世的阿爾法狗(AlphaGo)以4:1的成績擊敗了圍棋世界冠軍、職業九段棋手李世石,後來又在網絡上與中日韓圍棋高手交戰,60場比賽無一失利。2017年5月,它再與排名世界第一、我國著名圍棋選手柯潔對戰,結果3比0完勝。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    於是,來自巴黎的少年Dylan Djian (簡稱小笛) ,就照著狗零的論文去實現了一下。於是,狗零也被親切地稱為「雙頭怪」。特徵提取器是身子,其他兩個網絡是腦子。所有被禁的落子點,概率會變成零,然後重新把總概率歸為1。然後,這個葉節點就會生出枝節 (都是可以落子的位置,概率不為零的那些) 。
  • zero 絕藝解說alphago - CSDN
    對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。與阿爾法狗不同,阿爾法元不再學習人類棋譜,而是在掌握基本規則後,通過左右互博,僅僅40天時間,即成為碾壓Master的人工智慧。美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。
  • AlphaGo Zero:將革命進行到底!
    ,實現了從零開始學習。對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。
  • AlphaGo Zero橫空出世,人機圍棋大戰正式收官:以後不會再有這樣的...
    2016年3月9日,韓國首爾四季酒店,在谷歌發起的「人機大戰」第一局中,手握14個世界冠軍頭銜的韓國圍棋天王李世石轟然倒下,最終AlphaGo以4:1贏得這場比賽。17年年初,AlphaGo化身Master後創造了連續60場對人類不敗的恐怖戰績,因此圍棋界都希望能夠有一名大神站出來打敗AlphaGo,以證明人類的實力。
  • 最強「新狗」AlphaGo Zero發布 柯潔:對於它的自我進步來講,人類太...
    AlphaGo曾打敗了中國頂尖棋手柯潔,而AlphaGo Zero經過3天的訓練,就以100:0的比分完勝AlphaGo。這條消息點燃了中國圍棋界,連柯潔也發微博感嘆:對於AlphaGo的自我進步來講,人類太多餘了…… 谷歌今天發布的這款名為AlphaGo Zero有多厲害?
  • AlphaGo Lee對Zero 第6局:粗俗有力的實戰化下法
    下至白△,與第3局的布局完全一致。第3局時,雙方選擇了黑A白B的順序來下。黑△是棋筋,通常這裡總是要補的。然而。。。2圖(實戰)Lee黑1居然脫先了!!白2斷,黑棋外勢奔潰。白4之後,將來還留有A位枷的手段。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    【弈客圍棋APP 記錄你的圍棋人生】 倫敦當地時間2017年10月18日18:00(北京時間19日01
  • AlphaGo Zero橫空出世!自學成才碾壓所有棋手成為世界第一
    狗蛋開始自己和自己玩玩了3個小時就入門了圍棋,不會犯初級錯誤,水平和人類初學者一樣進行了3天的自我學習後,狗蛋以100:0擊敗了AlphaGo LeeAlphaGo Lee曾擊敗了18次獲得圍棋世界冠軍的韓國九段棋士李世乭到第21天,狗蛋的排位分數已和AlphaGo Master
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    去年,有個小孩讀遍人世所有的棋譜,辛勤打譜,苦思冥想,棋藝精進,4-1打敗世界冠軍李世石,從此人間無敵手。他的名字叫阿法狗。今年,他的弟弟只靠一副棋盤和黑白兩子,沒看過一個棋譜,也沒有一個人指點,從零開始,自娛自樂,自己參悟,100-0打敗哥哥阿法狗。他的名字叫阿法元。
  • 打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網
    今年,他的弟弟只靠一副棋盤和黑白兩子,沒看過一個棋譜,也沒有一個人指點,從零開始,自娛自樂,自己參悟,100-0打敗哥哥 AlphaGo 。他的名字叫 AlphaGo Zero(阿法元) 。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密
    這也就是取名為AlphaGo Zero的原因——AlphaGo從零開始。還是用深度學習跟強化學習的方法,而不是用人類知識方法。 1.我們把AlphaGo的學習能力變強,從神經網絡加深:從13層變成了40層,並改成ResNet。 2.把2個網絡(決策網絡、價值網絡)結合成1個網絡,讓AlphaGo的直覺和判斷同時得到訓練,更有一致性。 3.改進訓練的pipeline。
  • 從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?
    新版的AlphaGo計算能力空前強大,完全從零開始,不需要任何歷史棋譜的指引,3天超越AlphaGo李世石版本,21天達到Master水平。百戰百勝,棋藝增長遠超阿法狗, 擊潰阿爾法狗100-0。這是迄今最強大的圍棋程序:不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,直接採用自對弈進行訓練。
  • Master沒學過人類棋譜?這才是他比老阿法狗更恐怖之處
    Master沒學過人類棋譜?這才是他比老阿法狗更恐怖之處 澎湃新聞記者 蒲垚磊 2017-01-05 01:02 來源:澎湃新聞
  • 自學圍棋的AlphaGo Zero,你也能用PyTorch造一個 | 附代碼實現
    於是,來自巴黎的少年Dylan Djian (簡稱小笛) ,就照著狗零的論文去實現了一下。他給自己的AI棋手起名SuperGo,也提供了代碼(傳送門見文底) 。於是,狗零也被親切地稱為「雙頭怪」。特徵提取器是身子,其他兩個網絡是腦子。
  • AlphaGo將公布自我對局棋譜 未來幫助解決癌症
    5月27日下午消息,圍棋峰會今日進入最後一天,柯潔九段中盤告負,總比分0:3敗於AlphaGo。賽後,DeepMind方面表示,為更好分享棋妙世界,將會與柯潔合作分析三盤對局,展現AlphaGo的變化,並將我們分析比賽的過程做視頻,與全球愛好者分享。
  • Google 新的圍棋機器人不用棋譜訓練,號稱 3 天打敗了 AlphaGo
    在計算性能需求更低、沒有大量圍棋棋譜作訓練的前提下,AlphaGo Zero 號稱是自學 3 天就能以 100:0 完勝前一代的 AlphaGo。更詳細的研究報告被公布在了權威期刊《自然》上。除了功耗更低、算法更強大外,跟前代 AlphaGo 最大的差別是,AlphaGo Zero 不像前者那樣使用大量的訓練數據——10 萬職業棋手的棋譜。