AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】

2021-01-19 衝段少年

10月19日凌晨，在國際學術期刊Nature上發表的一篇研究論文中，谷歌下屬公司Deepmind報告新版程序AlphaGo Zero：從空白狀態學起，在無任何人類輸入的條件下，它能夠迅速自學圍棋，並以100：0的戰績擊敗「前輩」。

該論文稱，在數百萬局自我對弈後，隨著程序訓練的進行，AlphaGo Zero獨立發現了人類用幾千年才總結出來的圍棋規則，還建立了新的戰略，為這個古老的遊戲帶來新見解。

AlphaGo Lee是AlphaGo Zero的「前輩」。擁有48個TPU（神經網絡訓練專用晶片），在參考大量人類棋譜，並自我對弈約3000萬盤、訓練數月後，2016年3年月，AlphaGo Lee以4：1的擊敗韓國九段棋手李世石。

AlphaGo Zero僅擁有4個TPU，零人類經驗，其自我訓練的時間僅為3天，自我對弈的棋局數量為490萬盤。就以100：0的戰績擊敗AlphaGo Lee。

　　3小時，zero在亂下。

　　10小時，發現簡單定式。

　　16小時，發現小雪崩定式。

　　19小時，發現死活、厚勢與實地的邏輯。

　　24小時，發現小目一間高掛定式。

　　36小時，也就是超越李世石版的時候，發現星位一間夾點角定式。

　　55小時，發現非人類定式。

　　72小時，出關。

AlphaGo zero出關後，在內部測試中，Deepmind團隊用更大的神經網絡，更長的時間（40天），更多的自我對弈（2900萬局），訓練了一個加強版的AlphaGo zero，與AlphaGo Master對戰100盤，89比11勝出。

柯潔在微博中不禁再次感慨：「一個純淨、純粹自我學習的AlphaGo是最強的...對於AlphaGo的自我進步來講...人類太多餘了」

古力感嘆：「20年不抵3天啊，我們的傷感，人類的進步！」

唐韋星表示：「看了之後不知道說什麼了，它確實不需要我們的知識，之前版本用了好幾年被這個40天的打敗似乎就是我們拖後腿了，ps，我現在突然想到未來簡史說的人類的分層，小部分成為神，大部分是廢物」。

關注「衝段少年」公眾號，點擊菜單「道場」---「Zero棋譜」查看棋譜；

點擊下方「查看原文」，即可欣賞AlphaGo Zero 83盤棋譜。

相關焦點

AlphaGo Zero用40天成為世界最強圍棋AI

棋士柯潔：一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了這款新程序名叫AlphaGo Zero，以100比0的戰績打敗了它的前任（在2016年3月的錦標賽中，其前任打敗了圍棋冠軍Lee Sedol）。人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍，科學家在訓練上一款AlphaGo時，同時用到了監督式學習（基於上百萬種人類專業選手的下棋步驟）和基於自我對弈的強化學習。
柯潔回應新版本AlphaGo問世:人類太多餘了

對此，柯潔回應稱：「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」相關閱讀：阿爾法狗之父：AlphaGo Zero 3天走完千年棋史澎湃新聞記者虞涵棋王心馨倫敦當地時間10月18日18：00（北京時間19日01：00），谷歌旗下的DeepMind團隊公布了進化後的最強版AlphaGo ，代號AlphaGo Zero。新版本的AlphaGo究竟有多厲害？
阿爾法狗0-100慘敗,新版AlphaGo Zero百戰百勝,AI顛覆性飛躍

2016年，橫空出世的阿爾法狗（AlphaGo）以4:1的成績擊敗了圍棋世界冠軍、職業九段棋手李世石，後來又在網絡上與中日韓圍棋高手交戰，60場比賽無一失利。2017年5月，它再與排名世界第一、我國著名圍棋選手柯潔對戰，結果3比0完勝。
AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼

於是，來自巴黎的少年Dylan Djian (簡稱小笛) ，就照著狗零的論文去實現了一下。於是，狗零也被親切地稱為「雙頭怪」。特徵提取器是身子，其他兩個網絡是腦子。所有被禁的落子點，概率會變成零，然後重新把總概率歸為1。然後，這個葉節點就會生出枝節 (都是可以落子的位置，概率不為零的那些) 。
zero 絕藝解說alphago - CSDN

對於棋類問題來說，在蒙特卡洛樹搜索的框架下，實現從零開始學習，我一直認為是可行的，也多次與別人討論這個問題，當今年初Master推出時，就曾預測這個新系統可能實現了從零開始學習，可惜根據DeepMind後來透露的消息，Master並沒有完全拋棄人類棋譜，而是在以前系統的基礎上，通過強化學習提高系統的水平，雖然人類棋譜的作用越來越弱，但是啟動還是學習了人類棋譜，並沒有實現「冷」啟動。
【話題】AlphaGo Zero!圍棋之神真來了……

阿爾法元完全從零開始，不需要任何歷史棋譜的指引，更不需要參考人類任何的先驗知識，完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗，百戰百勝，擊潰阿法爾狗100比0。與阿爾法狗不同，阿爾法元不再學習人類棋譜，而是在掌握基本規則後，通過左右互博，僅僅40天時間，即成為碾壓Master的人工智慧。美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評：它的開局和收關與職業棋手的下法並無區別，這說明，人類在圍棋上幾千年的智慧結晶，看起來並非全錯，阿爾法元的中盤看起來則非常詭異，著法比阿爾法狗左右互搏時使出的怪招更加不可思議。
AlphaGo Zero:將革命進行到底!

，實現了從零開始學習。對於棋類問題來說，在蒙特卡洛樹搜索的框架下，實現從零開始學習，我一直認為是可行的，也多次與別人討論這個問題，當今年初Master推出時，就曾預測這個新系統可能實現了從零開始學習，可惜根據DeepMind後來透露的消息，Master並沒有完全拋棄人類棋譜，而是在以前系統的基礎上，通過強化學習提高系統的水平，雖然人類棋譜的作用越來越弱，但是啟動還是學習了人類棋譜，並沒有實現「冷」啟動。
AlphaGo Zero橫空出世,人機圍棋大戰正式收官:以後不會再有這樣的...

2016年3月9日，韓國首爾四季酒店，在谷歌發起的「人機大戰」第一局中，手握14個世界冠軍頭銜的韓國圍棋天王李世石轟然倒下，最終AlphaGo以4：1贏得這場比賽。17年年初，AlphaGo化身Master後創造了連續60場對人類不敗的恐怖戰績，因此圍棋界都希望能夠有一名大神站出來打敗AlphaGo，以證明人類的實力。
最強「新狗」AlphaGo Zero發布柯潔:對於它的自我進步來講,人類太...

AlphaGo曾打敗了中國頂尖棋手柯潔，而AlphaGo Zero經過3天的訓練，就以100：0的比分完勝AlphaGo。這條消息點燃了中國圍棋界，連柯潔也發微博感嘆：對於AlphaGo的自我進步來講，人類太多餘了…… 谷歌今天發布的這款名為AlphaGo Zero有多厲害？
AlphaGo Lee對Zero 第6局:粗俗有力的實戰化下法

下至白△，與第3局的布局完全一致。第3局時，雙方選擇了黑A白B的順序來下。黑△是棋筋，通常這裡總是要補的。然而。。。2圖(實戰)Lee黑1居然脫先了！！白2斷，黑棋外勢奔潰。白4之後，將來還留有A位枷的手段。
棋壇至尊AlphaGo Zero,不止震驚了圍棋界

【弈客圍棋APP 記錄你的圍棋人生】倫敦當地時間2017年10月18日18:00（北京時間19日01
AlphaGo Zero橫空出世!自學成才碾壓所有棋手成為世界第一

狗蛋開始自己和自己玩玩了3個小時就入門了圍棋，不會犯初級錯誤，水平和人類初學者一樣進行了3天的自我學習後，狗蛋以100：0擊敗了AlphaGo LeeAlphaGo Lee曾擊敗了18次獲得圍棋世界冠軍的韓國九段棋士李世乭到第21天，狗蛋的排位分數已和AlphaGo Master
打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100

去年，有個小孩讀遍人世所有的棋譜，辛勤打譜，苦思冥想，棋藝精進，4-1打敗世界冠軍李世石，從此人間無敵手。他的名字叫阿法狗。今年，他的弟弟只靠一副棋盤和黑白兩子，沒看過一個棋譜，也沒有一個人指點，從零開始，自娛自樂，自己參悟，100-0打敗哥哥阿法狗。他的名字叫阿法元。
打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網

今年，他的弟弟只靠一副棋盤和黑白兩子，沒看過一個棋譜，也沒有一個人指點，從零開始，自娛自樂，自己參悟，100-0打敗哥哥 AlphaGo 。他的名字叫 AlphaGo Zero（阿法元）。去年，阿法狗（AlphaGo）代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍，但其棋藝的精進，是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上，進而自我訓練，實現超越。
AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密

這也就是取名為AlphaGo Zero的原因——AlphaGo從零開始。還是用深度學習跟強化學習的方法，而不是用人類知識方法。 1.我們把AlphaGo的學習能力變強，從神經網絡加深：從13層變成了40層，並改成ResNet。 2.把2個網絡（決策網絡、價值網絡）結合成1個網絡，讓AlphaGo的直覺和判斷同時得到訓練，更有一致性。 3.改進訓練的pipeline。
從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?

新版的AlphaGo計算能力空前強大，完全從零開始，不需要任何歷史棋譜的指引，3天超越AlphaGo李世石版本，21天達到Master水平。百戰百勝，棋藝增長遠超阿法狗，擊潰阿爾法狗100-0。這是迄今最強大的圍棋程序：不需要參考人類任何的先驗知識，完全靠自己一個人強化學習（reinforcement learning）和參悟，直接採用自對弈進行訓練。
Master沒學過人類棋譜?這才是他比老阿法狗更恐怖之處

Master沒學過人類棋譜？這才是他比老阿法狗更恐怖之處澎湃新聞記者蒲垚磊 2017-01-05 01:02 來源：澎湃新聞
自學圍棋的AlphaGo Zero,你也能用PyTorch造一個 | 附代碼實現

於是，來自巴黎的少年Dylan Djian (簡稱小笛) ，就照著狗零的論文去實現了一下。他給自己的AI棋手起名SuperGo，也提供了代碼(傳送門見文底) 。於是，狗零也被親切地稱為「雙頭怪」。特徵提取器是身子，其他兩個網絡是腦子。
AlphaGo將公布自我對局棋譜未來幫助解決癌症

5月27日下午消息，圍棋峰會今日進入最後一天，柯潔九段中盤告負，總比分0：3敗於AlphaGo。賽後，DeepMind方面表示，為更好分享棋妙世界，將會與柯潔合作分析三盤對局，展現AlphaGo的變化，並將我們分析比賽的過程做視頻，與全球愛好者分享。
Google 新的圍棋機器人不用棋譜訓練,號稱 3 天打敗了 AlphaGo

在計算性能需求更低、沒有大量圍棋棋譜作訓練的前提下，AlphaGo Zero 號稱是自學 3 天就能以 100:0 完勝前一代的 AlphaGo。更詳細的研究報告被公布在了權威期刊《自然》上。除了功耗更低、算法更強大外，跟前代 AlphaGo 最大的差別是，AlphaGo Zero 不像前者那樣使用大量的訓練數據——10 萬職業棋手的棋譜。

AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】

相關焦點

AlphaGo Zero用40天成為世界最強圍棋AI

柯潔回應新版本AlphaGo問世:人類太多餘了

阿爾法狗0-100慘敗,新版AlphaGo Zero百戰百勝,AI顛覆性飛躍

AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼

zero 絕藝解說alphago - CSDN

【話題】AlphaGo Zero!圍棋之神真來了……

AlphaGo Zero:將革命進行到底!

AlphaGo Zero橫空出世,人機圍棋大戰正式收官:以後不會再有這樣的...

最強「新狗」AlphaGo Zero發布 柯潔:對於它的自我進步來講,人類太...

AlphaGo Lee對Zero 第6局:粗俗有力的實戰化下法

棋壇至尊AlphaGo Zero,不止震驚了圍棋界

AlphaGo Zero橫空出世!自學成才碾壓所有棋手成為世界第一

打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100

打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網

AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密

從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?

Master沒學過人類棋譜?這才是他比老阿法狗更恐怖之處

自學圍棋的AlphaGo Zero,你也能用PyTorch造一個 | 附代碼實現

AlphaGo將公布自我對局棋譜 未來幫助解決癌症

Google 新的圍棋機器人不用棋譜訓練,號稱 3 天打敗了 AlphaGo

最強「新狗」AlphaGo Zero發布柯潔:對於它的自我進步來講,人類太...

AlphaGo將公布自我對局棋譜未來幫助解決癌症