10月19日凌晨,在國際學術期刊Nature上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗「前輩」。
該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解。
AlphaGo Lee是AlphaGo Zero的「前輩」。擁有48個TPU(神經網絡訓練專用晶片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石。
AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。就以100:0的戰績擊敗AlphaGo Lee。
3小時,zero在亂下。
10小時,發現簡單定式。
16小時,發現小雪崩定式。
19小時,發現死活、厚勢與實地的邏輯。
24小時,發現小目一間高掛定式。
36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。
55小時,發現非人類定式。
72小時,出關。
AlphaGo zero出關後,在內部測試中,Deepmind團隊用更大的神經網絡,更長的時間(40天),更多的自我對弈(2900萬局),訓練了一個加強版的AlphaGo zero,與AlphaGo Master對戰100盤,89比11勝出。
柯潔在微博中不禁再次感慨:「一個純淨、純粹自我學習的AlphaGo是最強的...對於AlphaGo的自我進步來講...人類太多餘了」
古力感嘆:「20年不抵3天啊,我們的傷感,人類的進步!」
唐韋星表示:「看了之後不知道說什麼了,它確實不需要我們的知識,之前版本用了好幾年被這個40天的打敗似乎就是我們拖後腿了,ps,我現在突然想到未來簡史說的人類的分層,小部分成為神,大部分是廢物」。
關注「衝段少年」公眾號,點擊菜單「道場」---「Zero棋譜」 查看棋譜;
點擊下方「查看原文」,即可欣賞AlphaGo Zero 83盤棋譜。