北京時間今天(10月19日)凌晨,谷歌旗下的DeepMind團隊公布了進化後的最強版AlphaGo ,代號AlphaGo Zero。AlphaGo曾打敗了中國頂尖棋手柯潔,而AlphaGo Zero經過3天的訓練,就以100:0的比分完勝AlphaGo。這條消息點燃了中國圍棋界,連柯潔也發微博感嘆:對於AlphaGo的自我進步來講,人類太多餘了……
谷歌今天發布的這款名為AlphaGo Zero有多厲害?據「快科技」網站文章的介紹,它的系統可以通過自我對弈進行學習,它利用了一種名為強化學習的技術。在不斷訓練的過程中,這套系統開始靠自己的能力學會圍棋中的一些高級概念。
經過3天的訓練後,這套系統已經可以擊敗AlphaGo Lee,也就是去年擊敗韓國頂尖棋手李世石的那套系統,而且比分高達100比0。經過40天訓練後,它總計運行了大約2900萬次自我對弈,使得AlphaGo Zero得以擊敗AlphaGo Master(今年早些時候擊敗世界冠軍柯潔的系統),比分為89比11。
AlphaGo之父戴密斯·哈薩比斯(Demis Hassabis)
與學習大量人類棋譜起步的前代AlphaGo不同,AlphaGo Zero是從「嬰兒般的白紙」開始,通過3天數百萬盤自我對弈,走完了人類千年的圍棋歷史,並探索出了不少橫空出世的招法。
值得注意的是,雖然AlphaGo Zero在幾周的訓練期間學會了一些關鍵概念,但該系統學習的方法與人類有所不同。另外,AlphaGo Zero也比前幾代系統更加節能,AlphaGo Lee需要使用幾臺機器和48個谷歌TPU機器學習加速晶片。其上一代AlphaGo Fan則要用到176個GPU晶片。AlphaGo Zero只需要使用一臺配有4個TPU的機器即可。
DeepMind團隊創始人David Silver介紹AlphaGo Zero說,這款程序超越了過去所有的AlphaGo版本,目前是世界上最大強大的圍棋程序。
(視頻截圖,下同)
它的學習不使用人類數據,而是自我學習,完全從零開始。之所以它能比向人類數據學習的程序效果更好,是因為它每次對弈的「陪練」都被校準為與它持平的水平,它的「陪練」從非常基礎的水平開始,逐漸上升為非常高的水平。
David Silver還說,人們一般認為機器學習就是大數據和海量計算,但是他們在AlphaGo Zero的研究中發現,算法比所謂計算或數據可用性更重要。
以下是完整視頻:
DeepMind聯合創始人和總裁David Silver介紹新版阿法狗。 (視頻自騰訊)