人工智慧(AI)領域再次出現驚人突破——據英國《自然》雜誌近日發表的論文報導,一款新版的「阿法狗」(AlphaGo)電腦程式能夠從空白狀態起,在不需要任何人類棋譜輸入的條件下,自學圍棋,無師自通,自學成才。
這款新程序名叫「阿法元」(AlphaGo Zero),其以100比0的不敗戰績,狠狠打擊了曾書寫歷史的舊版「阿法狗」。
實力,「阿法狗」的輝煌戰績
人工智慧「阿法狗」出自谷歌旗下深度思維(DeepMind)公司。最早在2016年1月,《自然》雜誌以封面位置報導該程序在和所有其他圍棋程序的對抗中獲得了99.8%的勝率,並且以5∶0的成績打敗了歐洲圍棋冠軍。
隨後同年3月,「阿法狗」挑戰世界圍棋冠軍李世石,經五局鏖戰,人類1∶4不敵人工智慧,引發巨大轟動。人們的震驚源於在圍棋19×19棋盤上,一步甚至會有幾百種走法,傳統的人工智慧算法難以估計局面和下子。
但「阿法狗」仍在積攢實力。今年1月,一個神秘帳號Master公布自己正是「阿法狗」新版。該帳號在知名圍棋平臺上先後挑戰柯潔、樸廷桓和井山裕太等頂級高手,豪取勝利,隨後戰贏「棋聖」聶衛平,直至60盤時自爆身份,決勝收官。
3天,「阿法元」的無師自通
此次在最新論文中,英國倫敦深度思維公司「阿法狗」項目的主要負責人戴維·西爾弗、戴密斯·哈薩比斯及其同事,報告了新版「阿法狗」軟體——「阿法元」。
「阿法元」最引人注目之處在於其無師自通的本領。其學習從「零」開始,單純基於與自己的對弈,不需要任何歷史棋譜的指引,也不需要任何人類經驗的點撥。
對於這個新軟體,人類的輸入僅僅限於一張棋盤和一副棋子,沒有任何人類數據參與。「阿法元」只用到了一張神經網絡,這張網絡經過訓練,專門預測程序自身的棋步和棋局的贏家,讓「阿法元」在每次自我對弈中進步。
通過3天的訓練——包括近500萬局自我對弈——「阿法元」已能夠超越人類並打敗之前的「阿法狗」版本。戴維·西爾弗表示,「阿法元」遠比「阿法狗」強大,它已不再為人類的知識所限,而能夠自行發現新知識。
擺脫了人類經驗的輔助和依賴,人工智慧竟然變得更強!在「阿法元」嶄露頭角後,人們揣測:難道我們人類還耽誤「阿法狗」了?
震驚,AI的獨立發現
其實,人工智慧的最大挑戰之一,即是研發一種能從「零」開始、以超人類的水平學習複雜概念的算法。
在去年3月那場世所矚目的比賽中,「阿法狗」軟體打敗了人類圍棋世界冠軍。當時的這款圍棋程序,是利用價值網絡去計算局面,用策略網絡去選擇下子。
但為了贏得這場人機大戰,科學家團隊在訓練「阿法狗」時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。舊「阿法狗」訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。
而此次,據研究團隊介紹,新程序「阿法元」只使用了一臺機器和4個TPU。
在「阿法狗」之前,最成功的圍棋程序僅能達到人類業餘選手的程度,還不能在不讓子的情況下和專業賽手一較高下,原本人們認為,至少要10年後人工智慧才有可能達到這一成就。但「阿法狗」的橫空出世改寫了預言。而在其問世不足兩年的時間裡,「阿法元」再次刷新人們的認知——隨著程序訓練的進行,人工智慧已獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的策略,可以說,人工智慧已經為這個古老的遊戲,帶來全新見解。
(科技日報北京10月22日電)