新的人工智慧誕生了,它便是阿爾法元AlphaGo Zero。在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……
圍棋之神真來了
文|體壇周報記者 謝銳
比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。在10月19日世界《自然》雜誌上線的重磅論文中,詳細介紹了谷歌DeepMind團隊最新的研究成果。
阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。
2016年3月,第一次「人機大戰」,Alpha Go1.0版4比1擊敗14個世界冠軍獲得者李世石九段;
年底,Alpha Go升級版化身Master在網上對人類高手60連勝,震驚棋界。2017年5月第二次「人機大戰」,Alpha Go2.0版3比0勝柯潔九段,此後宣布不再與人對弈。
但阿爾法狗團隊並未停止研究,現在研究出來的成果是Alpha Go Zero。與阿爾法狗不同,阿爾法元不再學習人類棋譜,而是在掌握基本規則後,通過左右互博,僅僅40天時間,即成為碾壓Master的人工智慧。
美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。按照時越九段的話說就是,來自未來的著法。
Alpha Go Zero之所以能當自己的老師,是用了一種叫強化學習的新模式。系統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。
在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。升級後的神經網絡與搜索網絡結合成一個更強的新版本Alpha Go Zero,如此往復循環。每過一輪,系統的表現就提高一點點,自我對弈的質量也提高一點點。神經網絡越來越準確,Alpha Go Zero的版本也越來越強。
這種技術比此前所有版本的Alpha Go都更為強大。這是因為,它不再受到人類知識的限制,而能夠從嬰兒般的白紙狀態,直接向世界上最強大的棋手——Alpha Go本身學起。
因為這些改進,Alpha Go Zero的表現和訓練效率都有了很大的提升,僅通過4塊TPU和72小時的訓練就勝過之前訓練用時幾個月的原版Alpha Go。自我對弈40天後,Alpha Go Zero變得更為強大,超過了此前擊敗當今圍棋第一人柯潔的Master亦即Alpha Go2.0版。
柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。Alpha Go Zero也發現了新的知識,發展出打破常規的策略和新招,與它在對戰李世石和柯潔時創造的那些交相輝映,卻又更勝一籌。
不過,這些創造性的時刻給了我們信心:人工智慧會成為人類智慧的增強器,幫助我們人類解決人類正在面臨的一些嚴峻挑戰。儘管才剛剛發展起來,但是Alpha Go Zero已經走出了通向上述目標的關鍵一步。如果類似的技術可以應用在其他結構性問題,比如蛋白質摺疊、減少能耗和尋找新材料上,就能創造出有益於社會的突破。
比阿爾法狗(Alpha Go)更為強大和進步更快的阿爾法元(Alpha Go Zero)誕生後,圍棋界再次被震撼,古力九段發微博:「20年不抵3天啊!我們的傷感,人類的進步!」
阿爾法元通過自學成為圍棋第一高手,其下法固然顛覆了人類棋譜、棋路,但人類還是能看懂,而且其有套路可循。其執黑第一手還是星位,然後直接點對方星位角的三、三,這也是目前棋手們幾乎公認的下法。
比起當初Master在布局一些諸如四路肩衝、六路跳起的驚世駭俗下法,如今阿爾法元在技術上給人類造成的衝擊還不如Master,但其40天時間裡從一張白紙到碾壓Master的高手,這樣的成長速度才令人類震驚不已。
李喆六段發微博:「完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤、棋子和規則。從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。2017年起,在某些領域,AI不再需要人類知識。」
緊跟這條微博之後,李喆又發了條有關阿爾法元的微博:「作為人類棋手,不必悲傷。幾千年前人類規定的座子就在星位,而Alpha Go Zero仍然起手佔角星位,其絕大多數下法都能被人理解,人類累積而成的圍棋認識與完全自學習的Zero達成奇妙共識。在強大的算法面前,道理展現了自身的限度和能力。」
阿爾法元從零起步學習圍棋,完全脫離人類既有圍棋理論和知識的局限,通過強大的自我學習功能達到第一高手水準,但它的一些布局思路與人類幾千年來的智慧成果殊途同歸,這也證明人類圍棋理論的科學性、合理性,並不完全是「糟粕」。
現在問題來了,Alpha Go Zero誕生後,職業棋手以及圍棋培訓的路是不是已走到盡頭?人工智慧專家、美國北卡羅萊納大學夏洛特分校教授洪韜認為沒必要這麼悲觀,「上世紀八九十年代,人工神經網絡的研究迎來了一場大火,學術圈發了成千上萬篇關於神經網絡的論文,從設計到訓練到優化再到各行各業的應用,最後不了了之。」
美國密西根大學人工智慧實驗室主任Satinder Singh也表達了類似觀點:這並非任何結束的開始,人工智慧和人甚至動物相比,所知所能依然極端有限。
其實,阿爾法狗也好,阿爾法元也罷,哪怕它們的著法接近圍棋之神,但它們終究沒有感情、沒有個性,不會弈出「宇宙流」這樣充滿魅力個性的棋來。他們的確精確,但不見個性、不見失誤,因而激不起人類的喜樂哀愁,少了無數樂趣。
Alpha是希臘字母表中的第一個字母α,表示「第一個,最初,開端」,而Go則是源於日語中圍棋的發音,羅馬注音為「go」,和英語「go」的讀音略有差異。雖然圍棋起源於中國,但是日本對它的推廣有極大貢獻,所以國際圍棋的術語多來自日語。
在一個完全可以不走尋常路的年代,只走尋常路的翻譯常常會讓人感到彆扭。
又到了各位腦洞大開的時刻:
某位網友說,應該叫「阿爾法狗」。
對桌同事說,應該叫「阿爾法我去」。
隔壁老王說,應該叫「阿爾法我們走」。
某位不知名人士透露,應該叫「阿爾法走你」。
當然還有人,也就是小編覺得「阿爾法圍棋」這個譯法,的確似乎應該還是更符合規矩一點。
實習編輯|小贊
推廣
《2017-18賽季歐戰指南》(已售罄)和《歐戰寶典》(精裝收藏版,定價69元)已在9月中旬全國上市;點擊圖片,即刻登陸體壇周報京東店進行預定!