點擊上方「騰訊科技」,選擇「置頂公眾號」
關鍵時刻,第一時間送達!
文/騰訊科技 卜祥 劉亞瀾
直到最後一刻,20歲的柯潔都在努力去贏對手人工智慧AlphaGo一盤棋。柯潔是中國圍棋職業九段棋手,現今圍棋等級分排名世界第一。
2017年5月25日下午1點37分時,浙江烏鎮,柯潔將三顆白子撂在黃棋盤上認輸,來不及整理一下吃敗仗後的沮喪表情,立刻與對手開始復盤。兩天前的同一個場地,他已經輸了第一盤,按照賽前規定,此番認輸表示整個比賽,三決兩勝,他已經輸掉了整個比賽。
但是,接下來新聞發布會上,柯潔當著眾多記者的面,向AlphaGo研發公司Deepmind負責人哈薩比斯爭取最後一盤對抗執白棋權益。按照之前猜先規矩,第一盤柯潔執黑,第二盤執白,第三盤應該執黑。業界知道,柯潔執白棋勝率遠高於黑棋。
按照本次圍棋峰會日程,26日舉行配對賽和中國圍棋五人團隊與AlphaGo對弈。據現場解說員、柯潔朋友古力透露,柯潔提出想成為這場對抗賽的擺棋「人肉臂」,被主辦方拒絕。顯然,這位人類圍棋「代表」者柯潔,一直在爭取點滴機會多了解對手AlphaGo。
26日當天舉行的配對賽和團隊對弈AlphaGo,柯潔雖然沒有作為選手登場,也沒有像第一場失利之後去池塘釣魚、拉弓射箭,而是一直泡在後方研究室裡,關注場上比賽變化。據AlphaGo官方團隊證實,柯潔當天下午觀看中國五人團體對戰AlphaGo過程中,首先在一步棋上提出了靠完尖的下法,被其他棋手嘲笑否定。不久之後,AlphaGo使出了一模一樣的著法。
某種程度上,柯潔是在為人類棋手而戰,也是在為自己而戰。2016年3月,AlphaGo在韓國首爾與李世石對戰五局中,輸掉第四局。李世石成為目前戰勝過人工智慧AlphaGo的最後一人。如果柯潔不能勝一盤AlphaGo,歷史將會像記住戰勝過IBM深藍電腦的西洋棋冠軍卡斯帕羅夫、第一個登月的阿姆斯特朗一樣記住李世石,而不是柯潔。
兩次與現場預判相反的逆轉
從最初看不上眼,到贏了韓國棋手李世石之後被震驚,再到稱呼AlphaGo為「阿老師」,圍棋手們在不斷地調整著對於人工智慧最新代表者AlphaGo的認知。峰會上,最讓中國棋手們渴望和興奮的是試圖找到AlphaGo一些破綻。
中國圍棋隊總教練俞斌此前表示,AlphaGo的弱點,在去年對李世石第四盤中所表現出來的「無中生有」的失誤,當李世石下出第78手妙棋之後,AlphaGo開始失常。他將這種失誤稱為「開放性計算的誤算」。這種誤算在AlphaGo對李世石第五局的角上計算也出現過。
人們覺得AlphaGo是電腦,擅長計算,可能不擅長從大局考慮。經過幾番對戰,棋手們推翻了此前判斷,他們發現AlphaGo駕馭大局能力並不比人類弱,很難從中佔到便宜。又有人大膽提出,AlphaGo可能擅長布局,不擅長計算;還有人提出AlphaGo下棋,重撈實地,不重形勢。像盲人摸象,人類棋手不停地嘗試著。
另外,有棋手們推斷,人工智慧圍棋經常走棋時刪繁就簡,不造劫材,可能不擅長「應劫」,多多打劫可能會讓電腦犯糊塗,並舉出網上一些贏了AI圍棋的例子證明,不斷挑起肉搏,在亂戰中尋找機會殺死AI圍棋大龍方才有獲勝機會。
以上這些因暫時沒有人類戰勝AlphaGo和今年初AlphaGo匿名化身的Master,無從證明。
倒是現場解說員,對於棋盤上勝負預期兩次與最終AlphaGo走出的結果完全相反,著實讓現場的觀眾和解說員一起好久難以緩過勁來。
第一次來自柯潔25日與AlphaGo的第二場比賽。開局至前100手,棋手古力九段根據柯潔臉上表情、較少揪頭髮的動作和棋盤上局勢得出柯潔的棋相當樂觀,有獲勝的希望。「AlphaGo之父」哈薩比斯(Demis Hassabis)在11:32通過社交網絡對外稱:「根據AlphaGo的評估,柯潔此時此刻下的非常完美。」當時比賽還在進行當中,這條推文截圖立刻在現場傳播。觀眾有些興奮,期待柯潔代表人類給機器一個教訓。
這個希望隨著柯潔投子認輸而泯滅。
第二次是26日上午連笑+AlphaGo一起對戰古力+AlphaGo,現場氣氛隨著解說員引導,認為時間相對充裕的古力一方勝券在握。結果卻是古力一方AlphaGo主動投降,古力拒絕,下了十來手之後,古力認識到大勢已去,親自舉起投降牌子。
賽後,騰訊科技追隨著一名現場解說員問為何出現逆轉情況、AlphaGo和古力誰下出惡手等問題,此位解說員思緒一直停留在比賽中,難以回神應答。
AlphaGo帶給人類圍棋界的震驚仍然在繼續,並擴大著影響範圍。只是很多人現場見證之後,感受更為深刻——很多人是懵的,包括職業棋手和一些專家。
這或許意味著,在遠超人類計算能力的人工智慧AlphaGo面前,職業棋手與業餘棋手之間的差距,可能沒有職業棋手與AlphaGo之間差距大,整個圍棋界將因為AlphaGo的存在引起一些固有結構的崩塌。這之後,誰能有與AlphaGo切磋棋藝的機會,誰就有可能更快地成長,走得更遠。
更強的AlphaGo
如果烏鎮峰會上柯潔勝一局,意義將不同於去年李世石取勝。
5月24日,在新版本AlphaGo首戰以1/4子優勢戰勝柯潔之後,DeepMind創始人兼CEO 哈薩比斯、AlphaGo團隊負責人David Silver在人工智慧高峰論壇上稱,「AlphaGo已經可以模仿人類直覺。在過去一年,我們想打造完美的AlphaGo,彌補它知識方面的空白。因為在與李世石的比賽中,它是有缺陷的。」哈薩比斯說。據介紹,AlphaGo升級後新版本可以讓老版本三個子。
哈薩比斯稱圍棋因為太過複雜,窮舉搜索難以解決。對於計算機來說,圍棋有兩項難題:很難寫出評估程序以決定誰贏;搜索空間太過龐大。
圍棋不像象棋等遊戲靠計算,而是靠直覺。圍棋中沒有等級概念,所有棋子都一樣。圍棋是築防遊戲,因此需要盤算未來。為此,AlphaGo團隊用兩種卷積神經網絡去完成:策略網絡和估值網絡。策略網絡的卷積神經網絡用於決定下一步落子可能的位置,價值網絡用於評估當前棋局獲勝的概率。
為了應對圍棋巨大複雜性,AlphaGo 採用機器學習技術,結合了監督學習和強化學習的優勢。通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分布。
然後,訓練出一個價值網絡(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而 AlphaGo將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。最後,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往復。
地平線創始人、百度前深度學習研究院負責人餘凱告訴騰訊科技,這次AlphaGo來到中國,技術提升的進步體現在兩方面,一方面是AlphaGo 2.0算法,更多強調通過自我博弈,加上通過學習人類棋手的歷史數據提升棋藝,一般來說,人工智慧需要大數據,而AlphaGo這種做法,並不需要那麼多大數據,從零開始,提升棋藝。「我覺得這具有革命性意義。」
另一方面,Deepmind母公司自己研發的新型架構處理器TPU的使用,做到了AlphaGo「單機版」,進一步減少了對處理器數量的需求。
曾經,人工智慧學界認為傳統硬體很難進一步提升AlphaGo棋力。去年李世石與AlphaGo開戰之前,創新工場創辦者李開復在知乎上撰文說明,下圍棋計算,需要增加硬體。線性地從1202個CPU增加到1920個CPU,AlphaGo的技戰指數(ELO)只增加了28,並未跟著跳躍增長。
但是,TPU的出現極大地提高了計算性能,同時能耗更小,體積也更小。餘凱認為通過TPU加大的計算能力,硬體能力提升使得搜索進入一個更大的求解空間。「硬體提升也是令業界矚目的。」
國內人工智慧晶片研發公司寒武紀曾預言,採用人工智慧晶片,AlphaGo只需要一臺個人電腦大小的主機。這次烏鎮圍棋峰會上,雖然Deepmind公司未能完全達到,卻朝這個方面在進步。值得一提的是,寒武紀公司創始人陳天石告訴騰訊科技,早期與一位法國專家Olivier Temam一起研究人工智慧晶片,這位法國人後來加入了Deepmind的母公司,成為TPU團隊中一員。
未來,更強的人工智慧晶片的出現,與人類棋手的水平將越拉越遠。
逼至AIpahGo極限的比賽
一方面人類棋手在尋找機會戰勝AlphaGo,另一方面,節節勝利的AlphaGo正在被神化。
在峰會現場,騰訊科技發現一個有趣現象。作為AlphaGo的核心人物之一,黃士傑博士充當機械臂擺放棋子,整個比賽過程中通常面無表情,不上廁所、不喝水。不斷吃敗仗之後,人們開始談論黃的表情,甚至開始探究黃擺放棋子的手勢,用大拇指和用中指是否代表著不同心情。
本次烏鎮圍棋峰會之前,柯潔究竟研究了多少盤AlphaGo曾走過的棋?無人知曉。人們注意到,柯潔在與AlphaGo對局時,已經可以熟練運用由AlphaGo採用的一些棋招。
最常被人舉例的是所謂「點三三」走法。在對手先手佔據星位時,自己再從三三路位置打入。擱在AlphaGo之前,下棋者使用此辦法,「會被老師打屁股,甚至會被認為不會下棋」,不僅一位棋手說。但是,從去年底和今年初AlphaGo大量應用此招,並取得勝利之後,圍棋界對「點三三」做法重新評估。現在普遍持星位和三三位互為弱點,充滿辯證意味。
人與機器對弈中,人類開始借鑑學習人工智慧。
23日,柯潔第一盤棋輸掉四分之一子,屬於穩紮穩打下法。25日,柯潔明顯換了一種風格,他試圖與AlphaGo激烈對抗,製造更多紛爭。一度,在左下角的一塊棋有劫爭,AlphaGo遲遲不能像慣常做法那樣化繁就簡,「撐在那裡」。盤面最複雜時,有七八條大龍在相互絞殺糾纏,盤面充滿不確實性。
這是柯潔最興奮的時刻,後來也被證明是他離勝利最近的時刻。當時,他用手撫了撫心臟。「太緊張的緣故,想讓它跳得慢一點」,柯潔在賽後發布回顧當時下棋感覺。
「柯潔在這場比賽中是有很多的機會。」哈薩比斯說:「前100步是目前為止和AlphaGo下得最勢均力敵的人。」他稱柯潔比賽中一度將AlphaGo逼至了極限。
遺憾的是,「興奮之後出現了失誤」,柯潔事後坦承未能克服人類的情緒弱點。有情感的人類與只知勝負概率的AlphaGo之間究竟不是同一物種。
現在看來,人類或有可能因為AlphaGo的棋路和棋譜,挖掘出圍棋更多的、沒有被人類探索和理解的地方,利用得當,會使目前圍棋整體水平再上一個臺階。重慶人工智慧公司雲叢科技創始人周曦持此觀點。他對騰訊科技分析說,AlphaGo下了很多人類理解不了的棋,打破了人類圍棋思維定勢,使得人類棋手更多的反思和學習。同樣的,人的學習抽象理解能力,也不是AlphaGo能掌握的。
未來是否會開放AlphaGo給所有的圍棋愛好者?戰勝人類棋力最強的柯潔之後,下一次還會舉辦此類圍棋峰會嗎?對於騰訊科技這些問題,AlphaGo方面核心人員之一David Silver避重就輕地給予了回答,「AlphaGo只是作為研究為主,沒有進一步計劃。」
不過,有一點可以肯定,當人工智慧的圍棋水平遠遠勝過人類之後,人類將放棄繼續挑戰機器的狂想,就像今天人們已經習慣普通電子計算器,誰也不會與它爭一爭計算加減乘除運算速度。也許,到那時回頭看,本次烏鎮圍棋峰會可能是人機大戰歷程中最後一個峰會。