最後的人機圍棋大戰,柯潔能否一勝?

2021-02-15 騰訊科技

點擊上方「騰訊科技」，選擇「置頂公眾號」

關鍵時刻，第一時間送達！

文/騰訊科技卜祥劉亞瀾

直到最後一刻，20歲的柯潔都在努力去贏對手人工智慧AlphaGo一盤棋。柯潔是中國圍棋職業九段棋手，現今圍棋等級分排名世界第一。

2017年5月25日下午1點37分時，浙江烏鎮，柯潔將三顆白子撂在黃棋盤上認輸，來不及整理一下吃敗仗後的沮喪表情，立刻與對手開始復盤。兩天前的同一個場地，他已經輸了第一盤，按照賽前規定，此番認輸表示整個比賽，三決兩勝，他已經輸掉了整個比賽。

但是，接下來新聞發布會上，柯潔當著眾多記者的面，向AlphaGo研發公司Deepmind負責人哈薩比斯爭取最後一盤對抗執白棋權益。按照之前猜先規矩，第一盤柯潔執黑，第二盤執白，第三盤應該執黑。業界知道，柯潔執白棋勝率遠高於黑棋。

按照本次圍棋峰會日程，26日舉行配對賽和中國圍棋五人團隊與AlphaGo對弈。據現場解說員、柯潔朋友古力透露，柯潔提出想成為這場對抗賽的擺棋「人肉臂」，被主辦方拒絕。顯然，這位人類圍棋「代表」者柯潔，一直在爭取點滴機會多了解對手AlphaGo。

26日當天舉行的配對賽和團隊對弈AlphaGo，柯潔雖然沒有作為選手登場，也沒有像第一場失利之後去池塘釣魚、拉弓射箭，而是一直泡在後方研究室裡，關注場上比賽變化。據AlphaGo官方團隊證實，柯潔當天下午觀看中國五人團體對戰AlphaGo過程中，首先在一步棋上提出了靠完尖的下法，被其他棋手嘲笑否定。不久之後，AlphaGo使出了一模一樣的著法。

某種程度上，柯潔是在為人類棋手而戰，也是在為自己而戰。2016年3月，AlphaGo在韓國首爾與李世石對戰五局中，輸掉第四局。李世石成為目前戰勝過人工智慧AlphaGo的最後一人。如果柯潔不能勝一盤AlphaGo，歷史將會像記住戰勝過IBM深藍電腦的西洋棋冠軍卡斯帕羅夫、第一個登月的阿姆斯特朗一樣記住李世石，而不是柯潔。

兩次與現場預判相反的逆轉

從最初看不上眼，到贏了韓國棋手李世石之後被震驚，再到稱呼AlphaGo為「阿老師」，圍棋手們在不斷地調整著對於人工智慧最新代表者AlphaGo的認知。峰會上，最讓中國棋手們渴望和興奮的是試圖找到AlphaGo一些破綻。

中國圍棋隊總教練俞斌此前表示，AlphaGo的弱點，在去年對李世石第四盤中所表現出來的「無中生有」的失誤，當李世石下出第78手妙棋之後，AlphaGo開始失常。他將這種失誤稱為「開放性計算的誤算」。這種誤算在AlphaGo對李世石第五局的角上計算也出現過。

人們覺得AlphaGo是電腦，擅長計算，可能不擅長從大局考慮。經過幾番對戰，棋手們推翻了此前判斷，他們發現AlphaGo駕馭大局能力並不比人類弱，很難從中佔到便宜。又有人大膽提出，AlphaGo可能擅長布局，不擅長計算；還有人提出AlphaGo下棋，重撈實地，不重形勢。像盲人摸象，人類棋手不停地嘗試著。

另外，有棋手們推斷，人工智慧圍棋經常走棋時刪繁就簡，不造劫材，可能不擅長「應劫」，多多打劫可能會讓電腦犯糊塗，並舉出網上一些贏了AI圍棋的例子證明，不斷挑起肉搏，在亂戰中尋找機會殺死AI圍棋大龍方才有獲勝機會。

以上這些因暫時沒有人類戰勝AlphaGo和今年初AlphaGo匿名化身的Master，無從證明。

倒是現場解說員，對於棋盤上勝負預期兩次與最終AlphaGo走出的結果完全相反，著實讓現場的觀眾和解說員一起好久難以緩過勁來。

第一次來自柯潔25日與AlphaGo的第二場比賽。開局至前100手，棋手古力九段根據柯潔臉上表情、較少揪頭髮的動作和棋盤上局勢得出柯潔的棋相當樂觀，有獲勝的希望。「AlphaGo之父」哈薩比斯（Demis Hassabis）在11：32通過社交網絡對外稱：「根據AlphaGo的評估，柯潔此時此刻下的非常完美。」當時比賽還在進行當中，這條推文截圖立刻在現場傳播。觀眾有些興奮，期待柯潔代表人類給機器一個教訓。

這個希望隨著柯潔投子認輸而泯滅。

第二次是26日上午連笑+AlphaGo一起對戰古力+AlphaGo，現場氣氛隨著解說員引導，認為時間相對充裕的古力一方勝券在握。結果卻是古力一方AlphaGo主動投降，古力拒絕，下了十來手之後，古力認識到大勢已去，親自舉起投降牌子。

賽後，騰訊科技追隨著一名現場解說員問為何出現逆轉情況、AlphaGo和古力誰下出惡手等問題，此位解說員思緒一直停留在比賽中，難以回神應答。

AlphaGo帶給人類圍棋界的震驚仍然在繼續，並擴大著影響範圍。只是很多人現場見證之後，感受更為深刻——很多人是懵的，包括職業棋手和一些專家。

這或許意味著，在遠超人類計算能力的人工智慧AlphaGo面前，職業棋手與業餘棋手之間的差距，可能沒有職業棋手與AlphaGo之間差距大，整個圍棋界將因為AlphaGo的存在引起一些固有結構的崩塌。這之後，誰能有與AlphaGo切磋棋藝的機會，誰就有可能更快地成長，走得更遠。

更強的AlphaGo

如果烏鎮峰會上柯潔勝一局，意義將不同於去年李世石取勝。

5月24日，在新版本AlphaGo首戰以1/4子優勢戰勝柯潔之後，DeepMind創始人兼CEO 哈薩比斯、AlphaGo團隊負責人David Silver在人工智慧高峰論壇上稱，「AlphaGo已經可以模仿人類直覺。在過去一年，我們想打造完美的AlphaGo，彌補它知識方面的空白。因為在與李世石的比賽中，它是有缺陷的。」哈薩比斯說。據介紹，AlphaGo升級後新版本可以讓老版本三個子。

哈薩比斯稱圍棋因為太過複雜，窮舉搜索難以解決。對於計算機來說，圍棋有兩項難題：很難寫出評估程序以決定誰贏；搜索空間太過龐大。

圍棋不像象棋等遊戲靠計算，而是靠直覺。圍棋中沒有等級概念，所有棋子都一樣。圍棋是築防遊戲，因此需要盤算未來。為此，AlphaGo團隊用兩種卷積神經網絡去完成：策略網絡和估值網絡。策略網絡的卷積神經網絡用於決定下一步落子可能的位置，價值網絡用於評估當前棋局獲勝的概率。

為了應對圍棋巨大複雜性，AlphaGo 採用機器學習技術，結合了監督學習和強化學習的優勢。通過訓練形成一個策略網絡（policy network），將棋盤上的局勢作為輸入信息，並對所有可行的落子位置生成一個概率分布。

然後，訓練出一個價值網絡（value network）對自我對弈進行預測，以 -1（對手的絕對勝利）到1（AlphaGo的絕對勝利）的標準，預測所有可行落子位置的結果。這兩個網絡自身都十分強大，而 AlphaGo將這兩種網絡整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。最後，新版的AlphaGo 產生大量自我對弈棋局，為下一代版本提供了訓練數據，此過程循環往復。

地平線創始人、百度前深度學習研究院負責人餘凱告訴騰訊科技，這次AlphaGo來到中國，技術提升的進步體現在兩方面，一方面是AlphaGo 2.0算法，更多強調通過自我博弈，加上通過學習人類棋手的歷史數據提升棋藝，一般來說，人工智慧需要大數據，而AlphaGo這種做法，並不需要那麼多大數據，從零開始，提升棋藝。「我覺得這具有革命性意義。」

另一方面，Deepmind母公司自己研發的新型架構處理器TPU的使用，做到了AlphaGo「單機版」，進一步減少了對處理器數量的需求。

曾經，人工智慧學界認為傳統硬體很難進一步提升AlphaGo棋力。去年李世石與AlphaGo開戰之前，創新工場創辦者李開復在知乎上撰文說明，下圍棋計算，需要增加硬體。線性地從1202個CPU增加到1920個CPU，AlphaGo的技戰指數（ELO）只增加了28，並未跟著跳躍增長。

但是，TPU的出現極大地提高了計算性能，同時能耗更小，體積也更小。餘凱認為通過TPU加大的計算能力，硬體能力提升使得搜索進入一個更大的求解空間。「硬體提升也是令業界矚目的。」

國內人工智慧晶片研發公司寒武紀曾預言，採用人工智慧晶片，AlphaGo只需要一臺個人電腦大小的主機。這次烏鎮圍棋峰會上，雖然Deepmind公司未能完全達到，卻朝這個方面在進步。值得一提的是，寒武紀公司創始人陳天石告訴騰訊科技，早期與一位法國專家Olivier Temam一起研究人工智慧晶片，這位法國人後來加入了Deepmind的母公司，成為TPU團隊中一員。

未來，更強的人工智慧晶片的出現，與人類棋手的水平將越拉越遠。

逼至AIpahGo極限的比賽

一方面人類棋手在尋找機會戰勝AlphaGo，另一方面，節節勝利的AlphaGo正在被神化。

在峰會現場，騰訊科技發現一個有趣現象。作為AlphaGo的核心人物之一，黃士傑博士充當機械臂擺放棋子，整個比賽過程中通常面無表情，不上廁所、不喝水。不斷吃敗仗之後，人們開始談論黃的表情，甚至開始探究黃擺放棋子的手勢，用大拇指和用中指是否代表著不同心情。

本次烏鎮圍棋峰會之前，柯潔究竟研究了多少盤AlphaGo曾走過的棋？無人知曉。人們注意到，柯潔在與AlphaGo對局時，已經可以熟練運用由AlphaGo採用的一些棋招。

最常被人舉例的是所謂「點三三」走法。在對手先手佔據星位時，自己再從三三路位置打入。擱在AlphaGo之前，下棋者使用此辦法，「會被老師打屁股，甚至會被認為不會下棋」，不僅一位棋手說。但是，從去年底和今年初AlphaGo大量應用此招，並取得勝利之後，圍棋界對「點三三」做法重新評估。現在普遍持星位和三三位互為弱點，充滿辯證意味。

人與機器對弈中，人類開始借鑑學習人工智慧。

23日，柯潔第一盤棋輸掉四分之一子，屬於穩紮穩打下法。25日，柯潔明顯換了一種風格，他試圖與AlphaGo激烈對抗，製造更多紛爭。一度，在左下角的一塊棋有劫爭，AlphaGo遲遲不能像慣常做法那樣化繁就簡，「撐在那裡」。盤面最複雜時，有七八條大龍在相互絞殺糾纏，盤面充滿不確實性。

這是柯潔最興奮的時刻，後來也被證明是他離勝利最近的時刻。當時，他用手撫了撫心臟。「太緊張的緣故，想讓它跳得慢一點」，柯潔在賽後發布回顧當時下棋感覺。

「柯潔在這場比賽中是有很多的機會。」哈薩比斯說：「前100步是目前為止和AlphaGo下得最勢均力敵的人。」他稱柯潔比賽中一度將AlphaGo逼至了極限。

遺憾的是，「興奮之後出現了失誤」，柯潔事後坦承未能克服人類的情緒弱點。有情感的人類與只知勝負概率的AlphaGo之間究竟不是同一物種。

現在看來，人類或有可能因為AlphaGo的棋路和棋譜，挖掘出圍棋更多的、沒有被人類探索和理解的地方，利用得當，會使目前圍棋整體水平再上一個臺階。重慶人工智慧公司雲叢科技創始人周曦持此觀點。他對騰訊科技分析說，AlphaGo下了很多人類理解不了的棋，打破了人類圍棋思維定勢，使得人類棋手更多的反思和學習。同樣的，人的學習抽象理解能力，也不是AlphaGo能掌握的。

未來是否會開放AlphaGo給所有的圍棋愛好者？戰勝人類棋力最強的柯潔之後，下一次還會舉辦此類圍棋峰會嗎？對於騰訊科技這些問題，AlphaGo方面核心人員之一David Silver避重就輕地給予了回答，「AlphaGo只是作為研究為主，沒有進一步計劃。」

不過，有一點可以肯定，當人工智慧的圍棋水平遠遠勝過人類之後，人類將放棄繼續挑戰機器的狂想，就像今天人們已經習慣普通電子計算器，誰也不會與它爭一爭計算加減乘除運算速度。也許，到那時回頭看，本次烏鎮圍棋峰會可能是人機大戰歷程中最後一個峰會。

最後的人機圍棋大戰,柯潔能否一勝?

相關焦點

圍棋人機大戰中國第一人柯潔應戰阿爾法狗

柯潔再迎「人機大戰」將對弈國產圍棋人工智慧「星陣」

最終一戰柯潔再負AlphaGo,此後再無圍棋人機大戰

人機大戰勝負手黑白乾坤看柯潔

人機大戰第三局柯潔再負AlphaGo 淚灑現場

柯潔三次喊話人機大戰背後,人工智慧正飛速進步

柯潔再負AI 人機大戰已無懸念

柯潔再戰人工智慧「人機大戰」第三次結果如何

柯潔宣布退出微博原因介紹曾與AlphaGo進行人機大戰

柯潔四月將戰阿爾法狗人機大戰第二季開啟

人機大戰第三局!柯潔完敗AlphaGo 日本網友沸騰了

人機大戰三年後,圍棋運動正走向何處

人機大戰福州上演柯潔中盤不敵「星陣」

人機大戰第三局柯潔失利苦笑堅持復盤俞斌:關鍵時刻不謹慎

"阿爾法狗"化身"大師" 人機大戰第二季箭在弦上?

3-0 「阿爾法圍棋」贏了柯潔哭了

計算機:圍棋人機大戰落下帷幕,華為逆勢進軍PC市場

柯潔對戰阿爾法狗人機大戰第三局棋譜圖文講解完整版

人機大戰成「絕唱」:人類圍棋向何處去?

圍棋人機大戰一周年:被AlphaGo改變的世界

最後的人機圍棋大戰,柯潔能否一勝?

相關焦點

圍棋人機大戰 中國第一人柯潔應戰阿爾法狗

柯潔再迎「人機大戰」 將對弈國產圍棋人工智慧「星陣」

最終一戰柯潔再負AlphaGo,此後再無圍棋人機大戰

人機大戰勝負手 黑白乾坤看柯潔

人機大戰第三局柯潔再負AlphaGo 淚灑現場

柯潔三次喊話人機大戰背後,人工智慧正飛速進步

柯潔再負AI 人機大戰已無懸念

柯潔再戰人工智慧 「人機大戰」第三次結果如何

柯潔宣布退出微博原因介紹 曾與AlphaGo進行人機大戰

柯潔四月將戰阿爾法狗 人機大戰第二季開啟

人機大戰第三局!柯潔完敗AlphaGo 日本網友沸騰了

人機大戰三年後,圍棋運動正走向何處

人機大戰福州上演 柯潔中盤不敵「星陣」

人機大戰第三局柯潔失利苦笑堅持復盤 俞斌:關鍵時刻不謹慎

"阿爾法狗"化身"大師" 人機大戰第二季箭在弦上?

3-0 「阿爾法圍棋」贏了 柯潔哭了

計算機:圍棋人機大戰落下帷幕,華為逆勢進軍PC市場

柯潔對戰阿爾法狗人機大戰第三局棋譜圖文講解完整版

人機大戰成「絕唱」:人類圍棋向何處去?

圍棋人機大戰一周年:被AlphaGo改變的世界

圍棋人機大戰中國第一人柯潔應戰阿爾法狗

柯潔再迎「人機大戰」將對弈國產圍棋人工智慧「星陣」

人機大戰勝負手黑白乾坤看柯潔

柯潔再戰人工智慧「人機大戰」第三次結果如何

柯潔宣布退出微博原因介紹曾與AlphaGo進行人機大戰

柯潔四月將戰阿爾法狗人機大戰第二季開啟

人機大戰福州上演柯潔中盤不敵「星陣」

人機大戰第三局柯潔失利苦笑堅持復盤俞斌:關鍵時刻不謹慎

3-0 「阿爾法圍棋」贏了柯潔哭了