圍棋人工智慧AlphaGo
如果不算樊麾與AlphaGo(阿爾法狗)不公開進行的對局,被冠以「圍棋人機大戰」名號的正式比賽只有兩次——2016年3月AlphaGo與李世石在韓國的五番棋大戰,以及2017年5月AlphaGo與柯潔在中國的三番棋、與周睿羊等五位世界冠軍的一對多和表演賽性質的配對賽AlphaGo+古力對AlphaGo+連笑,總共也是五盤棋。
無論是對圍棋領域的影響,還是對人工智慧領域的影響,又或是論及廣泛的傳播性和帶給公眾的震撼,均是第一次人機大戰(即AlphaGo vs 李世石)的五番棋更大。
不知不覺中,第一次人機大戰已經過去兩年整了。今天是2018年3月13日,兩年前的今天,2016年3月13日,李世石在人機大戰的第四局以被後來報導為「神之一手」的一挖,引發AlphaGo出錯,獲得寶貴的一勝。這也是人類棋手面對AlphaGo在正式比賽中取得的唯一一勝(不含配對賽)。
李世石曾經在比賽後這樣談及這盤棋的勝利:「這裡要向我的朋友古力說聲抱歉,本來我以前認為我和他的十番棋是我一生中最重要的對局,但現在,我要改口了。(對AlphaGo第四局的)這盤棋獲勝是我棋士生涯中最寶貴的勝利,用什麼都不換。」
當李世石從對局時走出來後,現場的所有人包括研發AlphaGo的DeepMind團隊成員都對他表示祝賀,前幾天一直氣氛壓抑的記者會現場掌聲雷動,韓國棋院的嘉賓們臉上洋溢著喜悅的笑容。遠在中國的職業高手們也如釋重負地微笑著討論這盤棋的戲劇性進程。
儘管五盤棋過後,李世石還是以1勝4負的成績輸掉了這次人機大戰,AlphaGo的實力也被證實,以機器學習技術突破計算機圍棋的思路是正確的,但李世石並不是這次人機大戰的失敗者,韓國媒體和圍棋愛好者們把李世石視為「英雄」,也在韓國掀起了學習圍棋的新熱潮。
李世石贏下的這第四局,其價值並沒有因時間的推移而貶損。正相反,隨著人工智慧越來越強大,AlphaGo的漏洞逐漸隱去,憑著現今人類棋手的棋力已無法贏下任何一盤棋,李世石的那次勝利也就成了絕無僅有的一勝,因而越發寶貴,具有歷史意義。在以後寫成的任何一本介紹圍棋發展史的書籍中,李世石的這一勝都不可能被忽略,而且要大講特講反覆講。每一位想要學習圍棋的小棋手都會從老師那裡聽到關於這一局的故事。圍棋職業選手在學習過程中,一定會打這一局的譜。李世石的名字也將因為這麼具有傳奇性的一勝而更加帶有傳奇色彩。
李世石與AlphaGo的第一次人機大戰
我們來回顧一下第一次人機大戰的過程和AlphaGo vs 李世石的五盤棋。
計算機下圍棋被認為是比計算機下西洋棋更難的一個挑戰,因為圍棋的變化遠比西洋棋多得多,而且圍棋的局面判斷比西洋棋複雜得多。在西洋棋被計算機徵服後,近二十年裡,計算機科學與工程專家一直希望能夠把圍棋當做下一個取得突破的方向。然而,儘管計算機的性能有著日新月異的進步,卻依然與完全計算圍棋變化的目標有著遙遠的距離。
在蒙特卡洛樹搜索的算法出現後,頂尖的計算機圍棋程序可以達到業餘中等水平,與職業頂尖棋手的水平不可相提並論,只是讓五子六子的程度。
直到2015年底,DeepMind的論文發表在《Nature》之前,仍沒有多少人相信圍棋會在短期內被計算機攻克。
而事實上,在2015年10月,可以被稱為「圍棋人工智慧」的新一代計算機圍棋程序AlphaGo已經戰勝了歐洲圍棋冠軍、旅法的中國職業棋手樊麾二段。樊麾事後回憶,在連戰連敗之後,他已經有點懷疑人生了,可是因為要保密,對誰都不能說,也沒人可以幫他排解心中的鬱悶。
DeepMind把關於AlphaGo技術的論文發表在《Nature》上,公開可閱讀的時間是2016年1月底。
深度學習?監督學習?強化學習?機器學習?人工智慧?這都是什麼?圍棋界無人理解AlphaGo所採用的技術,自然也根本不相信幾個月前還被自己讓五六個子的計算機會突然具備與職業高手抗衡的能力。要知道,棋手的進步是循序漸進的,從讓五個到分先下,這之間的差距太大了。
DeepMind為了證明自己研發的圍棋人工智慧很好很強大,直接聯繫到了韓國的傳奇棋手——李世石。既然棋界認為樊麾的水平不能說明問題,那就直接叫最好的棋手來下。2016年1月初,李世石剛剛與當時排名世界第一的柯潔下了夢百合決賽五番棋,2-3惜敗,最後一盤決勝局差距只在毫釐間,可以認為李世石仍處在職業棋界的頂層。根據GoRatings的排名,那時李世石排在第三。儘管柯潔也被列入候選,如果李世石不答應,DeepMind就會詢問柯潔的意思,但李世石的名氣更大,當時柯潔還遠沒有現在的名氣這麼大。結果李世石一聽,連五分鐘都沒用,就同意接受這次挑戰。
整個圍棋界已經很多年沒有遇到這麼具有新聞關注度的事件了。比賽地點設在韓國首爾的四季酒店。來自英美韓日中等各國媒體的報導團隊齊聚,熱度未戰先起。對比賽結果的預測呈現兩邊倒的有趣狀況——計算機領域的專家一致認定AlphaGo大勝;圍棋領域的專業人士一致認定李世石連一盤恐怕都不會輸,更別提總比分輸掉了,不可能的。
比賽進行期間,國內的各大網絡媒體紛紛找職業棋手做直播嘉賓點評講解,央視在重要時段插播比賽的實時情況和評論,一時間,有空閒、會講棋的職業棋手成了被爭搶的香餑餑,簡直前所未有。與人機大戰日期重疊的職業棋戰根本沒人關注,棋界的所有目光都投向了這次人機大戰。
代替AlphaGo落子的是黃世傑博士,他本人是圍棋業餘好手,也是研究團隊的重要成員。計算機圍棋比賽多採用中國規則,相當於貼7目半,這次的人機大戰也不例外,每方2小時保留時間,3次1分鐘讀秒,這個用時與「三星杯」差不多。獲勝方獎金100萬美元,李世石有15萬美元的出場費,勝1局可獲2萬美元獎金。不少棋手開玩笑說,這是DeepMind給李世石送退休金和奶粉錢來了,這麼豐厚的獎金絕對是圍棋比賽的紀錄了,很長時間都不會有超過這一數額的獎金。言外之意,李世石將輕鬆獲勝。
李世石落子
【第一局】(2016年3月9日)
這一天具有歷史意義,人工智慧AlphaGo亮相即證明了自己的實力,DeepMind團隊興奮不已,圍棋界被驚呆了,李世石輸掉了這盤棋,輸得毫無脾氣。
執黑的李世石在布局階段抱著想試一試機器會不會下的心態,故意走了個自己也沒怎麼研究過的奇怪布局。按照棋界的想法,計算機肯定是輸入了很多人類棋譜,有一個資料庫的,以前見過的,機器會下,以前沒見過的,機器可能就不會下。殊不知,AlphaGo的算法根本就不是這麼回事,老眼光看新問題要吃大虧。
根據事後的復盤研究,從第一個局部戰鬥,AlphaGo就取得了優勢,之後無論是掌控局面的能力,還是對局部棋形的敏銳,AlphaGo都遠遠超出以往任何一個計算機圍棋的表現,令人類棋手中的佼佼者也難以招架。
賽後,很多職業棋手的第一反應就是不服,還有一些懷疑李世石與DeepMind有秘密協議不打劫的,更有看棋高三段的棋手批評李世石下得臭,「換我去下肯定怎麼怎麼能贏」。
也是在這一天,柯潔說:「就算阿法狗戰勝了李世石,但它贏不了我」。這句話收到了三萬轉發和七萬個贊。並介紹了自己的圍棋成就,世界第一人、8:2李世石、這個年紀世界冠軍拿了三次前無古人。這個介紹也獲得近五萬轉發和七萬餘個贊。
【第二局】(2016年3月10日)
本局李世石執白,意識到對手的強勁後,小李使用了中規中矩的布局,而AlphaGo面對最基本的託退定式居然先刺損變化的下法,又令觀戰的職業棋手們紛紛樂觀起來了。
隨後,AlphaGo居然又下出了五路肩衝的驚人一手。這絕對不是從人類棋手的棋譜中套用來的,人類棋手不會下這種被公認是損實地的棋。這說明,AlphaGo的圍棋具有與人類不同的思路,而且有創造性。
接下來的短兵相接和纏鬥,擔任講解的職業棋手普遍覺得李世石優勢,AlphaGo勉強。可是隨著定型收官的進程,大家一數目,咦,怎麼是李世石目數不夠?在中腹一虎之後,李世石的形勢已經明顯不樂觀了。
最後的收官階段,擔任某平臺講解的陳耀燁九段素以擅長官子聞名,他也要讚嘆AlphaGo犀利的收官搜刮手法,表示自己要向AlphaGo學習。
這一局李世石又輸了。不僅他自己背負著巨大的壓力,憂心忡忡的韓國棋院也想幫他出謀劃策。李世石選擇了趁著休息一天精心準備第三局的布局。中國圍棋界也因為李世石的兩連敗而倍感壓抑,一些不好的猜測也成了部分棋手排解抑鬱的宣洩口。
【第三局】(2016年3月12日)
再輸一局的話,100萬美元的獎金就泡湯了,五番棋也等於輸掉了。李世石沒有這樣的心理準備,所有圍棋界的人也沒有這樣的心理準備,難道真要連一局都贏不了就遭遇3-0的慘敗嗎?人類棋手這千百年的積累在人工智慧面前變得乏善可陳了嗎?
執黑的李世石下出了積極拼搏的攻擊氣勢,然而AlphaGo只用了寥寥數招就化解了李世石的攻勢,其中一手象步跳令人讚嘆。這一局AlphaGo的優勢來得更早、也更輕鬆,展現了一種讓職業高手們內心驚駭的強大境界,這是以往任何一位高手都不曾達到的傳說中的境界——你來吧,你越發力,輸得越慘,我不跟你爭,不跟你搶,都讓你走到,然後你還是輸。不戰而屈人之兵,你還怎麼下?
這盤棋是讓任何棋手都找不出什麼機會的完勝之局。AlphaGo在最後還展示了一回打劫的能力,讓質疑聲灰飛煙滅。李世石的拼搏是頑強的,也是悲壯的。
看了這盤棋,每一位職業棋手的頭頂上都像壓了一塊巨石。即便是與李世石沒有任何親情或友情關係的棋手,也為他感到難過,也對自己追求的棋理和棋道產生了懷疑。柯潔在直播講解時也承認,讓自己去下,必須得前面發揮完美,後面才差不多有一半的機會。
【第四局】(2016年3月13日)
前三局一盤未勝,從賽前的大樂觀變成現在的大悲觀。棋界的風頭由「李世石一盤都輸不了」一百八十度大轉彎成「李世石一盤都贏不了」。旁觀者尚且如此沮喪,身處漩渦中心的李世石的心情又是如何呢?換成一個心理素質稍微差一點的棋手,此時早就崩潰了。
第三局與第四局之間沒有休息日。根據李世石的夫人賽後接受採訪時所述,李世石當晚回到家,默默研究棋局,不斷地抽菸,氣氛凝重,但李世石沒有被擊垮心態。
如果是一般的五番棋對局,一方連輸三盤,第四盤、第五盤就沒必要下了。但這次的五番棋比較特殊,DeepMind為了驗證AlphaGo是否有BUG,堅持要下滿五局,不論結果如何。這個設想早就在洽談初期便得到李世石的贊同。估計當時DeepMind還是擔心AlphaGo前三局表現不佳吧。
從第四局起,李世石的目標就變成了爭取一勝。即便是這個目標,也沒什麼人看好他。
布局階段,AlphaGo下得十分出色,而且頻出新招,李世石的白棋應對艱難。不但棋局不利,李世石的用時也很緊張。轉播畫面中全神貫注思考的小李迎來自己的第四敗似乎已是必然。
第78手,白棋的一「挖」,絕境中求生。局部棋形,這是一個要點。觀戰者看到這手棋也趕緊埋頭擺變化。經過一番演算,儘管這手棋頗有妙味,但理論上,只要黑棋應對得當,仍然是黑棋的好局。
結果AlphaGo這時出錯了,而且是接連出錯,最後死了一塊又亂下。李世石在勝利接近時,沉著冷靜,穩穩守住勝果。
這一勝,打破了AlphaGo不可戰勝的神話,讓棋界歡欣鼓舞,人們發現原來AlphaGo也不是完美的,人類的圍棋還有其價值和妙處。李世石稱這是自己圍棋生涯中最寶貴的一勝。兩年後的今天,我們都明白,這也是人類棋手對AlphaGo的唯一一勝,絕無僅有。
「神之一手」是人們後來稱呼第78手的用詞。單純從圍棋的技術判斷,這手棋不是絕對有效的。但在當時的對局時,它是李世石精湛的圍棋技術、敏銳的嗅覺和強悍的意志力,再加上一些運氣,所有這些凝聚為一招落在棋盤上,就是「神之一手」。
【第五局】(2016年3月15日)
自從第四局贏了之後,李世石的心情一下子輕鬆了。如果是在這次人機大戰之前,有人問李世石,你如果只能贏一盤,心情如何?李世石大概會說,那一定糟糕透了,不過怎麼可能?世易時移,現在所有人都知道AlphaGo有多強了。
但是有第四局打底,職業高手對AlphaGo的信心恢復了不少,至少贏過一局,覺得能下了。李世石在第五局主動要求執黑,因為他執白贏了一局,想再執黑贏一局。大家都知道,大貼目規則下,執黑是比較難下的。李世石卻不在乎。只有像他這樣心高氣傲的棋手,才會在此時主動要求執黑。
這盤棋對之後一年的職業棋界布局有極為深刻的影響。託退定式+無憂角被碰之後怎麼辦,這個經常在人類高手對局中出現的布局套路,經過AlphaGo本局下法的啟發,有了新的理解。這一布局的各種衍變甚至牽涉到了布局理論的若干根本問題。
最終,這盤棋的結果是李世石小負。AlphaGo在右下角本來下得很出色的地方,中途卻突然有算錯死活損目的嫌疑,多虧了後面出色大局觀才重獲領先。
李世石的神奇一挖贏得唯一一勝
第一次人機大戰的五盤棋不僅內容有趣,過程精彩,期間棋手和旁觀者幾經起伏的心理變化也頗值得回味。李世石在第四局獲勝,讓他的傳奇之名更添傳奇色彩。
很多人意識到,從這以後,圍棋的發展進入了一個全新的時代。與歷史上幾次由卓越的人類圍棋天才引領不同,這一次圍棋理論和技術的進步是由人工智慧引領的。AlphaGo展現的是領先目前人類圍棋很多年的新境界。
而第一次人機大戰中AlphaGo的若干缺陷也成為DeepMind改進和突破的契機,並為第二次人機大戰AlphaGo vs 柯潔預留了伏筆。
(寫於第一次人機大戰李世石以「神之一手」迎來唯一一勝兩周年)