棋盤上的湧現:圍棋、AlphaGo與遊戲|張江

2021-01-20 集智舊號

張江,北京師範大學系統科學學院副教授。主要關注領域:複雜系統中的流網絡、異速生長、經濟社會系統多樣性。2003年創辦早期的集智俱樂部網站,2007年創辦線下活動的集智俱樂部,組織多學科研討會、讀書會。


361個格子,黑白兩種棋子。雙方輪流下棋,一方上、下、左、右四子將另一方子圍住就可以把它吃掉,Over。

 這就是圍棋——迄今為止人類發明的最偉大遊戲(沒有之一,至少在我心目中)。據傳圍棋的發明可以追溯到堯的時代,經過4000多年的演化,圍棋的基本規則從來沒有變過,然而在這個小小19*19的棋盤上卻湧現出了何止成千上萬的玩法,凝聚了多少高手的注意力!

圍棋之所以好玩就在於它的湧現性——在這組簡單規則之上展現出來的複雜特性。首先,圍棋並不是簡單地碼子,而是在較量圍空的能力。空是中國傳統哲學中的一個重要概念。老子云,「有之以為利,無之以為用」。我們用杯子的空盛水,用門洞的空通行。正是由於這種有無、陰陽的變換使得圍棋的複雜性遠遠超過了其他棋類。

其次,圍棋需要有大局觀,也就是從比較大的空間尺度思考棋子的布局。初學者下棋往往喜歡將棋子緊密地排布,而不會跳躍著擺棋——這是因為它們尚不會從更大的空間尺度思考問題。所以,第一步突破就是要擺脫局部的思維,看到整體的模式和運動規律。

然而,這並不意味著只要我們學會圍棋的態勢,隨隨便便地在棋盤亂擺幾個子就行了。我們還必須學會局部的絞殺,因為局部絞殺不利就會失去一大片土地。這就是圍棋中的對稱性破缺現象——本來勢均力敵的黑白態勢會一下子被大面積地提子而打破。

 智力始終在追逐可玩性強的遊戲。智力對遊戲的沉浸時間基本是和智能的強弱成正比。因此,當人工智慧(Artificial Intelligence,簡稱AI)逐步成長起來後,必然會在這個棋盤上對人類發起挑戰。這一天終於來臨了。

我們知道,早在1997年,IBM開發的大型機深藍就是靠超強計算能力戰勝了西洋棋世界冠軍卡斯帕羅夫。然而這一招放到圍棋上就不靈了,原因在於圍棋的搜索空間太大了,據說圍棋棋局的可能性空間甚至多於宇宙中所有原子數目的總和——這恰恰是因為圍棋中有大量的空,而不僅是棋子佔領的實。人類則因為可以在高層次判斷棋局的態勢,從而用直覺和棋感裁減掉大量的可能性分支。


AlphaGo要想戰勝人類需要採取完全不同的思路,這就是機器學習。機器學習與傳統的暴力搜索AI很不一樣。就像我們教小孩,傳統的AI是一種填鴨式教育,小孩只會死記硬背;而機器學習更像是素質教育,為小孩提供一個舞臺,放手讓他自己表演。所以,原則上講,Google工程師們就是為AI搭建了一個舞臺,這包括兩套網絡:政策網絡(Policy network)和評價網絡(Value network),剩下來的就是失控,讓AI程序在大規模的計算和學習中自發湧現。


政策網絡主要幫助AlphaGo學習棋譜,它們搜颳了大量網絡上的人類棋譜。評價網絡則學習各種實戰經驗。然而實戰學習的一個關鍵問題是,誰來反饋給機器關於某一步走法正確與錯誤的信息呢?要知道,原則上講圍棋的任何一步走棋都沒有絕對的好壞,只有最後時刻才能定出輸贏。事實上,在這次人-機對戰中,有很多AlphaGo的走法都讓圍棋高手看不懂,以為是爛招,但事後復盤才發現原來那招很妙:也就是說,在漫長的走棋過程中,人類導師不可能給AlphaGo任何指導信息。於是,AlphaGo不得不祭出了它的殺手鐧——強化學習算法(Reinforcement learning algorithm)。

其實,強化學習早在1950年代的時候就被發明。在1956年的達特茅斯會議上(人工智慧這個詞兒就是在這個大會上提出來的,因此1956年被認為是人工智慧元年,而達特茅斯也被認為是人工智慧的誕生地),著名計算機科學家Arthur Samuel的跳棋程序大顯身手,它通過反覆的強化學習可以輕鬆打敗這個程序的作者,並很快能夠與美國的某個州冠軍相媲美。


我們不妨將一步一步的棋局看作一條時間中的長長鏈條,在這條鏈的終點就是可以分出輸贏的結局。於是,如果機器下完一盤棋並且獲勝,就有一罐蜂蜜從這條鏈的終點反向傳播,沿途播撒蜜汁給那些棋局。這樣,當機器開始一局嶄新的棋局的時候,它就知道追逐蜂蜜的引導而走棋。漸漸地,機器就具備了自己的好惡,慢慢培養出了棋感。

就這樣,在上千萬次AlphaGo自己和自己的對局中就訓練出來了評估網絡,具備了實戰經驗。 然而僅僅有強化學習抹蜂蜜的本領還不行。要知道,AlphaGo面對的可是全世界冠軍,必須要像高手那樣有大局觀,而圍棋的複雜性也體現在它的多尺度特徵上。

於是,AlphaGo需要祭出它的第二號殺手鐧——卷積神經網絡(Convolutionalneural network,簡稱CNN)——聽這名就夠扭曲和神經的。事實上,近幾年深度學習發展突然這麼火爆就是和這個卷積網絡的大範圍應用分不開的。這種網絡相比較傳統的神經網絡最大的進步就在於考慮到了空間上的平移、旋轉不變性,使得圖像識別率可以得到大幅度提高。而配備上多個層次的卷積網絡則可以讓它在多尺度上處理圖片信息。其實,傳遞給AlphaGo的棋局信息都要首先經過卷積網絡的處理,提取出多個不同尺度的信息,才交給其他網絡加以處理。這就使得它可以既具備大局觀,又能在局部絞殺。 

當然,上面提到的所有機器學習技術都是在賽前使用的,AlphaGo必須在對戰前完成大規模的學習。但是,在比賽的過程中,AlphaGo還必須能夠臨場發揮,從自己龐大的學習經驗庫中調取應戰策略。而這種調度方法就需要由蒙特卡洛搜索技術來完成。蒙特卡洛是歐洲的一個著名的賭城,相當於美國的拉斯維加斯。一提賭博,我們一定能聯想到骰子和老虎機。所以蒙特卡洛就成為了隨機、機遇的代名詞。蒙特卡洛搜索便是一種隨機搜索策略,它比傳統的搜索算法更加快速而實用。 


儘管這三個技術看起來都不複雜——但是它們的疊加使用足以讓每一個人工智慧工程師眼花繚亂以至於崩潰,因為湧現正在大規模集成電路中發生。正是這種超越規則的湧現才使得AlphaGo看起來具備了智能。 

當人們還在喋喋不休地爭論機器是否能具有創造力的時候,AlphaGo已經開創出了圍棋歷史上的全新走法,甚至可以說是Alpha流派。比賽後,人們津津樂道於AlphaGo發明出來的讓所有圍棋大師都大跌眼鏡的奇葩走法。什麼自我意識、創造力,一切都是浮雲。只要給我足夠強大的學習空間,大規模代碼的交互足以產生令人崩潰的複雜性的時候,我就可以湧現出任意你們人類引以為豪的東西。所以,失控與湧現才是上帝的寵兒。

 無論後面三場比賽的結果如何,AI已然摧殘和打擊了人類的自信心和自尊心。人們不禁迷茫——是不是人類以後就沒必要舉行圍棋比賽了?所有的棋局走法都交給人工智慧來發明好了?是不是我們人類做一切事情都沒有意義了?全部等待著AI來超越好了?

當人類沿著這種思路思考的時候,其實已經將人和機器推到了一個有限的遊戲框架中。於是,雙方處於一種不是你死就是我活的二難境界。然而,正如詹姆斯•卡斯(James P. Carse)所說的,除了這種司空見慣的有限遊戲,宇宙中還存在著更大的無限遊戲。而這種無限遊戲的最終目標是參與其中,而不是獲得勝利。針對圍棋而言,我們不應該將AI用於戰勝人類,而是應該運用強大的AI程序來改造圍棋遊戲本身。我們知道,由於簡單性,圍棋規則已經經歷了四千多年的歷史幾乎沒有任何變化。那麼,AI是否能夠給我們帶來一個全新升級版的圍棋遊戲,讓所有的人都能參與其中並樂此不疲?順便廣告一下,沿著這個思路,集智俱樂部的羅三水同學正在嘗試結合生命遊戲和圍棋,而創造出了生命圍棋的新型遊戲(詳情請見:http://gooflife.com/)

總而言之,我們習慣沿襲一種工業化時代的世界觀來思考人和機器的關係,於是戰勝與取代似乎是必然的結局。然而,當我們從封閉世界走向開放宇宙,人-機共生將會給我們帶來更加寬廣的天地。也許未來AI的最大用途就是設計遊戲,最終將會出現一個超級好玩的Matrix世界,所有人類將醉生夢死其中。


讓蘋果砸得更猛烈些吧!!!


長按識別二維碼,關注集智俱樂部,

讓我們離科學探索更近一步。

相關焦點

  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    雷鋒網 AI 科技評論消息,北京時間 12 月 11 日晚,DeepMind 在 twitter 上宣布推出圍棋教學工具 AlphaGo Teach。上圖中,標有白圈的黑子表示上一手,虛線圓圈表示 AlphaGo 下一步可能的走法,實線圓圈表示人類選手下一步可能的走法,圓圈中的數字表示 AlphaGo 評估的黑子勝率。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    ZM-GO  | 周末圍棋 弈路伴你 點名關注
  • 如何選購圍棋棋盤
  • 阿爾法圍棋ALPHAGO 紀錄片
    一種策略型二人棋類遊戲,中國古時稱「弈」,西方名稱「Go」。Ta既讓人聚精會神,又令人如醉如夢。那就像是把你的手放到宇宙的禁區上。如果你認真地下圍棋,那麼你就可能獲得在地球上獨一無二的那種體驗。圍棋大概是人類所設計的最複雜的遊戲了在圍棋上打敗職業棋手是人工智慧研究的一個長期而巨大的挑戰。
  • AlphaGo 圍棋教學工具已發布
    >https://alphagoteach.deepmind.com/zh-hans黃士傑博士:大家好,很高興向大家宣布,AlphaGo教學工具上線了。基於 231,000 盤人類棋手對局以及 75 盤 AlphaGo 與人類棋手對局的數據,本工具提供對圍棋近代史上 6,000 種開局變化的分析。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 解讀:AlphaGo 是如何被訓練成圍棋之神?
    準備好棋盤和腦容量,一起來探索吧?圍棋棋盤是19x19路,所以一共是361個交叉點,每個交叉點有三種狀態,可以用1表示黑子,-1表示白字,0表示無子,考慮到每個位置還可能有落子的時間、這個位置的氣等其他信息,我們可以用一個361 * n維的向量來表示一個棋盤的狀態。我們把一個棋盤狀態向量記為s。
  • AlphaGo之父詳解「圍棋上帝」是怎樣煉成的
    圍棋難在哪兒?歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程式Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在西洋棋比賽中戰勝世界冠軍加裡·卡斯帕羅夫。相比之下,圍棋看似規則簡單,複雜性卻是難以想像的。
  • 你以為人類只有圍棋下不過阿爾法狗嗎?DOTA也玩不過它!
    「OpenAI」與「alphago」真正意義上的區別在哪裡?「OpenAI」與「alphago」從簡單的層面上來說,就好像是黑白電視和彩色電視的區別。阿爾法狗這種棋牌類的遊戲。他需要處理的數據並不是很多。只需要計算出來每一步勝率的大小就可以了。
  • 不爭觀為何只有一個棋盤,世間正邪如這圍棋黑白子,勝者為王!
    ,由於它的棋子只有黑白兩色,在棋盤上的兩個人就像對峙一般,因此古代又稱圍棋為「弈」,對弈就是這麼來的。圍棋是琴棋書畫四藝之一,很多文化大家都會下圍棋,這樣一來我們便不難理解谷主為何如此喜歡下棋了。圍棋對於谷主來說不僅僅是個遊戲,在這小小的棋盤之上,谷主參悟了世間的黑白。雲憂谷雲憂谷是一個世外桃源,《桃花源記》有云:「不足為外人道也,」谷內雖然芳草鮮美,但是谷主卻不願意讓白糖說出谷內的一切。
  • AlphaGo是如何學會下圍棋的
    圍棋界的風雨欲來時,亦是AI界的重要突破日,本文將為你重現人工智慧來臨時代的重要進步時刻。 第一縷星火 人工智慧領域取得了一項重要突破----一在圍棋項目中,一個由谷歌研究團隊開發的計算機系統AlphaGo擊敗了歐洲的頂尖職業棋手。在此之前,這個關於戰略性和直觀判斷的古老東方競技遊戲,已經困擾了人工智慧專家們數十年之久。
  • 擊敗了李世石九段的圍棋人工智慧「AlphaGo」究竟是什麼?
    這也解釋了為什麼 AlphaGo 是基於卷積神經網絡的,畢竟圍棋裡勝利的原理是:對弈雙方在棋盤網格的交叉點上交替放置黑色和白色的棋子。落子完畢後,棋子不能移動。對弈過程中圍地吃子,以所圍「地」的大小決定勝負。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。按照時越九段的話說就是,來自未來的著法。
  • Google人工智慧擊敗歐洲圍棋冠軍, AlphaGo 究竟是怎麼做到的?
    這是電腦程式第一次在全尺寸(19X19)的棋盤上擊敗了人類專業選手,這一成果過去認為至少需要 10 年才能實現。歐洲圍棋冠軍樊麾:2005 年樊麾被正式聘任為法國圍棋隊和少年圍棋隊的總教練,那一年的他才 24 歲。他是 2013、2014 和 2015 歐洲圍棋賽冠軍。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。 文中介紹了AlphaGo Zero,它的學習從零開始,且單純基於與自己的對弈。人類的輸入僅限於棋盤和棋子,沒有任何人類數據。
  • 阿爾法狗zero是否將宣告圍棋的終結
    圍棋的危機可以說在去年2018年又上了一個臺階。新版阿爾法狗zero更進一步,可以通過自我學習,強化自身,讓人工智慧成了不敗將軍。那麼作為人類,為什麼還要學圍棋呢?阿爾法狗的成功身份意味著圍棋和西洋棋的死亡?
  • 深度解讀AlphaGo Zero 教你訓練一個「圍棋高手」
    深度解讀AlphaGo Zero 教你訓練一個「圍棋高手」 在2017年,深度學習和人工智慧都取得了驚人的進步
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    經過大約40天的訓練(約2900萬場自玩遊戲),AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」
  • 棋跡:少年AlphaGo Zero的圍棋成長之路
    想在圍棋上贏,你需要雙系統:行棋與勝負,一個斷生死,一個斷地盤。而AlphaGo Zero下圍棋,卻只需要一個系統,它同時包含了走子策略網絡和價值網絡。針對AlphaGo Zero的報導鋪天蓋地,官方解釋不如生動展示。烏鎮智庫整理出兩大有趣的解讀模塊,從圍棋知識徵子入手與雙遊戲對比,後附AlphaGo Zero訓練棋盤復盤,帶你感受Zero的真實段位。
  • 谷歌DeepMind團隊圍棋AI新進展:AlphaGo升級版AlphaZero強勢來襲
    這個程序被稱為AlphaZero,它教會自己在短短三天內玩三種不同的棋盤遊戲(西洋棋、圍棋和日本版西洋棋),沒有人為幹預,這一描述成就的論文發表在《科學》雜誌上。DeepMind執行長兼聯合創始人Demis Hassabis說「從完全隨機的遊戲開始,AlphaZero逐漸學會了什麼是好的遊戲,並形成了自己對遊戲的評價。從這個意義上講,它不受人類對遊戲思考方式的限制。」