Google人工智慧擊敗歐洲圍棋冠軍, AlphaGo 究竟是怎麼做到的?

2021-01-09 雷鋒網

編者按:本文由新智元原創翻譯自Nature。如果覺得此文深奧,關於機器學習,還可看雷鋒網(公眾號:雷鋒網)早期文章:《機器自學72小時堪比國際大師,深度學習到底有多厲害?》

圍棋一直被視為人工智慧最難破解的遊戲。就在今天,《Nature》雜誌以封面論文的形式,介紹了 Google DeepMind 開發的人工智慧程序 AlphaGo,它擊敗了歐洲圍棋冠軍樊麾,並將在 3 月和世界冠軍李世乭對戰!Google 特地為此準備了 100 萬美元獎金。

從西洋棋的經驗看,1997 年人工智慧第一次打敗人類後,2006 年成為了人類在西洋棋的絕唱,自此之後人類沒有戰勝過最頂尖的人工智慧西洋棋選手。在 AlphaGo 打敗了歐洲圍棋冠軍後,世界冠軍李世乭和 AlphaGo 的對弈,是否會成為人類在圍棋領域的絕唱?

Nature 封面論文:Mastering the game of Go with deep neural networks and tree search(通過深度神經網絡和搜索樹,學會圍棋遊戲)

AlphaGo 給圍棋帶來了新方法,它背後主要的方法是 Value Networks(價值網絡)和 Policy Networks(策略網絡),其中 Value Networks 評估棋盤位置,Policy Networks 選擇下棋步法。這些神經網絡模型通過一種新的方法訓練,結合人類專家比賽中學到的監督學習,以及在自己和自己下棋(Self-Play)中學到強化學習。這不需要任何前瞻式的 Lookahead Search,神經網絡玩圍棋遊戲的能力,就達到了最先進的蒙特卡洛樹搜索算法的級別(這種算法模擬了上千種隨機自己和自己下棋的結果)。我們也引入了一種新搜索算法,這種算法將蒙特卡洛模擬和價值、策略網絡結合起來。

通過這種搜索算法,AlphaGo 在和其他圍棋程序比賽的勝率達到了 99.8%,並以 5:0 的比分擊敗了人類歐洲圍棋冠軍樊麾。這是電腦程式第一次在全尺寸(19X19)的棋盤上擊敗了人類專業選手,這一成果過去認為至少需要 10 年才能實現。

歐洲圍棋冠軍樊麾:2005 年樊麾被正式聘任為法國圍棋隊和少年圍棋隊的總教練,那一年的他才 24 歲。他是 2013、2014 和 2015 歐洲圍棋賽冠軍。

通過將 Value Networks、Policy Networks 與樹搜索結合起來,AlphaGo 達到了專業圍棋水準,讓我們看到了希望:在其他看起來無法完成的領域中,AI 也可以達到人類級別的表現!

關於DeepMind 團隊對圍棋項目的介紹,可進入新智元查看。

| 論文簡介

所有完全信息(perfect information)博弈都有一個最優值函數(optimal value function),它決定了在所有參與博弈的玩家都做出了完美表現的情況下,博弈的結果是什麼:無論你在棋盤的哪個位置落子(或者說是狀態s)。

這些博弈遊戲是可能通過在含有大約個bd可能行動序列(其中b是博弈的寬度,也就是在每個位置能夠移動的步數,而d是博弈的深度)的搜索樹(search tree)上反覆計算最優值函數來解決的。在象棋(b≈35,d≈80)和圍棋之類(b≈250,d≈150)的大型博弈遊戲中,窮盡地搜索是不合適的,但是有效搜索空間是可以通過2種普遍規則得到降低的。

首先,搜索的深度可能通過位置估計(position evaluation)來降低:在狀態s時截取搜索樹,將隨後的子樹部分(subtree)替換為根據狀態s來預測結果的近似的值函數v(s)≈v*(s)。這種方法使程序在象棋、跳棋、翻轉棋(Othello)的遊戲中表現超越了人類,但人們認為它無法應用於圍棋,因為圍棋極其複雜。

其次,搜索的寬度可能通過從策略概率p(a| s)——一種在位置s時表示出所有可能的行動的概率分布——中抽樣行動來降低。比如,蒙特卡洛法通過從策略概率p中為博弈遊戲雙方抽樣長序列的行動來讓搜索達到深度的極限、沒有任何分支樹。將這些模擬結果進行平均,能夠提供有效的位置估計,讓程序在西洋雙陸棋(backgammon)和拼字棋(Scrabble)的遊戲中展現出超越人類的表現,在圍棋方面也能達到低級業餘愛好者水平。

圍棋為何如此複雜?

圍棋有3361 種局面,而可觀測到的宇宙,原子數量才1080。

圍棋難的地方在於它的估值函數非常不平滑,差一個子盤面就可能天翻地覆,同時狀態空間大,也沒有全局的結構。這兩點加起來,迫使目前計算機只能用窮舉法並且因此進展緩慢。

但人能下得好,能在幾百個選擇中知道哪幾個位置值得考慮,說明它的估值函數是有規律的。這些規律遠遠不是幾條簡單公式所能概括,但所需的信息量還是要比狀態空間本身的數目要少得多(得多)。一句話,窮舉狀態並不是最終目標,就算以後超超級計算機能做到這一點,也不能說解決了人工智慧。只有找到能學出規律的學習算法,才是解決問題的根本手段。By 田淵棟

蒙特卡洛樹搜索(MCTS)使用蒙特卡洛算法的模擬結果來估算一個搜索樹中每一個狀態(state)的值。隨著進行了越來越多的模擬,搜索樹會變得越來越龐大,而相關的值也會變得越來越精確。通過選取值更高的子樹,用於選擇行動的策略概率在搜索的過程中會一直隨著時間而有所改進。目前最強大的圍棋程序都是基於蒙特卡洛樹搜索的,通過配置經訓練後用於預測人類棋手行動的策略概率進行增強。這些策略概率用於將搜索範圍縮小到一組概率很高的行動、以及在模擬中抽樣行動。這種方法已經取得了高級業餘愛好者水平的表現。然而,先前的工作僅局限於基於輸入特徵(input features)的線性組合的粗淺策略概率和值函數。

近期,深度卷積神經網絡在視覺領域有很多前所未有的表現:例如,圖像分類、臉部識別、玩雅特麗遊戲等。他們使用很多層神經元,每個被安排在交疊的區塊(Tiles)中來構建越來越抽象和本地化的圖片表示。我們在圍棋遊戲中採用了一個相似的構架。我們用19X19的圖像來傳遞棋盤位置,使用卷積層來構建位置的表示。我們使用這些神經網絡來減少搜索樹的有效深度和寬度(breadth):使用一個Value Networks(價值網絡)來估算位置,使用Policy Network(策略網絡)來對動作進行抽樣。

我們使用由若干機器學習階段(Stages)構成的流水線來訓練神經網絡(例1)。我們直接使用人類專家的步法來訓練監督學習策略網絡pσ。這為快速而有效的學習更新(Learning Updates)提供了高質量的梯度和即時反饋。與之前的工作相似,我們也訓練了一個快速策略網絡pπ,它可以快速地在模擬中對動作進行抽樣。接下來,我們訓練了強化學習(RL)策略網絡pρ,這個網絡通過優化「自己對抗自己」的最終結果來改善監督學習策略網絡。這將策略調整到贏棋這一正確目標上,而非讓預測精確率最大。最後,我們訓練了價值網絡vθ,它可以預測出RL策略網絡通過模擬「自己對抗自己」而得出的策略中哪種是最佳策略。我們的程序AlphaGo高效地結合將策略和價值網絡與蒙特卡洛樹搜索結合起來。

| 實現過程 

為了評估AlphaGo,我們在諸多AlphaGo變體和一些其他圍棋程序中進行了內部比賽,這其中包括了最強大的商業程序Crazy Stone和Zen,還有最大的開源程序Pachi和Fuego。所有這些程序都是基於高性能MCTS算法。此外,比賽也包含了開源程序GnuGo,這個程序使用了在MCTS之前出現的最先進的方法。規定所有程序每次落子有5秒的計算時間。

比賽的結果表明單機AlphaGo領先任何之前的圍棋程序很多段位,取得了495局比賽中494次勝利的成績(99.8%)。為了給AlphaGo提出更大的挑戰,我們也讓AlphaGo讓四子(讓子,即對手自由落子)來比賽;AlphaGo讓子競賽中對陣Crazy Stone、Zen和Pachi時分別取得了77%、86%和99%的成績。分布式AlphaGo明顯更強大,對陣單機AlphaGo取得77%的成績,完勝其他程序。

黑色棋子代表AlphaGo正處於下棋狀態,對於下面的每一個統計,橙色圓圈代表的是最大值所處的位置。


紅色圓圈表示AlphaGo選擇的步法;白方格表示樊麾作出的回應;樊麾賽後評論說:他特別欣賞AlphaGo預測的(標記為1)的步法。

以編號形式展示了AlphaGo和樊麾進行圍棋比賽時各自的落子順序。棋盤下方成對放置的棋子表示了相同交叉點處的重複落子。每對中的第一個棋子上的數字表示了何時發生重複落子,而落子位置由第二個棋子上的數字決定。(見補充信息 Supplementary Information)

第一盤:AlphaGo 以 2 目半獲勝

第二盤:AlphaGo 中盤勝

第三盤:AlphaGo 中盤勝

第四盤:AlphaGo 中盤勝

第五盤:AlphaGo 中盤勝

最終,我們評估了分布式AlphaGo與樊麾的比賽,他是專業2段位選手,2013、14和15年歐洲圍棋賽冠軍。在2015年10月5日到9日,AlphaGo和樊麾正式比賽了5局。AlphaGo全部獲勝。這是第一次一個電腦圍棋程序,在沒有讓子、全尺寸(19X19)的情況下擊敗人類專業選手,這一成果過去認為至少需要 10 年才能實現。

| 討論

在我們的工作中,我們開發了圍棋程序,它將深度神經網絡和樹搜索結合起來。這個程序可以達到最強的人類選手的表現,因此完成了一個人工智慧「偉大挑戰」。我們也為圍棋首創了高效步法選擇和位置評估函數,這是通過具有創新性地將監督和強化學習兩種方法結合起來從而訓練深度神經網絡。我們也引入了一個新搜索算法,這一算法成功的整合了神經網絡評估和蒙特卡洛樹模擬算法。我們的程序AlphaGo在高性能樹搜尋引擎中從一定規模上將這些成分整合在一起。

在和樊麾的比賽中,AlphaGo在評估位置方面要比深藍與Kasparov4比賽時所評估的位置少幾千倍,這是由於我們使用了策略網絡更智能地選擇那些位置,還使用了價值網絡更精確地評估它們,而價值網絡更接近人類的下棋方式。另外,深藍依靠手工設計評估方程,而AlphaGo的神經網絡是直接通過純比賽數據訓練,也使用了通用監督和強化學習方法。

圍棋代表了很多人工智慧所面臨的困難:具有挑戰性的決策制定任務、難以破解的查找空間問題和優化解決方案如此複雜以至於用一個策略或價值函數幾乎無法直接得出。之前在電腦圍棋方面的主要突破是引入MCTS,這導致了很多其他領域的相應進步:例如,通用博弈,經典的計劃問題,計劃只有部分可觀測問題、日程安排問題和約束滿足問題。通過將策略和價值網絡與樹搜索結合起來,AlphaGo終於達到了專業圍棋水準,讓我們看到了希望:在其他看起來無法完成的領域中,AI也可以達到人類級別的表現。

| 新智元特約專家評論

我認為AI技術徵服人類不需要太長時間,可能就發生在今年,AI技術徵服人類。


——微軟亞洲工程院院長劉震

I thought AI won't beat human in Go for a long time...  It may be this year!  Google's AlphaGo beats European professional champion 5:0; next on deck: 李世石九段 in March for $1M Google prize.


——陳雷,萬同科技CEO,留德MBA,連續創業者,現致力於人工智慧+圍棋的網際網路服務,圍棋網絡9段

對於人而言,圍棋競技是智力、心理和靈性三個維度的綜合比拼。根據Deep Mind現有的計算機圍棋解決方案描述,可以判斷程序在智力維度取得了很大的進展。在智力方面,計算機圍棋研究領域中要解決的核心問題是如何對盤面做形勢判斷,即專家評估系統的解決方案,專家評估系統能力的顯著提高會導致圍棋AI水準的本質提升。Deep Mind的計算機圍棋解決方案其實可歸結為精確的專家評估系統(value network)、基於海量數據的深度神經網絡(policy network),及傳統的人工智慧方法蒙特卡洛樹搜索的組合。有理由相信這個程序已經達到與標準業餘6段棋手或中國職業棋手等級分200位之後的棋手實力相當的地步。從經驗上看,由於缺少心理和靈性維度的突破,AlphaGo戰勝人類最頂尖的圍棋高手尚需時日。

| 關於 Google DeepMind

Google DeepMind 是一家英國人工智慧公司,創立於2010年,名為DeepMind Technologies,2014年被谷歌收購,更名為Google DeepMind。

這家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman創立。公司目標是「解決智能」,他們嘗試通過合併機器學習最好的方法和系統神經科學來構建強大的通用學習算法。他們試圖形式化智能,進而不僅在機器上實現它,還要理解人類大腦。當前公司的焦點在於研究能玩遊戲的電腦系統,研究的遊戲範圍很廣,從策略型遊戲圍棋到電玩遊戲。

創始人介紹

Demis Hassabis,人工智慧研究人員,神經科學家,電腦遊戲設計者,畢業於劍橋大學,並在倫敦大學獲得PhD,研究興趣:機器學習、神經科學。

Shane Legg,計算學習研究人員,DeepMind創始人,研究興趣:人工智慧、神經網絡、人工進化、強化學習和學習理論。

Mustafa Suleyman,英國企業家,DeepMind Technologies的共同創始人和產品運營主管,同時也是Reos Partners的共同創始人,被谷歌收購後,他成為Google DeepMind的應用AI部門主管。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 人工智慧擊敗世界圍棋冠軍 "阿爾法狗"為什麼厲害
    ,右為圍棋世界冠軍韓國棋手李世石。人民視覺 谷歌的圍棋人工智慧程序和人類圍棋冠軍之間的比賽,堪稱人工智慧發展的一個重要裡程碑,也讓全世界的目光聚焦在人工智慧這個熱門科技領域。谷歌的人工智慧程序是怎樣贏了人類?人工智慧對人類來說到底意味著什麼,會帶來什麼?它會不會有一天在智能上也超過人類?
  • 擊敗了李世石九段的圍棋人工智慧「AlphaGo」究竟是什麼?
    你可以將 AlphaGo 理解為《超驗駭客》(Transcendence) 裡約翰尼·德普飾演的人工智慧,而它所控制的超級計算機,就像影片裡被人工智慧心控的人類一樣,共同為一種蜂群思維 (Hive Mind) 服務。
  • AlphaGo是如何學會下圍棋的
    第一縷星火 人工智慧領域取得了一項重要突破----一在圍棋項目中,一個由谷歌研究團隊開發的計算機系統AlphaGo擊敗了歐洲的頂尖職業棋手。在此之前,這個關於戰略性和直觀判斷的古老東方競技遊戲,已經困擾了人工智慧專家們數十年之久。
  • 谷歌AlphaGo對決李世石在即,9位世界冠軍、圍棋九段賭誰贏?-虎嗅網
    比賽最終決定採用中國圍棋競賽規則,黑貼3又3/4子(7.5目),用時為每方2小時,3次1分鐘讀秒。DeepMind公司youtube頻道和韓國棋院圍棋TV將對本次比賽進行全程直播報導。之前0:5不敵AlphaGo的歐洲圍棋冠軍樊麾,作為比賽裁判團隊一員參與其中。本次比賽無論進程如何都將下滿五局,獲得三勝者贏得獎金100萬美元(約11億韓元)。
  • 焦點科普:人工智慧「阿爾法圍棋」究竟什麼樣
    原標題: 原標題:焦點科普:人工智慧「阿爾法圍棋」究竟什麼樣  東方網3月9日消息:人工智慧「與人類決戰智慧之巔的「阿爾法圍棋」究竟什麼樣?  讓我們從名字開始來了解它。AlphaGo由兩部分組成,Alpha對應希臘語的首字母,也就是常說的「阿爾法」,Go是日語中對圍棋的稱呼。因此,許多人稱之為「阿爾法圍棋」,還有人根據發音親暱地叫它「阿爾法狗」或「阿狗」。  它出生在英國。
  • 厲害了 騰訊PhoenixGo人工智慧圍棋世界冠軍
    剛剛,比賽結果出來了——來自騰訊微信的人工智慧圍棋程序PhoenixGo(鳳凰圍棋),過關斬將,奪得冠軍。PhoenixGo是騰訊微信翻譯團隊開發的人工智慧圍棋程序,旨在學習人工智慧前沿技術。項目由幾名工程師在開發機器翻譯引擎之餘,基於AlphaGo Zero論文實現,同時做了若干提高訓練效率的創新,並利用微信伺服器的閒時計算資源進行自我對弈,緩解了Zero版本對海量資源的苛刻需求。
  • 不敵韓國圍棋人工智慧,戰勝過AlphaGo的人退役了
    圖源:https://imgur.com/a/dHz3V3 年零 6 個月後,年僅 12 歲的李世石成功入段,從此在韓國棋院開始了職業圍棋生涯。24 年來,李世石已經獲得了 14 個國際比賽冠軍,32 次國內比賽冠軍,皆僅次於李昌鎬,高居歷史第二。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    經過大約40天的訓練(約2900萬場自玩遊戲),AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的「智力」
    但是現在,AlphaGo 已經擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競賽者,而大多數計算機視覺軟體最多只能完成 3 歲兒童的任務……理論與實踐不斷證明,人類視覺神經非常複雜,計算機視覺實現並非易事。計算機視覺研究從上世紀 50 年代興起之後,也歷經了狂歡、冷靜,又重新燃起希望的階段。
  • AlphaGo在世界圍棋界戰無不勝,人工智慧真這麼厲害?我看不是!
    阿爾法圍棋(AlphaGo)是一個人工智慧圍棋機器人,是由谷歌旗下的公司團隊開發的,其工作原理是「深度學習」。因兩次戰敗世界圍棋冠軍而成名,目前在圍棋界「獨孤求敗」,風頭一時無人能及。2016年3月,AlphaGo與圍棋世界冠軍李世石進行人機大戰,以4:1獲勝;2017年5月,阿爾法狗與排名世界第一的圍棋冠軍柯潔對戰,以3:0獲勝;從此,圍棋界公認AlphaGo的祺力已經超過人類職業圍棋頂尖水平。當前世界排名第一的圍棋冠軍柯潔表示,」在他看來阿爾法圍棋就是圍棋上帝,能夠打敗一切「。
  • 李開復:AlphaGo對決世界冠軍勝率僅1.1%
    谷歌AlphaGo人工智慧與圍棋世界冠軍李世乭的世紀對決將在3月9日開戰,這是在1997年IBM公司「深藍」擊敗西洋棋世界冠軍之後又一次備受關注的人機對決。不過,對於AlphaGo能夠在對決中勝出,李開復並不看好,他預測「AlphaGo這次的比賽打敗李世乭比較懸,但是1-2年之內必然完勝人類」。
  • 阿爾法圍棋ALPHAGO 紀錄片
    >)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人。樊麾 (二段) 是一名職業圍棋手,也是2013年至2015年的歐洲圍棋冠軍。他一生所學的一切都繞不開圍棋,就像是面鏡子。他看到圍棋就好像看到了自己。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    ZM-GO  | 周末圍棋 弈路伴你 點名關注
  • 解讀:「阿爾法圍棋」究竟什麼樣
    人工智慧「阿爾法圍棋」(AlphaGo)究竟是何方神聖? 姓名 AlphaGo由兩部分組成,Alpha對應希臘語的首字母,也就是常說的「阿爾法」,Go是日語中對圍棋的稱呼。因此,許多人稱之為「阿爾法圍棋」,還有人根據發音親暱地叫它「阿爾法狗」或「阿狗」。 籍貫 它出生在英國。
  • AlphaGo後裔AlphaZero創造奇蹟,不到24小時訓練擊敗西洋棋、圍棋...
    據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。 整理 | 微胖 王藝對於 DeepMind 來說,其最終目的遠非在棋盤遊戲中擊敗人類。他們希望可以打造出一種通用人工智慧,解決更多的人類問題。
  • 人機大戰:AlphaGo贏 世界圍棋冠軍李世石首場認輸
    3月9日下午3點30分,人機世紀大戰第一場結果公布,谷歌人工智慧系統AlphaGo挑戰世界圍棋冠軍李世石成功,李世石認輸。中國圍棋世界冠軍古力點評說,從今天來看,AlphaGo圍棋水平首先比歐洲冠軍樊麾要強,已經具備職業強手的素質,但是細節方面剛好離專業差一點。他認為,AlphaGo處於業餘六七段。不過,到比賽進行到第三個小時時,棋局又發生了很大變化,AlphaGo反而越戰越勇,還後發而至,與李世石又形成僵持局面,甚至還佔有優勢。李世石面臨的局勢又變得非常兇險。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……圍棋之神真來了文|體壇周報記者 謝銳比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。
  • 谷歌阿爾法圍棋AlphaGo背景資料照片 兩個大腦介紹(圖)
    1936年,艾倫·圖靈提出了一種可以輔助數學研究的機器(後來被稱為「圖靈機」),80年過去了,人類在人工智慧領域已經取得突飛猛進的發展。上世紀90年代,IBM超級計算機「深藍」擊敗西洋棋世界冠軍,引發了「電腦是否超越人腦」的熱議。然而,圍棋因其變化莫測的招式成為了AI(ArtificialIntelligence,人工智慧)難以攻克的「禁地」。
  • 圍棋人機大戰第二局:AlphaGo序盤連發新招
    谷歌AI程序「阿爾法圍棋」中國網3月10日訊 據韓聯社報導,首戰擊敗人類代表的谷歌人工智慧程序「阿爾法圍棋」(AlphaGo)在10日下午與韓國職業圍棋手李世石九段的五番棋第二局對弈中從序盤階段就不斷下出罕見變招。