現場報導 | 讓天下三子,DeepMind官方解讀新版AlphaGo強大實力

2020-11-24 機器之心Pro

機器之心原創記者:杜夏德參與:李澤南、吳攀

5 月 23 日,烏鎮圍棋峰會第一場人機大戰以柯潔落敗而結束,DeepMind 和谷歌在今天的人工智慧高峰論壇中詳細回顧了昨天的比賽,並解讀了 AlphaGo 背後的強大實力。

第一天比賽結束,DeepMind 創始人 Hassabis 表示,比賽進入了數子階段,AlphaGo 的優勢很小,柯潔完成了一場偉大的比賽。竭盡全力的柯潔表示,此次大賽之後不但不會再與機器交戰,也不會利用機器來練習,他「更喜歡與人類棋手下棋,這樣自己還有贏的可能。」

比賽之後,DeepMind 在官方網站上發布了一篇對這場比賽的分析解讀,機器之心對這篇文章的內容進行了編譯介紹。同時,我們還整合了機器之心前方記者發回的一線報導,讓我們可以一窺 AlphaGo「讓天下三子」的棋力及其背後的技術。

第一局比賽官方回顧

柯潔與 AlphaGo 在圍棋峰會上的第一場比賽跌宕起伏,黑棋和白棋都展現了細緻入微的精細布局。經過多次局部交鋒與創新的變化,AlphaGo 執白堅持到了最後,以 0.5 點(1/4 子)的微小優勢獲勝。

在開局階段,柯潔使用了大膽的策略率先發起了攻勢,他採用了以往 AlphaGo 最喜歡的舉動——點三三。這種策略在 20 世紀 30 年代由圍棋界的傳奇吳清源與木谷實引入棋壇,並在棋壇流行多年,但在當代棋壇銷聲匿跡。然而,隨著 AlphaGo 的出現,最近柯潔等頂級棋手已經開始嘗試在正式比賽中將這一方法復興了。在柯潔走出點三三後,AlphaGo 以它最喜歡的二間拆應對,柯潔向前延伸,完成了侵入。此前,隨著 AlphaGo 在以 Master 名義進行 60 盤網上對局的比賽中,這樣的變化正逐漸流行起來。

柯潔和 Demis Hassabis 在比賽之前握手

跟著就是一個罕見的三三打入定式,然後 AlphaGo 落下了非常新穎的一子:它沒有直接以扭的方式打吃或使用常見的飛,而是在第 24 手使用了大飛擴展了範圍。樊麾相信 AlphaGo 此舉體現了它自己的哲學:「AlphaGo 的方式並不是在這裡那裡爭奪棋盤局部的空間,而是把每顆棋子都放在對大局最有意義的位置上。這是真正的圍棋理論:並不是『我想要得到什麼』,而是『我該怎樣讓每顆棋子都發揮出其最大的潛力』。」

之後,兩位棋手在左上角進行了一場激動人心的交換,柯潔在這個過程中表現出色。放棄託角而取得邊,黑棋在一場交換中吃掉了四顆白子,而 AlphaGo 評估認為這對雙方來說都是理想的結果。柯潔真不愧是世界第一!通過在第 49 手使用的方法,黑棋在下盤威脅到了白棋的厚勢,但白棋在第 50 手和 54 手時通過刺和斷轉變了方向。這些走法的目標並不是直接的跟隨,而是在精妙地最大化其在這一區域的實力和未來的主動權。儘管 AlphaGo 更偏愛單關跳來強化其中心實力,柯潔在第 51 手對四顆白子進行了包圍,維持了對局部的控制。在第 55 手,一著聰明的試應手讓黑棋通過左底部邊角來交換更下面的邊,柯潔的這一步選擇為棋局的未來進展設定了方向。在黑棋在邊角存活下來之後,卻給了白棋一道外圍的銅牆鐵壁,柯潔果斷地放棄了他在更下面邊的棋子,以在上部分獲得更強的優勢和主動權。

隨後,在所佔的實地落後的情況下,柯潔被迫充分利用上邊,從而在第 97 手下出了雄心勃勃的大跳(這或許是勝負手)。AlphaGo 在第 98 手的反應又迫使柯潔在第 99 手截斷這單顆白棋,這一決定性的變化開啟了這局比賽的最後一次大範圍交換。在收官階段,柯潔奮力追趕,而 AlphaGo 則保持適當但安全的領先,最終以四分之一子的優勢獲勝。

DeepMind 希望我們在這場比賽中看到的創新能夠成為圍棋更多創新的開始,並期待全世界的棋手們都能分析這些下法,並在未來的對弈中嘗試它們。

「讓天下三子」的棋力和技術

比賽之後,David Silver、谷歌大腦負責人 Jeff Dean 等人在烏鎮圍棋峰會現場對 AlphaGo 背後的技術進行了解讀,以下是機器之心對相關內容的整理解讀。

機器之心已經多次報導過了 AlphaGo 的基礎技術,可參閱機器之心昨天的報導《柯潔 1/4 子惜敗,機器之心獨家對話 AlphaGo 開發者導師 Martin Müller》。AlphaGo 結合了監督學習與強化學習的優勢。通過訓練形成一個策略網絡,將棋盤上的局勢作為輸入信息,並對有所可行的落子位置形成一個概率分布。然後,訓練一個價值網絡對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。

圍棋的分支係數非常大:每一顆棋子可能的走法數量超過了整個宇宙的原子數量,而且不像西洋棋,它無法用窮舉搜索的方法來得到結果。

為了減少搜索的寬度,AlphaGo 會根據策略網絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。

而為了減少搜索的深度,AlphaGo 使用了價值網絡來進行評估。雖然 AlphaGo 的價值網絡不能準確地計算出影響的數值,但它的價值網絡能夠在一定深度上一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

AlphaGo 將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。

現在的 AlphaGo 使用的是去年的硬體(TPU 第一代),系統共用到 4 個 TPU ,相比去年與李世乭對弈時需要的計算能力大幅縮小,而因為算法效率的提高,圍棋水平卻增強了。

一間 64 臺 TPU 的艙中,有 1/8 用於訓練的一個機器翻譯模型,也就是說有 8 個 TPU 訓練機器翻譯模型。谷歌軟體工程師陳智峰告訴機器之心記者,在他們所做的模型訓練測試中,使用 8 個 TPU 能讓原先的訓練時間從 24 小時縮短到一個下午。谷歌的 TPU 艙還在建立中,在問及谷歌目前有多少個這樣的 TPU 艙時,谷歌方面還不願透露。

在基本方法的基礎上,AlphaGo Master 有了進一步的提升。

其可以復盤前面的棋局,預測走到哪一步就可以贏,每一步都預測未來的贏家。原版的網絡有 12 層,而 Master 有 40 層。

在棋力評估上,與樊麾對弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的優勢,而與李世石對弈的 AlphaGo 版本比與樊麾對弈的 AlphaGo 版本又有三子的優勢,而現在最新的 AlphaGo 版本又新提升了三子的優勢。

深度強化學習不僅可以用來下圍棋,而且還可以進行像素學習,學習 3D 虛擬遊戲,可以自己學會在 3D 環境中學習導航。

另外據Jeff Dean介紹,谷歌建有TPU艙,一個TPU艙裡面包含64臺二代TPU,能進行每秒11.5萬億次浮點運算,4倍快於市面上最好的32臺GPU。

各方對本局比賽的點評

在 5 月 23 日的比賽過後,參賽兩方和各路圍棋職業選手圍繞棋局和技術的角度對這場對決進行了解讀。

柯潔:我很早就知道自己要輸 1/4 子,AlphaGo 每步棋都是勻速,在最後單官階段也是如此,所以我就有時間點目,看清自己輸 1/4 子,所以只好苦笑。

如果要我自己點評,AlphaGo 確實下得太精彩,很多地方都值得我們去學習、探討,思想和棋的理念,改變我們對棋的最初的看法,沒有什麼棋是不可以下的,可以大膽去創新,開拓自己的思維,去自由的下一盤棋。今天我也是大膽去開拓自己的思維,在我印象中,AlphaGo 非常貪戀實地,開局點三三等等。所以今天我也一直貫徹先撈後洗的戰術,先把實地鈔票撈到手,但在角部還是被他掏到實地,打破了我的戰術,一下子就進入他的步調了。感覺 AlphaGo 和去年判若兩人,當時覺得他的棋很接近人,現在感覺越來越像圍棋上帝。我希望盡全力去拼每一盤棋。很感謝有 AlphaGo 這樣的對手,感謝 DeepMind 團隊給我機會去下這三盤棋,也希望通過這次比賽讓大家了解圍棋這個好項目,給大家帶來快樂。

AlphaGo 其實已給我們展現了很多精彩的實戰,弱點暫時還沒有看到。我覺得以前他還是有,但現在對棋的理解和判斷遠勝於我們,所以想贏只好通過找 BUG,但真的很難。不過對自己永遠要有信心。之前我發微博說,這可能是我與人工智慧最後三盤棋,現在就只剩兩盤棋了,這可能是我活到現在最難得的機會,我會盡全力去珍惜這次機會。

我做這個決定已經考慮很久,因為我覺得 AI 進步速度太快了,每一次都是巨大進步,我覺得以後可能會變得更加完美,人與他的差距不是靠自身的努力可以去彌補的。我還是想和人類下棋,因為到未來,我們與 AlphaGo 的差距可能越來越大,人和人的差距可能越來越小。我對人的勝率還可以。這次峰會是我與人工智慧的最後 3 盤棋,當然也不會在網上與人工智慧練棋。如果人類比賽中出現 AI,我雖然不願意但也不是我能決定的,我覺得我也可能會輸。我其實對今天的表現有點不滿,覺得能做的更好。但這次是最後一次較量,希望不留遺憾,下出好棋,讓 AlphaGo 主機更發燙一點也好。

Michael Redmond(目前唯一的非東亞裔圍棋九段選手):柯潔從今年 1 月份 Master 的一系列比賽中獲得了靈感,在他的布局中加入了一些新變化。他在今天的比賽中使用了和 AlphaGo 類似的低位打入策略,這是以前聞所未聞的舉動。儘管這是一個我們難以理解的策略,但過去一個月職業棋手們一直在對它做出自己的解讀。

此外,在 5 月 23 日比賽結束後的新聞發布會上,AlphaGo 團隊的David Silver透露了新一代 AlphaGo 是年初 Master 的升級版,並提到一些細節:新的 AlphaGo 程序運行在單個谷歌雲伺服器上,由 TPU 晶片進行計算處理。算法上也進行了革新,它所需的計算能力僅需與李世乭對戰時的 10%,自我對弈能力更強。去年,AlphaGo 的模型中有 12 層神經網絡,而在以 Master 名義出戰時,深度已有 40 層。

在被問及 AlphaGo 是否控制了本局比賽的勝率時,Silver 解釋道,擴大每一步棋勝率是 AlphaGo 的探索的一個方向。如果只是為了取得最終的勝利,每一步它都會選擇走風險很小的棋。

Demis Hassabis(DeepMind 創始人和執行長):偉大的比賽!向柯潔致以敬意,他將 AlphaGo 推向了自己的極限。AlphaGo 仍需要和人類對弈,它需要先學習人類棋譜,隨後開始通過自我對局來進步提高,所以 AlphaGo 是依靠人類棋譜數據和此前版本來進一步提升。僅通過自身對決可能發現不了缺陷,和頂尖棋手對決才能提高。我們希望通過完善 AlphaGo,在其他領域為人類服務。我們在《自然》上發表了論文,本周之後我們會公布更多細節和計劃,眾所周知目前也有很多強大人工智慧軟體,我們也會在今後公開 AlphaGo 更多技術細節,使其他實驗室或團隊能夠建造自己的 AlphaGo。

相關焦點

  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    官網英文地址如下:https://alphagoteach.deepmind.com/中文地址如下:https://alphagoteach.deepmind.com/zh-hans附 David Silver 介紹 AlphaGo Master 的研發關鍵:AlphaGo Master 為何如此厲害呢?
  • 新版Alphago棋風更穩健
    新版Alphago採用了增強學習的策略,下棋技巧上遠勝初代依靠監督學習戰勝李世石的初代Alphago,它曾化名Master拿下所有高手,加之谷歌在人工智慧底層架構TensorFlow的提升,讓Alphago速度更快。柯潔身為現圍棋世界冠軍,此次也是有備而來,並宣稱用所有的熱情與Alphago進行了對決。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    根據DeepMind的AlphaFold程序創建的模型,說明與冠狀病毒相關的「膜蛋白」的可能結構在此,我就不詳細解讀這個最新科研成果直到今年7月接受紐約時報採訪,馬斯克依然認為Deepmind是他最為關注(Top Concern)的AI公司,他依然深信AI可以超越甚至毀滅人類。雖然嘴上說不要,但身體卻很誠實,他除了是Deepmind的天使投資人,還是他引薦給谷歌投資的。
  • DeepMind AlphaStar:Demo很強大,但比賽輸了
    在幾場展示 AI 實力的 Replay 鋪墊之後,AlphaStar 現場比賽卻輸了。面對剛剛從電腦前起身的 MaNa,DeepMind 的兩位科學家 David Sliver 與 Oriol Vinyals 只能露出尷尬的微笑。看來,人工智慧在徵服這個「最複雜遊戲」的過程中還需要學會應對很多戰術和突發情形。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    谷歌人工智慧團隊DeepMind團隊在國際學術期刊《自然》(Nature)上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
  • 柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)
    柯潔寫到:「早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...」  2016年底,神秘的Master在網上颳起一陣圍棋旋風。以60勝0敗的戰績橫掃一眾圍棋頂尖高手,其中柯潔也3次落敗。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • 陳經:根據AlphaGo弈城圍棋網的疑似測試對局預測谷李大戰比分
    2月27號開始,deepmind更多地和職業棋手對局了。弈城帳號標註為P的是經過驗證的職業棋手,deepmind勝了mob(P),輸給了另三位。對手中也有雖然未標註為P,但和職業棋手帳號互有勝負的強9,如amalauag,從歷史戰績看也是有職業棋手實力的。deepmind和amalauag下了三盤,2勝1負。
  • AlphaGo背後團隊Deepmind有多牛 核心團隊成員資料介紹
    Deepmind官方網站也報導了今天的人機大戰  鑑於此次AlphaGo戰勝的是圍棋界一等一的高手,更重要的是這背後延伸出來的意義——機器已經擁有類人般的學習能力,並且能夠據此戰勝人類。雖然結果未必會以電影《終結者》當中那樣,以人機之間的暴力衝突收場。
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    今天凌晨,谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
  • Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!
    David Silver:Deepmind強化學習組負責人,AlphaGo首席研究員。Julian Schrittwieser:Deepmind高級軟體工程師。雷鋒網(公眾號:雷鋒網)從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:關於論文與技術細節Q: Deepmind Zero的訓練為什麼如此穩定?
  • Deepmind Nature論文揭示最強AlphaGo Zero
    AlphaGo「退役」了,但Deepmind在圍棋上的探索並沒有停止。今年5月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
  • 最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀
    關於David Silver我們在之前報導黃士傑的文章裡也有提及。名字更長的Julian Schrittwieser,是這次新一代AlphaGo的三位並列主要作者之一,而且非常年輕。2013年,Schrittwieser本科畢業於奧地利的維也納技術大學;同年9月,Schrittwieser加入DeepMind。
  • 對陣AlphaGo 人類第一柯潔有多少勝算(全文)_辦公列印評測試用...
    可以看到V13和V18的區別很大,尤其是棋力的提升,而沒升級一個版本,則需要對陣舊版本的時候勝率達到90%,才能稱之為新版。Master獲勝之後的官方聲明:new version    再到今年初的時候下快棋的Master,根據事後Deepmind的官方聲明
  • 生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構
    乾明 發自 凹非寺量子位 報導 | 公眾號 QbitAI疫情全球化蔓延之下,世界最頂級的AI研究機構加入抗疫陣列。AlphaFold問世以來,DeepMind一直在優化系統,希望其能夠更加強大。對SARS-CoV-2相關蛋白結構預測,是他們最新研究成果的體現。他們的模型中,還包括每個殘差的置信度,來幫助指出結構的哪些部分更有可能是正確的。
  • 這次AlphaGo到底有多強?柯潔得知真相當場驚呆
    賽後,圍棋迷們紛紛猜測,這次的AlphaGo到底有多強大?賽後,Google DeepMind官方進行了解釋,此次參賽的AlphaGo在雲端由單TPU(Tensor處理單元)運行,與去年3月與李世石的比賽時相比,當前的TPU版本在處理計算時所消耗的能量僅為過去的1/10。
  • 柯潔被讓兩子戰勝絕藝:差距不會超過三子
    ,對自己為何還要屢敗屢戰進行了解讀。風格還是一貫的風趣和信心滿滿,並展示了嫻熟的表情包配圖技巧,甚至還吐槽:「幾天第一次嘗試輸了,被大肆報導了一番...今天贏了,卻沒有任何報導。現在的人呀...真是喜歡搞個大新聞啊...」
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    機器之心報導參與:張倩、蛋醬、杜偉最近,一款名為「Foldit」的遊戲風靡全球。在這款遊戲中,玩家可以在線幫助研究人員尋找具有對抗新型冠狀病毒潛力的蛋白結構,其本質是充分利用所有可利用的人力、算力。DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底
    一文分析谷歌、微軟、Facebook、IBM等巨頭間的AI實力。 近日,Google Brain的Eric Jiang在Quora回答提問,分析了谷歌、微軟、Facebook、IBM等巨頭間的AI實力,引用最新例子(比如 ICLR論文接收)。