現場報導 | 讓天下三子,DeepMind官方解讀新版AlphaGo強大實力

2020-11-24 機器之心Pro

機器之心原創記者：杜夏德參與：李澤南、吳攀

5 月 23 日，烏鎮圍棋峰會第一場人機大戰以柯潔落敗而結束，DeepMind 和谷歌在今天的人工智慧高峰論壇中詳細回顧了昨天的比賽，並解讀了 AlphaGo 背後的強大實力。

第一天比賽結束，DeepMind 創始人 Hassabis 表示，比賽進入了數子階段，AlphaGo 的優勢很小，柯潔完成了一場偉大的比賽。竭盡全力的柯潔表示，此次大賽之後不但不會再與機器交戰，也不會利用機器來練習，他「更喜歡與人類棋手下棋，這樣自己還有贏的可能。」

比賽之後，DeepMind 在官方網站上發布了一篇對這場比賽的分析解讀，機器之心對這篇文章的內容進行了編譯介紹。同時，我們還整合了機器之心前方記者發回的一線報導，讓我們可以一窺 AlphaGo「讓天下三子」的棋力及其背後的技術。

第一局比賽官方回顧

柯潔與 AlphaGo 在圍棋峰會上的第一場比賽跌宕起伏，黑棋和白棋都展現了細緻入微的精細布局。經過多次局部交鋒與創新的變化，AlphaGo 執白堅持到了最後，以 0.5 點（1/4 子）的微小優勢獲勝。

在開局階段，柯潔使用了大膽的策略率先發起了攻勢，他採用了以往 AlphaGo 最喜歡的舉動——點三三。這種策略在 20 世紀 30 年代由圍棋界的傳奇吳清源與木谷實引入棋壇，並在棋壇流行多年，但在當代棋壇銷聲匿跡。然而，隨著 AlphaGo 的出現，最近柯潔等頂級棋手已經開始嘗試在正式比賽中將這一方法復興了。在柯潔走出點三三後，AlphaGo 以它最喜歡的二間拆應對，柯潔向前延伸，完成了侵入。此前，隨著 AlphaGo 在以 Master 名義進行 60 盤網上對局的比賽中，這樣的變化正逐漸流行起來。

柯潔和 Demis Hassabis 在比賽之前握手

跟著就是一個罕見的三三打入定式，然後 AlphaGo 落下了非常新穎的一子：它沒有直接以扭的方式打吃或使用常見的飛，而是在第 24 手使用了大飛擴展了範圍。樊麾相信 AlphaGo 此舉體現了它自己的哲學：「AlphaGo 的方式並不是在這裡那裡爭奪棋盤局部的空間，而是把每顆棋子都放在對大局最有意義的位置上。這是真正的圍棋理論：並不是『我想要得到什麼』，而是『我該怎樣讓每顆棋子都發揮出其最大的潛力』。」

之後，兩位棋手在左上角進行了一場激動人心的交換，柯潔在這個過程中表現出色。放棄託角而取得邊，黑棋在一場交換中吃掉了四顆白子，而 AlphaGo 評估認為這對雙方來說都是理想的結果。柯潔真不愧是世界第一！通過在第 49 手使用的方法，黑棋在下盤威脅到了白棋的厚勢，但白棋在第 50 手和 54 手時通過刺和斷轉變了方向。這些走法的目標並不是直接的跟隨，而是在精妙地最大化其在這一區域的實力和未來的主動權。儘管 AlphaGo 更偏愛單關跳來強化其中心實力，柯潔在第 51 手對四顆白子進行了包圍，維持了對局部的控制。在第 55 手，一著聰明的試應手讓黑棋通過左底部邊角來交換更下面的邊，柯潔的這一步選擇為棋局的未來進展設定了方向。在黑棋在邊角存活下來之後，卻給了白棋一道外圍的銅牆鐵壁，柯潔果斷地放棄了他在更下面邊的棋子，以在上部分獲得更強的優勢和主動權。

隨後，在所佔的實地落後的情況下，柯潔被迫充分利用上邊，從而在第 97 手下出了雄心勃勃的大跳（這或許是勝負手）。AlphaGo 在第 98 手的反應又迫使柯潔在第 99 手截斷這單顆白棋，這一決定性的變化開啟了這局比賽的最後一次大範圍交換。在收官階段，柯潔奮力追趕，而 AlphaGo 則保持適當但安全的領先，最終以四分之一子的優勢獲勝。

DeepMind 希望我們在這場比賽中看到的創新能夠成為圍棋更多創新的開始，並期待全世界的棋手們都能分析這些下法，並在未來的對弈中嘗試它們。

「讓天下三子」的棋力和技術

比賽之後，David Silver、谷歌大腦負責人 Jeff Dean 等人在烏鎮圍棋峰會現場對 AlphaGo 背後的技術進行了解讀，以下是機器之心對相關內容的整理解讀。

機器之心已經多次報導過了 AlphaGo 的基礎技術，可參閱機器之心昨天的報導《柯潔 1/4 子惜敗，機器之心獨家對話 AlphaGo 開發者導師 Martin Müller》。AlphaGo 結合了監督學習與強化學習的優勢。通過訓練形成一個策略網絡，將棋盤上的局勢作為輸入信息，並對有所可行的落子位置形成一個概率分布。然後，訓練一個價值網絡對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。

圍棋的分支係數非常大：每一顆棋子可能的走法數量超過了整個宇宙的原子數量，而且不像西洋棋，它無法用窮舉搜索的方法來得到結果。

為了減少搜索的寬度，AlphaGo 會根據策略網絡（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

而為了減少搜索的深度，AlphaGo 使用了價值網絡來進行評估。雖然 AlphaGo 的價值網絡不能準確地計算出影響的數值，但它的價值網絡能夠在一定深度上一次性考慮棋盤上的所有棋子，以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

AlphaGo 將這兩種網絡整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。

現在的 AlphaGo 使用的是去年的硬體（TPU 第一代），系統共用到 4 個 TPU ，相比去年與李世乭對弈時需要的計算能力大幅縮小，而因為算法效率的提高，圍棋水平卻增強了。

一間 64 臺 TPU 的艙中，有 1/8 用於訓練的一個機器翻譯模型，也就是說有 8 個 TPU 訓練機器翻譯模型。谷歌軟體工程師陳智峰告訴機器之心記者，在他們所做的模型訓練測試中，使用 8 個 TPU 能讓原先的訓練時間從 24 小時縮短到一個下午。谷歌的 TPU 艙還在建立中，在問及谷歌目前有多少個這樣的 TPU 艙時，谷歌方面還不願透露。

在基本方法的基礎上，AlphaGo Master 有了進一步的提升。

其可以復盤前面的棋局，預測走到哪一步就可以贏，每一步都預測未來的贏家。原版的網絡有 12 層，而 Master 有 40 層。

在棋力評估上，與樊麾對弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的優勢，而與李世石對弈的 AlphaGo 版本比與樊麾對弈的 AlphaGo 版本又有三子的優勢，而現在最新的 AlphaGo 版本又新提升了三子的優勢。

深度強化學習不僅可以用來下圍棋，而且還可以進行像素學習，學習 3D 虛擬遊戲，可以自己學會在 3D 環境中學習導航。

另外據Jeff Dean介紹，谷歌建有TPU艙，一個TPU艙裡面包含64臺二代TPU，能進行每秒11.5萬億次浮點運算，4倍快於市面上最好的32臺GPU。

各方對本局比賽的點評

在 5 月 23 日的比賽過後，參賽兩方和各路圍棋職業選手圍繞棋局和技術的角度對這場對決進行了解讀。

柯潔：我很早就知道自己要輸 1/4 子，AlphaGo 每步棋都是勻速，在最後單官階段也是如此，所以我就有時間點目，看清自己輸 1/4 子，所以只好苦笑。

如果要我自己點評，AlphaGo 確實下得太精彩，很多地方都值得我們去學習、探討，思想和棋的理念，改變我們對棋的最初的看法，沒有什麼棋是不可以下的，可以大膽去創新，開拓自己的思維，去自由的下一盤棋。今天我也是大膽去開拓自己的思維，在我印象中，AlphaGo 非常貪戀實地，開局點三三等等。所以今天我也一直貫徹先撈後洗的戰術，先把實地鈔票撈到手，但在角部還是被他掏到實地，打破了我的戰術，一下子就進入他的步調了。感覺 AlphaGo 和去年判若兩人，當時覺得他的棋很接近人，現在感覺越來越像圍棋上帝。我希望盡全力去拼每一盤棋。很感謝有 AlphaGo 這樣的對手，感謝 DeepMind 團隊給我機會去下這三盤棋，也希望通過這次比賽讓大家了解圍棋這個好項目，給大家帶來快樂。

AlphaGo 其實已給我們展現了很多精彩的實戰，弱點暫時還沒有看到。我覺得以前他還是有，但現在對棋的理解和判斷遠勝於我們，所以想贏只好通過找 BUG，但真的很難。不過對自己永遠要有信心。之前我發微博說，這可能是我與人工智慧最後三盤棋，現在就只剩兩盤棋了，這可能是我活到現在最難得的機會，我會盡全力去珍惜這次機會。

我做這個決定已經考慮很久，因為我覺得 AI 進步速度太快了，每一次都是巨大進步，我覺得以後可能會變得更加完美，人與他的差距不是靠自身的努力可以去彌補的。我還是想和人類下棋，因為到未來，我們與 AlphaGo 的差距可能越來越大，人和人的差距可能越來越小。我對人的勝率還可以。這次峰會是我與人工智慧的最後 3 盤棋，當然也不會在網上與人工智慧練棋。如果人類比賽中出現 AI，我雖然不願意但也不是我能決定的，我覺得我也可能會輸。我其實對今天的表現有點不滿，覺得能做的更好。但這次是最後一次較量，希望不留遺憾，下出好棋，讓 AlphaGo 主機更發燙一點也好。

Michael Redmond（目前唯一的非東亞裔圍棋九段選手）：柯潔從今年 1 月份 Master 的一系列比賽中獲得了靈感，在他的布局中加入了一些新變化。他在今天的比賽中使用了和 AlphaGo 類似的低位打入策略，這是以前聞所未聞的舉動。儘管這是一個我們難以理解的策略，但過去一個月職業棋手們一直在對它做出自己的解讀。

此外，在 5 月 23 日比賽結束後的新聞發布會上，AlphaGo 團隊的David Silver透露了新一代 AlphaGo 是年初 Master 的升級版，並提到一些細節：新的 AlphaGo 程序運行在單個谷歌雲伺服器上，由 TPU 晶片進行計算處理。算法上也進行了革新，它所需的計算能力僅需與李世乭對戰時的 10%，自我對弈能力更強。去年，AlphaGo 的模型中有 12 層神經網絡，而在以 Master 名義出戰時，深度已有 40 層。

在被問及 AlphaGo 是否控制了本局比賽的勝率時，Silver 解釋道，擴大每一步棋勝率是 AlphaGo 的探索的一個方向。如果只是為了取得最終的勝利，每一步它都會選擇走風險很小的棋。

Demis Hassabis（DeepMind 創始人和執行長）：偉大的比賽！向柯潔致以敬意，他將 AlphaGo 推向了自己的極限。AlphaGo 仍需要和人類對弈，它需要先學習人類棋譜，隨後開始通過自我對局來進步提高，所以 AlphaGo 是依靠人類棋譜數據和此前版本來進一步提升。僅通過自身對決可能發現不了缺陷，和頂尖棋手對決才能提高。我們希望通過完善 AlphaGo，在其他領域為人類服務。我們在《自然》上發表了論文，本周之後我們會公布更多細節和計劃，眾所周知目前也有很多強大人工智慧軟體，我們也會在今後公開 AlphaGo 更多技術細節，使其他實驗室或團隊能夠建造自己的 AlphaGo。

現場報導 | 讓天下三子,DeepMind官方解讀新版AlphaGo強大實力

相關焦點

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

新版Alphago棋風更穩健

AlphaGo 圍棋教學工具已發布

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

DeepMind AlphaStar:Demo很強大,但比賽輸了

能贏AlphaGo的只有它自己柯潔回應新版問世:人類太多餘了

柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

陳經:根據AlphaGo弈城圍棋網的疑似測試對局預測谷李大戰比分

AlphaGo背後團隊Deepmind有多牛核心團隊成員資料介紹

Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!

Deepmind Nature論文揭示最強AlphaGo Zero

最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀

對陣AlphaGo 人類第一柯潔有多少勝算(全文)_辦公列印評測試用...

生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構

這次AlphaGo到底有多強?柯潔得知真相當場驚呆

柯潔被讓兩子戰勝絕藝:差距不會超過三子

AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果

AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底

現場報導 | 讓天下三子,DeepMind官方解讀新版AlphaGo強大實力

相關焦點

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

新版Alphago棋風更穩健

AlphaGo 圍棋教學工具已發布

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

DeepMind AlphaStar:Demo很強大,但比賽輸了

能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了

柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

陳經:根據AlphaGo弈城圍棋網的疑似測試對局預測谷李大戰比分

AlphaGo背後團隊Deepmind有多牛 核心團隊成員資料介紹

Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!

Deepmind Nature論文揭示最強AlphaGo Zero

最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀

對陣AlphaGo 人類第一柯潔有多少勝算(全文)_辦公列印評測試用...

生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構

這次AlphaGo到底有多強?柯潔得知真相當場驚呆

柯潔被讓兩子戰勝絕藝:差距不會超過三子

AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果

AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底

能贏AlphaGo的只有它自己柯潔回應新版問世:人類太多餘了

AlphaGo背後團隊Deepmind有多牛核心團隊成員資料介紹