Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率...

2020-12-05 雷鋒網

按:本文作者田淵棟,已獲授權。

第四局李世石的78手L11挖被大家譽為「神之一手」,在DarkForest的策略網絡輸出裡排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。如果對方下了一手機器沒算到的棋,則蒙特卡羅(MCTS)搜索樹會清空,然後重新開始搜索,不應該會太快做出結論。李喆六段告訴我K10這一手是秒下,那有可能是時間管理子系統在搜索樹清空時有程序上的漏洞,因此過早地將搜索結果返回了。MCTS在一開始搜索的時候,因為模擬次數不夠多,每步的勝率方差非常大,所以返回一個不夠好的著法如K10是很正常的(在DarkForest裡面這著排在前四)。這個比較容易修正。

另一種可能是,AlphaGo的估值網絡出了問題。因為估值網絡的權重是0.5,而不管快速走子從一個局面開始重複了多少次,它的權值也是0.5。對於一個局面,估值網絡只得到一個數,而從這個局面往下走子,走多後會得到很多個數,統計上應該更為重要,但是AlphaGo不是這樣想的,兩邊各自算得勝率後直接對半平均了。所以如果估值網絡對某個局面得到的結果不對,則會極大地影響對該局面的勝率估計。注意這裡得到很多個數的原因是按照文章,葉結點在積累了一定盤數後(40)才展開,而不是第一次訪問就展開,以提高DCNN的效率。DarkForest沒有用到估值網絡,在L11的挖之後正確地返回了L12和L10這兩個應手,據李喆六段說,都是正確的應手,這間接支持了這個推斷。AlphaGo在87手之後才意識到自己已經大大落後,可能也是由於同樣的問題,比如說把右邊的黑大龍看成活的。

那為什麼估值網絡會出問題呢?可能是用於訓練估值網絡的自學習(Self-Play)的樣本分布有盲點。為了提高樣本生成速度,AlphaGo的自學習樣本是通過用兩個純粹的DCNN互搏來生成的(完全沒有搜索),而DCNN下出來的棋因為是純模式識別,一個大問題是死活不正確,經常是在死棋裡面下子。如果黑白兩方都犯了死活不分的毛病,然後一方比如說白僥倖勝了,那估值網絡就會認為方才白的死棋局面是好的。這樣估值網絡就會染上同樣毛病,在中盤複雜的對殺局面中判斷失誤。若是這種情況就不好處理,AlphaGo下一局可能還會有同樣的問題。這裡可以看到,電腦本身也不是靠窮舉來下棋的,圍棋畢竟太複雜,每一步都要剪枝,離當前局面近的仔細剪(用DCNN),離當前局面遠的快速剪(快速走子),直到終局得到勝負為止。剪枝的好壞直接關係到棋力的高低,DCNN只是一個有大局觀的非常好的剪枝手段,它的盲點也會通過敗著反映出來。

關於DCNN+MCTS打劫。首先因為MCTS是全局估計分數的,劫爭本身和其它局面在程序看來沒有本質區別,都只是一步棋而已。劫的特殊性在DarkForest上表現為碰到有劫可提的情況時,DCNN經常會以非常高的概率(0.8以上)返回提劫這一手。可能的原因是,劫點是作為單獨的特徵輸入的,所以DCNN學習到了它和輸出(提劫)的強關聯性。這樣在MCTS搜索時會強烈偏向這一手。這在很多情況下是正確的,但有時劫很小可以不予理會,或者碰到兩個或者多個劫需要放棄一個,那「遇劫必提」的偏向性就會給搜索帶來麻煩。有時連環劫電腦反覆提就是這個原因。AlphaGo可能會有這個問題,或者是反向的問題(比如說提劫概率很小),這樣在下棋時大家就會感覺到它在避免開劫,或者在含劫的變化中計算失誤。

關於地平線效應(Horizon Effect)。國象的AI裡面會有這個效應,比如說只搜索10步,計算到別人的後被自己的後吃了結束,然後用簡單的加和法估計下盤面發現自己多個後特別爽,覺得這個分支特別好。其實再往下走一步自己的後也被別人吃了,或者掉入陷阱,這樣就誤算盤面價值。但是圍棋因為每次模擬都是走到底的,可能前30步是用DCNN,之後就是用快速走子,雖然走子質量上有差距,但是大方向上不會錯,所以地平線效應在某種程度上是減弱了。而且這次AlphaGo的失誤在20步以內,應該還在DCNN的範圍裡面,所以地平線效應的可能性比較低。

應大家要求,這裡放Game3的勝率,李世石毫無機會。


Game4的還沒空全跑,以下是關鍵的一段。注意DarkForest只是5d,所以沒有及早看出來黑掛了也是正常的。

編者一起放上作者的DarkForest對AlphaGo和李世石前兩局每步的勝率估計:

首先說明一下每個數據點是DF在當前局面下給出最優應手,同時給出的勝率。這個最優應手和選手的應手不一定一樣。如果大家要看DF給的應手,可以下載以下兩個文件:

yuandong-tian.com/win_rate1.txt

yuandong-tian.com/win_rate2.txt

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)
    按:本文作者田淵棟,已獲授權。第四局李世石的78手L11挖被大家譽為「神之一手」,在DarkForest的策略網絡輸出裡排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。
  • 李世石第四局首勝原因 AlphaGo之父:找不出Bug在哪
    昨日,AlphaGo與李世石的人機大戰五番棋第四局在韓國首爾進行。李世石中盤擊敗AlphaGo,扳回一局。雖然1比3的比分已經無法逆轉,但本局的勝利對人類來說意義重大。  尤其是在這位韓國棋手堅毅地落下白78挖時,在幾大網絡平臺解說的嘉賓都讚不絕口,世界冠軍古力甚至認為李世石這一手堪稱:「神之一手」。
  • 圍棋人機大戰第四局:AlphaGo連續失誤 李世石扳回一局
    3月13日中午12點,迎來「人機大戰」第四場,此前韓國九段棋手李世石連敗三場,五局系列賽提前告負。最後兩局的意義,更多是為職業棋手的尊嚴,為測試、尋找的可能薄弱點而戰。 在兩小時布局時間用完之際,李世石出現「年度妙手」考驗AlphaGo(阿爾法狗)。AlphaGo陷入長考,並下出一步看似失誤的棋。第78手讓大家看到熟悉的李世石九段回來了。
  • 人機大戰第四局:李世石下出「神之一手」 AlphaGo誤判後連續失誤
    就在輿論普遍認為「人類代表」李世石將會繼續敗給阿爾法狗(AlphaGo)的時候,今天,圍棋人機大戰的第四局,李世石中盤發力,在第78手巧妙落子,出人意料地挽回了敗局,將比分改寫為「3:1」,雖然總體的勝負已無法逆轉,但李世石扳回一城的勝利對人類來說可謂意義非凡。
  • 在AlphaGo 輸掉前,它的弱點已經被人類發現?
    本文首發於 「觀察者 」,原標題為 「陳經:在 AlphaGo 完勝後繼續分析其算法巨大優勢與可能的缺陷 」,已獲得作者同意轉載。註:本文首發時間為昨日上午 9 點 55 分,而第四場李世石戰勝 AlphaGo 的套路基本驗證了兩本文中的內容。
  • 李世石VS阿爾法圍棋人機大戰第四場完整棋譜步驟分析
    ====推薦閱讀====  李世石VS阿爾法圍棋人機大戰第三場完整棋譜步驟分析  李世石VS阿爾法圍棋人機大戰第二場完整棋譜步驟分析  李世石VS阿爾法圍棋人機大戰第一場完整棋譜步驟分析  ====全文閱讀====  至誠財經網(www.zhicheng.com)03月14日訊
  • 2016圍棋人機大戰第3局(第三場)比賽 騰訊視頻重播回放
    北京時間3月12日下午消息,谷歌人工智慧AlphaGo與韓國棋手李世石今日進行了第三場較量,最終AlphaGo戰勝李世石,連續取得三場勝利。接下來兩場將淪為李世石的「榮譽之戰」。值得一提的是,李世石雖然以0:3宣告失敗,但仍需要和AlphaGo下完剩餘兩場。剩餘2場比賽將分別在13日(周日)、15日 (周二)的北京時間中午12點進行。
  • 圍棋「人機大戰」第四場!李世石終於贏了AlphaGo_遊俠網 Ali213.net
    北京時間3月13日下午消息,谷歌人工智慧AlphaGo與李世石對戰第四場在韓國首爾四季酒店舉行,李世石首次戰勝,總比分扳回至3:1。雙方交戰僅剩餘最後一場,下場比賽將於北京時間3月15日(周二)中午12點進行。
  • 李世石:AlphaGo經常有想不到的下法,明天勝率50%
    北京時間3月9日15時31分,谷歌旗下人工智慧公司DeepMind開發的智能系統AlphaGo(阿爾法圍棋)和韓國職業圍棋選手李世石九段的第一場人機大戰比賽結束。
  • AlphaGo稱王!柯潔輸掉三番棋最後一場
    在剛結束的第三場比賽中,柯潔沒有能再次發揮出上一盤人機對戰中的狀態,反倒被AlphaGo拖入了纏鬥當中。局勢隨著棋局的進行不斷落後,但是柯潔並沒有放棄戰鬥,在官子階段局部不斷跟AlphaGo戰鬥。可惜劣勢太大,無法扳回場面局勢。
  • 李世石第四局贏了 谷歌AlphaGo放水?
    【科技訊】3月14日消息,昨天的谷歌AlphaGo和韓國圍棋高手李世石的第四局比賽,李世石僥倖獲勝,戰局稱三比一的情況,而李世石的獲勝是谷歌在放水嗎?  據悉,谷歌AlphaGo之父薩比斯表示,AlphaGo出現了失誤,它的程序出現一些小問題,目前還無法詳細分析。
  • 柯潔vsAlphaGo圍棋比賽日期時間
    相信很多棋友對於這場經常對弈很期待,下文帶來阿爾法狗vs柯潔日期介紹,一起和小編來了解下吧!  柯潔 vs AlphaGo圍棋比賽日期時間介紹:  這場被認為是「人類頂尖棋手與人工智慧程序的終極對抗」,讓人們期待了足足一年有餘。而那個說著「AlphaGo贏不了我」的少年,終於站到了AI面前。
  • 李世石出現「神之一手」 第四局戰勝AlphaGo
    13日下午,谷歌人工智慧「阿爾法圍棋」(AlphaGo)與韓國棋手李世石繼續在韓國首爾鍾路區四季酒店進行第四場較量,經過4個多小時的比賽,最終李世石戰勝AlphaGo迎來首勝,終結三連敗的同時將比分扳成以1:3。今天的第四局比賽,李世石執白終於戰勝AlphaGo,為人類也更為他自己贏得一局可以保留顏面的勝利。
  • 最終局AlphaGo執白勝 人機大戰李世石1-4完敗
    網易體育3月15日報導:北京時間3月15日,李世石與谷歌圍棋AlphaGo人機五局大戰第五局,繼續在韓國首爾鍾路區四季酒店進行。李世石在前三局遭遇0-3三連敗的情況下,在3月13日的第四局比賽中執白擊敗對手扳回一城。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    這款軟體名為AlphaGo Zero,與之前擊敗了李世石的AlphaGo Master進行對弈,勝率高達100%。谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」
  • 首局柯潔執黑小負AlphaGo
    柯潔最近的五局比賽,有四局與三-三有關,其中三局點對方的三-三,另外一局開局直接佔三-三。而今天則達到極致:開局第3手佔了個三-三,第7手又點了個三-三,但從實戰來看效果不好。「三-三的弱點是星位,星位的弱點是三-三。」這是從「新布局」誕生就公認的,就好比一對兒陰陽轉換的矛盾,關鍵看如何結合全局與運用。
  • 李世石再敗 柯潔稱與AlphaGo終有一戰(圖)
    本報記者 徐然 北京報導  3月10日下午,經過四個半小時的鏖戰,韓國世界圍棋冠軍李世石再次認輸。在五局三勝的系列賽中,李世石已連輸兩盤。本周六的第三場比賽將成為「天王山之戰」。  顯然,李世石在3月10日的比賽中進行了調整。與3月9日劍走偏鋒相比,李世石10日開場布局更為傳統。但比賽開局不久,李世石的應對再次出現紕漏。「開局後,AlphaGo在右邊尖衝了一段,這樣的布局比較新穎,之前很少有人下這種棋。李世石的應對不是很好,被電腦搜刮以後,整個棋開始顯得特別重複。」柯潔對記者說,「此後,李世石也沒有下出最強的手段,從而失去了整個大局。李世石大局一直都不太好。
  • 人機大戰第二局 柯潔失誤再負AlphaGo
    柯潔投子認輸,AlphaGo中盤獲勝;第三局將如期在27日舉行新京報訊(記者馬婧覃澈)5月25日,中國棋手柯潔九段與AlphaGo上演人機大戰第二場,最終柯潔出現失誤,投子認輸,AlphaGo中盤獲勝。此次比賽中,柯潔執白子,AlphaGo執黑子。在雙方的第一場比賽中,柯潔以1/4子的微弱差距惜敗AlphaGo。
  • 谷歌AlphaGo大戰李世石第三局獲勝 比分3:0
    【TechWeb報導】3月12日消息,谷歌人工智慧AlphaGo與韓國棋手李世石今日進行了第三場較量,最終AlphaGo戰勝李世石,3:0獲得本次人機大戰的最終勝利。