圍棋統計學1:AlphaGo Zero進化史

2020-12-05 弈客圍棋

全部數據全部來源於弈客鷹眼的分析。採用LeelaZero,ELF權重,GTX 1080Ti單卡,固定每步分析30s。

在《關於劉超疑似AI作弊事件,蘑菇的最後一文》文中,蘑菇大致介紹了如果利用勝率數據來進行分析。以下是用到的方法原理的太長不看版(雖然還是很長):

1. 勝率趨勢曲線:反應一局棋的走勢,曲線平滑度與對局者水平、棋局激烈程度正相關。

2. 勝率變化曲線:反應一局棋每手棋和AI判斷的差異,水平低和棋局激烈,會導致峰變多變高。

3. 平均勝率差異與方差:與每手棋發揮的穩定性、對局者水平以及棋局激烈程度相關。發揮越穩定、對局者水平越高、局勢一邊倒,都會讓雙方這兩個值變小。

4. 吻合度:與AI招法的吻合度,可以作為作弊的判定標準之一。

以上述四個數據,可以建立相當多的數學模型,來進一步分析。本期希望通過探討AlphaGo-Zero進步過程中,不同時期的20盤棋,來進一步探討這些數據的用途。

一、勝率趨勢分析

這是20局棋勝率趨勢圖的合集,1-20局的順序按照從左到右、從上到下的順序排列。所有的勝率趨勢圖,均來自於弈客鷹眼自動生成。

Zero自戰20局勝率趨勢圖

第一張圖是AlphaGo-Zero的第一局對弈,懵懵懂懂的嘗試反應在勝率圖上就是激烈的波動。

Zero自戰第一局勝率趨勢圖

放大一下觀看,請自行體會。

可以看到,在水平較低的時候棋局進行的反覆較多,勝率即便到80%以上,也會有各種逆轉時刻。隨著水平的提升,只有兩種情況:① 一方緩慢的提升勝率,達成一盤艱苦的完勝;② 勝率圍繞50%劇烈波動,一方在最後時刻險勝。並且,在較高水平下,從未出現高勝率被翻盤的情況。

對優勢局面的把控能力,是水平高低的重要體現。這一點,勝率趨勢圖可以給出一定的反饋。

二、統計學參數

弈客鷹眼給出了20局棋,總計40個數據點的平均勝率差異與方差。

Zero自戰20局統計學參數

做平均勝率差異-方差散點圖,為了方便展示,縱橫坐標均作了對數處理,並做逆序坐標。取x=2,y=10做參考線,將圖分割為四個象限。

Zero自戰20局統計學數據散點圖

圖中右下角色度帶,按照紅-藍-綠的顏色漸變,標註不同對局的數據點,紅色端為訓練早期,綠色端為訓練後期。由於坐標軸區間限制,上圖中無第一局的兩個點:(1269.77, 29.25 ) 與 ( 1281.29, 29.6 )。可以看到,隨著水平的提升,數據點逐漸從左下角第三象限向右上角第一象限移動。進入到中後期之後,數據點又逐漸向左平移,最終穩定在大約 ( 20, 1.8 )附近。

究其原因,我們可以認為在達到某一個較高水平之前,棋力因素佔據了首位:棋力與平均勝率差異和方差呈負相關,水平越高平均勝率差異和方差越小。在達到之後,棋局的激烈程度佔據了主導。可以預料,在達到一定水平之後的AlphaGo Zero與分析用的ELF相比,每手棋勝率的差異並不會很大。在之前勝率趨勢圖中,也可以看到訓練後期的AlphaGo Zero自戰對局勝率圍繞50%波動十分激烈,這是導致方差略微變大的關鍵因素。

AlphaGo-Zero水平增長曲線

反應到上圖上,數據點向右上角快速移動的過程,可能是前期較為快速的增長過程。達到上圖拐點之後,數據點開始在某個中心點附近穩定下來。

平均勝率差異數據擬合

做對局編號-平均勝率差異的散點圖,並做數據擬合。結果表明,符合公式:

對局編號-平均勝率差異擬合公式

其中A=1.9354,B=4.2535,k=0.4509。R^2=0.96679,相關度非常好。擬合公式表明,在本方法下,平均勝率差異存在一個極限值A=1.9354,標準差σ=0.21794。

方差數據擬合

做對局編號-方差的散點圖,並做數據擬合。結果表明,符合公式:

對局編號-方差擬合公式

其中A=22.49,B=4345.5406,k=1.24818。R^2=0.95209,相關度非常好。擬合公式表明,在本方法下,方差存在一個極限值A=22.49,標準差σ=10.54696。

兩項極限值的存在,與水平後期增長大幅放緩相容,提示可能存在一個訓練的極限水平。此外,我們可以認為AlphaGo Zero在本方法下,是以 ( 22.49, 1.9354 ) 為中心的分布,分布可能符合高斯分布或者泊松分布,需要進一步數據的驗證。

三、吻合度分析

弈客鷹眼給出了20局棋,總計40個數據點的吻合度。

Zero自戰20局吻合度

做對局編號-吻合度的散點圖,並做數據擬合。

吻合度數據擬合

結果表明,符合公式:

吻合度-方差擬合公式

其中A=61.94971,B=-82.72247,k=0.32915。R^2=0.90839,相關度還不錯。擬合公式表明,在本方法下,方差存在一個極限值A=61.94971,標準差σ=1.28109。結果表明,在本方法下,AlphaGo Zero與ELF的吻合度存在一個極限值,也就是61.95%。只有1.28的標準差,提示AlphaGo Zero與ELF的吻合度是一個比較窄的分布,主要集中在一個非常窄的區間內。

本項吻合度結果也表明了另一個事實,不同AI之間也相似度也並不是特別高。如果吻合度過高,提示被測試對象很可能與分析工具一致。

(毒奶菇)

弈客圍棋整理髮布!

更多精彩賽事直播,棋文弈事,盡在弈客圍棋,下載弈客APP,和熱愛圍棋的棋友對弈手談!

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。 less is more。 2017年起,在某些領域,AI不再需要人類知識。
  • AlphaGo 圍棋教學工具已發布
    這是一個AlphaGo教學的開局庫,相關細節如下:1. 本教學工具總共收錄了約6000個近代圍棋史上主要的開局變化,從23萬個人類棋譜中收集而來。2. 所有盤面都有AlphaGo評估的勝率,以及AlphaGo推薦的下法。3.
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    2016年3月,第一次「人機大戰」,Alpha Go1.0版4比1擊敗14個世界冠軍獲得者李世石九段;柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    【弈客圍棋APP 記錄你的圍棋人生】 倫敦當地時間2017年10月18日18:00(北京時間19日01
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    本文介紹了騰訊微信翻譯團隊開源的人工智慧圍棋項目 PhoenixGo,該項目是對 DeepMindAlphaGo Zero論文《Mastering the game of Go without human knowledge》的實現。
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?
  • 柯潔vsAlphaGo圍棋比賽日期時間
    谷歌宣布5月23日-27日在烏鎮主辦「中國烏鎮·圍棋峰會」,屆時AlphaGo將再度與柯潔等為代表的中國頂尖棋手進行圍棋對弈。  根據賽程安排,本次比賽內容豐富。其中AlphaGo與世界排名第一的柯潔的三番棋對弈無疑是眾人最關注的焦點。
  • ALphaGo進化,新一代ALphaGo Zero誕生!
    據外媒報導,英國DeepMind團隊的 人工智慧 研究取得了新進展:他們開發出了新一代的圍棋AI-ALphaGo Zero。使用了強化學習技術的ALphaGo Zero,棋力大幅度增長,可輕鬆擊敗曾經戰勝柯潔、李世石的ALphaGo。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    人類AI圍棋之爭,還在繼續。今年5月底,人機圍棋大戰終極對決,最終世界排名第一的柯潔九段和AlphaGo的圍棋終極人機大戰以0:3完敗。賽後,柯潔在接受採訪時直言,AlphaGo太完美,看不到任何勝利的希望。
  • ...再次進化,AlphaGo Zero 這次擊敗了戰勝柯潔的 AlphaGo Master
    令人興奮的是,在訓練 AlphaGo Zero 的過程中,為其引入了圍棋遊戲並學習先進的概念,挑選出一些有利的位置和序列。經過 3 天的訓練後,AlphaGo Zero 能夠擊敗 AlphaGo Lee,而後者是去年擊敗韓國選手李世石的 DeepMind 軟體。
  • 棋跡:少年AlphaGo Zero的圍棋成長之路
    想在圍棋上贏,你需要雙系統:行棋與勝負,一個斷生死,一個斷地盤。而AlphaGo Zero下圍棋,卻只需要一個系統,它同時包含了走子策略網絡和價值網絡。針對AlphaGo Zero的報導鋪天蓋地,官方解釋不如生動展示。烏鎮智庫整理出兩大有趣的解讀模塊,從圍棋知識徵子入手與雙遊戲對比,後附AlphaGo Zero訓練棋盤復盤,帶你感受Zero的真實段位。
  • 王小川點評:AlphaGo2.0將重演一部進化史
    王小川說,AlphaGo2.0和1.0技術原理有著巨大不同,更接近於人,因此這次比賽的最大看點是,AlphaGo2.0或許會頻現「怪招」,完全顛覆人類對圍棋的理解。AlphaGo告訴我們:我們還有極大的發展空間;而AlphaGo2.0告訴我們:如果有合適的條件,完全可能有其他的生命進化路徑,以及更不一樣的進化結果,相當於重演一部進化史。
  • 阿爾法狗zero是否將宣告圍棋的終結
    自從2016年阿爾法狗擊敗了韓國圍棋高手李世石,繼而又在2017年擊敗了世界排名第一的柯潔,人工智慧就已經開始威脅到了圍棋的生存,以及所有人類的古老智力遊戲的生存。無論是圍棋還是象棋,現在都要面對一個根本的問題,為什麼還要下圍棋和象棋,因為最終還是要輸。
  • AlphaGo Zero後時代(1)——贏不了的職業棋手
    同樣地,對圍棋而言:「贏棋」是吸引觀眾的首要砝碼。中國圍棋隊總教練俞斌九段就說過一段名言:「圍棋的美我覺得就在於勝負競技,我們說這一招很美,是因為它導向了勝利。」離開了輸贏,圍棋之美也就成了一紙空言,空中樓閣。而再也贏不到,或者極為罕見地能贏一盤圍棋AI的職業棋手們還能定義圍棋的美嗎?
  • 再進化版本AlphaGo Zero以100:0完勝
    再進化版本AlphaGo Zero以100:0完勝 如今,說起由谷歌旗下團隊DeepMind所開發的人工智慧(AI)AlphaGo,你的頭腦當中會回想起什麼呢?是它在16年3月與圍棋高手李世石的一戰成名,還是化身「Master」在30秒快棋戰當中連克數十名世界級高手,亦或是今年5月份讓柯傑連負三局進而崩潰的強橫實力?
  • 從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?
    2017年10月19日,DeepMind在《Nature》雜誌發布了其最新研究成果阿爾法元(AlphaGo Zero),題目很嚇人,叫《無須人類知識掌握圍棋》,並正式推出人工智慧圍棋程序的一個最新版——阿爾法元(AlphaGo Zero),讓業界為之一震。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」相關閱讀:阿爾法狗之父:AlphaGo Zero 3天走完千年棋史 澎湃新聞記者 虞涵棋 王心馨倫敦當地時間10月18日18:00(北京時間19日01:00),谷歌旗下的DeepMind團隊公布了進化後的最強版AlphaGo ,代號AlphaGo Zero。新版本的AlphaGo究竟有多厲害?
  • 從零開始下圍棋 AlphaGo Zero更加強大
    直白一點地說,之前打敗圍棋大師李世石的AlphaGo可能需要人類給它提供各種高手棋譜來進行訓練,而Zero就是一個完全的小白,人類也不用教它什麼,只需要告訴它規則,它就能完全通過自學的方法來掌握圍棋。 和前代版本相比,Zero在效率上有著明顯的提升,現在僅需要4塊TPU(由谷歌構建的專門的AI處理器)和72個小時的訓練,就能勝過之前幾個月訓練時間的AlphaGo。