[前沿]圖解谷歌AlphaGo原理及弱點_百麗百靈

2021-02-15 百麗百靈


轉自算法與數學之美


作者簡介:鄭宇,博士, Editor-in-Chief of ACM Transactions on Intelligent Systems and Technology, ACM數據挖掘中國分會秘書長。

張鈞波,博士,ACM數據挖掘中國分會會員,從事深度神經網絡相關研究。

---

近期AlphaGo在人機圍棋比賽中連勝李世石3局,體現了人工智慧在圍棋領域的突破,作為人工智慧領域的工作者,我們深感欣慰。其實質是深度學習網絡(CNN)跟蒙特卡羅搜索樹(MCTS)結合的勝利,是人類智慧的進步。不少所謂的「磚」家開始鼓吹機器戰勝人類、甚至人類將被機器統治等無知言論,讓人實在看不下去。作為圍棋愛好者和人工智慧領域工作者,我們覺得是時候跟大家講講AlphaGo的原理及其弱點了。

 

可以很負責任的告訴大家,AlphaGo還沒有完全攻克圍棋這個難題,職業棋手也並非沒有希望贏Go了,更不能說機器戰勝了人類。AlphaGo未來需要走的路還很長。如果有中國職業棋手想挑戰AlphaGo,我們願意為其組建最頂尖(且懂圍棋)的人工智慧專家顧問團,助其取勝AlphaGo

 

雖然網上技術貼不少,但還沒有一篇文章完全講清楚AphaGo的原理,Nature上刊登的文章也缺乏一張刨解全局的圖(加之用英文描述,同學們很難理解透徹)。以下是我跟張鈞波博士在多次閱讀原文並收集了大量其他資料後,一起完成的一張圖,解釋了AlphaGo的原理,看完後大家自然知道其弱點在何處了。


圖1、AlphaGo的原理圖

AlphaGo總體上包含離線學習(圖1上半部分)和在線對弈(圖1下半部分)兩個過程。

離線學習過程分為三個訓練階段。

第一階段:利用3萬多幅專業棋手對局的棋譜來訓練兩個網絡。一個是基於全局特徵和深度卷積網絡(CNN)訓練出來的策略網絡(Policy Network)。其主要作用是給定當前盤面狀態作為輸入,輸出下一步棋在棋盤其它空地上的落子概率。另一個是利用局部特徵和線性模型訓練出來的快速走棋策略(Rollout Policy)。策略網絡速度較慢,但精度較高;快速走棋策略反之。

第二階段:利用第t輪的策略網絡與先前訓練好的策略網絡互相對弈,利用增強式學習來修正第t輪的策略網絡的參數,最終得到增強的策略網絡。這部分被很多「磚」家極大的鼓吹,但實際上應該存在理論上的瓶頸(提升能力有限)。這就好比2個6歲的小孩不斷對弈,其水平就會達到職業9段?

第三階段:先利用普通的策略網絡來生成棋局的前U-1步(U是一個屬於[1, 450]的隨機變量),然後利用隨機採樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。隨後,利用增強的策略網絡來完成後面的自我對弈過程,直至棋局結束分出勝負。此後,第U步的盤面作為特徵輸入,勝負作為label,學習一個價值網絡(Value Network),用於判斷結果的輸贏概率。價值網絡其實是AlphaGo的一大創新,圍棋最為困難的地方在於很難根據當前的局勢來判斷最後的結果,這點職業棋手也很難掌握。通過大量的自我對弈,AlphaGo產生了3000萬盤棋局,用來訓練價值網絡。但由於圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克這個問題。

在線對弈過程包括以下5個關鍵步驟:其核心思想實在蒙特卡羅搜索樹(MCTS)中嵌入了深度神經網絡來減少搜索空間。AlphaGo並沒有具備真正的思維能力。

根據當前盤面已經落子的情況提取相應特徵;

利用策略網絡估計出棋盤其他空地的落子概率;

根據落子概率來計算此處往下發展的權重,初始值為落子概率本身(如0.18)。實際情況可能是一個以概率值為輸入的函數,此處為了理解簡便。

利用價值網絡和快速走棋網絡分別判斷局勢,兩個局勢得分相加為此處最後走棋獲勝的得分。這裡使用快速走棋策略是一個用速度來換取量的方法,從被判斷的位置出發,快速行棋至最後,每一次行棋結束後都會有個輸贏結果,然後綜合統計這個節點對應的勝率。而價值網絡只要根據當前的狀態便可直接評估出最後的結果。兩者各有優缺點、互補。

利用第四步計算的得分來更新之前那個走棋位置的權重(如從0.18變成了0.12);此後,從權重最大的0.15那條邊開始繼續搜索和更新。這些權重的更新過程應該是可以並行的。當某個節點的被訪問次數超過了一定的門限值,則在蒙特卡羅樹上進一步展開下一級別的搜索(如圖2所示)。



圖2、MCTS拓展下一級節點

AlphaGo的弱點在哪裡?

攻其策略網絡,加大搜索空間。進入中盤後,職業選手如能建立起比較複雜的局面,每一步棋都牽連很多個局部棋的命運(避免單塊、局部作戰),則AlphaGo需要搜索空間則急劇加大,短時間內得到的解的精度就會大打折扣。通俗地說,非常複雜的變化,人算不清楚,現階段計算機的計算力更沒辦法。李世石九段的第四局棋就有這個意思。此處左右上下共5塊黑白棋都相互關聯到一起,白1下後,黑棋需要考慮很多地方。很多地方都需要在MCTS上進行更深入的搜索。為了在一定的時間內有結果,只能放棄搜索精度。


圖3、李世石對AlphaGo第四盤棋棋譜

攻其價值網絡,萬劫不復:AlphaGo的價值網絡極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準確判斷圍棋局勢還有不小的差距。神經網絡還不能完全避免在某些時候出現一些怪異(甚至錯誤)的判斷,更何況其訓練樣本還遠遠不足。這也是為什麼有了價值網絡還仍然需要依靠快速走棋來判斷局勢。大家都曾經懷疑過AlphaGo的打劫能力,也感覺到了AlphaGo有躲避打劫的跡象。實際上南京大學的周志華教授曾經撰文指出打劫會讓價值網絡崩潰的問題,原理不再重複。不能說AlphaGo不會打劫,而是害怕在棋局早期的多劫並存。即,打劫要趁早,太晚了搜索空間變小,即便價值網絡失效,還可以靠快速走棋網絡來彌補。開劫應該以在剛剛進入中盤時期為好(太早劫財還不夠),並且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網絡的AlphaGo其實水平也就職業3-5段左右。

說明:本公號不定期發布原創或改編的信息,如需採用或轉載,須與百麗百靈公號(BL100BL)或百麗百靈管理員微號(BL88BL88)溝通。

歡迎加入百麗百靈微友群(先加管理員微號BL88BL88好友)。

投稿和合作聯繫信箱:3012908001@qq.com。

百麗百靈公號本期目錄(2016年03月20日):

1、[前沿]圖解谷歌AlphaGo原理及弱點_百麗百靈

2、[旅遊]徒步行河內—越國南行記(7)_百麗百靈

百麗百靈公號上期目錄(2016年03月19日):

1、[觀點]馬雲和扎克伯格談創新等_百麗百靈

2、[觀點]基辛格博士:中美關係不同於一戰前英德關係_百麗百靈

3、[政策]《政府工作報告》修訂情況吹風會全文_百麗百靈

4、[前沿]馬少平:人工智慧的裡程碑:從深藍到AlphaGo_百麗百靈

5、[旅遊]友誼關下的醜陋—越國南行記(6)_百麗百靈

百麗百靈公號上上期目錄(2016年03月18日):

1、[政策]《武漢市公共資源交易目錄(試行)》徵求意見_百麗百靈

2、[心理]兒童十五種常見情緒背後的心理_百麗百靈

3、[旅遊]東興,還是憑祥—越國南行記(5)_百麗百靈

請關注百麗百靈公號(BL100BL)。


感謝關注百麗百靈

相關焦點

  • 一張圖解AlphaGo原理及弱點
    作為圍棋愛好者和人工智慧領域工作者,我們覺得是時候跟大家講講AlphaGo的原理及其弱點了。 可以很負責任的告訴大家,AlphaGo還沒有完全攻克圍棋這個難題,職業棋手也並非沒有希望贏Go了,更不能說機器戰勝了人類。AlphaGo未來需要走的路還很長。
  • 一張圖看懂:Google AlphaGo的原理、弱點
    作為圍棋愛好者和人工智慧領域工作者,我們覺得是時候跟大家講講AlphaGo的原理及其弱點了。可以很負責任地告訴大家,AlphaGo還沒有完全攻克圍棋這個難題,職業棋手也並非沒有希望贏Go了,更不能說機器戰勝了人類。AlphaGo未來需要走的路還很長。
  • 圖解汽車(9) 汽車差速器結構原理解析
    閱讀提示:  PCauto技術頻道圖解類文章都可以使用全新的高清圖解形式進行閱讀。大家可以通過點擊上面圖片連結跳轉到圖解模式。高清大圖面積提升3倍,看著更清晰更爽,趕緊來體驗吧!  如果對於差速器的工作原理還不夠明白,可觀看下面這個講解差速器原理的視頻,非常經典有趣。(為了節省你的時間,可從3:30開始觀看)● 為何又要把差速器鎖死?
  • 限位伸縮器原理圖解
    限位伸縮器原理圖解
  • 圖解剖析四柱液壓機工作原理
    鑫臺銘給大家介紹四柱液壓機工作原理前,我們先來看一張液壓機的剖面圖(如下圖):結合這張圖,我們來給大家介紹四柱液壓機的工作原理:圖解剖析四柱液壓機工作原理1.四柱液壓機主缸的運動(1)快速下行快速下行時,電磁鐵IYA通電,先導閥3和主缸換向閥
  • 液壓機|四柱液壓機|單柱液壓機|小型液壓機工作原理圖解
    液壓機工作原理圖解起升油缸設有三個油口,P1、P2和P3。液壓機工作原理圖解液壓系統包括主液壓系統和轉向液壓系統,兩個系統共用一液壓油箱。液壓機工作原理圖解液壓機的特點1、基於液壓傳動的原理,執行元件(缸及柱塞或活塞)結構簡單,結構上易於實現很大的工作壓力
  • AlphaGo已下線,AlphaGo Zero從0-1不帶人類尬棋了!
    而面對阿法元的出現,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的…對於alphago的自我進步來講…人類太多餘了。」 2014年穀歌以4億英鎊的價格收購英國人工智慧公司DeepMind。2016年,谷歌旗下的DeepMind團隊發布AlphaGo,並在以4:1的成績擊敗李世石後,名聲大噪。 相較於研究成果的閃耀,DeepMind在研究費用上的投入也是驚人的。據英國政府此前發布的資料顯示,DeepMind僅去年一年就虧損了1.62億美元。
  • 百麗官方旗艦店 百麗女鞋官網旗艦店
    百麗官方旗艦店 百麗女鞋官網旗艦店 2011-09-13 00:00:00 來源:來源:全球紡織網 百麗官方旗艦店:http://www.ebailis.info
  • 谷歌 AlphaGo 原理
  • alphago 50盤自戰棋譜的簡單解讀
    2、在alphago眼裡,外勢沒有人類感覺的那麼重要。我們知道alphago比較喜歡點33,而一般職業棋手認為開局不久點33是虧的,因為對手的棋可以輕鬆拿到厚勢。 但從alphago而言,至少認為這樣做雙方是均勢的。典型如第21局棋譜,一上來就形成了白棋撈實地而黑棋佔大場的格局,從傳統人類的觀點來說,開局白棋有太多子下在二三線,肯定是虧透了。
  • 單相電機啟動和運行原理圖解
    打開APP 單相電機啟動和運行原理圖解 發表於 2019-10-21 09:55:42 單相電機的啟動,這種電容也叫啟動電容,
  • > 百麗官方旗艦店
    百麗官方旗艦店 2011-08-12 17:24:15 來源:網上輕紡城 百麗官方旗艦店:http://www.belle.com.cn
  • 阿爾法狗(AlphaGo)到底是怎樣的存在?
    @賀老闆:谷歌內心OS:對不起,早上出門帶錯狗了……網友:AlphaGo:你們不是覺得我不會輸麼?既然勝負已定,我輸一個給你們看。彈幕:阿法狗可能愛上了李世石……網友:李世石輸給阿法狗有什麼感想?知乎撲飯悠豬:本來想送孩子去學圍棋,得,還是學編程吧。
  • AlphaGo 算法原理的本質
    1.4 聰明的谷歌研究團隊圍棋問題抽象成純粹的數學問題,是AlphaGo的核心問題。AlphaGo很聰明,把該問題抽象成了CNN網絡模型,這是令人拍案叫絕的地方。有時候不得不佩服谷歌的研究團隊,當年讀谷歌的FaceNet那篇論文時,我都有要自殺的感覺,真的,我覺得那個三元組模型太聰明了,通過一個間接的方法構造損失函數,避免了對海量組合樣本的標註(其實人臉特徵提取模型也不可能人工標註訓練樣本)。當年我苦思冥想也沒找到如此巧妙的途徑,這一點對谷歌俺是心悅誠服。深度學習技術的推廣普及,谷歌功不可沒。
  • 鞋王隕落:曾經有女人路過的地方就有百麗 如今百麗賤賣了自己
    摘要 【鞋王隕落:曾經有女人路過的地方就有百麗 如今百麗賤賣了自己】東方財富網19日訊,4月18日,百麗國際(01880)發布停牌公告,停盤原因是鼎暉投資正與百麗高層研究潛在收購交易,具體公告最快可能於本周公布。
  • 【百靈論壇】川養百靈簡介
    百靈不過江是養百靈的老說法,也說明百靈到了南方很難養好,但是事在人為。只要伺候精心,細心觀察還是沒有問題的。
  • 旗下五大品牌進入億元俱樂部,雙11女鞋行業TOP10鞋王百麗霸榜
    2018年雙十一,百麗時尚鞋服業務線上銷售額同比增長63%,線下增長18%;2019年雙十一,線上同比增長43%,線下增長26%,連續拿下2018年和2019年雙十一天貓時尚鞋靴行業榜集體規模和單品牌的第一名。在疫後的首個雙十一,百麗依然交出了「同比雙位數增長、行業第一」的成績單。年初受到疫情影響,全行業面臨困境,由於線下門店停擺,百麗2月份全渠道業績收入一度下滑七成。
  • 柯潔與alphago的三局,棋盤上到底都發生了什麼
    文 | 春光炸裂我作為圍棋國家二級運動員,儘量講清楚柯潔與alphago的三局,棋盤上到底都發生了什麼。
  • 輝煌一時的百麗如今為何消沉了?
    不禁要問,百麗,到底怎麼了? 相較之於中國服裝品牌今年此起彼伏的熱鬧勁兒,以百麗為首的一大波鞋履企業就稍顯沉悶了。回想曾經輝煌一時的百麗,這家中國最大的鞋履生產和零售公司,是多少企業極力效仿的榜樣。而眼下,頻頻出現的負面新聞,店鋪關閉,股東減持,發展遲緩,別說驚喜,就連淡定都需要勇氣。不禁要問,百麗,到底怎麼了?
  • 柯潔與Alphago的三局人機大戰,棋盤上到底都發生了什麼?
    本文來源 | 微博:春光乍裂作為圍棋國家二級運動員,儘量講清楚柯潔與alphago的三局,棋盤上到底都發生了什麼。從結果上看,第一局差距最小。但這種差距,有alphago精心控制的因素。而alphago,採用了「贏得最穩健的下法,而非贏得最多。」在此前提下,柯潔做出了盡力的收束,將差距拉至極限最低。曾寫過吳清源與連勝六十棋手時的alphago:清楚地標明了「強者」與「天才」之間的鴻溝。他們的恐怖之處在於,拓寬了這件事的想像邊界。是典型地「學霸考一百分,是因為滿分只有一百分。」