【CSDN 編者按】2015 年 AlphaGo 出道一年,就戰勝法國二段職業棋手樊麾,2016 年 3 月以 4:1 戰勝韓國國手李世石九段,3 月 14 日,韓國棋院表示 AlphaGo 實力不遜於李世石九段,授予 Alphago 韓國棋院名譽九段證書。AlphaGo 一戰成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,強化版 AlphaGo 化名「Master」,在非正式網絡快棋對戰測試當中取得 60 戰全勝。2017 年 5 月,與中國棋手柯潔九段對戰,全取三分,虐哭柯潔。而且由於此次使用 Google 的 TPU,使得計算資源只有對戰李世石時候的十分之一。要知道,柯潔可不是旁人,是當時世界第一,年紀輕輕,已經手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。賽後,中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號,棋聖聶衛平更是盛讚 AlphaGo 的水平相當於職業圍棋二十段。賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。
作者 | 八寶粥
中國圍棋協會授予 AlphaGo 中國職業圍棋九段稱號
DeepMind 團隊為 AlphaGo 各個版本起了不同名字, 歷數幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master,後來還推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此後版本沒有用到人類數據,通過和自己對戰,訓練三天即可實現極高勝率。在那之後,AlphaGo 團隊獨孤求敗,淡出江湖。此後, DeepMind 在蛋白質摺疊等方面也做出 AlphaFold 等令人矚目的成就。
誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。如果此前 AlphaGo 版本是靠著機器學習和算力的一力降十會的話,此次的新算法就是雙手互搏,無師自通,不光如此,MuZero 的 「魔爪」從圍棋伸向了各個領域,包括西洋棋、日本的將棋和 Atari 電子遊戲。你冬練三九夏練三伏,別人一出世就自帶超強自學能力,而且人家全家輸的次數屈指可數,還都是輸給自己人,你說這比賽讓人怎麼打?
平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」
如果這次真的有人能上來對陣三招五式的話,可能也只有 AI 本身能對抗 AI了。或者像網友戲謔的那樣,「不讓他聯網」、「拔他電源」。。。。那麼 MuZero 到底是哪路神仙呢?我們一起來看一下:
來自 DeepMind 官網
從上圖可以看出,隨著技術的進化,需要的知識庫(規則)逐漸減少,到 MuZero 直接沒有了,而應用的領域卻逐漸增加, 從圍棋、將棋擴展到 Atari 遊戲。
文章表示,MuZero 和此前的 Alpha Zero 代碼相似,但是 MuZero 無法訪問規則集合,而是將該規則替換成了搜索樹狀態神經網絡,研究人員主要通過以下方法應對 AI 的挑戰,超前搜索和基於模型的計劃。超前搜索已經在西洋棋、撲克等景點遊戲當中取得成功,但是依賴於遊戲規則,這樣的話,對於複雜世界和混亂的現實問題就沒有辦法,因為它們無法提煉成簡化的規則;基於模型的系統旨在學習環境動力學的精確模型, 然後以此進行規劃和學習。不過對於視覺豐富的環境當中依然沒有競爭力。比如遊戲 Atari 當中,最好的結果其實來自於無模型系統。
MuZero 使用另外的方法來克服此前方法的局限性, 它不是對整個環境建模,而是對代理的決策環境或者關鍵方面進行建模。DeepMInd 表示:畢竟,了解雨傘會使您保持乾燥比對空氣中雨滴進行建模更有用。
具體而言, MuZero 對三個元素進行建模,分別是值、策略、獎勵。分別衡量了:當前位置好壞程度、最優策略以及上一步好壞的衡量。通過蒙特卡羅搜索樹,配合動力學函數和預測函數,考慮下一步的動作序列,同時利用了和環境互動時候收集的經驗來訓練神經網絡,在每一步當中保存之前的信息。這個似乎是一種無監督學習內的強化學習。其實它也不能說完全 「無規則」,它唯一的規則其實是我們在下棋當中常說的「走一步、看三步」,不管是什麼遊戲,它都給自己一個這樣的規則。MuZero 就可以反覆發使用學習的模型來改進計劃,而不需要從環境當中重新收集數據。
從項目主要開發者 Julian Schrittwieser 的博客當中,我們還發現了一些有意思的內容。
來自 Julian Schrittwieser 博客
對於作者而言,這些也僅僅都是 「統計」而已,它是從 AlphaGo 和 Alpha Zero 當中集成的策略網絡和價值網絡,每一個網絡都已經非常強大了,考慮策略網絡,就能對於下一步有良好的預判,考慮價值網絡,就能選擇價值最高的行動,結合兩者,當然就更完美了。
ps. 講點你不知道的東西~
為什麼給它取名叫 MuZero 呢?很大程度上來自於日語發音,開發者 Julian 覺得這個和日語夢、以及無的發音相似(為什麼不去學中文啊大哥!);另外他認為這個發音和希臘字母 μ 也很像。Zero 和此前一樣,表示沒有用到人類的數據。所以這個算法可以讀作「木Zero」、"謬Zero"~不過開發者自己的發音是「謬Zero」。
這位小哥也很有意思,來自奧地利,對各種語言都很感興趣,當然也包括一些開發語言。而且努力學日語中~
如果你對 MuZero 感興趣, 不妨可以看看小哥博客裡面推薦的文章 ,教你怎麼利用 Python 搭建自己的 MuZero AI ,說不定也能用 AI 打敗誰(比如街邊下棋的大爺)。
從 AlphaGo 震驚圍棋江湖以來,越來越多的 「唯人能贏」的遊戲開始被 AI 染指,如果此前《星際爭霸II》當中戰勝人類選手還是算力的取勝,MuZero 雙掌互搏就能增長內力、左腳踩右腳就能騰雲這次真的是一次巨大的衝擊。歡迎下方留言,下一個被 AI 虐哭的會是誰呢?
【參考資料】:
1.DeepMind 官方網站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
2.論文連結:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D
3.2019年預印版論文下載地址:https://arxiv.org/abs/1911.08265
4.開發者 Julian 的個人博客:http://www.furidamu.org/
程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「2020 中國開發者大調查」,更有豐富獎品送不停!