Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?

2021-02-08 CSDN

【CSDN 編者按】2015 年 AlphaGo 出道一年,就戰勝法國二段職業棋手樊麾,2016 年 3 月以 4:1 戰勝韓國國手李世石九段,3 月 14 日,韓國棋院表示 AlphaGo 實力不遜於李世石九段,授予 Alphago 韓國棋院名譽九段證書。AlphaGo 一戰成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,強化版 AlphaGo 化名「Master」,在非正式網絡快棋對戰測試當中取得 60 戰全勝。2017 年 5 月,與中國棋手柯潔九段對戰,全取三分,虐哭柯潔。而且由於此次使用 Google 的 TPU,使得計算資源只有對戰李世石時候的十分之一。要知道,柯潔可不是旁人,是當時世界第一,年紀輕輕,已經手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。賽後,中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號,棋聖聶衛平更是盛讚 AlphaGo 的水平相當於職業圍棋二十段。賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。

作者 | 八寶粥

中國圍棋協會授予 AlphaGo 中國職業圍棋九段稱號

DeepMind 團隊為 AlphaGo 各個版本起了不同名字, 歷數幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master,後來還推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此後版本沒有用到人類數據,通過和自己對戰,訓練三天即可實現極高勝率。在那之後,AlphaGo 團隊獨孤求敗,淡出江湖。此後, DeepMind 在蛋白質摺疊等方面也做出 AlphaFold 等令人矚目的成就。

誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。如果此前 AlphaGo 版本是靠著機器學習和算力的一力降十會的話,此次的新算法就是雙手互搏,無師自通,不光如此,MuZero 的 「魔爪」從圍棋伸向了各個領域,包括西洋棋、日本的將棋和 Atari 電子遊戲。你冬練三九夏練三伏,別人一出世就自帶超強自學能力,而且人家全家輸的次數屈指可數,還都是輸給自己人,你說這比賽讓人怎麼打?

平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」

如果這次真的有人能上來對陣三招五式的話,可能也只有 AI 本身能對抗 AI了。或者像網友戲謔的那樣,「不讓他聯網」、「拔他電源」。。。。那麼 MuZero 到底是哪路神仙呢?我們一起來看一下:

來自 DeepMind 官網

從上圖可以看出,隨著技術的進化,需要的知識庫(規則)逐漸減少,到 MuZero 直接沒有了,而應用的領域卻逐漸增加, 從圍棋、將棋擴展到 Atari 遊戲。

文章表示,MuZero 和此前的 Alpha Zero 代碼相似,但是 MuZero 無法訪問規則集合,而是將該規則替換成了搜索樹狀態神經網絡,研究人員主要通過以下方法應對 AI 的挑戰,超前搜索和基於模型的計劃。超前搜索已經在西洋棋、撲克等景點遊戲當中取得成功,但是依賴於遊戲規則,這樣的話,對於複雜世界和混亂的現實問題就沒有辦法,因為它們無法提煉成簡化的規則;基於模型的系統旨在學習環境動力學的精確模型, 然後以此進行規劃和學習。不過對於視覺豐富的環境當中依然沒有競爭力。比如遊戲 Atari 當中,最好的結果其實來自於無模型系統。

MuZero 使用另外的方法來克服此前方法的局限性, 它不是對整個環境建模,而是對代理的決策環境或者關鍵方面進行建模。DeepMInd 表示:畢竟,了解雨傘會使您保持乾燥比對空氣中雨滴進行建模更有用。

具體而言, MuZero 對三個元素進行建模,分別是值、策略、獎勵。分別衡量了:當前位置好壞程度、最優策略以及上一步好壞的衡量。通過蒙特卡羅搜索樹,配合動力學函數和預測函數,考慮下一步的動作序列,同時利用了和環境互動時候收集的經驗來訓練神經網絡,在每一步當中保存之前的信息。這個似乎是一種無監督學習內的強化學習。其實它也不能說完全 「無規則」,它唯一的規則其實是我們在下棋當中常說的「走一步、看三步」,不管是什麼遊戲,它都給自己一個這樣的規則。MuZero 就可以反覆發使用學習的模型來改進計劃,而不需要從環境當中重新收集數據。

從項目主要開發者 Julian Schrittwieser 的博客當中,我們還發現了一些有意思的內容。

來自 Julian Schrittwieser 博客

對於作者而言,這些也僅僅都是 「統計」而已,它是從 AlphaGo 和 Alpha Zero 當中集成的策略網絡和價值網絡,每一個網絡都已經非常強大了,考慮策略網絡,就能對於下一步有良好的預判,考慮價值網絡,就能選擇價值最高的行動,結合兩者,當然就更完美了。

ps. 講點你不知道的東西~

為什麼給它取名叫 MuZero 呢?很大程度上來自於日語發音,開發者 Julian 覺得這個和日語夢、以及無的發音相似(為什麼不去學中文啊大哥!);另外他認為這個發音和希臘字母 μ 也很像。Zero 和此前一樣,表示沒有用到人類的數據。所以這個算法可以讀作「木Zero」、"謬Zero"~不過開發者自己的發音是「謬Zero」。

這位小哥也很有意思,來自奧地利,對各種語言都很感興趣,當然也包括一些開發語言。而且努力學日語中~

如果你對 MuZero 感興趣, 不妨可以看看小哥博客裡面推薦的文章 ,教你怎麼利用 Python 搭建自己的 MuZero AI ,說不定也能用 AI 打敗誰(比如街邊下棋的大爺)。

從 AlphaGo 震驚圍棋江湖以來,越來越多的 「唯人能贏」的遊戲開始被 AI 染指,如果此前《星際爭霸II》當中戰勝人類選手還是算力的取勝,MuZero 雙掌互搏就能增長內力、左腳踩右腳就能騰雲這次真的是一次巨大的衝擊。歡迎下方留言,下一個被 AI 虐哭的會是誰呢?

【參考資料】:

1.DeepMind 官方網站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.論文連結:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年預印版論文下載地址:https://arxiv.org/abs/1911.08265

4.開發者 Julian 的個人博客:http://www.furidamu.org/

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「2020 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展
    Twitchhttps://www.twitch.tv/starcraftYouTube:https://www.youtube.com/c/deepmind暴雪在最近的BlizzCon上,總結了自己2018年的工作,並相當低調地發布了「與DeepMind合作正在繼續 」的更新:
  • Deepmind AI在《星際爭霸2》血虐99.8%人類,登頂宗師段位
    就像是一個人下象棋的同時還要踢足球。你需要高度集中的注意力、超人般的手指和胳膊、以及超出常人的戰略頭腦。」 根據DeepMind團隊在《Nature》上發表的一篇論文,星際爭霸「已成為人工智慧研究的一項重要挑戰」,這要歸功於它「天生的複雜性和多代理挑戰,成就了它在最困難的專業電競中的持久地位,並且它與現實世界具有很強的相關性」。 那為什麼AI在玩星際爭霸2這樣的複雜遊戲?因為複雜遊戲是一個對現實的絕佳模擬。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    論文連結:https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/一、7個玩家「攻城略地」,遊戲有10^900種可能《外交風雲》遊戲在一張歐洲地圖上進行
  • AI大事件丨Paige.ai斥資將機器學習帶入癌症病理學
    /Paige.ai病理學AI引導,已經在A輪融資中獲得了2500萬美元,用於構建一個幫助理解癌症病理的系統。IMPALA:DMLab-30中的可擴展分布式深度RL來源:DEEPMIND.COM連結:https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/Deep Reinforcement Learning
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • DeepMind新研究登上《Nature》
    當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。不斷訓練之後,「預期」和「現實」會逐漸變得更加匹配,整個預測鏈條也會變得越來越準確。與此同時,很多神經科學研究者們,專注於多巴胺神經元的行為研究。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新庫,給這個生態注入了新的活力。 Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • 谷歌DeepMind發布最新研究:人類認知心理學開啟人工智慧的「黑盒子」
    當然,你也不能強求這個神經網絡能夠給出它下達每一個指令的原因:目前為止還沒有一套能夠讓 AI 自己解釋自己行為的系統。6 月 26 日,在最新發布的一篇論文中,DeepMind提出了一種基於認知心理學來研究深度神經網絡的新方法。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。
  • AlphaFold 2發布背後,DeepMind AI去年巨虧6.49億美元
    今年花錢這麼多,但DeepMind的一位發言人在接受採訪時表示:「在產生這些支出的同時,DeepMind也取得了很多開創性的進展,比如蛋白質結構預測,解決了生物學50年的難題,還和谷歌的團隊合作,以將技術投入大規模現實應用。」
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 還與谷歌團隊合作為現實世界帶來影響。我們的團隊參與了許多項目,包括提高風力發電的可預測性、促進塞倫蓋蒂的生態研究等。」儘管虧損略有上升,但 DeepMind 2019 年的收入達到 2.66 億英鎊(約合 3.6 億美元),相比 2018 年的 1.03 億英鎊(約合 1.4 億美元)增長了 158%。
  • DeepMind第四代:不學規則就能下棋玩遊戲
    The reward: 最後一個動作怎麼樣?在谷歌的測試中,MuZero 在 Atari 遊戲中的表現優於此前所有算法,並與 AlphaZero 在圍棋,象棋和將棋上的超人類水平性能相匹配。發布詳情:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
  • DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    DeepMind 在最新發布的預印本論文和博客中介紹了這一進展。他們構建了一個名為 Agent57 的智能體,該智能體在街機學習環境(Arcade Learning Environment,ALE)數據集所有 57 個雅達利遊戲中實現了超越人類的表現。
  • 攻擊AI模型之DeepFool算法
    本文將介紹白盒攻擊中鼎鼎大名的DeepFool算法。DeepFool基本原理在《攻擊AI模型之FGSM算法》中,我們介紹了FGSM的基本原理。一個很好的問題就是,我們究竟對原始圖像做了多大修改就可以欺騙AI模型呢?換個說法就是,如何儘量少的修改原始圖像就可以達到欺騙AI模型的目的呢?首先我們先看下我們對原始圖像做了哪些修改。
  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    它只有一個神經網絡,而再不是兩個。早期幾個版本的 AlphaGo 使用「決策網絡」選擇下一步棋的位置,使用「價值網絡」預測每一個位置上決定的勝者。這兩個網絡在 AlphaGo Zero 中被結合起來,從而使其更高效地訓練和評估賽況。
  • DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
    通過研究蛋白質摺疊,能夠增進我們對人體運行機制的理解,使科學家能夠更有效地設計新的、高效的疾病療法。通過模擬和模型獲得更多關於蛋白質形狀及其運作方式的知識,也給新藥物的開發開闢了新的潛力,降低了與實驗成本。最終得以改善全世界數百萬患者的生活質量。對蛋白質摺疊的理解也將有助於蛋白質的設計,比如推進生物降解酶技術的進步,就可以通過對蛋白質設計來實現。
  • DeepMind重磅開源強化學習框架!覆蓋28款遊戲,24個算法
    史上最全強化學習框架進一步說,OpenSpiel,是一個強化學習環境和算法的集合。在這個框架中,DeepMind對大部分環境和算法也都已經進行了全面測試。基於上述的遊戲和算法,可用OpenSpiel研究通用強化學習和遊戲中的搜索 / 規劃。OpenSpiel怎麼樣?OpenSpiel提供了一個帶有C++基礎的通用API ,它通過Python綁定(經由pybind11)公開。遊戲用C++編寫,是因為可以用快速和內存效率更高的方法實現基本算法。一些自定義RL環境也會在Python中實現。
  • DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘
    在一篇 ICLR 2020 Spotlight 論文中,DeepMind 和哈佛大學的研究者構建了一個基於 AI 的虛擬小鼠,能夠執行跑、跳、覓食、擊球等多項複雜任務。他們還嘗試用神經科學技術來理解這個「人造大腦」如何控制其行為。或許這一成果可以為我們提供人工智慧研究的新思路。