Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?

2021-01-07 CSDN

【CSDN 編者按】2015 年 AlphaGo 出道一年,就戰勝法國二段職業棋手樊麾,2016 年 3 月以 4:1 戰勝韓國國手李世石九段,3 月 14 日,韓國棋院表示 AlphaGo 實力不遜於李世石九段,授予 Alphago 韓國棋院名譽九段證書。AlphaGo 一戰成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,強化版 AlphaGo 化名「Master」,在非正式網絡快棋對戰測試當中取得 60 戰全勝。2017 年 5 月,與中國棋手柯潔九段對戰,全取三分,虐哭柯潔。而且由於此次使用 Google 的 TPU,使得計算資源只有對戰李世石時候的十分之一。要知道,柯潔可不是旁人,是當時世界第一,年紀輕輕,已經手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。賽後,中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號,棋聖聶衛平更是盛讚 AlphaGo 的水平相當於職業圍棋二十段。賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。

作者 | 八寶粥

中國圍棋協會授予 AlphaGo 中國職業圍棋九段稱號

DeepMind 團隊為 AlphaGo 各個版本起了不同名字, 歷數幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master,後來還推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此後版本沒有用到人類數據,通過和自己對戰,訓練三天即可實現極高勝率。在那之後,AlphaGo 團隊獨孤求敗,淡出江湖。此後, DeepMind 在蛋白質摺疊等方面也做出 AlphaFold 等令人矚目的成就。

誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。如果此前 AlphaGo 版本是靠著機器學習和算力的一力降十會的話,此次的新算法就是雙手互搏,無師自通,不光如此,MuZero 的 「魔爪」從圍棋伸向了各個領域,包括西洋棋、日本的將棋和 Atari 電子遊戲。你冬練三九夏練三伏,別人一出世就自帶超強自學能力,而且人家全家輸的次數屈指可數,還都是輸給自己人,你說這比賽讓人怎麼打?

平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」

如果這次真的有人能上來對陣三招五式的話,可能也只有 AI 本身能對抗 AI了。或者像網友戲謔的那樣,「不讓他聯網」、「拔他電源」。。。。那麼 MuZero 到底是哪路神仙呢?我們一起來看一下:

來自 DeepMind 官網

從上圖可以看出,隨著技術的進化,需要的知識庫(規則)逐漸減少,到 MuZero 直接沒有了,而應用的領域卻逐漸增加, 從圍棋、將棋擴展到 Atari 遊戲。

文章表示,MuZero 和此前的 Alpha Zero 代碼相似,但是 MuZero 無法訪問規則集合,而是將該規則替換成了搜索樹狀態神經網絡,研究人員主要通過以下方法應對 AI 的挑戰,超前搜索和基於模型的計劃。超前搜索已經在西洋棋、撲克等景點遊戲當中取得成功,但是依賴於遊戲規則,這樣的話,對於複雜世界和混亂的現實問題就沒有辦法,因為它們無法提煉成簡化的規則;基於模型的系統旨在學習環境動力學的精確模型, 然後以此進行規劃和學習。不過對於視覺豐富的環境當中依然沒有競爭力。比如遊戲 Atari 當中,最好的結果其實來自於無模型系統。

MuZero 使用另外的方法來克服此前方法的局限性, 它不是對整個環境建模,而是對代理的決策環境或者關鍵方面進行建模。DeepMInd 表示:畢竟,了解雨傘會使您保持乾燥比對空氣中雨滴進行建模更有用。

具體而言, MuZero 對三個元素進行建模,分別是值、策略、獎勵。分別衡量了:當前位置好壞程度、最優策略以及上一步好壞的衡量。通過蒙特卡羅搜索樹,配合動力學函數和預測函數,考慮下一步的動作序列,同時利用了和環境互動時候收集的經驗來訓練神經網絡,在每一步當中保存之前的信息。這個似乎是一種無監督學習內的強化學習。其實它也不能說完全 「無規則」,它唯一的規則其實是我們在下棋當中常說的「走一步、看三步」,不管是什麼遊戲,它都給自己一個這樣的規則。MuZero 就可以反覆發使用學習的模型來改進計劃,而不需要從環境當中重新收集數據。

從項目主要開發者 Julian Schrittwieser 的博客當中,我們還發現了一些有意思的內容。

來自 Julian Schrittwieser 博客

對於作者而言,這些也僅僅都是 「統計」而已,它是從 AlphaGo 和 Alpha Zero 當中集成的策略網絡和價值網絡,每一個網絡都已經非常強大了,考慮策略網絡,就能對於下一步有良好的預判,考慮價值網絡,就能選擇價值最高的行動,結合兩者,當然就更完美了。

ps. 講點你不知道的東西~

為什麼給它取名叫 MuZero 呢?很大程度上來自於日語發音,開發者 Julian 覺得這個和日語夢、以及無的發音相似(為什麼不去學中文啊大哥!);另外他認為這個發音和希臘字母 μ 也很像。Zero 和此前一樣,表示沒有用到人類的數據。所以這個算法可以讀作「木Zero」、"謬Zero"~不過開發者自己的發音是「謬Zero」。

這位小哥也很有意思,來自奧地利,對各種語言都很感興趣,當然也包括一些開發語言。而且努力學日語中~

如果你對 MuZero 感興趣, 不妨可以看看小哥博客裡面推薦的文章 ,教你怎麼利用 Python 搭建自己的 MuZero AI ,說不定也能用 AI 打敗誰(比如街邊下棋的大爺)。

從 AlphaGo 震驚圍棋江湖以來,越來越多的 「唯人能贏」的遊戲開始被 AI 染指,如果此前《星際爭霸II》當中戰勝人類選手還是算力的取勝,MuZero 雙掌互搏就能增長內力、左腳踩右腳就能騰雲這次真的是一次巨大的衝擊。歡迎下方留言,下一個被 AI 虐哭的會是誰呢?

【參考資料】:

1.DeepMind 官方網站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.論文連結:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年預印版論文下載地址:https://arxiv.org/abs/1911.08265

4.開發者 Julian 的個人博客:http://www.furidamu.org/

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「2020 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    使用分布強化學習算法的AI能夠預測可能的獎勵的全部範圍。為了測試大腦的多巴胺獎勵途徑是否也通過分布起作用,該團隊記錄了小鼠中單個多巴胺神經元的反應。他們訓練小鼠完成一項任務,並給予它們大小不同且不可預測的獎勵。研究人員發現,不同的多巴胺細胞確實表現出不同程度的驚訝。
  • DeepMind開源了強化學習庫「松露」,團隊自身也嚴重依賴它
    庫裡面的組件,雖然來源各不相同,但都經過嚴密測試,因而相對可靠;並且只要一個API,對開發者比較友好。DeepMind團隊自身做研究,也嚴重依賴這個庫。為了那些難以發覺的Bug這個庫,寫作TRFL,讀作「Truffle」。翻譯成中文叫「松露」。
  • 「吳恩達deeplearningai」微信公眾號上線,將發布《機器學習訓練...
    去年 6 月,吳恩達宣布 deeplearning.ai 創業項目,8 月,該項目揭曉:一套由 5 門課組成的深度學習系列課程 —— Deep Learning Specialization,旨在推廣普及深度學習知識。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    研究者們發布了哪些值得一讀的論文?又有哪些開源的代碼和資料庫可以使用了?快快跟隨文摘菌盤點過去一周AI大事件!Skyline AI新融資$3M來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/03/22/skyline-ai-raises
  • Jeff Dean親筆盤點谷歌AI 2019:日均2篇論文,縱橫16大方向
    /用機器重新編排舞蹈:https://www.blog.google/technology/ai/bill-t-jones-dance-art/AI作曲的新探索:https://www.blog.google/technology/ai/behind-magenta-tech-rocked-io/還延伸出了一個好玩的AI作曲Doodle
  • DeepMind詳解新WaveNet:比原來快千倍,語音更自然 | 附論文
    從算法研究出來到用在產品裡,為什麼隔了一年多的時間呢?DeepMind說,WaveNet在去年論文發布的時候還只是個研究用的原型,對於消費類產品來說,它消耗的計算力太多了。Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis地址:https://deepmind.com
  • Google放大招:新成立Google Health 猛將掌舵火力全開
    醫生「將最佳算法與直觀設計相結合。」目前,Streams應用程式正在英國試用,以幫助醫療保健從業人員管理患者。在AI領域擁有領先算法的DeepMind Health在整合到Google Health後,意味著什麼?新官上任與合併DeepMind Health又將對Google下一步在醫療的發展中產生怎樣的作用?在本文中,我們將為您呈現:1.
  • DeepMind推出更難的機器閱讀理解數據集,要讓AI讀懂整本書
    為了給算法準備一套不那麼小兒科的試題,DeepMind今天發布了一個難度更高的閱讀理解任務和數據集: NarrativeQA 。更長的文檔,更難的問題DeepMind說,NarrativeQA是 第一個基於整本書或整個劇本的大規模問答數據集 。
  • 機器之心專訪吳恩達,深度學習課程項目Deeplearning.ai正式發布
    作者 | Tony Peng、李澤南編者按:6 月 23 日,吳恩達通過 Twitter 宣布自己離職百度之後的新一步動向——Deeplearning.ai,並宣稱將在 8 月份公布有關 Deeplearning.ai 的更多細節。今日,機器之心獲得消息,Deeplearning.ai 項目正式發布。
  • DeepMind首次披露旗下AI專利申請情況,引發熱議
    DeepMind 創始人 Demis Hassabis 博士曾在一篇文章中介紹了其人工智慧方法(地址:https://www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago-google-deepmind-ai)。
  • 吳恩達重磅回歸,成立創業公司Deeplearning.ai
    這一消息的發布震驚業內,當時各方人士也紛紛猜測吳恩達何去何從,甚至臆測吳恩達離開百度的原因。經過近三個月的沉寂,吳恩達終於透露出了最終去處:創業!更多有關 Deeplearning.ai 的信息將會在 8 月份公布。昨天,前百度首席科學家吳恩達突然宣布了他的下一步計劃:Deeplearning.ai。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    論文連結:https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/一、7個玩家「攻城略地」,遊戲有10^900種可能《外交風雲》遊戲在一張歐洲地圖上進行
  • Google Real-World RL Suite
    RL在機器人領域落地是一個老大難的問題, 很多sim2real相關的研究都試圖解決這個問題. Google最近開源了一個Real-World RL (RWRL) Suite[1][2], 在之前Benchmark的基礎上, 考慮了一些與實際應用更相關的因素, 增加了難度, 但還是在仿真環境, 而且與Robotics關係不是特別大.
  • 資源│機器學習、深度學習、算法工程師等 AI 相關崗位面試需要知識
    https://github.com/ChristosChristofidis/awesome-deep-learning深度學習 500 問https://github.com/scutan90/DeepLearning-500-questions復旦大學邱錫鵬教授發布<神經網絡與深度學習> https://github.com
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「我們的目標從來就不是贏得圍棋或雅達利比賽的勝利,而是開發能夠解決蛋白質摺疊這類問題的算法,」Hassabis 表示。比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。
  • DeepMind新研究登上《Nature》
    當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。不斷訓練之後,「預期」和「現實」會逐漸變得更加匹配,整個預測鏈條也會變得越來越準確。與此同時,很多神經科學研究者們,專注於多巴胺神經元的行為研究。
  • AI 四巨頭 Google、DeepMind、Microsoft、Uber 深度學習框架大比拼
    在過去的幾年裡,技術巨頭谷歌、微軟、優步(Uber)、DeepMind和其他公司定期發布了各自的研究成果,以便在大型GPU等基礎設施上實現深度學習模型的並行化。分布式和並行化計算的原理與深度學習程序生命周期的幾乎所有階段都息息相關。訓練一個深度學習模型可能是一個非常昂貴的任務,運行也是如此。顯而易見的答案是,可以利用大型GPU網絡來分配深度學習程序的工作負載,但這絕非易事。
  • Google AI,DeepMind和多倫多大學推出DreamerV2
    使用單個GPU的DreamerV2優於頂級的無模型算法。 深度強化學習的最新進展 深度強化學習可幫助AI代理隨著時間的推移改善其決策。深度強化學習中的現代方法使基於模型的方法能夠從用於計劃的圖像輸入中研究世界模型。世界模型可以從較少的交互中學習,從離線數據中推廣泛化,並將研究應用於多個任務。
  • Spark與深度學習框架——H2O、deeplearning4j、SparkNet
    Spark被視為目前最適合運行深度學習算法的平臺,是因為:本文我們將介紹一些Spark能用的深度學習框架。這些框架和深度學習一樣,都是比較新的庫。很可能你在使用它們的過程中遇到一些bug或者缺少一些操作工具,但是報告問題(issue)及發送補丁將會使它更加成熟。H2O是用h2o.ai開發的具有可擴展性的機器學習框架,它不限於深度學習。