谷歌DeepMind MuZero 人工智慧可以不學規則掌握遊戲

2020-12-27 IT之家

IT之家12月24日消息 谷歌的 DeepMind 人工智慧目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等遊戲規則便能掌握遊戲。該技術能夠應用於機器人技術、工業系統以及混亂的現實世界。

早在 2016 年,AlphaGo 先後擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智慧的初代版本,需要事先輸入大量人類對弈數據、規則數據進行訓練,然後才可以進行實戰。AlphaGo 是首個能夠利用神經網絡、樹狀搜索完全掌握圍棋的人工智慧。

此後於 2017 年推出的第二代 AlphaGo Zero,能夠不藉助人類對弈數據,僅僅事先輸入規則便可自行訓練,最終掌握圍棋。

谷歌第三代的人工智慧 AlphaZero,不僅可以自主學會圍棋,也僅僅依靠事先了解規則,掌握了西洋棋、日本將棋。

根據谷歌發表在《自然》雜誌的文章顯示,第四代人工智慧 MuZero 可以在未知規則的情況下學會上述四種棋類,規劃制勝策略。此外,還能夠掌握掌機遊戲 Atari。

DeepMind 公司表示,多年來研究人員一直在尋找一種方法,既可以學習建立用於解釋目前環境的模型,也能夠利用這個模型來進行最好的決策。直到今天,大多數方法都難以在 Atari 這種遊戲中進行有效規劃。

MuZero 首先在 2019 年推出,通過只關注環境中最重要的一個方面,來學習建立一個模型,並解決問題。通過將這種方法與 AlphaZero 強大的搜索樹技術相結合,MuZero 的能力實現了重大飛躍。此外,MuZero 還利用了前瞻搜索、基於模型的規劃來解決問題。具體來說,MuZero 對環境中至關重要的三個問題來計劃:

價值:現在所處的位置有多好?策略:哪一種行動是最好的?獎勵:最後一步的動作結果有多好?

IT之家了解到,Atari 公司於 1976 年在美國推出了 Atari 2600 遊戲機,這是史上第一部真正意義上的家用遊戲主機,其整個生命周期持續到 1992 年,共售出三千萬臺。

相關焦點

  • DeepMind 第四代:不學規則就能下棋玩遊戲
    近日,谷歌 DeepMind 人工智慧已進化到第四代,名為 MuZero,最突出的能力是無需提前學習規則就可以下棋玩遊戲。
  • DeepMind升級版MuZero:無需告知規則,觀察學習時即可掌握遊戲
    【新智元導讀】看過美劇《后翼棄兵》的觀眾,都會驚嘆於女主的象棋天賦,不知道規則看幾遍即可掌握,而且可在腦中復盤棋局,反覆訓練。而今AI也可以做到了!DeepMind的使命是證明AI不僅可以精通遊戲,甚至可以在不知道規則的情況下做到這一點,最新的MuZero就實現了這一目標。
  • DeepMind最新AI產品MuZero可以在不知道規則情況下掌握遊戲
    【TechWeb】12月24日消息,據國外媒體報導,Alphabet旗下專注於人工智慧的子公司DeepMind最新的人工智慧產品MuZero可以在不知道規則的情況下掌握遊戲。DeepMind的使命是向人們展示,人工智慧不僅能夠真正精通遊戲,甚至在不需要被告知遊戲規則的情況下也能做到這一點。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    田淵棟,卡耐基梅隆大學機器人系博士學位、上海交通大學碩士學位和學士學位,前谷歌無人車項目組成員,現任 Facebook 人工智慧組研究員,主要負責 Facebook 的智能圍棋項目 Dark Forest。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    其中一位創始人提到,他們相信,當一個程序可以玩各種不同的遊戲時,就可以達到人類水平的人工智慧。 他們的策略得到科學研究的支持,這些科學研究證明,像象棋這樣的遊戲可以提高戰略思維能力。通過學習如何玩這些複雜的遊戲,機器將獲得思考和採取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過遊戲化學習,嘗試獲得類人的智力和行為。
  • 微軟組建通用人工智慧實驗室:挑戰谷歌 DeepMind
    北京時間7月13日早間消息,微軟將建立新的人工智慧實驗室,專門開發更加通用的機器學習系統。這個新的實驗室名為微軟研究院AI,位於微軟雷蒙德總部。
  • DeepMind如何助谷歌成為最強AI公司?
    這種運算模型的功能堪稱「震撼」,它不僅可以模仿人類的思維而且還可以像人一樣學習如何玩電子遊戲,因此,當年DeepMind還獲得了劍橋大學計算機實驗室的「年度公司」獎項,名聲大震。 DeepMind公司創立後,就像哈薩比斯八歲時堅持的一樣,始終初心未變,而這種堅持註定了DeepMind公司的成功,也註定了哈薩比斯的不平凡。
  • 深度 改變人工智慧的超級英雄:專訪DeepMind創始人Demis Hassabis
    39歲的Hassabis是一位前西洋棋大師、遊戲設計員,他的人工智慧研究創業公司DeepMind在2014年被谷歌以6.25億美元收購。他是移民後代,在倫敦芬奇利一所公立綜合學院上學,分別取得了劍橋大學和倫敦大學學院(UCL)的計算機科學和認知神經科學學位。與他一起工作過的人們認為他是一個「有遠見」的管理者。
  • 微軟籌謀已久的AI實驗室終於公布, 將成為對標谷歌Deepmind的利器
    在7月12日,中不僅包括了對人工智慧領域的期待與願景,更是帶來了一個重磅消息——微軟將在華盛頓州Redmond的總部建立一個AI實驗室。,這個實驗室將成為微軟旗下的「Deepmind」。微軟的聲明據TechCrunch分析據微軟表示,該實驗室中將會有100名以上的研究人員,研究領域包括自然語言處理、計算機學習與認知模型等。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    機器之心報導編輯:魔王、小舟6.49 億,DeepMind 去年的虧損再創新高,甚至比當年穀歌買下它花的錢還多。但與屢被轉賣的波士頓動力命運不同,谷歌對它的態度是:要多少給多少。不過,DeepMind 的收入主要來源是 Alphabet 的其他子公司(包括谷歌)支付給 DeepMind 的研發費用。DeepMind 在 2014 年被谷歌以 6 億美元的價格收購,目前 DeepMind 依靠其母公司 Alphabet 穩定的資金流。
  • DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    機器之心報導機器之心編輯部讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    機器之心報導機器之心編輯部Alphabet(谷歌)旗下公司 DeepMind 的人工智慧 AlphaGo 曾在西洋棋、圍棋等項目中取得了超越人類的表現,其研究不僅震驚世界,也兩次登上2017 年 5 月,谷歌 DeepMind 人工智慧項目 AlphaGo(執棋者:黃士傑博士)對戰當時世界第一的圍棋選手柯潔。
  • 前沿| DeepMind官方解讀最新研究:探討人工智慧的「理性人」行為
    選自DeepMind作者:Joel Leibo等人機器之心編譯參與:朱思穎、蔣思源、李澤南當人工智慧超過人類之後,它們會選擇消滅我們,還是與我們合作?谷歌旗下公司 DeepMind 的最新研究正在探討這個問題。
  • 「燒錢機器」DeepMind持續多年虧損後,仍無商業...
    DeepMind是一家人工智慧初創公司,成立10年來研發了眾多明星產品,例如,前不久剛剛推出的AlpaFold,用AI預測蛋白質三維結構,攻克生物科學50年挑戰;2014年推出的人工智慧圍棋選手AlphaGo,2016年擊敗了世界圍棋冠軍、職業九段棋手李世石,2017年擊敗了當今圍棋第一人柯潔。
  • AlphaFold 2發布背後,DeepMind AI去年巨虧6.49億美元
    對於這些一不留神就會被「BIG TECH四巨頭」搶走的人才寶貝,DeepMind只能滿足其要求,高薪留住。看來,錢都花在了「搶人」上了。但是,收益來自於Alphabet旗下的其他公司,比如谷歌,他們向DeepMind支付費用來幫助他們做相關研究。2014年,谷歌以6億美元的價格收購DeepMind. 現在,DeepMind的運轉仍然依靠母公司Alphabet穩定的資金流。投資人工智慧行業競爭激烈風險也大。
  • AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底
    谷歌大腦今年在 ICLR 上被收錄的論文實際上比 FB 還稍微多一些,有20篇,其中4篇被錄為 Oral。這還不包括 Deepmind 或谷歌其他團隊(搜索團隊、VR、Photos團隊等)的論文。雖然比較被接收的論文數量不是很好的指標,但我想消除那些暗示谷歌大腦不是深度學習研究的好地方的說法。谷歌大腦也是擁有很強協作靈活性的產業研究組織。
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • 谷歌Deepmind稱解決蛋白質摺疊難題 或加速藥物研發
    谷歌母公司Alphabet為支持該公司投入了巨額成本。不過,DeepMind已經與Facebook人工智慧實驗室、微軟和OpenAI等實體一起,成為了全球人工智慧競賽的領先者之一。谷歌CEO桑達爾·皮查伊(Sundar Pichai)在Twitter上為此次突破點讚。
  • DeepMind的發展困局:一旦谷歌停止輸血,生存將成問題
    科技公司虧損不是什麼新鮮事。科技行業不乏在初創公司實現盈利之前就彈盡糧絕、耗盡投資者資金的例子。但DeepMind不是一家尋求搶佔特定市場份額的普通公司。作為一個人工智慧研究實驗室,為確保生存,DeepMind不得不將自己重新定位為一個半商業化的機構。