DeepMind 第四代:不學規則就能下棋玩遊戲

2021-01-12 開源中國

近日,谷歌 DeepMind 人工智慧已進化到第四代,名為 MuZero,最突出的能力是無需提前學習規則就可以下棋玩遊戲。

谷歌稱 MuZero 可以未知環境中計劃獲勝策略,無需學習規則,便能掌握 Go(圍棋), chess(西洋棋), shogi(日本將棋)和 Atari(電子遊戲)。這和 MuZero 的前幾代——AlphaGo,AlphaGo Zero,AlphaZero 有很大的區別。

第一代 AlphaGo 早在 2016 年就可以擊敗世界圍棋冠軍,但需要先輸入遊戲規則和大量人類實戰的數據進行訓練。AlphaGo Zero 只需事先輸入規則,無需學習人類實戰的數據。到了第三代 AlphaZero,除了可以自主學會圍棋,也通過事先了解規則,掌握了西洋棋和日本將棋。其原理是通過強大的前瞻性樹搜索功能,基於超前搜索,依賴環境動態知識,如遊戲規則或精確的模擬器來應對變化。但因為現實中的許多問題複雜且難以提煉簡單規則,所以這種模型實際上很難被應用在更廣泛的領域中。

MuZero 則是通過基於模型的計劃來做決策,學習環境中的精確模型,並做出規劃以解決問題。此外,MuZero 並沒有嘗試對整個環境建模,只是對代理商決策過程中的重要方面進行建模,以便在複雜要素環境中更快作出決策。其環境建模三要素為:

The value: 當前位置的價值有多高? The policy: 採取哪種行動最好? The reward: 最後一個動作怎麼樣?

在谷歌的測試中,MuZero 在 Atari 遊戲中的表現優於此前所有算法,並與 AlphaZero 在圍棋,象棋和將棋上的超人類水平性能相匹配。

發布詳情:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

相關焦點

  • 谷歌DeepMind MuZero 人工智慧可以不學規則掌握遊戲
    IT之家12月24日消息 谷歌的 DeepMind 人工智慧目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等遊戲規則便能掌握遊戲。該技術能夠應用於機器人技術、工業系統以及混亂的現實世界。
  • DeepMind開源強化學習遊戲框架,25款線上遊戲等你來挑戰
    項目地址:https://github.com/deepmind/open_spiel什麼是 OpenSpielOpenSpiel 是一個綜合性的強化學習遊戲測試平臺,包括了多種遊戲環境和算法,用於強化學習研究或搜索策略的研究。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    像機器學習這樣的技術可以執行管理任務、人臉識別、下棋,甚至翻譯語言。 毫無疑問,人工智慧到來的十年帶來了許多發展。此外,深度學習從非結構化數據中學習來編寫分析報告或執行無人監督的任務。所有這些發展都為不同的公司發揮作用並證明他們的價值奠定了基礎。因此,很多像DeepMind這樣的公司成立了,來繼續發展這一領域。你對其有哪些了解?
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對於每一步棋的黑棋勝率預測。圓圈中的數字代表了該步棋的黑棋勝率。
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    或者像網友戲謔的那樣,「不讓他聯網」、「拔他電源」。。。。那麼 MuZero 到底是哪路神仙呢?我們一起來看一下:來自 DeepMind 官網從上圖可以看出,隨著技術的進化,需要的知識庫(規則)逐漸減少,到 MuZero 直接沒有了,而應用的領域卻逐漸增加, 從圍棋、將棋擴展到 Atari 遊戲。
  • 全新第四代飛度8.18萬元起西安潮玩上市
    8月29日,#潮玩界#第四代飛度(ALL NEW FIT)上市發布活動強勢開啟,廣汽本田西安站首發,特約店聯合,共同掀起第四代飛度西安上市之幕!ALL NEW FIT第四代飛度上市發布活動|西安站-潮玩界
  • DeepMind全能AI:完全自學規則,攻破多款遊戲,表現碾壓人類!
    簡單地說,人工通用智能需要有極高的可塑性(flexibility),從而適應(甚至精通)各式不同的任務:一個能下棋、玩遊戲、做家務、開飛機的AI。然而在此之前,最好的AI算法也只能精通數個同類任務;會下圍棋、將棋和西洋棋的AlphaZero就是一個例子。這種限制,在很大程度上來自AI算法對規則的依賴性。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。街機學習環境包含 57 款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。為什麼要選擇雅達利遊戲?原因有以下幾點:1.
  • DeepMind升級版MuZero:無需告知規則,觀察學習時即可掌握遊戲
    【新智元導讀】看過美劇《后翼棄兵》的觀眾,都會驚嘆於女主的象棋天賦,不知道規則看幾遍即可掌握,而且可在腦中復盤棋局,反覆訓練。而今AI也可以做到了!DeepMind的使命是證明AI不僅可以精通遊戲,甚至可以在不知道規則的情況下做到這一點,最新的MuZero就實現了這一目標。
  • DeepMind開了個心理學實驗室
    Psychlab所處的DeepMind Lab是個第一人稱視角3D遊戲世界,這個心理學實驗室當然也是個模擬環境,研究對象是其中的深度強化學習智能體(Agents)。Psychlab能夠實現傳統實驗室中的經典心理學實驗,讓這些本來用來研究人類心理的實驗,也可以用在AI智能體上。
  • DeepMind詳解新WaveNet:比原來快千倍,語音更自然 | 附論文
    Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis地址:https://deepmind.com
  • 一文說透4年陪娃下棋心路!
    不喜歡跑跳這種勞力之事,而更喜歡勞神勞心。從小到大,不太喜歡運動,但對所有的棋牌類遊戲,都有濃厚的興趣。軍旗圍棋飛行棋,麻將雙扣鬥地主,都很喜歡,而對西洋棋尤其如此。你問孩子 「你要下棋還是練琴?」孩子選擇下棋,那是正常;問「你要下棋還是去遊樂場?」,孩子選擇下棋,那是喜歡;如果問「你要下棋還是打電子遊戲?」孩子還選擇下棋,那就是真愛了。逃逃對西洋棋就是真愛。
  • DeepMind的最新AI可以在不知道規則的情況下贏得遊戲
    現在,DeepMind團隊設法建立了一種首創的算法,即使AI不知道該遊戲的規則,它也可以使AI贏得遊戲。今年早些時候,我們看到DeepMind創建了可以在57種Atari 2600遊戲中擊敗任何人的AI。儘管如此,仍然需要通過觀看Atari遊戲的遊戲視頻來進行自我訓練。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    那麼我們究竟該如何看待谷歌 Deepmind 團隊最新發布的可微分神經計算機 DNC 呢?果然,已經有人在知乎上提出這個問題。編者註:該知乎提問中「谷歌deeplearning團隊」實際上應該指的是「谷歌Deepmind團隊」。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI只要解出薛丁格方程,你就能預測分子的化學性質。但現實很骨感,迄今為止,科學家只能精確求解一個電子的氫原子,即使是只有兩個電子的氦原子都無能為力。
  • 中美幾乎同步研製「第四代」核武器,一枚就能炸毀N個東京
    作為引領全球的軍事強國,中美俄早就踏入了第四代核武器的領域之內,和傳統核爆炸的方式大不相同,第四代核武器非常「乾淨」,但殺傷力度卻一點都不弱,反而出色了許多。金屬氫武器已經被列入了第四代核武器的領域之中,中美都對它產生了濃厚的興趣,並且幾乎同步取得了突破。
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    下面,你可以探索一些戶外程序環境的遊戲(其中 FTW 智能體相互對抗),也可以探索一些人類和智能體在室內程序環境中一起玩的遊戲。交互式的 CTF 遊戲探索器,具有程序生成的室內和室外兩種環境。室外地圖上的遊戲在 FTW 智能體之間開展,而室內地圖上的遊戲則是人類和 FTW 智能體玩家的混合遊戲。
  • 對話DeepMind 創始人 Demis Hassabis:AI 將會如何重塑我們的世界?
    本文編譯自 The Verge,原文標題為「DeepMind founder Demis Hassabis on how AI will shape the future」(http://www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago-google-deepmind-ai