IT之家12月24日消息 谷歌的 DeepMind 人工智慧目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等遊戲規則便能掌握遊戲。該技術能夠應用於機器人技術、工業系統以及混亂的現實世界。
早在 2016 年,AlphaGo 先後擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智慧的初代版本,需要事先輸入大量人類對弈數據、規則數據進行訓練,然後才可以進行實戰。AlphaGo 是首個能夠利用神經網絡、樹狀搜索完全掌握圍棋的人工智慧。
此後於 2017 年推出的第二代 AlphaGo Zero,能夠不藉助人類對弈數據,僅僅事先輸入規則便可自行訓練,最終掌握圍棋。
谷歌第三代的人工智慧 AlphaZero,不僅可以自主學會圍棋,也僅僅依靠事先了解規則,掌握了西洋棋、日本將棋。
根據谷歌發表在《自然》雜誌的文章顯示,第四代人工智慧 MuZero 可以在未知規則的情況下學會上述四種棋類,規劃制勝策略。此外,還能夠掌握掌機遊戲 Atari。
DeepMind 公司表示,多年來研究人員一直在尋找一種方法,既可以學習建立用於解釋目前環境的模型,也能夠利用這個模型來進行最好的決策。直到今天,大多數方法都難以在 Atari 這種遊戲中進行有效規劃。
MuZero 首先在 2019 年推出,通過只關注環境中最重要的一個方面,來學習建立一個模型,並解決問題。通過將這種方法與 AlphaZero 強大的搜索樹技術相結合,MuZero 的能力實現了重大飛躍。此外,MuZero 還利用了前瞻搜索、基於模型的規劃來解決問題。具體來說,MuZero 對環境中至關重要的三個問題來計劃:
價值:現在所處的位置有多好?策略:哪一種行動是最好的?獎勵:最後一步的動作結果有多好?
IT之家了解到,Atari 公司於 1976 年在美國推出了 Atari 2600 遊戲機,這是史上第一部真正意義上的家用遊戲主機,其整個生命周期持續到 1992 年,共售出三千萬臺。