人工智慧會勝過人類嗎?2016年,谷歌開發的AlphaGo成為了首個擊敗圍棋世界冠軍的人工智慧,向人類有力地證明了這一點。
此後,谷歌2017年又開發了「升級版」AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
AlphaZero不僅擅長圍棋,還擅長西洋棋和日本將棋,陸續擊敗了世界冠軍級人物,可謂「多才多藝」,還登上了2018年的《科學》雜誌封面。
現在,谷歌母公司Alphabet旗下的DeepMind又發布了一個更厲害的人工智慧:MuZero。
與已經提前得知遊戲規則的AlphaZero相比,這次的MuZero能夠自動學習規則,並且在57款不同的雅達利遊戲中取得了行業領先的表現,能夠達到與AlphaZero在三種棋類中的表現相等的水平。
(圖表:在西洋棋、圍棋、圍棋和雅達利的訓練中MuZero達到的評價,y軸表示Elo等級)
此外,在圍棋方面,MuZero的表現略優於AlphaZero,儘管它使用的總體計算較少。研究人員表示,這表明它可能對自己的處境有了更深入的了解。
MuZero將基於樹的搜索與學習模型相結合(樹是一種數據結構,用於從集合中定位信息),它接收到的是觀測數據,比如棋盤或雅達利遊戲的屏幕圖像,這一點與人類下棋、玩遊戲時的狀態相同。
隨後MuZero將會不斷迭代更新觀測到的數據,並且在每一步都使用模型預測接下來的策略(例如在哪裡下棋)、價值函數(例如誰將得分)和即時獎勵(如能夠得到多少分)。
簡單地說,MuZero自己探索出了遊戲的規則,並在此基礎上實行精確的規劃。
DeepMind的研究人員解釋,MuZero和AlphaZero的核心技術是強化學習的一種形式——即用獎勵驅動人工智慧朝著目標前進。
該模型將給定的環境建模為中間步驟,使用狀態轉換模型預測下一步,使用獎勵模型預測獎勵。
通常,基於模型的強化學習側重於直接在像素級別對觀察流進行建模,但是這種粒度級別在大規模環境中計算開銷很大。
事實上,之前沒有任何一種方法能夠在視覺上很複雜的領域(如雅達利遊戲)建立起一個便於進行規劃的模型,即使在數據效率方面,結果也落後於經過調優的無模型方法。
該研究團隊還重點觀察了MuZero在圍棋和遊戲《吃豆小姐》中的表現。MuZero每步只有6次模擬——少於每步模擬的可能次數,不足以涵蓋《吃豆小姐》中所有八種可能的行動——因此,它學會了一種有效的策略,並「迅速改進」。
研究人員表示,無論是在邏輯複雜的棋類遊戲還是視覺上複雜的雅達利遊戲中,MuZero的表現都能媲美此前的AI算法,並且勝過最先進的無模型(強化學習)算法。
AlphaGo的成功讓越來越多人意識到了強化學習的激動人心之處。此前,機器學習領域頂級會議 NeurIPS 2019主辦的Learn to Move 強化學習賽事中也出現了不少有意思的案例。
參賽者需要根據主辦方提供的人體骨骼高仿模型中多達 100 多維以上的狀態描述特徵,來決定模型肌肉的信號,控制模型的肌體行走。賽事不僅要求模型的實時速度變換,還要360° 範圍調整行走方向。
百度基於飛槳的強化學習框架PARL再度蟬聯冠軍,且將第二名拉下143分。百度的模型中甚至出現了一些普通人也難以做到的動作,如從立定狀態突然平順地向後轉向並且同時以要求的速度行走,並全程保持穩定不會摔倒。
在這個領域內的成功有助於了解人體的運動機制,從肌肉層面學習控制仿生機器人的運動。
本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com