近日,據外媒報導,谷歌DeepMind團隊帶來了一個全新的通用的版本。這個程序被稱為AlphaZero,它教會自己在短短三天內玩三種不同的棋盤遊戲(西洋棋、圍棋和日本版西洋棋),沒有人為幹預,這一描述成就的論文發表在《科學》雜誌上。
DeepMind執行長兼聯合創始人Demis Hassabis說「從完全隨機的遊戲開始,AlphaZero逐漸學會了什麼是好的遊戲,並形成了自己對遊戲的評價。從這個意義上講,它不受人類對遊戲思考方式的限制。」
AlphaZero是DeepMind旗下AlphaGo的直系後代。2016年,AlphaGo打敗了圍棋(人類)世界冠軍李世石(Lee Sedol),成為世界各地的頭條新聞。AlphaGo並不滿足於此,去年獲得了一次重大升級,能夠在不需要人工幹預的情況下自學獲勝策略。
通過一遍又一遍地與自己下棋,AlphaGo Zero (AGZ)訓練自己在短短三天時間內從零開始,以0比100完勝最初的AlphaGo 100。它得到的唯一輸入是遊戲的基本規則。
AlphaZero通過應用大量處理能力,5,000張處理單元(TPU),相當於一臺非常大的超級計算機,很快地學會了玩三種棋盤遊戲中的每一種。
不像以前的西洋棋機器那樣以極快的速度處理人類的指令和知識,AlphaZero會產生自己的知識,它只需幾個小時即可完成,其結果已超過任何已知的人或機器。
但是,AlphaZero的基本算法實際上僅適用於可以採取相當數量的操作問題。它還需要一個強大的環境模型,即遊戲規則。