昨天,AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。
整理 | 微胖 王藝
對於 DeepMind 來說,其最終目的遠非在棋盤遊戲中擊敗人類。他們希望可以打造出一種通用人工智慧,解決更多的人類問題。雖然距離這一聖杯還很遙遠,但是這周展示的最新研究成果顯示,他們正走在正確的道路上。
在其發表的論文中,最初攻克圍棋的 AI 程序的後代自學了許多其他遊戲,均達到超人水平。經過八個小時地自我練習,擊敗最初戰勝人類圍棋冠軍的 AI 程序,再經過四個小時的訓練後,又擊敗了當前世界西洋棋冠軍程序 Stockfish。更令人驚訝的是,僅經過兩個小時的訓練後,就戰勝了世界最頂尖的日本將棋程序之一 Elmo。
AlphaZero 代表著 AI 技術一個非常關鍵的進步,那就是它不是專門為玩這些遊戲而設定的。也就是說,沒有任何人類關於這些遊戲的經驗被輸入進 AlphaZero。在每個案例中,人類只給定 AlphaZero 基本規則,不編程其他策略或戰術。在一次次自我對弈中,程序玩得更好,步伐不斷加快,這種訓練方式也就是所謂的強化學習。
強化學習技術的應用並不鮮見,今年 10 月亮相的 AlphaGo Zero 就是這一技術的成果。但是,正如本周發布的這篇論文所說,新版 AlphaZero 是 AlphaGo Zero「更加通用」的版本,這意味著 AlphaZero 能夠被應用在更廣闊的範圍中,且無需事先過多準備。
最贊的地方是,在不到 24 小時裡,同一個電腦程式就能自學如何玩這三種棋盤遊戲,並超越人類水平。這可謂是 AI 世界的新壯舉。
DeepMind 一直夢想著能夠建造通用的人工智慧,上述任務的成功完成使得 DeepMind 向這一願景又靠近了一些,但前方仍舊充滿挑戰。今年早些時候,在 DeepMind CEO Demis Hassabis 展示 AlphaGo Zero 時,他提到,在未來將有一個能夠解決更大範圍內的科學問題的新版本出現,這一新版本能夠肩負起從藥物研發到新材料合成等一系列科研問題。這些問題和遊戲不同,為了找出精確解決它們的方法,仍有大量工作擺在 DeepMind 面前。但我們現在可以肯定的是,人工智慧正在前進,AlphaGo 也不僅僅是玩棋類遊戲的 AI 了 。
往期文章
大公司: 微軟 、 亞馬遜 、 阿里 、 百度 、 騰訊 、 英偉達 、 蘇寧 、 西門子 、 浪潮
創業公司: 商湯科技 、 依圖科技 、 思必馳 、 竹間智能 、 三角獸 、 極限元 、 雲知聲 、 奇點機智 、 景馳科技 、 思嵐科技 、 追一科技 、 海知智能 、 出門問問 、 鋼鐵俠科技 、 體素科技 、 晶泰科技 、 波士頓動力 、 弘量研究 、 小源科技 、 中科視拓
人物報導: 吳恩達 、 陸奇 、 王永東 、 黃學東 、 任小楓 、 初敏 、 沈威 、 肖建雄 、 司羅 、 施堯耘
自動駕駛: 傳統變革 、 Uber 、 圖森未來 、 速騰聚創 、 馭勢科技 、 全球汽車AI大會
應用場景: 金融 、 醫療 、 法律 、 新零售 、 網絡安全
商業地理: 加拿大 、 匹茲堡 、 瑞士