AlphaGo後裔AlphaZero創造奇蹟,不到24小時訓練擊敗西洋棋、圍棋...

2020-12-03 機器之能

昨天,AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。

整理 | 微胖 王藝

對於 DeepMind 來說,其最終目的遠非在棋盤遊戲中擊敗人類。他們希望可以打造出一種通用人工智慧,解決更多的人類問題。雖然距離這一聖杯還很遙遠,但是這周展示的最新研究成果顯示,他們正走在正確的道路上。

在其發表的論文中,最初攻克圍棋的 AI 程序的後代自學了許多其他遊戲,均達到超人水平。經過八個小時地自我練習,擊敗最初戰勝人類圍棋冠軍的 AI 程序,再經過四個小時的訓練後,又擊敗了當前世界西洋棋冠軍程序 Stockfish。更令人驚訝的是,僅經過兩個小時的訓練後,就戰勝了世界最頂尖的日本將棋程序之一 Elmo。

AlphaZero 代表著 AI 技術一個非常關鍵的進步,那就是它不是專門為玩這些遊戲而設定的。也就是說,沒有任何人類關於這些遊戲的經驗被輸入進 AlphaZero。在每個案例中,人類只給定 AlphaZero 基本規則,不編程其他策略或戰術。在一次次自我對弈中,程序玩得更好,步伐不斷加快,這種訓練方式也就是所謂的強化學習。

強化學習技術的應用並不鮮見,今年 10 月亮相的 AlphaGo Zero 就是這一技術的成果。但是,正如本周發布的這篇論文所說,新版 AlphaZero 是 AlphaGo Zero「更加通用」的版本,這意味著 AlphaZero 能夠被應用在更廣闊的範圍中,且無需事先過多準備。

最贊的地方是,在不到 24 小時裡,同一個電腦程式就能自學如何玩這三種棋盤遊戲,並超越人類水平。這可謂是 AI 世界的新壯舉。

DeepMind 一直夢想著能夠建造通用的人工智慧,上述任務的成功完成使得 DeepMind 向這一願景又靠近了一些,但前方仍舊充滿挑戰。今年早些時候,在 DeepMind CEO Demis Hassabis 展示 AlphaGo Zero 時,他提到,在未來將有一個能夠解決更大範圍內的科學問題的新版本出現,這一新版本能夠肩負起從藥物研發到新材料合成等一系列科研問題。這些問題和遊戲不同,為了找出精確解決它們的方法,仍有大量工作擺在 DeepMind 面前。但我們現在可以肯定的是,人工智慧正在前進,AlphaGo 也不僅僅是玩棋類遊戲的 AI 了 。

往期文章

大公司: 微軟 、 亞馬遜 、 阿里 、 百度 、 騰訊 、 英偉達 、 蘇寧 、 西門子 、 浪潮

創業公司: 商湯科技 、 依圖科技 、 思必馳 、 竹間智能 、 三角獸 、 極限元 、 雲知聲 、 奇點機智 、 景馳科技 、 思嵐科技 、 追一科技 、 海知智能 、 出門問問 、 鋼鐵俠科技 、 體素科技 、 晶泰科技 、 波士頓動力 、 弘量研究 、 小源科技 、 中科視拓

人物報導: 吳恩達 、 陸奇 、 王永東 、 黃學東 、 任小楓 、 初敏 、 沈威 、 肖建雄 、 司羅 、 施堯耘

自動駕駛: 傳統變革 、 Uber 、 圖森未來 、 速騰聚創 、 馭勢科技 、 全球汽車AI大會

應用場景: 金融 、 醫療 、 法律 、 新零售 、 網絡安全

商業地理: 加拿大 、 匹茲堡 、 瑞士

相關焦點

  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    據了解,AlphaZero算法可以在8個小時訓練擊敗李世石版本AlphaGo;再用4小時訓練擊敗世界頂級的西洋棋程序Stockfish;再用2小時訓練擊敗世界頂級將棋程序Elmo資料顯示,阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序,它由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    (《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)自從DeepMind的AlphaGo在圍棋賽場上一戰成名之後,人類對AI的恐懼就突然出現於世。AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習,就成功擊敗了與李世石對戰的 AlphaGo v18;又經過了 4 個小時的訓練,它又擊敗了世界頂級的西洋棋程序——Stockfish;緊接著,又是2個小時的訓練之後,世界上最強的日本將棋程序Elmo又敗在了它的手下。看出來了嗎?AlphaZero 或許已經有了些許邁向棋類通用 AI 的跡象!
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • AlphaGo又進化了:除了圍棋 現在還學會西洋棋
    DeepMind引入一種名叫「強化學習」(reinforcement learning)的AI技術,增強AlphaGo,不需要人類數據,它就可以自己獲得超人一般的圍棋技法。只需要劃定下棋規則,AI就會隨機對弈,制定出色的戰略。谷歌將增強後的AlphaGo取名叫作AlphaGo Zero,因為它不需要人類輸入信息。
  • 精通西洋棋的AI研究員:AlphaZero真的是一次突破嗎?
    很明顯我會著重講西洋棋,但是一些論點是通用的,可推算至將棋或圍棋。本文僅代表個人觀點,可能出現錯誤或誤解,請見諒。 西洋棋可以說是在「人機對戰」和人工智慧中研究最為廣泛的遊戲。該領域的首個突破是 1997 年 IBM 深藍(Deep Blue)擊敗世界冠軍 Garry Kasparov。
  • AlphaZero:從小白開始制霸多個遊戲
    在 2 小時後首次超越了 Elmo;在圍棋中,AlphaZero 在 30 小時後首次超越了打敗李世石的那版 AlphaGo。 為了學習每種遊戲,未訓練的神經網絡需要通過強化學習的試驗和減少誤差的過程進行上百萬場自我對弈。起初,系統的走棋完全是隨機的,但隨著時間的增加,系統不斷從贏、輸和平局中學習經驗,來調整神經網絡的參數,使其在之後的棋局中選擇更高勝率的走法。神經網絡的訓練時間依賴於遊戲類型和複雜度,西洋棋需要 9 小時,日本將棋需要 12 小時,圍棋需要 13 天。
  • 打敗柯潔的AlphaGo有了繼任者AlphaZero 西洋棋/圍棋/將棋通殺
    2017 年的時候,前 AI 圍棋冠軍 AlphaGo 正式退休,之後AlphaZero成為繼任者。  AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子遊戲的新型人工智慧平臺。在三款棋類比賽中,AlphaZero獲得三局全勝的結果 。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強西洋棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo
  • 下圍棋so easy,AlphaZero開始玩量子計算!
    AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有10170種。相比之下,西洋棋只有1043種可能的走位。所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。
  • 下圍棋so easy ,AlphaZero開始玩量子計算
    AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有種。相比之下,西洋棋只有種可能的走位。 所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中「預知未來」。
  • DeepMind以AlphaZero擊敗全球三大棋藝AI!
    AlphaZero為一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合強化學習,經過自我訓練後,4個小時後擊敗西洋棋程序Stockfish,2小時後勝過將棋程序Elmo,並於30小時之後擊敗了圍棋程序AlphaGo。
  • 擊敗了李世石九段的圍棋人工智慧「AlphaGo」究竟是什麼?
    作為一種人工智慧的 AlphaGo,和 IBM 在上個世紀打敗西洋棋大師卡斯帕羅夫的深藍超級計算機,以及當代的蘋果 Siri、Google Now 有著顯著的區別。要了解 AlphaGo,首先我們需要了解 AlphaGo 背後到底是一個什麼東西。
  • Google人工智慧擊敗歐洲圍棋冠軍, AlphaGo 究竟是怎麼做到的?
    如果覺得此文深奧,關於機器學習,還可看雷鋒網(公眾號:雷鋒網)早期文章:《機器自學72小時堪比國際大師,深度學習到底有多厲害?》圍棋一直被視為人工智慧最難破解的遊戲。就在今天,《Nature》雜誌以封面論文的形式,介紹了 Google DeepMind 開發的人工智慧程序 AlphaGo,它擊敗了歐洲圍棋冠軍樊麾,並將在 3 月和世界冠軍李世乭對戰!Google 特地為此準備了 100 萬美元獎金。從
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    8小時就打敗了與李世石對戰的AlphaGo v18!在訓練後,它面對Stockfish取得100盤不敗的恐怖戰績,而且比之前的AlphaGo Zero也更為強大(根據論文後面的表格,訓練34小時的AlphaZero勝過訓練72小時的AlphaGo Zero)。
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    繼今年10月在《自然》雜誌上發表論文正式推出人工智慧圍棋程序AlphaGo Zero後,Alphabet旗下機器學習子公司DeepMind團隊近日又發表論文稱,最新版本的 AlphaZero 在經過不到一天的訓練後,「令人信服地」打敗了西洋棋和日本將棋頂尖的電腦程式 。
  • 圍棋擊敗AlphaZero!各類遊戲測試碾壓前輩,谷歌DeepMind AI再添新員
    MuZero使用了可自我學習的高性能機器學習模型,目前在西洋棋、圍棋、將棋、Atari遊戲等領域取得了領先的成績。據DeepMind研究人員稱,MuZero使用了基於模型的強化學習算法,目前在圍棋領域的性能已經略超AlphaZero。在75場Atari遊戲中的得分高於先前各類算法,且所需訓練時間極大減少。以下是Venturebeat報導的原文編譯。
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」
  • AlphaGo又進化了:西洋棋和將棋也被拿下!
    它不再需要人類棋譜,就能通過自我對弈獲得超人類的圍棋技藝。  新版的AlphaGo被稱為AlphaGo Zero,它不再依靠人類數據。通過機器學習系統,僅訓練3天就戰勝了AlphaGo Lee,比分為100:0,後者就是當初戰敗李世石的那款。經過40天訓練後,Alpha Zero又以89:11戰勝了Alpha Master,即橫掃柯潔的版本。
  • 登上Science,AlphaZero完整論文首次發布
    圖丨此次論文對應的封面(來源:Science)自從 DeepMind 的 AlphaGo 在圍棋賽場上一戰成名之後,這家 Google 旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的 AlphaZero,AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習
  • AlphaGo是如何學會下圍棋的
    在大多數公認的智力遊戲中,機器已經戰勝了最優秀的人類,包括西洋棋、拼字遊戲、黑白棋等等。但是圍棋----這個有著2500年的歷史,比象棋複雜得多的遊戲,即使是面對最先進的計算機系統,頂尖棋手們也能保持優勢。