AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!

2020-12-03 DeepTech深科技

(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)

自從DeepMind的AlphaGo在圍棋賽場上一戰成名之後,人類對AI的恐懼就突然出現於世。但自那以後,這家Google旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的AlphaGo Zero,而他們的遠期目標是打造出通用的人工智慧機器。雖然這一目標尚顯遙遠,但根據本周DeepMind科學家發表的最新的論文來看,他們已經走在了正確的道路上。

※ 論文地址:https://arxiv.org/pdf/1712.01815.pdf

在這篇論文中,DeepMind詳細描述了AlphaGo Zero的「繼承者」—— AlphaZero(註:之前刷屏的是 AlphaGo Zero,它做到的是不依賴任何人類知識,3天超越李世乭版本)。AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習,就成功擊敗了與李世石對戰的 AlphaGo v18;又經過了 4 個小時的訓練,它又擊敗了世界頂級的西洋棋程序——Stockfish;緊接著,又是2個小時的訓練之後,世界上最強的日本將棋程序Elmo又敗在了它的手下。

看出來了嗎?AlphaZero 或許已經有了些許邁向棋類通用 AI 的跡象!和AlphaGo Zero相比,AlphaZero的主要變化在於:

1、AlphaGo Zero優化時假定兩種結果:輸、贏。AlphaZero則有三種:輸、贏、 僵持 。圍棋每一步都可以有一個輸贏,即誰的數量多,但是其他的很多棋在中間是沒有輸贏的,所以這樣的設計使得AlphaZero從圍棋跨向棋類領域。

2、AlphaZero能適應更為複雜的規則。圍棋規則相對簡單,規則具有旋轉和反射不變形和對稱性,所以AlphaZero的算法適應了將棋的規則意味著對於這樣規則多變複雜的棋類的有效性。

3、在所有棋類中使用相同的超參數,這是泛化的表現,期間不需要針對特定棋做改變。

4、AlphaGo Zero的最優策略由之前所有迭代的最佳選手生成。在每一輪的迭代中,新玩家都將和最佳選手比較。如果新玩家以55%的差距獲勝,那麼他就會取代最選選手。而 AlphaZero 只保留一個網絡,並持續更新,而不必等待一個迭代結束,self-game的結果由這個網絡的最終參數生成。這就省去了ZeroGo中每一步的評估和對最佳選手的選擇。

從中我們也可以發現,AlphaZero 並不是針對某一種棋類被專門開發出來的,在不同的棋類遊戲中,它只是被傳授一些基本的規則,但類似於更高級別的戰略策略則完全沒有,只憑藉人工智慧自己反覆的從訓練和實戰中獲得,而這種訓練方法就是我們熟知的「強化學習」(reinforcement learning)。

圖丨強化學習入選《麻省理工科技評論》10大突破技術

使用強化學習這項技術並不是新鮮事,今年10月DeepMind的工程師過去也是使用相同的方法來打造AlphaGo Zero,不過,值得注意的是,新的AlphaZero是同一套軟體下「更通用的版本」,代表可以應用於更廣泛的任務,而且不需要預先準備好。在不到24小時,同一個電腦程式就可以教會自己玩三種複雜的棋盤遊戲,而且是超越人類的水平,這無疑是AI世界的新創舉。

在這次研究中,研究團隊使用了5000個一代TPU來生成自我對弈棋譜,用另外64個二代TPU來進行神經網絡訓練。而在此前AlphaGo Zero的神經網絡訓練中使用的則是GPU。DeepMind 的目標一直是打造通用的AI機器,這項任務代表DeepMind又往目標邁進了一步,但是挑戰仍在前方,DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero時,他就希望未來的版本能夠幫助解決科學問題,像是設計新藥、發現新材料等。但是這些問題與玩棋盤遊戲在根本上有很大的差異,還有許多問題得被解決才能找出正確的算法。

大概總結一下人類開發棋類AI 的思路,那就是:精心設計特徵,調整參數,依賴強大的搜索算法——學習人類的全部經驗——不學習人類的經驗,自己學習——自己在一個廣泛的領域學習。不過,現在可以肯定的是,人工智慧不再只是會下棋而已。至於對普通人類來說,我們只能說,DeepMind 論文可以不用發太快,上次的還沒消化完!

相關焦點

  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    據了解,AlphaZero算法可以在8個小時訓練擊敗李世石版本AlphaGo;再用4小時訓練擊敗世界頂級的西洋棋程序Stockfish;再用2小時訓練擊敗世界頂級將棋程序Elmo資料顯示,阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序,它由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    繼今年10月在《自然》雜誌上發表論文正式推出人工智慧圍棋程序AlphaGo Zero後,Alphabet旗下機器學習子公司DeepMind團隊近日又發表論文稱,最新版本的 AlphaZero 在經過不到一天的訓練後,「令人信服地」打敗了西洋棋和日本將棋頂尖的電腦程式 。
  • 圍棋與象棋(中國象棋、西洋棋、日本將棋)該如何選擇?
    將棋,對抗激烈,複雜程度高,中後期持駒一多非常考驗計算能力,個人認為很有意思。B站上有不少學習資源可供參考。象棋國內愛好者數目龐大,和周圍人有很多的切磋機會。圍棋網上對弈也很方便。將棋不清楚,但是在國內很小眾吧。西洋棋應該最難,因為規則更複雜,對於人的智力開拓作用更大。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強西洋棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo
  • AlphaZero:從小白開始制霸多個遊戲
    傳統的西洋棋程序(包括世界計算機西洋棋冠軍 Stockfish 和 IBM 開創性的 Deep Blue)依賴數以千計由人類玩家制定的規則和啟發式方法,這些程序會試著解釋遊戲中每一種可能發生的情況。日本將棋程序也是將棋專用的,使用類似於西洋棋程序的搜尋引擎和算法。
  • AlphaGo又進化了:西洋棋和將棋也被拿下!
    它不再需要人類棋譜,就能通過自我對弈獲得超人類的圍棋技藝。  新版的AlphaGo被稱為AlphaGo Zero,它不再依靠人類數據。通過機器學習系統,僅訓練3天就戰勝了AlphaGo Lee,比分為100:0,後者就是當初戰敗李世石的那款。經過40天訓練後,Alpha Zero又以89:11戰勝了Alpha Master,即橫掃柯潔的版本。
  • AlphaGo後裔AlphaZero創造奇蹟,不到24小時訓練擊敗西洋棋、圍棋...
    據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。在其發表的論文中,最初攻克圍棋的 AI 程序的後代自學了許多其他遊戲,均達到超人水平。經過八個小時地自我練習,擊敗最初戰勝人類圍棋冠軍的 AI 程序,再經過四個小時的訓練後,又擊敗了當前世界西洋棋冠軍程序 Stockfish。更令人驚訝的是,僅經過兩個小時的訓練後,就戰勝了世界最頂尖的日本將棋程序之一 Elmo。
  • 打敗柯潔的AlphaGo有了繼任者AlphaZero 西洋棋/圍棋/將棋通殺
    2017 年的時候,前 AI 圍棋冠軍 AlphaGo 正式退休,之後AlphaZero成為繼任者。  AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子遊戲的新型人工智慧平臺。在三款棋類比賽中,AlphaZero獲得三局全勝的結果 。
  • AlphaGo又進化了:除了圍棋 現在還學會西洋棋
    DeepMind引入一種名叫「強化學習」(reinforcement learning)的AI技術,增強AlphaGo,不需要人類數據,它就可以自己獲得超人一般的圍棋技法。只需要劃定下棋規則,AI就會隨機對弈,制定出色的戰略。谷歌將增強後的AlphaGo取名叫作AlphaGo Zero,因為它不需要人類輸入信息。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。>4個小時成為了世界級的西洋棋冠軍;2個小時在將棋上達到世界級水平;8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    而知乎上,短短幾小時內也有很多評論:知乎用戶fffasttime:專治各種不服的DeepMind又出師了,但這次的主攻的內容不再是圍棋了,而是所有的棋類遊戲。……之前AlphaGo把圍棋界打得心態崩了,而現在AlphaZero贏的不光是人類棋手,還包括各路象棋的AI作者。
  • 精通西洋棋的AI研究員:AlphaZero真的是一次突破嗎?
    DeepMind 最近發表了一篇關於 AlphaZero 的論文,介紹了一個通過自我學習掌握西洋棋或將棋的系統。 進入正文之前,我首先做個自我介紹。我是一名人工智慧領域研究者,方向是自然語言處理;我同樣也是一名西洋棋大師,目前是韓國的頂尖選手,但是由於我全職科研最近幾年不是很活躍。因此,我會盡力提出一個合理的、有建設性的觀點。
  • AlphaZero又來了?「機機大戰」還圍棋世界一個「清靜」!
    可怕的是,一個人工智慧算法,創建了所謂的通用學習系統,在戰勝圍棋高手的同時,還兼具西洋棋和日本將棋的學習能力。活脫脫一種「你方唱罷我登場」的既視感。但筆者認為, AlphaZero的出現,反倒可以讓圍棋世界恢復本來的清靜與淡定。一、「機機大戰」取代「人機大戰」,同平臺競技才是競技真正的魅力。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    在日本將棋中,AlphaZero在2小時後擊敗了將棋聯盟賽世界冠軍Elmo。在圍棋上,AlphaZero經過30個小時的鏖戰,擊敗了李世石版AlphaGo。經過試驗,AlphaZero花了9個小時掌握西洋棋,花了12個小時掌握日本將棋,花了13天掌握圍棋。AlphaZero的訓練步驟  AlphaZero繼承了AlphaGo Zero的算法設置和網絡架構等,但兩者也有諸多不同之處。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    在西洋棋中,AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;在日本將棋中,AlphaZero訓練2小時就超越了世界冠軍程序Elmo。在圍棋中,AlphaZero訓練30小時就超越了與李世石對戰的AlphaGo。
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」
  • 圍棋擊敗AlphaZero!各類遊戲測試碾壓前輩,谷歌DeepMind AI再添新員
    MuZero使用了可自我學習的高性能機器學習模型,目前在西洋棋、圍棋、將棋、Atari遊戲等領域取得了領先的成績。據DeepMind研究人員稱,MuZero使用了基於模型的強化學習算法,目前在圍棋領域的性能已經略超AlphaZero。在75場Atari遊戲中的得分高於先前各類算法,且所需訓練時間極大減少。以下是Venturebeat報導的原文編譯。
  • DeepMind以AlphaZero擊敗全球三大棋藝AI!
    AlphaZero為一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合強化學習,經過自我訓練後,4個小時後擊敗西洋棋程序Stockfish,2小時後勝過將棋程序Elmo,並於30小時之後擊敗了圍棋程序AlphaGo。
  • 最新版AlphaZero問世:2小時攻克將棋,4小時攻克國象
    8小時解決一切棋類!》讀過AlphaGo Zero論文的同學,可能都驚訝於它的方法的簡單。另一方面,深度神經網絡,是否能適用於西洋棋這樣的與圍棋存在諸多差異的棋類?MCTS(蒙特卡洛樹搜索)能比得上alpha-beta搜索嗎?許多研究者都曾對此表示懷疑。