DeepMind以AlphaZero擊敗全球三大棋藝AI!

2020-12-05 科技前行者

AlphaZero為一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合強化學習,經過自我訓練後,4個小時後擊敗西洋棋程序Stockfish,2小時後勝過將棋程序Elmo,並於30小時之後擊敗了圍棋程序AlphaGo。

Alphabet的人工智慧子公司DeepMind 上周五(12/7)公布了人工智慧系統AlphaZero的完整評估報告,並刊登於《科學》(Science)期刊上,各路棋藝高手則稱讚AlphaZero發展出自己的風格,不但具備創造力,還可能成為重要的教學工具。

AlphaZero與其它傳統AI棋藝引擎最大的不同在於它並非仰賴眾多的規則,或是自專家的棋戲中學習,而是通過深度神經網絡(Deep Neural Network)與通用目的演算法展開自我學習,頂多只知道各種棋藝的基本規則。

AlphaZero挑戰的對象是全球最強大的西洋棋程序Stockfish、將棋程序Elmo,以及同樣由DeepMind所打造的圍棋程序AlphaGo。它花在西洋棋的訓練時間為9小時,將棋為12小時,圍棋為13天,訓練完畢之後,它在4個小時之後就勝過了Stockfish,在2小時之後便凌駕Elmo,並於30小時之後擊敗了AlphaGo。

研究人員解釋,在學習每一款棋藝的過程中,AlphaZero從一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合進行強化學習(Reinforcement Learning),一開始它完全是隨機地下棋,但它會從贏家與輸家的走法中學習,同時調整其神經網絡參數,而訓練時間則取決於各種棋藝的風格及複雜程度。

現今世上最優秀的日本將棋棋士羽生善治(Yoshiharu Habu)指出,AlphaZero的某些走法,例如把王將(King)移到棋盤中央,根本有違將棋理論,從人類的角度來看,這讓AlphaZero處於險惡之地,但令人難以置信的是,AlphaZero依然掌控著棋局,它的獨特風格向大家展示了該遊戲新的可能性。

經過完整訓練的AlphaZero在與Stockfish、Elmo及AlphaGo競賽時,展現了它的強大,在與Stockfish對戰時,在1,000盤的棋戲中贏了155盤,只輸了6盤;與Elmo對戰的勝率更高達91.2%,與AlphaGo對戰的勝率則是61%。

而令棋士們感到最有趣的部份在於自我學習的AlphaZero並沒有受到傳統的遊戲規則,而發展自己的直覺與策略,帶來新鮮的想法,顛覆了幾個世紀以來人們或專家對這些棋藝的思考。

西洋棋大師Matthew Sadler指出,他率先注意到的就是AlphaZero的風格,它有目的地以大量的棋子有力地圍繞著國王,儘可能提高自己的行動力與移動性,同時最大限度地減少對方棋子的活動力及移動性,它完全不像傳統的遊戲程序,而好似獲得了一本武林秘笈。

Sadler還說,傳統的遊戲程序幾乎很少犯下明顯的錯誤,但在缺乏沒有具備或可計算的解決方案時即會遊移不定,然而,AlphaZero卻會在此時發揮它的感覺、洞察力或直覺。

另一名西洋棋大師Natasha Regan則說,AlphaZero的走法不管是與遊戲程序或國際級專家都不同,可望成為強大的教學工具。

DeepMind的研究人員則認為,AlphaZero展現一個單一的演算法如何能在一系列的設定中挖掘新知識,儘管目前仍處於早期開發階段,但AlphaZero具備創意的見解再加上諸如AlphaFold等專案的結果讓他們有信心能夠建立一個通用的學習系統,有朝一日將可協助人們以新方法來解決重要及複雜的科學問題。

相關焦點

  • AlphaZero:從小白開始制霸多個遊戲
    從隨機博弈開始,且除了遊戲規則不提供任何領域相關的知識,AlphaZero 令人信服地擊敗了西洋棋、將棋(日本象棋)和圍棋的世界冠軍程序。 如果讀者希望了解 AlphaZero 的完整資料,可以仔細閱讀及實現這一啟發性的工作: 閱讀 Science 論文:http://science.sciencemag.org/content/362/6419/1140 下載 PDF 版論文:https://deepmind.com/documents
  • 「燒錢機器」DeepMind持續多年虧損後,仍無商業...
    DeepMind是一家人工智慧初創公司,成立10年來研發了眾多明星產品,例如,前不久剛剛推出的AlpaFold,用AI預測蛋白質三維結構,攻克生物科學50年挑戰;2014年推出的人工智慧圍棋選手AlphaGo,2016年擊敗了世界圍棋冠軍、職業九段棋手李世石,2017年擊敗了當今圍棋第一人柯潔。
  • 『燒錢機器』DeepMind持續多年虧損後,仍無商業...
    DeepMind是一家人工智慧初創公司,成立10年來研發了眾多明星產品,例如,前不久剛剛推出的AlpaFold,用AI預測蛋白質三維結構,攻克生物科學50年挑戰;2014年推出的人工智慧圍棋選手AlphaGo,2016
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    △圖源:DeepmindCASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。參考連結:https://deepmind.comalphafold-a-solution-to-a-50-year-old-grand-challenge-in-biologyhttps://www.nytimes.com/2020/11/30/technology/deepmind-ai-protein-folding.html
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • DeepMind公布官方教程,開始創建自己的AlphaZero AI吧
    2016年3月,Deepmind的AlphaGo以4比1的比分戰勝18屆圍棋世界冠軍李世石,這場比賽吸引到全球超過2億觀眾。機器學會圍棋策略,並擊敗人類頂尖高手,這在以往被視為一種不可能的壯舉——或者至少被認為要到十年後才有可能實現。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    這一系統在周日進行的國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手。 我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。我們身體的幾乎所有功能,例如收縮肌肉、感知光線或將食物轉化成能量等,都需要一種或多種蛋白質來完成。而蛋白質具體能做什麼就要取決於它獨特的3D結構了。
  • 阿爾法狗再進化 自我學習提升棋藝擊敗舊版
    阿爾法狗再進化 自我學習提升棋藝擊敗舊版 阿爾法狗再進化,10月19日谷歌旗下人工智慧研究部門DeepMind發布了新版AlphaGo(阿爾法狗)軟體,它可以完全靠自己學習圍棋 這款名為AlphaGo Zero的系統可以通過自我對弈進行學習,它利用了一種名為強化學習的技術
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    博文中,Deepmind還請來了幾位AlphaZero的人類對手,比如,20年前,在「人機大戰」中被深藍打敗的前世界西洋棋冠軍加裡卡斯帕羅夫,描述了AlphaZero的棋術。20年前與深藍對弈的加裡卡斯帕羅夫DeepMind博文連結:https://deepmind.com
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    需要說明的是,CASP是評估蛋白質結構預測技術全球範圍內最權威的機構。它由John Moult和Krzysztof Fidelis兩位教授創立於1994年,每兩年進行一次盲審。其中,GDT(Global Distance Test ) 是CASP 用來測量預測準確性的主要指標,其範圍是從0-100。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    需要說明的是,CASP是評估蛋白質結構預測技術全球範圍內最權威的機構。它由John Moult和Krzysztof Fidelis兩位教授創立於1994年,每兩年進行一次盲審。其中,GDT(Global Distance Test ) 是CASP 用來測量預測準確性的主要指標,其範圍是從0-100。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    需要說明的是,CASP是評估蛋白質結構預測技術全球範圍內最權威的機構。它由John Moult和Krzysztof Fidelis兩位教授創立於1994年,每兩年進行一次盲審。其中,GDT(Global Distance Test ) 是CASP 用來測量預測準確性的主要指標,其範圍是從0-100。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    參考連結:https://venturebeat.com/2020/09/03/deepmind-claims-its-ai-improved-google-maps-travel-time-estimates-by-up-to-50/https://deepmind.com/blog
  • 圍棋擊敗AlphaZero!各類遊戲測試碾壓前輩,谷歌DeepMind AI再添新員
    在每個項目中,它都擊敗了世界冠軍,這說明了學習具有充分信息(perfect information)的兩人遊戲是有訣竅的——在遊戲中,任何決策都是由先前發生的所有事件來決定的。但是AlphaZero的優勢是知道它要玩的遊戲的規則。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    AlphaGo Zero3天時間就能達到擊敗李世石的AlphaGo Lee的水平,21天可以達到了之前擊敗柯潔的AlphaGo Master的水平。,直接通過自我純強化學習,於短短的3天自我訓練時間後,以100:0的戰績擊敗曾經的AlphaGo。
  • 谷歌DeepMind又在全球賽事中擊敗人類!AI成功預測蛋白質3D結構
    在 12 月 2 日坎昆舉行的會議上,組織者宣布,在第 13 屆全球蛋白質結構預測競賽(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智慧程序 AlphaFold 擊敗了所有人:成功預測生命基本分子——蛋白質的三維結構。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強西洋棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽(CASP)上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。