史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...

2020-12-06 前瞻網

大約一年前,DeepMind--谷歌母公司Alphabet旗下英國人工智慧部門--發布的預印本研究(《自學掌握象棋和將棋的通用強化學習算法》)登上頭條新聞,它描述AlphaZero系統——能教自己如何掌握日本將棋和中國圍棋遊戲。在每一個案例中,它都打敗了一個世界冠軍,展示了一種最先進的技巧,即通過完美的信息來學習二人對弈遊戲——也就是說,在遊戲中,任何決定都被告知之前發生的所有事件。

DeepMind的聲明之前的確令人印象深刻,但它們沒有經過同行評審。但現在情況出現了新變化。DeepMind今天宣布,經過數月的反覆修改,它在AlphaZero上的工作已經被《科學》(Science)雜誌接受,並登上了頭版。

AlphaZero的首席研究員David Silver在2018年蒙特婁NeurIPS大會上表示「幾年前,我們的程序AlphaGo以四比一擊敗了18屆世界圍棋冠軍李世石。但對我們來說,這實際上是建立一個通用學習系統的開始,這個系統可以自己學習,玩很多不同的遊戲,達到超人類的水平。AphaZero是這段旅程的下一步。它從零開始,打敗了Gi、西洋棋和將棋的世界冠軍項目。一開始,除了遊戲規則,它什麼都不知道。」

Silver解釋說,之所以選擇這些遊戲,不僅是因為它們的複雜性,還因為之前關於它們的人工智慧研究有著豐富的歷史。

他說:「西洋棋……代表了人工智慧傳統方法在達到絕對極限時所能達到的效果,所以我們想看看,我們能否使用一種完全有原則的自學方法來推翻傳統方法,即我們使用大量手工製作。我們選擇將棋的原因是,就難度而言,它是除圍棋外為數不多的幾款非常、非常具有挑戰性的棋盤遊戲之一,即便是對專門的程序和電腦程式來說也具有挑戰性。在過去的一兩年裡,才出現了能夠與人類世界冠軍相匹敵的電腦程式。」

為此,本周發表的論文描述了DeepMind是如何利用深層神經網絡(一種分層的數學功能,模仿人類大腦中神經元的行為)而不是手工制定的規則,從而超越像Stockfish、Elmo和IBM深藍(Deep Blue)等玩西洋棋和將棋算法的引擎。它的動態遊戲模式產生了創造性和非常規的策略,啟發了兩屆英國西洋棋冠軍、特級大師Matthew Sadler和國際女子象棋大師Natasha Regan即將出版的一本書。

Sadler表示:「傳統的引擎非常強大,很少出現明顯的錯誤,但在沒有具體和可計算的解決方案的情況下,它們可能會不穩定……令人印象深刻的是,(AlphaZero)成功地將自己的玩法應用於非常廣泛的位置和開局。正是在這種需要『感覺』、『洞察力』或『直覺』的位置上, AlphaZero風格應運而生。」

例如,在西洋棋中,AlphaZero發現了諸如開局(象棋遊戲的初始動作)、國王的安全(保護國王的方法)和卒結構(棋盤上的棋子的配置)等主題。它傾向於向對手國王周圍棋子下手,最大化其棋子的機動性,同時最小化敵人棋子的機動性。就像人類一樣,它願意為了長期目標犧牲自己的一部分。

教AlphaZero如何玩這三款遊戲中的每一款,都需要模擬數百萬場比賽,這一過程被稱為強化學習,在這個過程中,一套獎懲系統會驅使AI代理朝著特定的目標前進。AlphaZero一開始玩得很隨意,但最終通過調整參數以適應某種遊戲風格避免了損失。

訓練AlphaZero所需的總時間因遊戲而異。系統最少需要700000訓練步驟與5000個第一代TPU和16個第二代TPU——谷歌設計的專用集成電路優化機器學習,西洋棋的訓練時間為9個小時,將棋和圍棋的訓練量分別為12個小時和13天。

為了測試經過充分訓練的AlphaZero, DeepMind的研究人員將其與前述的Stockfish和Elmo遊戲引擎(除了它的前身AlphaGo Zero)進行了競爭。AlphaZero在一臺擁有44個處理器核和4個谷歌第一代TPU的機器上運行——這些硬體的推理能力與一臺擁有幾個英偉達 Titan V圖形處理單元(GPU)的工作站大致相當——AlphaZero在每場3小時的比賽中輕鬆贏得了多數比賽。

在象棋中,在與Stockfish的1000場比賽中,AlphaZero贏了155場,輸了6場。此外,它在以人類常見的下棋策略為開局的遊戲中也名列前茅。

與此同時,在將棋遊戲中,AlphaZero以91.2%的機率擊敗了2017年CSA世界冠軍版本的Elmo。在Go與AlphaGo的對弈中,它贏了61%的比賽。

DeepMind的執行長兼聯合創始人Hassabis表示,西洋棋界正在利用AlphaZero的觀點來推動有關馬格努斯·卡爾森 (Magnus Carlsen,世界一流的西洋棋棋手) 和Fabiano Caruana(義大利國際特級大師)之間最近舉行的世界西洋棋錦標賽比賽的爭論。

Regan說:「看到AlphaZero的分析與頂級西洋棋引擎甚至頂級象棋大師的分析有何不同,這很有意思。我花了好幾個月的時間來探索AlphaZero的象棋遊戲,我覺得自己對這款遊戲的概念和理解已經改變和豐富了。AlphaZero為我們提供了一種檢查工具,檢查我們人類在西洋棋比賽中自學的所有知識,它可能成為整個社會的一種強大的教學工具。」

當然,該系統最終目的不僅僅是創造超人類的象棋程序。Hassabis說,目標是利用AlphaZero項目的經驗來開發能夠解決社會最嚴峻挑戰的系統。

最近,DeepMind的AlphaFold——一種能夠預測複雜蛋白質結構的人工智慧系統——在CASP13蛋白質摺疊競賽的98個競爭者中排名第一。

Hassabis說:「AlphaZero是我們通往通用人工智慧之路的墊腳石。我們測試自己和所有這些遊戲的原因是……它們為我們開發算法提供了非常便利的試驗場……最終,(我們正在開發的算法可以)轉化為現實世界,解決真正具有挑戰性的問題……並幫助這些領域的專家。」

本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com

相關焦點

  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    >新智元報導 來源:DeepMind; Science編輯:文強,三石,大明【新智元導讀】DeepMind最強棋類算法David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    2016年1月28日《自然》雜誌封面2017年10月18日,DeepMind團隊公布了最強版阿爾法圍棋,代號AlphaGo Zero。彼時DeepMind表示,棋類AI的算法主要基於複雜的枚舉,同時需要人工進行評估,人們在過去幾十年內已經將這種方法做到極致了。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    世界最強圍棋AI AlphaGo Zero帶給世人的震撼並沒有想像中那麼久——不是因為大家都去看誰(沒)跟誰吃飯了,而是DeepMind再次迅速超越了他們自己,超越了我們剩下所有人的想像。其中,DeepMind團隊描述了一個通用棋類AI「AlphaZero」,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:戰勝最強西洋棋AI Stockfish:28勝,0負,72平;戰勝最強將棋AI Elmo:90勝,2平,8負;戰勝最強圍棋AI AlphaGo Zero:60勝,40
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。研究顯示,通用的強化學習算法,可以實現從零開始,在許多具有挑戰性的領域超越人類水平。該團隊在上述三種棋類遊戲使用相同的算法設置、網絡架構和超參數,為每一種棋類遊戲訓練了獨立的 AlphaZero。訓練從隨機初始化參數開始,進行了 70 萬步(批尺寸為 4096),使用 5000 個第一代 TPU 生成自我對弈棋局和 64 個第二代 TPU 訓練神經網絡。
  • 揭秘谷歌 AlphaZero:從 AlphaGo 進化,如何通殺棋類遊戲
    儘管他們的通用AI系統適用於許多雙人遊戲,但是研究人員卻進行了調整,使其專門針對圍棋、西洋棋以及將棋(日本象棋)。這種AI程序事先並不了解任何一種棋類遊戲的規則。一開始,它只是隨意下子。之後,它通過和自己對弈掌握了遊戲規則。九個小時內,AlphaZero在大量特殊谷歌硬體集群中自我對弈4400萬局。之後兩個小時,它的表現已經超過人類棋手。四個小時之後,它就打敗了全球最出色的象棋引擎。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    一個常用方法就是玩棋盤遊戲,比如西洋棋,看看其是否具有超人的能力,甚至擊敗世界冠軍。1957年,Herbert Simon預言計算機系統能夠在十年內擊敗西洋棋冠軍。雖說實際上花的時間長了點,但是在1997年5月,計算機擊敗了當時的西洋棋冠軍——Garry Kasparov。
  • AlphaZero:從小白開始制霸多個遊戲
    它最終在這三個領域都打敗了世界最頂尖的程序。DeepMind 為這些初步結果而感到興奮,也很高興看到棋壇社區成員的反應,他們在和 AlphaZero 的對戰中看到了一種靈活多變的「非常規」、突破性博弈風格,這種風格不同於之前的任何棋類程序。
  • 登上Science,AlphaZero完整論文首次發布
    經過數月的反覆修改,DeepMind 最強棋類遊戲 AI AlphaZero 的完整版論文終於在 Science 發表。,就成功擊敗了與李世石對戰的 AlphaGo ;又經過了 4 個小時的訓練,它又擊敗了世界頂級的西洋棋程序——Stockfish;緊接著,又是 2 個小時的訓練之後,世界上最強的日本將棋程序 Elmo 又敗在了它的手下。
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    上周末,DeepMind 在《科學(Science)》期刊上發表了一篇通用強化學習算法論文(預印本PDF),得到了評審編輯的初步確認與更新。論文描述了 AlphaZero 如何快速學習三種棋類遊戲成為史上最強的棋手,儘管它僅了解遊戲基本規則而沒有其它該領域的知識、且無需任何內置指導。
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    AlphaZero的橫空出世,跨越了實現通用人工智慧的一道巨大鴻溝——「語義鴻溝」。Perez認為,這是AGI的一個極其難以實現的裡程碑事件,而且它到來之快已經遠遠超出了專家的估計。現代文明以及披上技術的外衣導致了我們自身直覺的衰退。我們當中有很多人已經意識不到它的價值甚至完全忽略了它的存在。作為負責計算的基礎,直覺很容易會被視為離經叛道的做法而被摒棄。
  • 解讀AlphaZero:一種人類從未見過的智慧
    這一成果震驚了西洋棋世界,幾個小時內,AlphaGo Zero就成為了世界上最好的棋類玩家。眾所周知,在西洋棋方面,IBM的深藍在20年前就打敗了西洋棋大師,而後續的Stockfish和Komodo這些西洋棋程序也早已獨霸西洋棋世界。在AlphaGo Zero發布之後,很多人質疑了其在西洋棋領域的價值。
  • 谷歌發布的這款AI會玩57款雅達利遊戲 水平比AlphaZero...
    2016年,谷歌開發的AlphaGo成為了首個擊敗圍棋世界冠軍的人工智慧,向人類有力地證明了這一點。此後,谷歌2017年又開發了「升級版」AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    【網易智能訊12月7日消息】日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • AlphaGo繼任者:一個算法通吃三大棋類
    評估描述了AlphaZero的訓練方法:儘管AlphaZero是從隨機遊戲中開始訓練,沒有內置的專業知識,只知道遊戲的基本規則,它卻可以快速學習每種遊戲,直到成為最強玩家。前世界西洋棋冠軍Garry Kasparov說道:「我無法掩飾自己的滿足感,它的棋法變化多端,跟我很像!」
  • 超越AlphaGo的AlphaZero出世
    特別是以圍棋為對象,與「AlphaGo」不同的是一個算法可以適用於西洋棋、昭和(日本象棋)等其他棋類遊戲,是AI廣泛應用的重要裡程碑,因此備受期待。日,包括谷歌Deep Mind創始人兼CEO德米斯·哈比斯在內的13位研究學者在「科學」雜誌上發表了題目為「通過自我學習掌握西洋棋、昭和、圍棋的通用強化學習算法
  • 騰訊欲搬谷歌雲當救兵,大戰阿里華為,AlphaZero達成終極進化體
    AI畢業生赴美史上最大規模的機器學習技能調查剛剛出爐了。這份調查來自矽谷機器學習公司Diffbot,是史丹福大學風投基金投資的第一家公司。【今日資訊頭條 | Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨】來源:DeepMind; Science
  • 通用算法AlphaZero再攻克幾種棋又有何難!
    在我們覺得 AlphaGo Zero 已經成為盡善盡美的圍棋之神的時候,DeepMind 出人意料地帶來了這個更通用的、能下各種棋類的、而且在圍棋中的表現更上一層樓的通用強化學習模型,「AlphaZero」。過往幾個版本的 AlphaGo Zero 大家想必都比較熟悉了,不過我們還是簡單回顧一下,方便和新的 AlphaZero 對比。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    但自那以後,這家Google旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的AlphaGo Zero,而他們的遠期目標是打造出通用的人工智慧機器。雖然這一目標尚顯遙遠,但根據本周DeepMind科學家發表的最新的論文來看,他們已經走在了正確的道路上。
  • 谷歌阿爾法狗、IBM深藍戰勝世界冠軍後,AI辯手又贏了
    谷歌阿爾法狗、IBM深藍戰勝世界冠軍後,AI辯手又贏了 2018-09-13 21:05  科技互聯觀察員