大約一年前,DeepMind--谷歌母公司Alphabet旗下英國人工智慧部門--發布的預印本研究(《自學掌握象棋和將棋的通用強化學習算法》)登上頭條新聞,它描述AlphaZero系統——能教自己如何掌握日本將棋和中國圍棋遊戲。在每一個案例中,它都打敗了一個世界冠軍,展示了一種最先進的技巧,即通過完美的信息來學習二人對弈遊戲——也就是說,在遊戲中,任何決定都被告知之前發生的所有事件。
DeepMind的聲明之前的確令人印象深刻,但它們沒有經過同行評審。但現在情況出現了新變化。DeepMind今天宣布,經過數月的反覆修改,它在AlphaZero上的工作已經被《科學》(Science)雜誌接受,並登上了頭版。
AlphaZero的首席研究員David Silver在2018年蒙特婁NeurIPS大會上表示「幾年前,我們的程序AlphaGo以四比一擊敗了18屆世界圍棋冠軍李世石。但對我們來說,這實際上是建立一個通用學習系統的開始,這個系統可以自己學習,玩很多不同的遊戲,達到超人類的水平。AphaZero是這段旅程的下一步。它從零開始,打敗了Gi、西洋棋和將棋的世界冠軍項目。一開始,除了遊戲規則,它什麼都不知道。」
Silver解釋說,之所以選擇這些遊戲,不僅是因為它們的複雜性,還因為之前關於它們的人工智慧研究有著豐富的歷史。
他說:「西洋棋……代表了人工智慧傳統方法在達到絕對極限時所能達到的效果,所以我們想看看,我們能否使用一種完全有原則的自學方法來推翻傳統方法,即我們使用大量手工製作。我們選擇將棋的原因是,就難度而言,它是除圍棋外為數不多的幾款非常、非常具有挑戰性的棋盤遊戲之一,即便是對專門的程序和電腦程式來說也具有挑戰性。在過去的一兩年裡,才出現了能夠與人類世界冠軍相匹敵的電腦程式。」
為此,本周發表的論文描述了DeepMind是如何利用深層神經網絡(一種分層的數學功能,模仿人類大腦中神經元的行為)而不是手工制定的規則,從而超越像Stockfish、Elmo和IBM深藍(Deep Blue)等玩西洋棋和將棋算法的引擎。它的動態遊戲模式產生了創造性和非常規的策略,啟發了兩屆英國西洋棋冠軍、特級大師Matthew Sadler和國際女子象棋大師Natasha Regan即將出版的一本書。
Sadler表示:「傳統的引擎非常強大,很少出現明顯的錯誤,但在沒有具體和可計算的解決方案的情況下,它們可能會不穩定……令人印象深刻的是,(AlphaZero)成功地將自己的玩法應用於非常廣泛的位置和開局。正是在這種需要『感覺』、『洞察力』或『直覺』的位置上, AlphaZero風格應運而生。」
例如,在西洋棋中,AlphaZero發現了諸如開局(象棋遊戲的初始動作)、國王的安全(保護國王的方法)和卒結構(棋盤上的棋子的配置)等主題。它傾向於向對手國王周圍棋子下手,最大化其棋子的機動性,同時最小化敵人棋子的機動性。就像人類一樣,它願意為了長期目標犧牲自己的一部分。
教AlphaZero如何玩這三款遊戲中的每一款,都需要模擬數百萬場比賽,這一過程被稱為強化學習,在這個過程中,一套獎懲系統會驅使AI代理朝著特定的目標前進。AlphaZero一開始玩得很隨意,但最終通過調整參數以適應某種遊戲風格避免了損失。
訓練AlphaZero所需的總時間因遊戲而異。系統最少需要700000訓練步驟與5000個第一代TPU和16個第二代TPU——谷歌設計的專用集成電路優化機器學習,西洋棋的訓練時間為9個小時,將棋和圍棋的訓練量分別為12個小時和13天。
為了測試經過充分訓練的AlphaZero, DeepMind的研究人員將其與前述的Stockfish和Elmo遊戲引擎(除了它的前身AlphaGo Zero)進行了競爭。AlphaZero在一臺擁有44個處理器核和4個谷歌第一代TPU的機器上運行——這些硬體的推理能力與一臺擁有幾個英偉達 Titan V圖形處理單元(GPU)的工作站大致相當——AlphaZero在每場3小時的比賽中輕鬆贏得了多數比賽。
在象棋中,在與Stockfish的1000場比賽中,AlphaZero贏了155場,輸了6場。此外,它在以人類常見的下棋策略為開局的遊戲中也名列前茅。
與此同時,在將棋遊戲中,AlphaZero以91.2%的機率擊敗了2017年CSA世界冠軍版本的Elmo。在Go與AlphaGo的對弈中,它贏了61%的比賽。
DeepMind的執行長兼聯合創始人Hassabis表示,西洋棋界正在利用AlphaZero的觀點來推動有關馬格努斯·卡爾森 (Magnus Carlsen,世界一流的西洋棋棋手) 和Fabiano Caruana(義大利國際特級大師)之間最近舉行的世界西洋棋錦標賽比賽的爭論。
Regan說:「看到AlphaZero的分析與頂級西洋棋引擎甚至頂級象棋大師的分析有何不同,這很有意思。我花了好幾個月的時間來探索AlphaZero的象棋遊戲,我覺得自己對這款遊戲的概念和理解已經改變和豐富了。AlphaZero為我們提供了一種檢查工具,檢查我們人類在西洋棋比賽中自學的所有知識,它可能成為整個社會的一種強大的教學工具。」
當然,該系統最終目的不僅僅是創造超人類的象棋程序。Hassabis說,目標是利用AlphaZero項目的經驗來開發能夠解決社會最嚴峻挑戰的系統。
最近,DeepMind的AlphaFold——一種能夠預測複雜蛋白質結構的人工智慧系統——在CASP13蛋白質摺疊競賽的98個競爭者中排名第一。
Hassabis說:「AlphaZero是我們通往通用人工智慧之路的墊腳石。我們測試自己和所有這些遊戲的原因是……它們為我們開發算法提供了非常便利的試驗場……最終,(我們正在開發的算法可以)轉化為現實世界,解決真正具有挑戰性的問題……並幫助這些領域的專家。」
本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com