谷歌旗下AI開發部門DeepMind的作品登上了最新一期的《Science》雜誌的封面。AlphaZero在圍棋和日本將棋領域裡超越了人類之後,又從無到有地重新挖掘出了西洋棋的正確下法。研究人員公布了通用算法和測試數據。
2017年末,我們推出了AlphaZero,這是一個獨立的系統,從頭開始自行學習西洋棋、將棋(日本版的西洋棋)和圍棋,最終在每個領域內擊敗世界冠軍程序。我們對初步結果感到非常興奮,並很高興看到西洋棋界的回應,他們在AlphaZero的棋譜中看到了一種突破性的、高度動態的和「非傳統的」行棋風格,與之前的任何西洋棋遊戲引擎不同。今天,我們非常開心能夠向公眾發布AlphaZero的完整評估。報告發表在Science(開放訪問版本)雜誌上。該期刊確認了這些初步結果。它描述了AlphaZero如何快速學習每個遊戲,成為歷史上最強大的玩家,從隨機遊戲開始自我訓練,沒有內置任何知識,唯一需要預先輸入的就是遊戲的基本規則。
西洋棋世界冠軍Garry Kasparov卡斯帕羅夫也在《科學》上撰文表示,「我無法掩飾自己的滿足感,它充滿了非常有活力的風格,就像我一樣!」。他指出,這種從頭開始每個遊戲的能力,不受人類遊戲規範的約束,產生了獨特的、非正統的、但具有創造性和動態的遊戲風格。AlphaZero的棋風可能更接近本源。「它以一種深刻而有用的方式超越了人類。」
西洋棋大師Matthew Sadle和女性國際大師Natasha Regan已經分析了AlphaZero數以千計的棋譜。Matthew指出,它的風格不同於任何傳統的西洋棋引擎。「這就像在翻閱過去一些偉大棋手的秘籍。」
傳統的西洋棋引擎——包括世界計算機西洋棋冠軍Stockfish和IBM突破性的Deep Blue——依賴於數千個由強大的人類玩家手工編制的規則和啟發式算法,試圖解讀遊戲中的每一種可能性。 Shogi程序也是針對於特定遊戲的,使用與西洋棋程序類似的搜尋引擎和算法。
AlphaZero採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些手工製作的規則,這些算法對基本遊戲規則之外的東西一無所知。
論文中舉例的決策樹
日本將棋:AlphaZero訓練2小時就超越了世界冠軍程序Elmo;
圍棋:AlphaZero訓練30小時就超越了傳奇性的AlphaGo。
為了掌握每一種遊戲,未經訓練的神經網絡通過被稱為強化學習的試錯過程自我對弈數百萬盤。起初,它完全隨機落子,但隨著時間的推移,系統從每一盤的勝負得失中吸取經驗,調整神經網絡的參數,選擇出更加正確的一步。網絡需要的訓練量取決於遊戲的風格和複雜程度,西洋棋大約需要9個小時,將棋大約需要12個小時,圍棋則用了13天。
AlphaZero能夠掌握三種不同的複雜遊戲——或許應該說是,任何開放信息的遊戲——是走向最終實際應用的重要一步。它表明單個算法可以僅僅從最基本的規則中,發展出一整套超越人類千年積累的知識體系。而且,儘管還處於早期階段,AlphaZero的創意見解加上我們在AlphaFold等其他項目中看到的令人鼓舞的結果,讓我們對完成創建通用學習系統的使命充滿信心。我們可以用它來解決最重要和最複雜的科學問題。
本文譯自 deepmind,由譯者 majer 基於創作共用協議(BY-NC)發布。