在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。
繼今年10月在《自然》雜誌上發表論文正式推出人工智慧圍棋程序AlphaGo Zero後,Alphabet旗下機器學習子公司DeepMind團隊近日又發表論文稱,最新版本的 AlphaZero 在經過不到一天的訓練後,「令人信服地」打敗了西洋棋和日本將棋頂尖的電腦程式 。
DeepMind稱,AlphaGo Zero算法在圍棋上實現了超人類的成績,使用深度卷積神經網絡,通過強化學習進行自我對弈訓練。此前的的Alpha Go需要與人類進行數千次對弈,從中獲取數據,但AlphaGo Zero從零開始,只有空白棋盤和遊戲規則,達到了超人的性能,以100-0戰勝了曾打敗李世乭的Alpha Go。
近日,該團隊發文表示,在西洋棋和日本將棋上採用了AlphaGo Zero 的通用化版本AlphaZero(只輸入遊戲規則,沒有輸入任何特定領域的知識)。研究顯示,通用的強化學習算法,可以實現從零開始,在許多具有挑戰性的領域超越人類水平。
該團隊在上述三種棋類遊戲使用相同的算法設置、網絡架構和超參數,為每一種棋類遊戲訓練了獨立的 AlphaZero。訓練從隨機初始化參數開始,進行了 70 萬步(批尺寸為 4096),使用 5000 個第一代 TPU 生成自我對弈棋局和 64 個第二代 TPU 訓練神經網絡。
結果顯示,在西洋棋中,AlphaZero 僅僅用 4 小時(30 萬步)就超過了 Stockfish。在日本將棋中,不到 2 小時(11 萬步),AlphaZero 就超過了 Elmo;在圍棋中,AlphaZero 用 8 小時(16.5 萬步)超越 AlphaGo Lee((與李世乭對弈的版本)。
Stockfish是2016 年 Top Chess Engine Championship(TCEC)世界冠軍。Elmo是 Computer Shogi Association(CSA)世界冠軍 Elmo。
人工智慧領域的標誌性事件是 1997 年深藍(Deep Blue)擊敗了人類世界冠軍卡斯帕羅夫。在之後的 20 年內,西洋棋的電腦程式水平一直穩定處於人類之上。Deepmind團隊稱,當前西洋棋最好的程序都是基於強大的搜尋引擎,能搜索數百萬個位置,利用人類專家手動編寫的函數和複雜的特定領域適應性。Stockfish和深藍這種強大的西洋棋程序也使用了類似的架構。
在計算複雜性方面,日本將棋比西洋棋要更難。將棋棋盤更大,任何被吃的棋子都可以改變立場,被放在棋盤的其他位置。之前,最強的將棋程序,如世界冠軍 Elmo 也是到 2017 年才打敗人類世界冠軍。這些程序和計算機西洋棋程序採用了相似的算法,基於高度優化的α-β搜尋引擎,並針對特定領域進行調整。
AlphaZero則完全不同,使用了一個通用的蒙特卡羅樹搜索(MCTS)算法,通過隨機的對遊戲進行推演來逐漸建立一棵不對稱的搜索樹。AlphaZero 是一個通用的強化學習算法——最初為圍棋設計,在除了給定象棋規則之外沒有任何領域知識的情況下,可以在幾小時內達到更優的結果,少了幾千倍的搜索量。此外,該算法不需要修改就可以應用到更具挑戰性的日本將棋上,並再次在數小時內超過了當前最好的程序。
谷歌大腦GoogleBrain負責人Jeff Dean也曾介紹過深藍和AlphaGo的區別。他稱,深藍是通過蠻力搜索,知道接下來該怎麼走。但圍棋比象棋複雜,由於其複雜性很難窮盡算法,「如果沒有足夠的計算能力去探索圍棋的世界,那麼你需要幫助程序認識遊戲過程中的規律以及怎麼樣才能夠像人一樣有本能的去思考如何走棋。」
不過,Deepmind團隊最新公布的Alpha Zero又在AlphaGo Zero上進行了升級。首先,AlphaGo Zero假設對弈的結果為勝/負兩種, 會估計並最優化勝利的概率;而 AlphaZero 則會估計和優化期望的結果,會同時考慮平局或其它可能的結果。
對於圍棋而言,旋轉棋盤和鏡像映射都不會改變其規則。AlphaGo 和 AlphaGo Zero 都運用了這一事實。通過為每個位置生成8次對稱,來增加訓練數據。 但西洋棋和日本將棋是不對稱的,因此AlphaZero不會增加訓練數據,也不會在進行蒙特卡羅樹搜索算法時轉變棋盤位置。
此外,AlphaZero的自我對弈由之前所有迭代過程中最優玩家生成。每次訓練後,新玩家的性能與之前的最優玩家對比,如果新玩家以55%的勝率勝出,便取代之前的最優玩家。相反,AlphaZero 只是維護單個神經網絡連續更新最優解,而不是等待一次迭代的完成。
最後,AlphaGo Zero 通過貝葉斯優化(Bayesian optimisation)搜索超參數,而 Alpha Zero 對所有的對弈重複使用相同的超參數,無需進行針對特定某種遊戲的調整。
DeepMind評估了經充分訓練的AlphaZero 在西洋棋、將棋和圍棋上分別和與Stockfish、Elmo 和經過 3 天訓練的 AlphaGo Zero 進行的 100 場比賽結果,比賽時間控制在一步一分鐘。AlphaZero 和 AlphaGo Zero 使用 4 個 TPU 的單個機器進行比賽。Stockfish 和 Elmo 使用 64 個線程和 1GB 的哈希表進行比賽。AlphaZero 「令人信服地」打敗了所有的對手,沒有輸給 Stockfish 任何一場比賽,只輸給了 Elmo 八場。
除了繼續強化AlphaGo的技能,谷歌也正推廣著圍棋教學。
12月4日,谷歌宣布與聶衛平圍棋道場共同發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動,該活動將包含針對全國4—18歲小棋手的全國青少年圍棋公開賽,公開賽將在全國6個城市舉行分站賽並於北京舉行總決賽。皮查伊和谷歌就是要在這些孩子當中發現最具潛力的「圍棋先鋒」,並用DeepMind發明的AlphaGo圍棋教學方法培訓他們。
谷歌 CEO 桑達爾·皮查伊透露,DeepMind將會基於AlphaGo發明一套圍棋教學工具,很快可以免費下載,讓所有人學習AlphaGo如何下棋。他還表示,這套圍棋教學工具中的數據是從20多萬場人類棋手比賽,以及75場AlphaGo和人類的對抗中積累的。