AlphaGo是如何工作的?
Dave Silver稱,按照傳統的算法,每下一步棋計算出幾十種可能,然後每種可能又產生幾十種可能。這種窮舉式的搜索方法應用在每一步都有上百種可能的圍棋上,會變得非常笨拙。
AlphaGo團隊負責人Dave Silver
所以AlphaGo團隊在研究時,一直想辦法減少窮舉式搜索的寬度和深度。
他們結合了監督學習和強化學習的優勢。一方面形成一個策略網絡(policy network),用於學習棋盤;另一方面,形成一個價值網絡,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。
這兩個網絡結合在一起,就形成了AlphaGo的樹搜索。在獲取棋局信息後,AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
與柯潔對戰的AlphaGo自學成才
但這次與柯潔對戰的AlphaGo相較於去年的版本,進行了很大的改變。今年的AlphaGo更強化了學習,它通過自己與自己下棋,產生大量的棋局,然後學習、改進。
這樣一來,AlphaGo就不需要依靠人類的數據,而是自學成才。然後不斷給下一代版本提供更好的數據,這是一個良性循環。
去年,與李世石對戰的AlphaGo在谷歌雲商有50TPUs在運作,每一步可以搜索50個棋步,並且可每秒搜索10000個位置。
昨天與柯潔對戰的AlphaGo,則是在單個TPU機器上進行比賽,它擁有了更強大的策略和價值網絡。
哈薩比斯說,AlphaGo最酷是它不僅把圍棋當做比賽,更是當做一種藝術,而且是非常可觀的藝術。
在與李世石對陣的第二局比賽中,它走出了令人驚嘆的第37步棋,這讓研發人員都感到驚訝。按照圍棋幾千年來的經驗,人類是絕不會下出這一步。
李世石當時在賽後也表示,AlphaGo給圍棋帶來了全新的體驗和認知,讓他有了繼續下棋的比賽。
柯潔在昨天比賽技術後也有著同樣的感受,AlphaGo讓圍棋有了更多的可能,似乎沒有哪一步是不能下的。
AlphaGo已經展現出了它在圍棋方面的創造力,並給圍棋選手打開了新的世界的大門,圍棋的邊界遠遠超乎他們之前的認知。
哈薩比斯說,他們會繼續打造AlphaGo,不斷彌補它知識方面的空白,讓它變得更完美。
對於未來,以AlphaGo為代表的人工智慧也會成為人類的工具,就像望遠鏡一樣,幫助人類探索更多未知的領域。比如在材料設計、新藥研製等方面,人工智慧一旦有所突破,給人類帶來的影響也同樣超乎想像。
最後,哈薩比斯還強調一點,當人工智慧真正來到人們身邊時,正確恰當的使用人工智慧也非常重要。