從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。
對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。
根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何數據和知識了。僅通過3天訓練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下棋時的AlphaGo了。
真是佩服DeepMind的這種「把革命進行到底」的作風,可以說是把計算機圍棋做到了極致。
那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?
1,在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在蒙特卡洛樹搜索的框架下,一點點提高自己的水平。
2,不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網絡結構的變化,使得神經網絡層數更深,提取特徵的能力更強。
3,將策略網絡和價值網絡合二為一。在AlphaGo中,使用的策略網絡和價值網絡是分開訓練的,但是兩個網絡的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該 會更快吧?
4,網絡結構採用殘差網絡,網絡深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模塊,每個模塊包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從而可以實現更好的特徵提取。
5,不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網絡的結果代替隨機模擬。這應該完全得益於價值網絡估值的準確性,也有效加快了搜索速度。
6,只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天後可以戰勝與柯潔交手的AlphaGo。
對於計算機圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不用人類數據,自己實現產生數據,自我訓練,自我提高下棋水平。但是這種方式很難推廣到其他領域,不能認為人工智慧的數據問題就解決了。
Long-press QR code to transfer me a reward
As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.