►圖片來自DeepMind
撰文 | 李家勁(加州大學洛杉磯分校)
責編 | 葉水送
● ● ●
AlphaGo又「進化」了!新一代機器人AlphaGo Zero誕生,在圍棋領域,它會不會感到孤獨?
本周,Nature雜誌報導了英國DeepMind團隊的最新進展:他們開發出了新一代的圍棋AI——AlphaGo Zero。AlphaGo Zero使用強化學習技術(Reinforcement Learning),大幅提升了棋力。它現在能夠以更少的計算資源,輕鬆擊敗曾經戰勝世界冠軍李世石、柯潔的AlphaGo前代版本。
► David Silver教授講述AlphaGo Zero的基本原理,視頻來自DeepMind
AlphaGo Zero與之前版本最大的區別在於,AlphaGo Zero從隨機對局開始,通過自我對弈來提升自己的棋藝,從不依靠任何人類的監督或對局數據。而在以往版本中,AlphaGo都是使用業餘和專業人類棋手的對局數據來訓練自己。雖然使用人類棋手的數據可以讓AI學習到人類的圍棋技巧,但是人類專家的數據通常難以獲得且很昂貴。此外,即使是專業棋手,也難免會有失誤,而使用錯誤的訓練數據可能會降低AlphaGo的棋力。況且,僅僅使用人類數據會讓AI局限於人類的圍棋知識。
►AlphaGo Zero的自我強化學習,圖片來自Nature
更重要的是,AlphaGo在圍棋界已是「獨孤求敗」的境界,所以,要突破自己的界限,甚至圍棋知識的界限,顯然只有AlphaGo自己才能做自己的老師。
從算法上來說,AlphaGo Zero更簡潔、漂亮,讓我想起愛因斯坦的KISS原則:simple but not simpler。這一次,AI在人類的幫助下,在一個給定的規則下,自主發現新知識,並且糾正人類的錯誤知識,而且以驚人的速度達到這一點。有趣的是,AlphaGo無法解釋,只能demo給人類。在這個特定的小領域,人類和人工智慧一起創造了新知識。
張崢(上海紐約大學終身教授、國家千人計劃特聘專家)
經過幾百萬盤的自我博弈後,AlphaGo Zero進步明顯,不僅棋力大幅增強,運算速度也提升了不少。在100盤對局中,僅使用1臺機器、4個TPU的AlphaGo Zero對使用多臺機器、48個TPU的AlphaGo Lee取得全勝,後者曾經擊敗韓國名將李世石。在同樣配置下,AlphaGo Zero對AlphaGo Master取得89勝11負的壓倒性優勢,後者就是2017年1月在頂級圍棋在線對戰平臺上取得60戰60勝的神秘選手Master。而且,AlphaGo Zero訓練了72小時就完勝AlphaGo Lee,僅用40天就超越了AlphaGo Master。這主要得益於DeepMind團隊開發的新型強化學習技術。
何為強化學習技術?簡單來講,強化學習使用一套獎勵機制,讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)與神經網絡算法。其中,神經網絡算法給出落子方案,以及預測當前形勢下的勝方;MCTS算法可以看成是一個弈棋策略的評價和改進工具,它能夠模擬出AlphaGo Zero落子在哪些地方可以獲得更高的勝率。如果AlphaGo Zero從神經網絡得出的下一手棋的走法越相似於MCTS算法輸出的結果,則勝率越大,即所謂回報越高。如此,在每一著棋中,AlphaGo Zero都要優化神經網絡中的參數,使其計算出的落子方案更接近MCTS算法的結果,同時儘量減少勝者預測的偏差。開始的時候,AlphaGo Zero的神經網絡完全不了解圍棋,只好盲目下棋。但經過日以繼夜的「左右互搏」般的訓練,無數盤對局後,AlphaGo Zero迅速從圍棋小白成長為傳奇棋神。
除了改進人工智慧技術外,DeepMind團隊也希望能夠通過AlphaGo項目獲得對圍棋更深的認識。他們發現,AlphaGo Zero僅僅自我對弈幾十天就掌握了人類幾百年來研究出來的圍棋技術,而且棋路獨特。例如,AlphaGo Zero很喜歡下出定石(圍棋術語)的新型變種。這是因為它沒有使用人類數據,不再囿於人類現有的圍棋理論。
「當前的最強版本,AlphaGo Zero向我們展示了即使不用人類的數據,即使使用更少的計算資源,也能夠取得長足進步。最終我們想用這些技術進展去解決現實問題,如蛋白質摺疊或者新材料設計。如果我們能夠在這些問題上取得同樣進展,這將會增進人類的認知,從而改善每個人的生活。」
DeepMind的共同創辦者兼CEO,Demis Hassabis如是說。
參考資料
Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.
製版編輯: 常春藤|
▼▼▼點擊「閱讀原文」,了解課程詳情,立享限時特惠!