【弈客圍棋APP 記錄你的圍棋人生】
倫敦當地時間2017年10月18日18:00(北京時間19日01:00),AlphaGo再次登上世界頂級科學雜誌——《自然》。
Deepmind在《自然》發表的一篇論文Mastering the game of Go without human knowledge中提到,一款新版的AlphaGo電腦程式能夠從空白狀態起,在不需要任何人類輸入的條件下,迅速自學圍棋。這款新程序名叫AlphaGo Zero,以100比0的戰績打敗了它的前任AlphaGo V18(在2016年3月的錦標賽中,其前任打敗了圍棋冠軍Lee Sedol)。
人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。
文中介紹了AlphaGo Zero,它的學習從零開始,且單純基於與自己的對弈。人類的輸入僅限於棋盤和棋子,沒有任何人類數據。AlphaGo Zero僅用到一張神經網絡,這張網絡經過訓練,成為專門預測程序自身的棋步和棋局的贏家,在每次自我對弈中進步。新程序只使用一臺機器和4個TPU。
通過幾天的訓練——包括近500萬局自我對弈——AlphaGo Zero便能夠超越人類並打敗所有之前的AlphaGo版本。隨著程序訓練的進行,它獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解
2017年5月,以3:0的比分贏下中國棋手柯潔後,AlphaGo宣布退役,但DeepMind公司並沒有停下研究的腳步。當地時間10月18日,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍,是「自學成才」。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。
AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績,對Master接近90%的勝率。「AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據,」AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯說,「最終,我們想要利用它的算法突破,去幫助解決各種緊迫的現實世界問題,如蛋白質摺疊或設計新材料。如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。」
3小時,零在亂下。
10小時,發現簡單定式。
16小時,發現小雪崩定式。
19小時,發現死活、厚勢與實地的邏輯。
24小時,發現小目一間高掛定式。
36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。
55小時,發現非人類定式。
72小時,出關。
AlphaGo跳過輸入棋譜,完全讓電腦在棋盤上隨機落子開始自我學習。沒學過人類棋譜、沒學過人類棋譜、沒學過人類棋譜,然後再來看效率。
三天,達到了李世石版本的水平……
21天,超越Master!!!!就是戰勝60比0擊敗人類一流棋手團的版本。
40天,成就AlphaGo Zero,有史以來最強的圍棋「選手」,對之前發表過版本的勝率達到了接近90%。這裡用到的技術叫做加強學習:Reinforcement Learning。
加強學習(RL)是由行為主義心理學啟發的機器學習領域,涉及軟體代理如何在環境中採取行動,以最大限度地提高累積獎勵的概念。由於其普遍性,在遊戲理論、控制理論、運營研究、信息理論、基於仿真的優化、多代理系統、群體智能、統計學和遺傳算法等諸多方面進行了研究。
系統從一個不知道圍棋的神經網絡開始。然後,通過將這個神經網絡與強大的搜索算法相結合,進行自我對弈。當在這個過程中,神經網絡被調整和更新,以預測動作,就像圍棋冠軍那樣越來越強。
然後將這個更新的神經網絡與搜索算法重組,以創建一個新的,更強的版本的AlphaGo Zero,並且該過程再次開始。在每次迭代中,系統的性能提高了一小部分,自我遊戲的質量也提高了,導致了越來越精確的神經網絡和更強的AlphaGo Zero版本。這種技術比以前版本的AlphaGo更強大,因為它不再受到人類知識的限制。相反,作為一塊白板,它可以從世界上最強的玩家那裡學習:那就是AlphaGo自己。
AlphaGo Zero與其它版本顯著不同在於三點:
1、只給了它圍棋規則、黑白子和棋譜,之前的版本有少量的手工修訂。
2、它使用一個神經網絡而不是兩個。AlphaGo的早期版本使用「策略網絡」來選擇下一個落子和「價值網絡」,從每個位置預測遊戲的獲勝者。這些組合在AlphaGo Zero中,使其能夠更有效地進行培訓和評估。
3、AlphaGo Zero不用「Rollout」,其它圍棋軟體是用快速隨機的對弈從盤面來判斷(就是到處試下然後看哪個更好),而AlphaGo Zero是通過強大的神經網絡來精確判斷最強的下法。
不同版本AlphaGo的配置,左側是功耗,樊麾版本有4萬瓦,176個GPU,李世石版本一萬瓦。現在的4TPU版本Master和AlphaGo Zero目測一兩千瓦。
評估的Elo分,Master是4800多,lphaGo Zero大約是5200左右,可能是李世石版本四個子的差距。只是從ELO數值上看。
3小時的時候,和我們初學一樣,胡下。
19小時,學到了很多高級圍棋技巧,知道了死活,外勢、取地這些理念。
70小時,下出高手的水平,盤面多處混戰。
AlphaGo-Zero的訓練時間軸:
首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特徵輸入。
其次,AlphaGo Zero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了「策略網絡」來選擇下一步棋的走法,以及使用「價值網絡」來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。
第三,AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。相反,新版本依靠的是其高質量的神經網絡來評估下棋的局勢。
AlphaGo Zero出關後,在內部測試中,Deepmind團隊用更大的神經網絡,更長的時間(40天),更多的自我對弈(2900萬局),訓練了一個加強版的AlphaGo Zero,與Master對戰100番棋,89比11勝出。
AlphaGo各個版本的Elo積分如下:
AlphaGo Zero:5182分,擊敗當下第一人柯潔
Master:4858分,60比0擊敗人類一流棋手團
AlphaGo V18:3739分,擊敗世界冠軍級棋手李世石
AlphaGo V13: 3144,擊敗歐洲冠軍樊麾
附帶解開了一個謎。烏鎮大戰時,Deepmind團隊表示當時的阿爾法圍棋能讓一年前擊敗李世石的那個版本三個子。棋界雖早已服膺阿爾法的棋力,但仍然認為讓三個子是天文數字,不可能。現在,從積分上看,AlphaGo Zero讓AlphaGo V18三個子當無問題。
這當然不是說柯潔能讓李世石三個子,而是說烏鎮大戰雖然表面激烈但柯潔沒有一點機會,一切盡在AlphaGo Zero的計算中,真正是深不可測。
Deepmind公司詳解了AlphaGo Zero的更多不同之處,在識別棋盤盤面時,它直接識別黑白棋子,而非要將圖像分類;它僅使用一張人工神經網絡,此前的兩張被合二為一。
但更大的革新之處在於,AlphaGo Zero採用了新的算法——強化學習算法。在每一次訓練後,AlphaGo Zero都能根據訓練結果,進一步優化其算法。
之所以以李世石的版本作為對比而沒有使用與柯潔對戰的版本進行對比,是因為受到環境所限今年5月在烏鎮與柯潔對戰的AlphaGo其實是一個特殊的離線Alpha Master版本,僅由一個TPU在不連接網絡的情況下完成對戰。
無論是擊敗李世乭的版本還是擊敗柯潔的版本,過去的AlphaGo在「學習如何下棋」這個階段,使用的都是大量的人類經典棋譜。它們被告知人類的高手在不同的情況下應該如何應對。而這一次的AlphaGo Zero在學習過程中完全沒有使用任何人類的棋譜,它對玩法的探索完全是從自我對弈中學習的。
開始AlphaGo Zero會從非常隨機且無釐頭的下法開始進化,而它的陪練(另一個AlphaGo Zero)的水平也很低。然後AlphaGo Zero會從每一場勝負中,取得經驗,使得自己的棋藝水平不斷提高。
David Silver說,很多人相信在人工智慧的應用中計算力和數據是更重要的,但在AlphaGo Zero中他們認識到了算法的重要性遠高於計算力和數據——在AlphaGo Zero中,團隊投入的計算力比打造上一個版本的AlphaGo少使用了一個數量級的計算力。
使用了更先進的算法和原理,讓AlphaGo Zero的程序性能本身更加優秀,而不是等待硬體計算力技術的提升。
這個阿爾法從零開始,所以,它的名字叫作零(Zero)。
谷歌用這個名字告訴人類,零需要的人類知識是零。它完全沒有向人學棋,通過自我對弈學習。學到第36個小時的時候,已經超過李世石版;學過三天,自我對弈490萬局,學成出關。
雖然在我們看來Alphago已經非常了不起,甚至有人說奇點就要臨近,但哈薩比斯認為距離人腦水平的通用智能仍有幾十年的差距,DeepMind仍處於發展的最初階段。
對於未來世界,我們有種種幻想,但我們最希望技術的進步可以更好的服務與人類,而不是成為毀滅我們的來源。正如DeepMind的願景,用它來創造更美好的世界(USE IT TO MAKE THE WORLD A BETTER PLACE)。
零,是能成為開始,也能成為結束的光輝。
圍棋人工智慧進入全新的快車道,我們感謝谷歌對圍棋的卓越貢獻。