12月11日晚,AlphaGo「人肉臂」黃士傑和DeepMind圍棋大使樊麾分別在自己的社交網站上公布重磅消息——AlphaGo教學工具(AlphaGo Tech)正式上線。這款教學工具收錄了近期圍棋史上最受歡迎的6000個開放序列的分析,使用了來自23.1萬個人類棋譜的數據,以及AlphaGo對人類玩家的75場遊戲數據。
圖片來自黃士傑的朋友圈
據了解,這是一個AlphaGo教學的開局庫,共由兩萬多個變化,三十七萬多步棋組成,可以通過AlphaGo的視角,分析並建議圍棋開局的諸多下法。此教學工具的目的是幫助人們學習圍棋,它讓用戶在開始遊戲後,觀看AlphaGo在不同動作下的預期獲勝概率。
不得不說,這是DeepMind的一項重要舉措,可以幫助玩家更好地理解AlphaGo的行為。AlphaGo Tech 不會讓新手成為大師,但可以幫助玩家更好的理解基於機器學習的程序在特定的情況下了解到的信息。不熟悉圍棋的人,可能覺察不到這個工具對學習圍棋遊戲的幫助,因為這項技術的前提是假設玩家對圍棋有一定的了解。
今年五月,在烏鎮舉行的圍棋峰會上,谷歌DeepMind的創始人Demis Hassabis曾表示,他們正在研究如何利用AlphaGo教人類更好地理解圍棋。
如今,半年多的時間過去了,AlphaGo Teach真的出現了。在該項目的官網介紹中,我們可以通過點擊棋盤上的彩色圓圈,或者使用棋盤下方的導航工具,來探索不同的開局策略,以及AlphaGo對於每一步棋的黑棋勝率預測。
其中,藍色虛線圓圈代表AlphaGo的下法,藍紫色圓圈代表人類棋手的下法。圈中的數字為黑棋的勝率。
DeepMind圍棋大使樊麾已經在微博中說明,AlphaGo教學工具使用的版本是AlphaGo Master,即戰勝中國圍棋選手柯潔的版本。
下面,小智君為大家細數一下AlphaGo的發展史:
2014年,DeepMind推出原始版AlphaGo;
2016年,升級為AlphaGo Lee,擊敗了世界冠軍李世石;
2017年5月,化身為AlphaGo Master與柯潔交戰,大獲全勝;
2017年10月,AlphaGo Zero問世,通過三天的學習,完敗AlphaGo Lee;21天後,達到AlphaGo Master的水平;40天後,成為最強版本;
2017年12月,AlphaZero出現,經過不到24小時的自我對弈後,擊敗西洋棋、將棋和圍棋三個世界冠軍級程序。
到現在,AlphaGo Tech的推出說明了DeepMind在人工智慧領域不斷取得突破,不斷向人們展示出一個有趣的前沿——創造一個超人類的系統,然後教人類如何去思考。這一發展,反過來想,在一定程度上也促進了人類的發展。
柯潔還在微博中打趣的說到,自己要重新學習下圍棋,向AlphaGo Tech學習,看來柯潔也要回爐重造了!
DeepMind與《星際爭霸聯手》,開發新AI系統
其實,除了棋盤類遊戲的研究,DeepMind也在試圖解決其他的遊戲問題。該公司最近與暴雪娛樂公司(Blizzard Entertainment)合作,將其遊戲《星際爭霸II》作為機器學習系統的訓練環境,希望藉此開發一套可以像AlphaGo一樣擊敗人類的人工智慧系統,至於其終極目標,則是將這一技術應用於現實世界,而不僅僅停留在遊戲層面。
暴雪首席軟體工程師Jacob Repp表示:「我們正試圖理解人類大腦的工作方式。 如果我們能得到這種高質量的數據流——人類玩兒遊戲時的原始輸入及其結果 ——這對行為研究的人來說是非常有用的數據。」
《星際爭霸2》對人工智慧研究人員來說是個有趣的挑戰。與西洋棋或圍棋不同,星際玩家的信息並不完美。這種「戰爭迷霧」意味著玩家(真實的或虛擬的)必須制定計劃,做出決定,或者對那些只會在幾分鐘後才能產生後果的行為作出回應。正如DeepMind的研究人員所說,其結果「在時間信用分配和探索上將面臨大量挑戰」。
DeepMind的首次測試,涉及到神經網絡和人工智慧的訓練,之後再將其應用投入到遊戲中。即便沒有進一步的指令,人工智慧也可以隨意在地圖上走動、移動鏡頭甚至排兵布陣。
當然現在星際人工智慧的研究,還處於早期的階段。最近在首爾的一場競賽中,《星際爭霸》職業玩家宋炳具用了不到半小時就擊敗了4個人工智慧機器人。但他也表示,機器人的防守打法「有時候讓人震驚」。
不管怎麼說,DeepMind一直都在給大家帶來驚喜,《星際爭霸》AI系統能否成功,我們拭目以待!