今早DeepMind與暴雪公布了星際爭霸2遊戲的最新人機大戰況,Google Allo的AlphaStar10比1勝人類兩位職業選手。AlphaStar被設置了比人類略低的反應速度,大部分時間的APM操作頻率也低於人類,但成功率和效率更高,第11局現場直播時,DeepMind用了僅訓練7天的最新版本,不再全部可視視角完美控制,而是根據當前屏幕視角來決策,結果輸給了人類選手MANA的頻繁騷擾戰術。接下來,AlphaStar項目將繼續完善,並有望轉向天氣、語言等領域。和alphazero類似,AlphaStar擁有海量資源訓練量,在14天內相當於實戰了200年。不同的是,AlphaStar學習了大量人類實戰視頻,包含多種策略組合,有針對性的訓練了不同風格權重,在內部聯賽反覆自戰演化,逐漸放棄了投機激進戰術。
谷歌新AI在《星際爭霸2》首秀:10比1大勝職業選手
新浪科技訊 北京時間1月25日早間消息,今日凌晨,DeepMind與暴雪進行了聯合直播,在直播中公布了谷歌最新AI程序AlphaStar與《星際爭霸2》職業選手此前的比賽結果,名為「AlphaStar」的人工智慧在與兩位人類職業選手「TLO」和「MaNa」的比賽中,均以5比0取勝。
最後直播的一場比賽中,DeepMind限制了AlphaStar的遊戲視角,並在沒有測試的前提下與MaNa進行比賽,讓人類終於贏了一場。最終總成績定格在10-1。
這次比賽是在去年12月進行的。在與TLO的對決中,因為目前AlphaStar的訓練只針對神族,所以它選擇的是蟲族,而TLO只能選擇神族。TLO在5次對決中竭盡全力,可惜還是完敗給AlphaStar。
AlphaStar 5-0 TLO
接下來,另一個AlphaStar代理挑戰神族玩家MaNa。在一些對決中,雙方旗鼓相當,但是AlphaStar還是5戰全勝,零封MaNa。
AlphaStar 5-0 MaNa
而在最後直播的一場比賽中,MaNa再次與新的AlphaStar代理對決,這次MaNa終於贏了一場。DeepMind限制了AlphaStar的遊戲視角,並在沒有測試的前提下與MaNa進行比賽,因此讓人類終於贏了一場。最終總成績定格在10-1。
賽後TLO評價說:「在我們看來,MaNa打得不好,相信我,與AlphaStar這樣的對手對決是一件很頭痛的事,因為AlphaStar與人類完全不同,你之前沒有碰到過這樣的對手。AlphaStar給人留下深刻印象,的確是空前強大的遊戲AI。」
在對戰中,AlphaStar展示了驚人的微操技藝。它可以讓受傷單元快速後撤,讓滿血單元前移。不只如此,AlphaStar還通過前進來控制戰鬥節奏,只有在適當的時候才後退,避免造成過大傷害。美國科技網站ExtremeTech指出,AI之所以能做到這一點,靠的不是高APM(手速),事實上,與人類相比,AlphStar的APM低很多,只是AI的決策更明智。
AlphaStar和職業選手APM比較
AI制定的一些戰略決策相當有趣。例如,AI經常命令部隊在坡道上衝鋒,這樣做很危險,因為向上衝時視野受限,不過AI的做法似乎很管用。還有,AlphaStar會用一堆建築封住坡道,這種策略人類也經常使用,非常實用,AI會用這種方法保護自己的基地。
直到最後的直播比賽,人類才找到代理的一個缺陷。當時,AlphaStar代理調集幾乎所有部隊攻打MaNa的基地,MaNa將幾個戰鬥單元傳送到AlphaStar基地的後方,每次傳送之後,AlphaStar都會讓軍隊回頭營救,這樣MaNa就有了足夠的時間擴張部隊,反擊AI。
最終,AlphaStar贏了職業玩家10次,只輸了1次。ExtremeTech認為,如果AlphaStar能從最後一局中汲取教訓,下一次將會無敵。
AlphaGo的首席作者大衛席爾瓦(Dave Sliver)同時也是AlphaStar團隊的核心人物,在直播中分享了AlphaStar技術上的一些細節。不過直播中並未公布AlphaStar後續的正式比賽計劃。
AlphaStar是一種卷積神經網絡。研發團隊用職業玩家的錄像訓練網絡,然後藉助對戰模式,研究人員訓練AlphaStar,教它如何打敗人類。隨著時間的推移,研究人員挑選出5個最好的「代理」,讓它們與世界上了些最棒的《星際爭霸2》玩家對決。這樣訓練出來的AlphaStar積累了相當於200多年的實踐經驗。
11月份,在Blizzcon大會上,DeepMind就曾表示,機器學習算法在遊戲進行到大約一半時,就擊敗了瘋狂難度的遊戲內置AI工具。
現代競技遊戲相當複雜,《星際爭霸》正是這樣一款遊戲。玩家需要瞬間做出決策,比如應該關注哪個區域。一般來說,在決策過程中涉及到不完全信息,也就是說你無法完全知道對手正在做什麼,也不知道接下來會面對什麼。
OpenAI的工程師唐傑(Jie Tang,音譯)說:「這類實時戰略遊戲非常有趣,它是測試現代AI研究的好標準。」為什麼這樣說呢?有幾個原因。首先就是「長期視野」,也就是做出決定、看到結果之間有著很長的時間。如果是西洋棋或者圍棋,通過分析棋盤上的變化就能馬上判斷效果。
但《星際爭霸》不太一樣。唐傑說:「在一個小時的時間內,每一秒你都要做十個決定,所以有成千上萬的舉動你要考慮進去。所以你要好好分配,為什麼我能贏得遊戲?是不是因為我早早製造了礦工?這可是一個很難的問題。」
從《星際爭霸1》到《星際爭霸2》,20年來有許多人在網上玩遊戲,積累了大量數據。如果是象棋或者圍棋,數據沒有那麼豐富。
美國媒體Vox指出,在對決演示中,有些比賽持續的時間長一些,有時短一些,不過沒有一盤持續時間超過半小時,所以我們還無法看到AlphaStar在後期對決中的表現,這點也向我們證明,暫時還沒有誰能將AlphaStar拖入後期對決。
實際上,AlphaStar不完美的地方還很多。例如,有時AlphaStar會建造一些無用單位,有時還會陷入困惑,在一場比賽中,AI圍著一個點來回遊蕩,漫無目地,評論員看不懂。有些工具本可以使用,便是AI沒有用。無論怎樣,最終AI還是打敗了人類。
與TLO對決之後,DeepMind又將AlphaStar回爐,再次訓練。經過14天的實時訓練之後,AlphaStar回歸,這次用聯賽模式對決,它積累了200年的遊戲經驗,表現更加出色。在戰術上,AI沒有明顯失誤。對於人類觀察者來說,AI的決定並非總是有意義,但它沒有犯下明顯錯誤。這次對手換成MaNa,他也沒有犯下明顯錯誤,但是AI合兵散兵的能力仍然技高一籌,最終拿下比賽。
唐傑說:「非常有趣,非常引人注目。有一樣東西是我非常期待的,那就是戰略對決機制。」一方面,AI要為遊戲制定宏觀策略,另一方面,AI要通過執行一系列糟糕的策略而獲勝,在這兩方面,AlphaStar都做得不錯。唐傑說:「AlphaStar制定的高級策略與頂級人類玩家非常相似,另外,它的機制也很完美。」
在10次對決中,AI告訴我們它有一個巨大優勢,這個優勢是人類欠缺的:凡是地圖上能看到的地方,AI都能一覽無餘,而人類必須依賴攝像頭。
DeepMind正在訓練新AlphaStar,讓它也操縱攝像頭。雖然最後一場AlphaStar輸給了MaNa,不過新AI只訓練了7天。最終AlphaStar會回到戰場,向人類「復仇」。
早期AlphaStar有許多缺陷,這些缺陷與最初的AlphaGo有些相似。開始時AlphaGo也能贏,但是經常犯下人類可以察覺的錯誤。隨著優化的繼續,目前的AlphaZero不會再犯下人類可謂察覺的錯誤了。
很明顯,AlphaStar仍然有很大的改進空間。AlphaStar之所以能戰勝人類,主要還是因為它的微操控制更棒。AI經常利用側面包抄和機動作戰打敗人類,之所以做到,靠的是單位控制,它一次可以指控5個戰鬥單元,人類做不到。還有,從遊戲看來,AI無法制定出可以在職業世界廣泛流行的策略,換言之,在制定最佳策略時,人類仍然勝過機器算法,AI只是尋找最適合自己的策略,將優勢發揮出來。雖然AI的APM和響應時間仍然處在人類觸及的範圍,但是AI的操作精準度更高,所以它在人類面前仍然有優勢,人類與AI對決,並不是很公平。
還有一點要說的是,對戰5盤之後,MaNa會根據AlphaStar制定新策略,這是AI做不到的。
Vox認為,不論怎樣,AI已經向我們證明,它知道如何佯攻,知道如何發動早期攻擊,知道如何應對伏擊,知道如何利用地形。這些都向我們證明:AI進步神速。
而ExtremeTech指出,人類一直認為,對於我們自己創造的遊戲,人類才是真正的主宰,不過計算機一次又一次證明,它才是高手。谷歌DeepMind開發的算法已經在圍棋上擊敗人類,現在又在《星際爭霸2》獲得成功。(子龍 星海)
「阿爾法星際」正式亮相 10比0人類職業選手
「AlphaStar」(阿爾法星際)研究成果發布直播
北京時間1月25日凌晨,DeepMind與暴雪在網上直播,公布了在《星際爭霸2》遊戲中取得的進展,名為「AlphaStar」(阿爾法星際)的人工智慧在與兩位人類職業選手「TLO」和「MANA」的比賽中,均以5比0取勝。
AlphaStar 5-0 TLO
AlphaStar 5-0 MANA
DeepMind在圍棋項目AlphaGo中取得巨大成功不久,就有報導DeepMind與暴雪合作,開始著手在星際爭霸2遊戲上應用人工智慧技術。DeepMind在克服了很多技術上的難題之後,「AlphaStar」正式誕生,並開始與人類職業選手的測試。
AlphaStar的決策示意圖
AlphaStar跟AlphaGo有些類似,最開始都是通過學習人類選手的Replay(比賽錄像)來提升水平。直播中展示的10場比賽都是在一張相同的比賽地圖上進行,而且都是神族內戰。人工智慧的APM(每分鐘操作的次數)限制在與人類選手相仿的程度。
星際2選手 TLO
TLO與AlphaStar比賽
AlphaStar的第一個人類星際2職業對手是德國的「TLO」。雖然TLO更擅長使用蟲族,但作為職業選手,他的神族內戰水平毋庸置疑。比賽結果是5比0,AlphaStar碾壓取勝。
星際2選手 MANA
MANA在比賽中
一周之後,AlphaStar迎來了第二個人類職業對手「MANA」,雖然對人來說只過了短短的七天,但AlphaStar已經有了天翻地覆的進化。這次比賽依舊是AlphaStar以5比0的成績取勝,MANA有些無奈:「我已經做了所有能努力的,但還是……」其中一場比賽MANA在很長一段時間裡與AlphaStar勢均力敵,但隨著比賽時間的變長,人類不可避免地開始出現操作失誤,最後遺憾地輸掉了比賽。
觀戰的DeepMind科學家們
AlphaGo的首席作者大衛席爾瓦(Dave Sliver)同時也是AlphaStar團隊的核心人物,他在直播中為大家分享AlphaStar技術上的細節。不過直播中並未公布AlphaStar後續的正式比賽計劃。未來會不會出現像圍棋裡李世石柯潔那樣影響力的,世界冠軍與AlphaStar的人機大戰呢?我們拭目以待。
(週遊)