人機大戰:谷歌AlphaStar《星際爭霸2》10比1勝人類

2021-02-15 棋道經緯

今早DeepMind與暴雪公布了星際爭霸2遊戲的最新人機大戰況，Google Allo的AlphaStar10比1勝人類兩位職業選手。AlphaStar被設置了比人類略低的反應速度，大部分時間的APM操作頻率也低於人類，但成功率和效率更高，第11局現場直播時，DeepMind用了僅訓練7天的最新版本，不再全部可視視角完美控制，而是根據當前屏幕視角來決策，結果輸給了人類選手MANA的頻繁騷擾戰術。接下來，AlphaStar項目將繼續完善，並有望轉向天氣、語言等領域。和alphazero類似，AlphaStar擁有海量資源訓練量，在14天內相當於實戰了200年。不同的是，AlphaStar學習了大量人類實戰視頻，包含多種策略組合，有針對性的訓練了不同風格權重，在內部聯賽反覆自戰演化，逐漸放棄了投機激進戰術。

谷歌新AI在《星際爭霸2》首秀：10比1大勝職業選手

　　新浪科技訊北京時間1月25日早間消息，今日凌晨，DeepMind與暴雪進行了聯合直播，在直播中公布了谷歌最新AI程序AlphaStar與《星際爭霸2》職業選手此前的比賽結果，名為「AlphaStar」的人工智慧在與兩位人類職業選手「TLO」和「MaNa」的比賽中，均以5比0取勝。

　　最後直播的一場比賽中，DeepMind限制了AlphaStar的遊戲視角，並在沒有測試的前提下與MaNa進行比賽，讓人類終於贏了一場。最終總成績定格在10-1。

　　這次比賽是在去年12月進行的。在與TLO的對決中，因為目前AlphaStar的訓練只針對神族，所以它選擇的是蟲族，而TLO只能選擇神族。TLO在5次對決中竭盡全力，可惜還是完敗給AlphaStar。

AlphaStar 5-0 TLO

　　接下來，另一個AlphaStar代理挑戰神族玩家MaNa。在一些對決中，雙方旗鼓相當，但是AlphaStar還是5戰全勝，零封MaNa。

AlphaStar 5-0 MaNa

　　而在最後直播的一場比賽中，MaNa再次與新的AlphaStar代理對決，這次MaNa終於贏了一場。DeepMind限制了AlphaStar的遊戲視角，並在沒有測試的前提下與MaNa進行比賽，因此讓人類終於贏了一場。最終總成績定格在10-1。

　　賽後TLO評價說：「在我們看來，MaNa打得不好，相信我，與AlphaStar這樣的對手對決是一件很頭痛的事，因為AlphaStar與人類完全不同，你之前沒有碰到過這樣的對手。AlphaStar給人留下深刻印象，的確是空前強大的遊戲AI。」

　　在對戰中，AlphaStar展示了驚人的微操技藝。它可以讓受傷單元快速後撤，讓滿血單元前移。不只如此，AlphaStar還通過前進來控制戰鬥節奏，只有在適當的時候才後退，避免造成過大傷害。美國科技網站ExtremeTech指出，AI之所以能做到這一點，靠的不是高APM（手速），事實上，與人類相比，AlphStar的APM低很多，只是AI的決策更明智。

AlphaStar和職業選手APM比較

　　AI制定的一些戰略決策相當有趣。例如，AI經常命令部隊在坡道上衝鋒，這樣做很危險，因為向上衝時視野受限，不過AI的做法似乎很管用。還有，AlphaStar會用一堆建築封住坡道，這種策略人類也經常使用，非常實用，AI會用這種方法保護自己的基地。

　　直到最後的直播比賽，人類才找到代理的一個缺陷。當時，AlphaStar代理調集幾乎所有部隊攻打MaNa的基地，MaNa將幾個戰鬥單元傳送到AlphaStar基地的後方，每次傳送之後，AlphaStar都會讓軍隊回頭營救，這樣MaNa就有了足夠的時間擴張部隊，反擊AI。

　　最終，AlphaStar贏了職業玩家10次，只輸了1次。ExtremeTech認為，如果AlphaStar能從最後一局中汲取教訓，下一次將會無敵。

　　AlphaGo的首席作者大衛席爾瓦（Dave Sliver）同時也是AlphaStar團隊的核心人物，在直播中分享了AlphaStar技術上的一些細節。不過直播中並未公布AlphaStar後續的正式比賽計劃。

　　AlphaStar是一種卷積神經網絡。研發團隊用職業玩家的錄像訓練網絡，然後藉助對戰模式，研究人員訓練AlphaStar，教它如何打敗人類。隨著時間的推移，研究人員挑選出5個最好的「代理」，讓它們與世界上了些最棒的《星際爭霸2》玩家對決。這樣訓練出來的AlphaStar積累了相當於200多年的實踐經驗。

　　11月份，在Blizzcon大會上，DeepMind就曾表示，機器學習算法在遊戲進行到大約一半時，就擊敗了瘋狂難度的遊戲內置AI工具。

　　現代競技遊戲相當複雜，《星際爭霸》正是這樣一款遊戲。玩家需要瞬間做出決策，比如應該關注哪個區域。一般來說，在決策過程中涉及到不完全信息，也就是說你無法完全知道對手正在做什麼，也不知道接下來會面對什麼。

　　OpenAI的工程師唐傑（Jie Tang，音譯）說：「這類實時戰略遊戲非常有趣，它是測試現代AI研究的好標準。」為什麼這樣說呢？有幾個原因。首先就是「長期視野」，也就是做出決定、看到結果之間有著很長的時間。如果是西洋棋或者圍棋，通過分析棋盤上的變化就能馬上判斷效果。

　　但《星際爭霸》不太一樣。唐傑說：「在一個小時的時間內，每一秒你都要做十個決定，所以有成千上萬的舉動你要考慮進去。所以你要好好分配，為什麼我能贏得遊戲？是不是因為我早早製造了礦工？這可是一個很難的問題。」

　　從《星際爭霸1》到《星際爭霸2》，20年來有許多人在網上玩遊戲，積累了大量數據。如果是象棋或者圍棋，數據沒有那麼豐富。

　　美國媒體Vox指出，在對決演示中，有些比賽持續的時間長一些，有時短一些，不過沒有一盤持續時間超過半小時，所以我們還無法看到AlphaStar在後期對決中的表現，這點也向我們證明，暫時還沒有誰能將AlphaStar拖入後期對決。

　　實際上，AlphaStar不完美的地方還很多。例如，有時AlphaStar會建造一些無用單位，有時還會陷入困惑，在一場比賽中，AI圍著一個點來回遊蕩，漫無目地，評論員看不懂。有些工具本可以使用，便是AI沒有用。無論怎樣，最終AI還是打敗了人類。

　　與TLO對決之後，DeepMind又將AlphaStar回爐，再次訓練。經過14天的實時訓練之後，AlphaStar回歸，這次用聯賽模式對決，它積累了200年的遊戲經驗，表現更加出色。在戰術上，AI沒有明顯失誤。對於人類觀察者來說，AI的決定並非總是有意義，但它沒有犯下明顯錯誤。這次對手換成MaNa，他也沒有犯下明顯錯誤，但是AI合兵散兵的能力仍然技高一籌，最終拿下比賽。

　　唐傑說：「非常有趣，非常引人注目。有一樣東西是我非常期待的，那就是戰略對決機制。」一方面，AI要為遊戲制定宏觀策略，另一方面，AI要通過執行一系列糟糕的策略而獲勝，在這兩方面，AlphaStar都做得不錯。唐傑說：「AlphaStar制定的高級策略與頂級人類玩家非常相似，另外，它的機制也很完美。」

　　在10次對決中，AI告訴我們它有一個巨大優勢，這個優勢是人類欠缺的：凡是地圖上能看到的地方，AI都能一覽無餘，而人類必須依賴攝像頭。

　　DeepMind正在訓練新AlphaStar，讓它也操縱攝像頭。雖然最後一場AlphaStar輸給了MaNa，不過新AI只訓練了7天。最終AlphaStar會回到戰場，向人類「復仇」。

　　早期AlphaStar有許多缺陷，這些缺陷與最初的AlphaGo有些相似。開始時AlphaGo也能贏，但是經常犯下人類可以察覺的錯誤。隨著優化的繼續，目前的AlphaZero不會再犯下人類可謂察覺的錯誤了。

　　很明顯，AlphaStar仍然有很大的改進空間。AlphaStar之所以能戰勝人類，主要還是因為它的微操控制更棒。AI經常利用側面包抄和機動作戰打敗人類，之所以做到，靠的是單位控制，它一次可以指控5個戰鬥單元，人類做不到。還有，從遊戲看來，AI無法制定出可以在職業世界廣泛流行的策略，換言之，在制定最佳策略時，人類仍然勝過機器算法，AI只是尋找最適合自己的策略，將優勢發揮出來。雖然AI的APM和響應時間仍然處在人類觸及的範圍，但是AI的操作精準度更高，所以它在人類面前仍然有優勢，人類與AI對決，並不是很公平。

　　還有一點要說的是，對戰5盤之後，MaNa會根據AlphaStar制定新策略，這是AI做不到的。

　　Vox認為，不論怎樣，AI已經向我們證明，它知道如何佯攻，知道如何發動早期攻擊，知道如何應對伏擊，知道如何利用地形。這些都向我們證明：AI進步神速。

　　而ExtremeTech指出，人類一直認為，對於我們自己創造的遊戲，人類才是真正的主宰，不過計算機一次又一次證明，它才是高手。谷歌DeepMind開發的算法已經在圍棋上擊敗人類，現在又在《星際爭霸2》獲得成功。(子龍星海)

「阿爾法星際」正式亮相 10比0人類職業選手

「AlphaStar」（阿爾法星際）研究成果發布直播

　　北京時間1月25日凌晨，DeepMind與暴雪在網上直播，公布了在《星際爭霸2》遊戲中取得的進展，名為「AlphaStar」（阿爾法星際）的人工智慧在與兩位人類職業選手「TLO」和「MANA」的比賽中，均以5比0取勝。

AlphaStar 5-0 TLO

AlphaStar 5-0 MANA

　　DeepMind在圍棋項目AlphaGo中取得巨大成功不久，就有報導DeepMind與暴雪合作，開始著手在星際爭霸2遊戲上應用人工智慧技術。DeepMind在克服了很多技術上的難題之後，「AlphaStar」正式誕生，並開始與人類職業選手的測試。

AlphaStar的決策示意圖

　　AlphaStar跟AlphaGo有些類似，最開始都是通過學習人類選手的Replay（比賽錄像）來提升水平。直播中展示的10場比賽都是在一張相同的比賽地圖上進行，而且都是神族內戰。人工智慧的APM（每分鐘操作的次數）限制在與人類選手相仿的程度。

星際2選手 TLO

TLO與AlphaStar比賽

　　AlphaStar的第一個人類星際2職業對手是德國的「TLO」。雖然TLO更擅長使用蟲族，但作為職業選手，他的神族內戰水平毋庸置疑。比賽結果是5比0，AlphaStar碾壓取勝。

星際2選手 MANA

MANA在比賽中

　　一周之後，AlphaStar迎來了第二個人類職業對手「MANA」，雖然對人來說只過了短短的七天，但AlphaStar已經有了天翻地覆的進化。這次比賽依舊是AlphaStar以5比0的成績取勝，MANA有些無奈：「我已經做了所有能努力的，但還是……」其中一場比賽MANA在很長一段時間裡與AlphaStar勢均力敵，但隨著比賽時間的變長，人類不可避免地開始出現操作失誤，最後遺憾地輸掉了比賽。

觀戰的DeepMind科學家們

　　AlphaGo的首席作者大衛席爾瓦（Dave Sliver）同時也是AlphaStar團隊的核心人物，他在直播中為大家分享AlphaStar技術上的細節。不過直播中並未公布AlphaStar後續的正式比賽計劃。未來會不會出現像圍棋裡李世石柯潔那樣影響力的，世界冠軍與AlphaStar的人機大戰呢？我們拭目以待。

　　（週遊）

人機大戰:谷歌AlphaStar《星際爭霸2》10比1勝人類

相關焦點

10:1!DeepMind人工智慧在《星際爭霸2》人機對戰中完勝職業玩家

多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」

揭秘星際2人工智慧AlphaStar:DeepMind科學家回應一切

AlphaStar匿名潛入星際2天梯PK,進化版讓人類玩家瑟瑟發抖

對話暴雪聯合創始人莫漢:阿爾法狗挑戰星際爭霸,我猜人類贏

1:10!《星際爭霸2》淪陷人類被AI血洗

血虐職業選手的《星際爭霸2》電腦AI,正偽裝成普通人在歐服天梯等你

星際爭霸1的平衡性真的做得比星際爭霸2好麼?

星際爭霸1比星際爭霸2更加容易翻盤,這是為什麼呢?

末世爽文:面對星際爭霸中的蟲族,看紅警手握盟軍大戰星際爭霸!

誰才是星際爭霸真正的王者?Facebook遊戲機器人CherryPi不敵業餘...

《星際爭霸2》超清CG開場動畫曝光 11月10日上線

暴雪的星際爭霸2都免費了為啥星際爭霸1重製版還收費?

完整版星際爭霸2下載及一鍵破解補丁

歷經10年起伏,《星際爭霸2》怎樣找回最佳狀態?丨觸樂

星際爭霸2:星際2人族坦克傷害還不如星際1,原來坦克型號不一樣

為何在星際爭霸1時代的職業賽場上神族一直都處於劣勢?

星際爭霸2:王蟲在星際1自帶反隱,到了星際2不行了,這是為何?

職業棋士王煜輝解讀人機大戰!

【星際】經典歸來!《星際爭霸:重製版》現已登陸國服暴雪戰網

人機大戰:谷歌AlphaStar《星際爭霸2》10比1勝人類

相關焦點

10:1!DeepMind人工智慧在《星際爭霸2》人機對戰中完勝職業玩家

多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」

揭秘星際2人工智慧AlphaStar:DeepMind科學家回應一切

AlphaStar匿名潛入星際2天梯PK,進化版讓人類玩家瑟瑟發抖

對話暴雪聯合創始人莫漢:阿爾法狗挑戰星際爭霸,我猜人類贏

1:10!《星際爭霸2》淪陷 人類被AI血洗

血虐職業選手的《星際爭霸2》電腦AI,正偽裝成普通人在歐服天梯等你

星際爭霸1的平衡性真的做得比星際爭霸2好麼?

星際爭霸1比星際爭霸2更加容易翻盤,這是為什麼呢?

末世爽文:面對星際爭霸中的蟲族,看紅警手握盟軍大戰星際爭霸!

誰才是星際爭霸真正的王者?Facebook遊戲機器人CherryPi不敵業餘...

《星際爭霸2》超清CG開場動畫曝光 11月10日上線

暴雪的星際爭霸2都免費了 為啥星際爭霸1重製版還收費?

完整版星際爭霸2下載及一鍵破解補丁

歷經10年起伏,《星際爭霸2》怎樣找回最佳狀態?丨觸樂

星際爭霸2:星際2人族坦克傷害還不如星際1,原來坦克型號不一樣

為何在星際爭霸1時代的職業賽場上神族一直都處於劣勢?

星際爭霸2:王蟲在星際1自帶反隱,到了星際2不行了,這是為何?

職業棋士王煜輝解讀人機大戰!

【星際】經典歸來!《星際爭霸:重製版》現已登陸國服暴雪戰網

1:10!《星際爭霸2》淪陷人類被AI血洗

暴雪的星際爭霸2都免費了為啥星際爭霸1重製版還收費?