DeepMind AlphaStar:Demo很強大,但比賽輸了

2020-11-27 開源中國

兩年前,DeepMind 曾宣布開始研究打即時戰略遊戲《星際爭霸 2》的人工智慧,今天,AlphaStar 終於首次亮相在世人眼前。在對陣人類職業玩家、前 WCS 亞軍 MaNa 的一場比賽中,人工智慧卻被人類「狡詐」的戰術迷惑,輸給了對手。

在幾場展示 AI 實力的 Replay 鋪墊之後,AlphaStar 現場比賽卻輸了。面對剛剛從電腦前起身的 MaNa,DeepMind 的兩位科學家 David Sliver 與 Oriol Vinyals 只能露出尷尬的微笑。

看來,人工智慧在徵服這個「最複雜遊戲」的過程中還需要學會應對很多戰術和突發情形。在全球首場星際爭霸 2 的「人機大戰」中,AI 和人類玩家都使用了神族。

人工智慧表示:Pimba,所以我用神族(其實當然不是了,是因為神族的兵種最容易計算)。

挑戰遊戲 AI 的最高峰

2018 年,機器之心記錄了 OpenAI 人工智慧挑戰 Dota 2 的全進程:從最初的 1 v 1 戰勝 Dendi,到 5 v 5 團隊賽中擊敗業餘人類玩家,最後在 TI 8 中挑戰職業玩家敗北。

雖然,OpenAI 的人工智慧在 TI 8 現場的表現不盡人意,但我們可以看到社區在 AI+遊戲領域不斷取得進步。

除了 Dota2、王者榮耀這樣的 Moba 類遊戲,星際爭霸因其豐富的多層次遊戲機制,對於人工智慧研究來說也是一個再理想不過的環境。過去一年,機器之心報導了眾多機構在星際爭霸、星際爭霸 2 上的 AI 研究成果。而我們所熟知的 DeepMind,在圍棋項目結束之後也成為了 AI+星際爭霸研究的主力之一。

兩日前,DeepMind 宣布會以線上直播的形式公布 AI+星際爭霸 2 方面的最新進展,吸引了 AI 社區、遊戲社區的極大關注。

孫一峰永遠是我大哥。

小編作為 Dota2 魚塘級玩家,今日為大家帶來最新的報導:DeepMind 的 AlphaStar 很強,它在一個月前接連以 5:0 的比分戰勝了 Liquid 戰隊的兩名職業選手,但現場比賽卻輸了。

與 DeepMind 的其他人工智慧一樣,打星際爭霸 2 的人工智慧也需要一個自己的名字。在人機大戰開場數小時前,DeepMind 創始人 Demis Hassabis‏就通過 Twitter 向我們揭曉了謎底,繼 AlphaGo、AlphaGo Zero、AlphaFold 之後,新的智能體名為 AlphaStar。

在 AI 圈、遊戲界關注之下,DeepMind 的星際爭霸 2AI 首秀開始。此次 Demo 的主持人為美國電子競技解說 Artosis。國內有旭東老仙,美國也有 Artosis。Artosis 的詛咒就被喻為歐美星際爭霸圈內的最強毒奶。RotterdaM 是星際爭霸 2 官方解說,前魔獸 3、星際 2 職業選手。

在開場前,DeepMind 聯合研究負責人 Oriol Vinyals 對比了 Atari 遊戲、圍棋與星際爭霸 2 三者之間的複雜度。

星際爭霸 2 是人類遊戲史上最困難、最成功的即時戰略遊戲,這一系列遊戲的歷史已經超過 20 年。星際爭霸長盛不衰的部分原因在於其豐富的多層次遊戲機制,對於人工智慧研究來說,這是一個非常接近現實世界的虛擬環境。

星際爭霸擁有平衡的遊戲規則,以及諸多信息和需要控制的變量。例如,雖然遊戲的目標是擊敗對手,但玩家也必須顧及並平衡子目標的數量,比如收集資源(水晶和氣礦)或建造房屋(提高人口限制)。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味著遊戲中提早執行的操作也許會很長時間不見成效。最後,由於戰爭迷霧的存在,地圖對於玩家只有部分顯示,這意味著智能體必須結合記憶與規劃才能成功。

星際爭霸還有其他吸引研究者的方面,比如每天在線競爭的大量狂熱玩家。這保證了有大量的遊戲記錄數據可以學習,以及大量可與智能體競爭的優秀人類對手。

甚至星際爭霸的操作空間也是一個挑戰,可從超過 300 種操作中做選擇,相比之下 Atari 遊戲只有 10 種操作選擇(例如,上下左右等)。在此之上,星際爭霸中的操作是層級的,能夠進行調整、增強,有很多遊戲單位需要點擊屏幕控制。即使一個 84x84 解析度的小屏幕,大概也存在 1 億種可能的操作。

5:0 擊敗 LiquidTLO?演呢?

AlphaStar 對決的第一個人類對手,是液體戰隊的星際爭霸 2 職業玩家 LiquidTLO。他是一名來自德國的蟲族玩家,活躍於 2013-2015 年,本名 Dario Wünsch。TLO 職業生涯最好的成績是 2013 年 6 月,在 HomeStory Cup VII 獲得第三名,目前 TLO 的全球排名為 68 位。

TLO 對於能夠被邀請來到 DeepMind 成為首個接受 AI 挑戰的職業選手感到有些驚喜:「當時 DeepMind 發了封電子郵件來邀請我,後來我發現自己就來倫敦了。」雖然在主玩蟲族之前,TLO 還打過一陣 Random,但他已經 28 歲了,神族遊戲水平存疑。他在前去 DeepMind 對戰之前練習了百場比賽。

比賽期間,小編也逛了 scboy 的直播。黃旭東表示,LiquidTLO 都已經 28 了,找他來打,開玩笑嗎?雖然 AI 限制了 APM,但是因為 AI 應該完全沒有無效操作,180 的 APM 還是很高的。而相對於人類選手,有效操作 180 已經是頂級水平了。

Alphastar 對戰 LiquidTLO 演示

開場之後,第一盤人類選手使徒雙開對 AI 單礦 VR。第一波使徒騷擾 AlphaStar 防守中規中矩,可以說不虧不賺。之後反穿了兩個使徒打到了 6 個農民拖後了開礦節奏。而後 AlphaStar 開門帶運輸機前壓,點掉電池之後通過運輸機操作秀了人類選手一臉,AI 不朽還在路上 TLO 就打出 GG。

此時的 AlphaStar 看起來表現不強,菜雞互啄。開局沒有去對手家裡探路,也沒有做紀律性的查看對手有沒有野建築之類的操作,讓人難以明白 AI 是怎麼判斷對手的戰術的。

第一場結束後放出的數據,TLO 559 的 APM。網友評論:臉滾鍵盤嗎?

在展示的第三場比賽視頻中,雙方打出一個雙礦對開的局面。AI 前期補了兩礦農民才放下基地,但是人口還是領先,給到了人類選手一定的壓力。尤其是在操作上,AI 操作猛如虎。但是從比賽看來它還是有非常大的局限性,對於一些情況完全不知道如何處理,而且並沒有多線操作,而是所有兵力集中推進。大概唯一的多線就是在 AI 家裡的運營一直非常穩健。視頻中雖然 TLO 利用一些小多線和鳳凰、立場打回了一些。尤其是在中期有一波 AI 領先 60 人口但是沒有打過,人口差一度被打回 20 以內。但是由於 AI 平穩的運營,還是把優勢掌握在手裡,直到最後人類選手打出 GG。

最後,AlphaStar 以 5:0 的絕對優勢擊敗了 TLO。旭東老仙與眾多網友都表示 TLO 未能發揮出職業玩家該有的水平,請的演員嗎?(不是小編說的)。

但是看了下面 AlphaStar 對戰波蘭選手 MaNa 的視頻之後,之前看了 TLO 比賽喊著「收了錢、放水、假賽」的二五仔們又精神了。

5:0 擊敗 MANA,服了

在 LiquidTLO 之後,DeepMind 的 AlphaStar 對決的人類選手是同樣來自液體戰隊的 MaNa。MaNa 本名 Grzegorz Komincz,來自波蘭,曾在 2015 年的 WCS 闖進決賽,這是一個正經的神族選手。

MaNa「忠肝義膽」,可不會跟你演戲。

對戰 MaNa 時,AlphaStar 視角的神經網絡處理可視化。神經網絡觀察圖像,輸入內容會激活網絡的不同節點,進而開始「考慮」應對的動作,例如點擊和建造,並預測各種結果。AlphaStar 也會預測對手的發展情況,儘管有時因為戰爭迷霧的存在無法完全做到。

在第一場比賽中,AI 的第一個水晶很難受,影響了採氣,但是 AlphaStar 主動放了一個戰術:在 MaNa 基地附近放下了兩個 BG,但是很快就被 MaNa 看到。之後,MaNa 放下電池後放心的派出先知去 AlphaStar 家裡屠農,但是 AI 在頂著 MaNa 兩個追獵的火力點掉了高地下方的石頭之後,堅決的打出一波。雖然 MaNa 的不朽已經走出 VR,但是第一時間被點掉。拖農民對於 AI 的操作根本沒有影響,先知回防也被立刻點掉,MaNa 打出 GG。

看了對戰 MaNa 的視頻,旭東老仙說,AlphaStar 鳳凰的這個操作有些誇張,是人類玩家無法實現的。對戰 MaNa 和 TLO 中間間隔了一周,看來已經學會堵口的建築學了。

此外,AI 對於農民採礦的細節應該是也在不斷調整。我們可以從視頻中看出,同樣的農民數量,採礦效率總是比人類選手高。

看到這裡,我們可以發現 AlphaStar 此時的操作和運營真的無懈可擊,它對攻擊對象的選擇也是很精確,沒有浪費火力,也就是說戰鬥中幾乎是 0 失誤。

這樣的電腦看來只能拼一槍戰術了,操作肯定是拼不過了,看看能不能在兵者詭道方面佔一些便宜。

第四場視頻看到的就是 AI 用無解的操作非常賴皮的以劣勢兵種強吃人類玩家兵力。雖然 AI 主力只有追獵者,但是被 MaNa 分割之後打出了三線拉扯,打出了罕見的追獵包不朽,一波瞬間 1600 的 APM 之後操作完勝,MaNa 主力死光無奈 GG。

最後,MaNa 0:5 同樣敗北。

現場對決 MaNa:出人意料的反轉

騰訊視頻連結

在一段記錄視頻中,DeepMind 回顧了 AlphaStar 的超快進化歷程:2018 年 12 月 10 日,AlphaStar 擊敗了 DeepMind 公司裡的最強玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已經可以 5:0 擊敗職業玩家 TLO 了(雖然 TLO 是蟲族玩家,但解說們認為他在遊戲中的表現大概能有 5000 分水平);又過了一個星期,12 月 19 日,AlphaStar 同樣以 5:0 的比分擊敗了職業玩家 MaNa。

為了讓人感受充分訓練後 AlphaStar 的強大,DeepMind 組織了一場現場對決。MaNa 在比賽前稱,自己要來一場「復仇之戰」。

出人意料的是,這一場比賽人類選手竟然獲勝了。

這是 AlphaStar 首次星際爭霸 2 的人機大戰直播。通過這場比賽我們可以看到 AI 的一個缺陷:除了特定的分兵戰術,並沒有靈活的兵力分配概念。這讓我們想起打星際 1 電腦的遠古時代,開局派出一個農民去攻擊電腦的基地,電腦就會派出所有農民去一直追殺你這個農民。這場 MaNa 也是利用的相似的辦法,稜鏡帶著兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續騷擾。

AlphaStar 是如何學會打星際爭霸 2 的

TLO 和 MaNa 等專業星際爭霸玩家在整場比賽中平均每分鐘可發出數百個動作(APM)。這一數據遠小於星際爭霸的機器人(它們可以單獨控制所有單位,達到數萬 APM)。在對陣 TLO 和 MaNa 的比賽中,AlphaStar 的平均 APM 是 280,稍低於職業玩家,不過 AI 的操作都是有效操作。DeepMind 稱,AlphaStar 的 APM 較低是因為 AI 使用人類玩家對戰的 Replay 進行訓練,從而模仿了人類的遊戲方式。此外,AI 在觀察圖像和進行操作之間的延遲平均為 350 毫秒。

在比賽結束後不久,DeepMind 官方博客隨即放出了整個 Demonstration 的視頻與 AlphaStar 的技術解讀。

據介紹,AlphaStar 的行為是由一種深度神經網絡生成的,該網絡從原數據界面(單位列表與它們的特性)接收輸入數據,輸出構成遊戲內行為的指令序列。具體來說,該神經網絡在單元中使用了一個 transformer 作為軀幹,結合了一個深度 LSTM 核、一個帶有 pointer 網絡的自動回歸策略 head 以及一個中心價值基線。

AlphaStar 也使用到了全新的多智能體學習算法。神經網絡最初通過暴雪公開的匿名人類遊戲視頻以監督學習進行訓練。這讓 AlphaStar 能夠通過模仿進行學習天梯玩家的基礎微操與宏觀操作策略。

AlphaStar 聯盟。最初是通過人類玩家的遊戲回放視頻進行訓練,然後與其他對手對抗訓練。每次迭代就匹配新的對手,凍結原來的對手,匹配對手的概率和超參數決定了每個智能體採用的的學習目標函數,保留多樣性的同時增加難度。智能體的參數通過強化學習進行更新。最終的智能體採樣自聯盟的納什分布(沒有更換)。

比賽匹配分級評估:對不通訓練時間的 AlphaStar 聯盟水平的大約估計

隨著自我博弈的進行,AlphaStar 逐漸開發出了越來越成熟的戰術。DeepMind 表示,這一過程和人類玩家發現戰術的過程類似:新的戰術不斷擊敗舊的戰術。

為了訓練 AlphaStar,DeepMind 使用了谷歌最先進的深度學習晶片 TPU v3 構建了一個高度可擴展的分布式訓練配置,支持數千個對戰訓練並行運算。AlphaStar League 運行了 14 天,每個人工智慧體使用 16 塊 TPU。在訓練時間上,每個智能體相當於訓練了人類的 200 年遊戲時間。最後成型的 AlphaStar 採用了各個智能體中獲勝概率最高戰術的組合,並可以在單個 GPU 的計算機上運行。

DeepMind 表示,對於這項工作的全面描述已經寫成論文,目前正在接受同行評議期刊的審閱。又會是一篇 Nature 嗎?

結語

看了前面回放的比賽視頻,我們經歷了從「很失望」、「AlphaStar 不行」,到「AI 的操作有點意思」,最後到「人類要完」、「打不過了」。但最終的現場決賽,人類玩家還是扳回一成。

此外,DeepMind 的 AlphaStar 也許並非最強的智能體。芬蘭電競戰隊 ENCE 也在兩天發布通告:Artificial Overmind 挑戰賽的獲勝 AI 將可以挑戰世界冠軍 Serral,也許這會是一場值得期待的人機對決。

20 天后,人類和 AI 將會有怎樣的對決?

參考連結:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

轉載自:機器之心

相關焦點

  • 星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」進化神速
    除了此前比賽錄像的展示外,AlphaStar 還和 MaNa 現場來了一局,不過,這局AlphaStar 輸給了人類選手 MaNa 。隨後登場的是 Liquid 戰隊 MaNa,作為排名 19 的神族選手,他比 TLO 更加強大。如果 AlphaStar 可以戰勝他,那將說明 AlphaStar 真的具備了人類頂尖選手的實力。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    直到今年7月接受紐約時報採訪,馬斯克依然認為Deepmind是他最為關注(Top Concern)的AI公司,他依然深信AI可以超越甚至毀滅人類。雖然嘴上說不要,但身體卻很誠實,他除了是Deepmind的天使投資人,還是他引薦給谷歌投資的。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    @ 自動高速公路,「做成 app 就可以成為圍棋比賽作弊器了。」@ 於縛風,「圍棋輔導班的老師沒法講課了。」(圍棋老師表示哭暈在廁所)看完了大家的調侃,來看看專業棋手們怎麼說。世界圍棋冠軍、職業九段棋手常昊表示,教學工具不一定是標準答案,更多的是給予了我們無限的思考空間。
  • 現場報導 | 讓天下三子,DeepMind官方解讀新版AlphaGo強大實力
    機器之心原創記者:杜夏德參與:李澤南、吳攀5 月 23 日,烏鎮圍棋峰會第一場人機大戰以柯潔落敗而結束,DeepMind 和谷歌在今天的人工智慧高峰論壇中詳細回顧了昨天的比賽,並解讀了 AlphaGo 背後的強大實力。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • Deepmind Nature論文揭示最強AlphaGo Zero
    AlphaGo「退役」了,但Deepmind在圍棋上的探索並沒有停止。今年5月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    在過去的幾年裡,DeepMind公司開發的人工智慧AlphaGo已經在西洋棋和圍棋比賽中取得了超越人類的表現。而如今,DeepMind又向推動和加速新科學發現上邁出了重要的一步。前幾天,DeepMind宣布推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    △圖源:Deepmind端到端的訓練如此強大的AlphaFold 2系統,不免讓人好奇,它是如何訓練出來的呢?參考連結:https://deepmind.comalphafold-a-solution-to-a-50-year-old-grand-challenge-in-biologyhttps://www.nytimes.com/2020/11/30/technology/deepmind-ai-protein-folding.html
  • DeepMind回應一切:AlphaStar兩百年相當於人類多長時間?
    很難給出準確的數字,但我們的經驗是,豐富聯盟中的戰略空間有助於使最終的智能體更強大。AlphaStar的關鍵算法是什麼?問:許多人將AlphaStar的單次失利歸咎於算法在最後一場比賽中被限制了視覺。我個人並不認為這是一個令人信服的解釋,因為相位稜鏡在戰爭的迷霧中進進出出,而AI則在整個軍隊中來回移動作為回應。這看起來絕對像是理解上的差距,而不是機械操作上的局限。
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    今天凌晨,谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    在2018年的「蛋白質結構預測奧運會」CASP比賽中,力壓其他97個參賽者,是第二名成績的8倍還要多。所以在華盛頓大學利用蛋白質遊戲Foldit,集眾智對抗新冠病毒之後,不少人紛紛發問:為什麼AlphaFold沒有出現?現在,它來了。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind發了篇物理論文,用神經網絡求解薛丁格方程
    參考連結:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033429https://github.com/deepmind
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    不,我們要向李昌鈺博士學習破案手段,絕不放過任何蛛絲馬跡,靠豐富的想像力,進行推理,看能否找到Deepmind預測蛋白質結構的秘密研究方法。人工智慧程序AlphaFold在這次比賽中贏得了第一。為了不助長人工智慧無腦宣傳的熱潮,這裡需要強調一下,只是贏得了比賽,不是應用到了醫學研究機構以及醫院和臨床中。但是目前這種算法還不能用來治病,那種動不動就高呼人工智慧戰勝人類的患者,可以稍微克制一下。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    要知道,柯潔可不是旁人,是當時世界第一,年紀輕輕,已經手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。賽後,中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號,棋聖聶衛平更是盛讚 AlphaGo 的水平相當於職業圍棋二十段。賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    參考連結:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033429https://github.com/deepmind/ferminethttps://deepmind.com/blog/article
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「我們的目標從來就不是贏得圍棋或雅達利比賽的勝利,而是開發能夠解決蛋白質摺疊這類問題的算法,」Hassabis 表示。比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。