DeepMind聯手暴雪:星際II的玩家們,準備好對抗AI了嗎(附論文)

2021-03-02 大數據文摘

大數據文摘作品,轉載要求見文末

作者:寧雲州、魏子敏、Aileen

星際II的玩家們,你們準備好迎接被AI支配的恐懼了嗎?!

用阿爾法狗徵服了圍棋界的DeepMind正把目光投向遊戲界:今日凌晨,DeepMind官網發布消息,已正式與暴雪娛樂合作,共同開發可以在星際爭霸II中與人類玩家對抗的AI,並且發布了SC2LE,一個旨在加速即時戰略遊戲當中AI應用的工具集。

早在去年,Deepmind已經立下Flag要教會AI玩兒星際爭霸II,也已經有包括facebook、阿里巴巴等不少科技公司或者研究機構開拓過「星際」這片競技場,但DeepMind這樣專治人類各種不服的公司正式宣布與暴雪合作,還是讓一票星際玩家大呼「熱血」。 暴雪承諾將持續發布從「星際爭霸II」天梯中收集的數十萬個匿名錄像,這會將訓練變得更加容易。 當然,這也不是一項輕鬆的任務:視頻遊戲的複雜性和更多可能性也讓AI戰勝人類要遠比在棋盤遊戲上複雜。

但是不可否認,不管對於星際玩家圈還是AI圈來說,這都是一件大事情,因為星際爭霸遠比像圍棋這樣的遊戲更接近現實世界。

後臺回復「星際爭霸」

即可獲得DeepMind相關論文

星際爭霸和星際爭霸II是史上最大和最成功的遊戲之一,它們見證了許多玩家從青蔥歲月到為人父母的20多年。其原始遊戲早已被AI和ML研究人員使用,並在每年的AIIDE機器人大賽中進行角逐(http://www.cs.mun.ca/~dchurchill/starcraftaicomp/)。

昨日凌晨,DeepMind宣布與暴雪娛樂合作,發布了SC2LE,一個旨在加速即時戰略遊戲當中AI應用的工具集,SC2LE包括:

使用AI在星際爭霸中對戰人類玩家會比圍棋艱難得多,對於AI來說,最大的難點在於,每一場對決都存在大量可能的方式。

據估計,每場對決有101685種可能的配置,為了給大家一個直觀感受,阿爾法狗的配置層是10170。

此外,不同於棋類遊戲的輪流依次進行走步,並且擁有決策的時間,在星際爭霸中,玩家會同時出招,且不能看到對方玩家的狀態,也就是說,所有決定需要在「不完整信息」的情況下做出。所有這些都意味著,你不能僅靠邏輯和一些步驟找到贏得對決的最優方式,玩家更需要的是策略和直覺。

星際爭霸擁有豐富多彩的遊戲環境和戰術體系,這是AI研究的理想環境。

例如,雖然遊戲的目標是擊敗對手,但玩家需要在收集資源或建造建築等等這些子目標中進行權衡。另外,一場對戰的時間可以從幾分鐘到一個小時不等,這意味著在遊戲早期採取的行動可能在很長時間內都不會有回報,如果你使用開局一波的打法,就很可能在進攻受挫後喪失主動權。最後,因為戰爭迷霧的關係玩家無法擁有全部地圖的視野,這意味著AI必須使用記憶和計劃的結合才能成功。

星際爭霸II還有其他一些吸引研究者的特質,比如大量每天都在網上進行遊戲的玩家。這可以確保研究者們可以得到大量的回放數據以供學習,也可以為AI代理提供大量極具天賦的對手。

星際爭霸II的玩家在同一時間可能有300多種基本行動可以選擇,因此策略集及策略選擇也對AI構成了巨大的挑戰。與此形成鮮明對比的是雅達利遊戲,大概只有10種選擇(例如,下,左,右等)。除此之外,星際爭霸中的很多操作是分級的,可以進行修改和擴充,其中很多都需要操作屏幕上的一個點進行。即使一個小84X84的屏幕也會產生大約1億種可能的行動選擇。

行動是否對人類和代理都可用取決於選擇的單位。

這次發布的PySC2意味著研究人員現在可以利用暴雪自己的工具來解決這些挑戰,並且構建自己的任務和模型。

PySC2環境提供了一個靈活的,易於使用的RL代理遊戲界面。在最初的版本中,遊戲被分解為『特徵層』,其中的遊戲元素,如單元類型、單位的健康度和地圖的可見性彼此隔離,同時保留遊戲的核心視覺和空間元素。

PySC2工具集中的特徵層

這次發布的PySC2還包括一系列的迷你遊戲,一種將遊戲分解成小模塊的技術,可以用來測試特定任務的代理,比如移動視角、收集礦物碎片或選擇單位。DeepMind希望研究人員可以測試他們的技術,並且開發新的迷你遊戲,以供其他研究人員進行使用和評估。

簡單的RL迷你遊戲可以讓研究者測試代理在一些特定任務上的表現

訓練過和未訓練過的代理在玩迷你遊戲

為了讓DeepMind的代理學習更強大的策略,需要使用模仿學習技術。 暴雪承諾將持續發布從「星際爭霸II」天梯中收集的數十萬個匿名錄像,這會將訓練變得更加容易。 這不僅可以讓研究人員訓練可監督的代理來進行遊戲,還可以打開其他有趣的研究領域,如序列預測和長期記憶。

現在,丹麥哥本哈根IT大學的Sebastian Risi和他的同事Niels Justesen已經開始將AlphaGo應用於「星際爭霸」。 到目前為止,他們已經從有世界上最好的人類星際爭霸玩家參與的超過2000場比賽中提取了大約630000場錄像,訓練了他們的AI,讓它慢慢地學會預測一個頂級的人類玩家在某些特定的遊戲狀態下會做什麼,這樣當面對類似的選擇時,它可以做出頂級玩家會做的判斷。

目前,Risi和Justesen的成果仍可以被其他「星際爭霸」的機器玩家打敗。 然而,那些機器的方法是把人類戰略硬編碼進系統,這意味著一旦有人類對手在戰略中發現了一個漏洞,他們就能夠從那裡輕鬆地擊敗他們,這樣的機器是不具備和人類正面對決的能力的。

這意味著,破解「星際爭霸」甚至可以使AI通用地進步,因為玩好這款遊戲需要考慮存儲,策略和操作並且規劃這一系列複雜的組合。 DeepMind的Oriol Vinyals說:「這款遊戲是一座通往現實世界的橋梁。」

在星際爭霸2的世界頂級賽事中,人類玩家在比賽中奇詭的戰術和精湛的操作,往往使我們感嘆於玩家技術水平的高超,而如果AI能夠像在圍棋比賽中擊敗柯潔那樣在星際爭霸2這類對操作、策略和運營的要求都達到極限的遊戲中擊敗人類的頂尖選手,我們還有興趣打開電腦在滑鼠高頻率的敲擊聲中日復一日地攀爬天梯嗎?

相信即便面對來勢兇猛的末日人機,還是會有無數的玩家像澤叔一樣喊出那聲「為了艾爾而戰!

關於轉載

如需轉載,請在開篇顯著位置註明作者和出處(轉自:大數據文摘 | bigdatadigest),並在文章結尾放置大數據文摘醒目二維碼。無原創標識文章請按照轉載要求編輯,可直接轉載,轉載後請將轉載連結發送給我們;有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】給我們申請白名單授權。未經許可的轉載以及改編者,我們將依法追究其法律責任。聯繫郵箱:zz@bigdatadigest.cn。

回復「志願者」加入我們

點擊圖片閱讀

票圈被吳恩達新開的深度學習課程刷屏?到底如何,我們幫你做了個測評

相關焦點

  • 教AI打星際2也不難,試試暴雪和DeepMind的工具包 | 附論文+代碼
    2),計劃創造出能擊敗人類玩家的智能體。難!難!難!星際2是個實用的基礎AI研究環境,因為遊戲本身複雜多變,且勝利方式不固定。玩家想要取勝需要同時做多手準備,比如管理並創造資源、指揮軍事單位和部署防禦結構等操作需要同時進行,逐步完成。此外,玩家還需預測對手的策略。這項任務確實不容易,但不是無解。DeepMind和暴雪嘗試將遊戲分為多個「迷你遊戲」,將不同任務分解成「可管理的組塊」,比如建立特定單元、收集資源或在地圖上移動等。
  • AI打星際2即將直播,DeepMind暴雪發出神秘預告
    大家也可以一起來猜一猜,下面是他列出的選項:AI打星際2難在哪裡2016年11月暴雪嘉年華上,DeepMind工程師宣布了訓練AI打星際2的計劃。算起來到現在已經兩年多了。DeepMind與暴雪合作的目標之一,就是開發一套足夠好的人工智慧系統,使之可以擊敗星際2人類選手。就像AlphaGo擊敗李世乭、柯潔一樣。
  • 新的一年,DeepMind準備讓AI學會「放煙花」
    選自marcgbellemare機器之心編譯參與:王淑婷、賈偉、李澤南在星際爭霸 2 的首場「人機大戰」結束後不久,DeepMind 又宣布即將投身另一個遊戲「煙花」。與以往不同的是,這是一款非完整信息、多人合作的遊戲。
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    自以圍棋為代表的完全信息博弈/遊戲被 AlphaGo 攻克、取得超出人類頂尖棋手的水平之後,研究人員們立刻向非完全信息博弈發起更加猛烈的進攻。典型的非完全信息博弈比如德州撲克,玩家需要在看不到對手的牌面的狀況下做出決策,CMU 的德撲 AI 論文也拿到了 NIPS 2017 的最佳論文獎。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    這項研究發表在學術網站arXiv上,論文標題為《用最佳應對策略的迭代學會應用無媒體外交(Learning to Play No-Press Diplomacy with Best Response Policy Iteration)》。
  • 星際爭霸 一款暴雪被上帝靈魂附體,借暴雪之手賜予玩家的神作
    同為20年,2018年暴雪的星際爭霸1高清重製版上架國服,謹以此文,獻給我愛了20年的星際爭霸1(StarCraft1)。吹個NB,囧王者當時打CPGL(中國職業玩家聯盟,還有記得的嗎),曾經拿過全國第八,曾經對戰過RedApple和對抗過BoxeR(雖然都輸了),但依然很自豪,習慣性的吹一波。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    大佬們討論了哪些問題?研究者們發布了哪些值得一讀的論文?又有哪些開源的代碼和資料庫可以使用了?快快跟隨文摘菌盤點過去一周AI大事件!Skyline AI新融資$3M來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/03/22/skyline-ai-raises-3m-from-sequoia-capital-to-help-real-estate-investors-make-better-decisions/?
  • DeepMind為明年的AAAI,準備了一份各種DQN的混血
    夏乙 編譯整理量子位 出品 | 公眾號 QbitAI🌈DeepMind公開了一篇最近投遞到AAAI 2018的新論文,這篇論文的主角,
  • 暴雪叫停《風暴英雄》全球錦標賽;《星際爭霸》論文竟獲數學知識一等獎
    暴雪稱這是個艱難的決定,因為考慮到產品與運營項目較多,故而做出上述決定。但暴雪不會放棄《風暴英雄》,還會繼續推出新英雄、舉辦新活動,但節奏會有所改變。上海中學生寫《星際爭霸》論文竟獲數學知識評選活動獲得一等獎    上海中學生以《星際爭霸》為主題寫論文參加數學知識評選活動獲得一等獎!
  • 揭秘星際2人工智慧AlphaStar:DeepMind科學家回應一切
    與此同時,曾與人工智慧交手的兩位職業玩家,Liquid 戰隊的 TLO 與 MaNa 也作為嘉賓回答了一些有趣的問題。例如:對於 AI 研究者來說,打星際 2 的能力是不是應該寫進簡歷裡?網友 NexYY:我應該把會打星際爭霸 2 作為一項技能寫在簡歷裡證明我是一個有抱負的 AI 開發者嗎?
  • 暴雪爸爸發大招:瓦王活了、暗黑1回來了、爐石又要剁手了…
    導讀一年一度的暴雪嘉年華在安納海姆會議中心隆重開啟,我們一起來看看暴雪為全世界的玩家們帶來了哪些消息。
  • 暴雪遊戲遭遇AI「實力」坑隊友:四處遊走,還不參與戰鬥
    一個月前在《星際爭霸 II》中輕鬆戰勝人類職業選手的 AlphaStar(在 APM 限制為 180 的條件下,以總比分 2:0 分別戰勝兩位職業人類選手),正是來自與暴雪宣布合作的 DeepMind。早在 2016 年 11 月,DeepMind 就宣布與暴雪在《星際爭霸 II》中合作開展機器學習的相關研究。
  • DeepMind人工智慧在《星際爭霸2》人機對戰中完勝職業玩家
    谷歌DeepMind研發的用於人機對戰的人工智慧程序名為AlphaStar,其挑戰的是兩位《星際爭霸2》的職業玩家「TLO」和「MaNa」,比賽在去年的12月進行,《星際爭霸2》的開發商暴雪和谷歌DeepMind已公布了當時比賽的視頻。
  • Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!
    在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強化學習組負責人David Silver和其同事熱情地回答了網友們提出的各種問題。雷鋒網從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:關於論文與技術細節Q: Deepmind Zero的訓練為什麼如此穩定?
  • 星際爭霸涼了,暴雪還能走多遠?
    必須要承認的是,從《星際爭霸2:自由之翼》那「爹味十足」的付費模式開始,《星際爭霸》系列的熱度一度可以用「半死不活」來形容,而就在國內外社區為期十年的「不拋棄、不放棄」(比如大陸境內被戲稱為「星際教父」,以毒奶操縱比賽、留下無數MEME的以黃旭東為首的諧星們)下開始有中興氣象的《星際爭霸》系列,在2020年10月16日時發布了「藍貼」(公告):正式宣布將停止《星際爭霸2》的合作模式的指揮官
  • 暴雪雜談:星際爭霸系列及RTS對暴雪的重要意義
    《星際爭霸》本來只是一款填充發行周期的作品曾經有狂熱玩家說:「《星際爭霸》是上帝借暴雪的設計師給予玩家們的禮物。」此話顯得言過其實,《星際爭霸》的品質也是靠許多個補丁修修補補才逐漸得以完善,更不用說該遊戲在暴雪內部立項之時只不過是一個用來「填充發行周期」的作品。
  • DeepMind論文不應帶有錯誤引導成份
    DeepMind下次撰寫論文時,是不是能在模擬實驗上更謹慎一點?關於「圍棋之神」的創造,其實在AlphaGo Zero的論文時就想講。人類研究圍棋兩千多年,只折抵了AlphaGo Zero三天的學習量,若用AlphaZero訓練用的5000TPU加上更優化的算法,可能真的不用一天就夠。
  • 玩家請願不要停止《星際爭霸2》更新:暴雪無動於衷
    《星際爭霸2》推出已經10年了了,而暴雪也是做了一個決定,停止對它的更新。雖說在這樣的一個大時間點,但暴雪並沒有給喜歡這款遊戲的玩家帶來好消息,相反給出的公告稱,《星際爭霸2》將停止付費內容更新,僅保留必要的PVP平衡性調整。
  • 星際考古《星際爭霸》起源——暴雪的瘋狂
    讓時光回到1998年3月31日,那一天暴雪的員工們都會感到激動和暫時的放鬆,因為在經歷痛苦的長期忙碌之後,《星際爭霸》總算是正式面世了
  • 賣的了萌打的了遊戲:暴雪遊戲中的妹子玩家們|愛玩網
    她們是暴雪遊戲中的妹子玩家。跟我們一起,了解六位暴雪妹子玩家的心路歷程。夏一可,資深暴雪遊戲視頻作者,以其幽默、毒舌略帶蛇精病的獨特風格深受暴雪粉喜愛,其所製作的遊戲視頻題材包含了幾乎所有暴雪遊戲,堪稱暴雪勞模。同時作為一名聲優,他也為魔獸玩家熟知的動畫《山口山戰記》中的角色法絲、美屢配音。