碾壓99.8%人類對手,三種族都達宗師級!星際AI登上Nature

2020-11-30 騰訊網

來源丨量子位(ID:QbitAI)

作者丨乾明 魚羊 慄子

僅剩0.2%的星際2玩家,還沒有被AI碾壓。

這是匿名混入天梯的AlphaStar,交出的最新成績單。

同時,DeepMind也在Nature上完整披露了AlphaStar的當前戰力和全套技術:

AlphaStar,已經超越了99.8%的人類玩家,在神族、人族和蟲族三個種族上都達到了宗師(Grandmaster)級別。

在論文裡,我們還發現了特別的訓練姿勢:

不是所有智能體都為了贏

DeepMind在博客裡說,發表在Nature上的AlphaStar有四大主要更新:

一是約束:現在AI視角和人類一樣,動作頻率的限制也更嚴了。

二是人族神族蟲族都能1v1了,每個種族都是一個自己的神經網絡。

三是聯賽訓練完全是自動的,是從監督學習的智能體開始訓練的,不是從已經強化學習過的智能體開始的。

四是戰網成績,AlphaStar在三個種族中都達到了宗師水平,用的是和人類選手一樣的地圖,所有比賽都有回放可看。

具體到AI的學習過程,DeepMind強調了特別的訓練目標設定:

不是每個智能體都追求贏面的最大化。

因為那樣智能體在自我對戰 (Self-Play) 過程中,很容易陷入某種特定的策略,只在特定的情況下有效,那面對複雜的遊戲環境時,表現就會不穩定了。

於是,團隊參考了人類選手的訓練方法,就是和其他玩家一起做針對性訓練:一隻智能體可以通過自身的操作,把另一隻智能體的缺陷暴露出來,這樣便能幫對方練出某些想要的技能。

這樣便有了目標不同的智能體:第一種是主要智能體,目標就是贏,第二種負責挖掘主要智能體的不足,幫它們變得更強,而不專注於提升自己的贏率。DeepMind把第二種稱作「剝削者 (Exploiter) 」,我們索性叫它「陪練」。

AlphaStar學到的各種複雜策略,都是在這樣的過程中修煉得來的。

比如,藍色是主要玩家,負責贏,紅色是幫它成長的陪練。小紅髮現了一種cannon rush技能,小藍沒能抵擋住:

然後,一隻新的主要玩家 (小綠) 就學到了,怎樣才能成功抵禦小紅的cannon rush技能:

同時,小綠也能打敗之前的主要玩家小藍了,是通過經濟優勢,以及單位組合與控制來達成的:

後面,又來了另一隻新的陪練 (小棕) ,找到了主要玩家小綠的新弱點,用隱刀打敗了它:

循環往復,AlphaStar變得越來越強大。

至於算法細節,這次也完整展現了出來。

AlphaStar技術,最完整披露

許多現實生活中的AI應用,都涉及到多個智能體在複雜環境中的相互競爭和協調合作。

而針對星際爭霸這樣的即時戰略(RTS)遊戲的研究,就是解決這個大問題過程中的一個小目標。

也就是說,星際爭霸的挑戰,實際上就是一種多智能體強化學習算法的挑戰。

AlphaStar學會打星際,還是靠深度神經網絡,這個網絡從原始遊戲界面接收數據 (輸入) ,然後輸出一系列指令,組成遊戲中的某一個動作。

AlphaStar會通過概覽地圖和單位列表觀察遊戲。

採取行動前,智能體會輸出要發出的行動類型(例如,建造),將該動作應用於誰,目標是什麼,以及何時發出下一個行動。

動作會通過限制動作速率的監視層發送到遊戲中。

而訓練,則是通過監督學習和強化學習來完成的。

最開始,訓練用的是監督學習,素材來自暴雪發布的匿名人類玩家的遊戲實況。

這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學習遊戲的宏觀和微觀策略。

最初的智能體,遊戲內置的精英級 (Elite) AI就能擊敗,相當於人類的黃金段位 (95%) 。

而這個早期的智能體,就是強化學習的種子。

在它的基礎之上,一個連續聯賽 (Continuous League) 被創建出來,相當於為智能體準備了一個競技場,裡面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:

從現有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學習。

這種新的訓練形式,是把從前基於種群 (Population-Based) 的強化學習思路又深化了一些,製造出一種可以對巨大的策略空間進行持續探索的過程。

這個方法,在保證智能體在策略強大的對手面前表現優秀的同時,也不忘怎樣應對不那麼強大的早期對手。

隨著智能體聯賽不斷進行,新智能體的出生,就會出現新的反擊策略 (Counter Strategies) ,來應對早期的遊戲策略。

一部分新智能體執行的策略,只是早期策略稍稍改進後的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。

除此之外,要鼓勵聯賽中智能體的多樣性,所以每個智能體都有不同的學習目標:比如一個智能體的目標應該設定成打擊哪些對手,比如該用哪些內部動機來影響一個智能體的偏好。

聯盟訓練的魯棒性

而且,智能體的學習目標會適應環境不斷改變。

神經網絡給每一個智能體的權重,也是隨著強化學習過程不斷變化的。而不斷變化的權重,就是學習目標演化的依據。

權重更新的規則,是一個新的off-policy強化學習算法,裡面包含了經驗重播 (Experience Replay) ,自我模仿學習 (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機制。

歷時15年,AI制霸星際

《星際爭霸》作為最有挑戰的即時戰略(RTS)遊戲之一,遊戲中不僅需要協調短期和長期目標,還要應對意外情況,很早就成為了AI研究的「試金石」。

因為其面臨的是不完美信息博弈局面,挑戰難度巨大,研究人員需要花費大量的時間,去克服其中的問題。

DeepMind在Twitter中表示,AlphaStar能夠取得當前的成績,研究人員已經在《星際爭霸》系列遊戲上工作了15年。

但DeepMind的工作真正為人所知,也就是這兩年的事情。

2017年,AlphaGo打敗李世石的第二年後,DeepMind與暴雪合作發布了一套名為PySC2的開源工具,在此基礎上,結合工程和算法突破,進一步加速對星際遊戲的研究。

之後,也有不少學者圍繞星際爭霸進行了不少研究。比如南京大學的俞揚團隊、騰訊AI Lab、加州大學伯克利分校等等。

到今年1月,AlphaStar迎來了AlphaGo時刻。

在與星際2職業選手的比賽中,AlphaStar以總比分10-1的成績制霸全場,人類職業選手LiquidMaNa只在它面前堅持了5分36秒,就GG了。

全能職業選手TLO在落敗後感嘆,和AlphaStar比賽很難,不像和人在打,有種手足無措的感覺。

半年後,AlphaStar再度迎來進化。

DeepMind將其APM (手速) 、視野都跟人類玩家保持一致的情況下,實現了對神族、人族、蟲族完全駕馭,還解鎖了許多地圖。

與此同時,並宣布了一個最新動態:AlphaStar將登錄遊戲平臺戰網,匿名進行天梯匹配。

現在,伴隨著最新論文發布,AlphaStar的最新戰力也得到公布:擊敗了99.8%的選手,達到宗師級別。

DeepMind在博客中表示,這些結果提供了強有力的證據,證明了通用學習技術可以擴展人工智慧系統,使之在複雜動態的、涉及多個參與者的環境中工作。

而伴隨著星際2取得如此亮眼的成績,DeepMind也開始將目光投向更加複雜的任務上了。

CEO哈薩比斯說:

星際爭霸15年來一直是AI研究人員面臨的巨大挑戰,因此看到這項工作被《自然》雜誌認可是非常令人興奮的。

這些令人印象深刻的成果,標誌著我們朝目標——創造可加速科學發現的智能系統——邁出了重要的一步。

那麼,DeepMind下一步要做什麼?

哈薩比斯也多次說過,星際爭霸「只是」一個非常複雜的遊戲,但他對AlphaStar背後的技術更感興趣。

但也有人認為,這一技術非常適合應用到軍事用途中。

不過,從谷歌與DeepMind 的態度中,這一技術更多的會聚焦在科學研究上。

其中包含的超長序列的預測,比如天氣預測、氣候建模。

或許對於這樣的方向,最近你不會陌生。

因為谷歌剛剛實現的量子優越性,應用方向最具潛力的也是氣候等大問題。

現在量子計算大突破,DeepMind AI更進一步。

未來更值得期待。你說呢?

One more thing

雖然AlphaStar戰績斐然,但有些人它還打不贏。

當時AlphaStar剛進天梯的時候,人類大魔王Serral就公開嘲諷,它就是來搞笑的。

但人家的確有實力,現在依舊能正面剛AI。

不過,敢這樣說話的高手,全球就只有一個。

傳送門

論文預印版:

https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

博客文章:

https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

對戰錄像:

https://deepmind.com/research/open-source/alphastar-resources

本文經授權轉載自量子位(ID:QbitAI),如需二次轉載請聯繫原作者

相關焦點

  • 「戲裡戲外」阿法狗「後代」《星際2》超99.8%人類 成首個非人宗師
    關注《星際爭霸2》賽事的玩家們都知道,這款目前市面上唯一存貨的RTS電競遊戲頂尖位置都被來自韓國的選手把持著,遊戲的選手們甚至可以簡單地分為韓國和非韓兩種。但之後可能這個分化可能也要作古了。當時阿法狗的設計者們就表示,想把AI選手放在《星際爭霸2》上看看效果。如今阿法狗的後代升級版阿法星(AlphaStar)就以匿名玩家的身份,多次參與了《星際爭霸2》世界各個主要伺服器的天梯賽,當然,可能更多還是在韓國伺服器中。在阿法星上線的六個禮拜之後,官方宣布了阿法星的成績:世界排名前200,超越了99.8%的人類玩家。
  • 星際殖民2全種族詳解 StarDrive2九大種族圖文介紹
    當然大家也可以創建你自己的新種族,併合理發展壯大,能否徵服宇宙就要看各位的本事了。下面小編帶來星際殖民2全種族詳解,將StarDrive2中的九大種族進行詳細的圖文介紹,來看看你可以在遊戲中殖民統治哪些種族吧。
  • 星際爭霸系列人神蟲三大種族科技水平強弱程度:人族落後幾萬年?
    以前《星際爭霸1》流行的時候,三族通常被稱作:蟲族、人族,神族,後來發現這三個稱呼都有很多欠妥的地方。首先,zerg的更合理翻譯應該是「異蟲」,專門指代被艾蒙改造的,使用蜂群思維行動,服從某個絕對統治存在的異蟲。比如遊戲中的原始異蟲,更像是野獸,而不像是蟲族。
  • 暴雪:你現在就能和「阿爾法狗」單挑星際2
    雖然大家應該都知道RTS人口在2019年已經減少到幾乎可以忽略不計,但對想要研究AI在和人類同等條件下決策效率的人來說,RTS仍然是個不錯的試驗場。曾經用AlphaGo震撼過全世界的DeepMind終於要對廣大星際2玩家出手了,暴雪和DeepMind宣布,新的AlphaStar AI將加入當前最新版本的星際爭霸2歐服,允許每一個玩家與之較量。
  • 星際網遊文推薦:女主滿級大佬重生,在單挑小怪的路上一去不復返
    與此同時,全人類饑荒危機得以解除。#建築宗師在線建城#屬性:滿級金手指的重生女主×沒有金手指的大佬男主星際背景,爽文1V1,HEPS:感情線較為簡短評論:女主在同款全息網遊中獲得了上一世手遊的遊戲角色,依靠曾經的經驗成為遊戲裡開掛一樣的存在,經常作為增援在大型戰役中救場,作為一個建築宗師,不僅操作機械能力滿級、百發百中,還擅長指揮
  • AI再封神!繼AlphaGo圍棋戰勝柯潔,AlphaStar大勝人類星際玩家
    AlphaStar與人類選手AlphaStar在《星際爭霸2》的對決中,第一戰的人類職業對手是來自德國的「TLO」。TLO是一位德國職業星際2選手,1990年7月13日出生,有隨機天王的稱號,在2018 WCS Circuit排名44,現在效力於職業遊戲戰隊Liquid。TLO一直比較擅長使用蟲族,不過作為頂尖的職業選手,TLO的神族水平當然也是一流的。AlphaStar與人類的第1戰,比賽結果是5:0,AlphaStar以絕對的實力碾壓TLO獲勝。
  • 暴雪官方星際2種族介紹視頻 吉姆雷諾教你選種族(三)
    以下是暴雪臺灣官方在11月4日放出的星際爭霸2種族介紹視頻,由雷諾向我們介紹三大種族的各個兵種。
  • 星際爭霸:三個種族最害怕什麼情況發生?神族最怕的莫過於停電!
    星際爭霸2作為一個RTS的競技類型遊戲,在遊戲裡中雙方玩家互相對戰的時候會發生各種各樣的情況,玩家需要應對這些事情並做出反應,兩邊對戰當中,誰先被對方搞垮了那麼就進入了劣勢,遊戲中是三個不同的種族有時會因為自己不同的特點而陷入一些比較劣勢的情況,可以說三個種族都有關於自己比較害怕的情況
  • 三個細節看AI《星際2》10-1人類 瞬時操作數是選手10倍
    在Deepmind和暴雪的聯合聲明中也提到過,導致星際2 AI開發難度極大的原因主要有三點:同時控制多單位,長期決策,不完全博弈。說得簡單一些,其實就是繁瑣的操作,以及長期的,微妙的意識和決策,和戰爭迷霧的存在。由於這三點的存在,使得星際2 AI的開發相比圍棋AI的複雜度和難度又高了一個量級。
  • 56式半自動的兩次實戰:一次碾壓對手,另一次被對手碾壓
    最早生產於1956年的它,可以說也是跟隨我軍士兵徵戰多年,歷經實戰的磨練,再一次證明了自己額實力,在56式半自動步槍參加過的兩場戰戰爭中,一場碾壓了對手,但另一場卻被對手給碾壓。在1962年的中印邊境自衛反擊戰中,當時我國的56式家族無疑成為了軍隊武器中「挑大梁」般的存在,56式半自動步槍,56式機槍以及56式衝鋒鎗齊上陣,為我國步兵保駕護航。
  • 星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」進化神速
    與兩位人類對手的比賽相隔約兩周,AI 自學成才,經歷了從與 TLO 對戰時的菜鳥級別,進化到完美操作的過程,尤其是與 MaNa 的對戰,已經初步顯示了可以超越人類極限的能力。這次的演示也是 DeepMind 的星際爭霸 2 AI AlphaStar 的首次公開亮相。
  • 神秘酷炫堪比《星球大戰》,《艦無虛發:暗星》恩瑟瑞種族戰艦曝光!
    全球實時匹配,超燃星際對決!網易首款3D即時策略星戰手遊(RTS)《艦無虛發:暗星》中,三大種族之間神秘酷炫的星際對決堪比《星球大戰》。此次,《艦無虛發:暗星》曝光了恩瑟瑞種族戰艦的系列作戰單位,同時附上恩瑟瑞陣容搭配推薦攻略。知己知彼,百戰不殆!
  • 《慶餘年》:慶帝的智商有多高,可以碾壓劇中所有人?
    經脈斷裂的慶帝,反而成了大宗師。這是為何呢?因為按照霸道真氣的邏輯,原本真氣存在與纖細的經脈之中,而經脈斷裂之後,整個身體就變成了真氣的容器。從小溪變河流,容量自然不可同日而語。於是慶帝就變成了大宗師。葉輕眉曾給了苦荷一本小冊子,給了四顧劍劍訣,給了慶帝霸道功決,而葉清流和五竹打了一架之後,也成了大宗師。他們各有機緣,不分伯仲。全盛時期可以相互制衡。
  • 《遙遠地球之歌》人類變成一個跨星際的種族會怎麼樣
    「地球末日」系列三部曲是三篇獨立成章的小說,之間並沒有連續性,寫的都是人類在面臨滅種危機時的反應。在這部小說裡,人類得在地球爆炸之後的宇宙裡,繼續謀生活。人類變成了一個真正的跨星際的種族。在這裡,我們一共說兩個話題,兩個話題都足夠開腦洞:第一個,如果現在人類知道,地球會在1600年後毀滅,我們人類能跑得掉嗎?
  • 《星際迷航3》本周上映 出現超50種新的外星種族
    從明星到美國總統,《星際迷航》中大名鼎鼎的「瓦肯舉手禮」在各種場合被使用;而迄今已有50周年的《星際迷航》系列,也早已成為西方科幻史上的文化符號。9月2號,《星際迷航》重啟版的第三部,也是在整個系列的第十三部《超越星辰》正式登陸內地。為了給系列50周年祝壽,《超越星辰》中出現了超過50種新的外星種族;為了紀念7月份已經去世的老版史波克的扮演者,劇組讓老角色以非常特別的方式出現。
  • 《星際爭霸2》對戰模式平衡性更新 三種族均獲調整
    近日《星際爭霸2》官方發布公告,宣布對對戰模式進行一次平衡性調整,三族都有部分單位獲得了加強或者削弱,讓玩家在對抗時不會有更大的挫敗感。人族:寡婦雷「掘地之爪」升級不會再讓寡婦雷隱形。擁有軍械庫即可讓寡婦雷獲得隱形。擁有軍械庫即可讓寡婦雷獲得紅色雷射附件,無需擁有「掘地之爪」升級。
  • 《星際爭霸2》淪陷 人類被AI血洗
    1997年,「深藍」在西洋棋上擊敗人類冠軍卡斯帕羅夫的時候,人們說來一盤圍棋啊,結果有了AlphaGo橫掃人類頂尖高手李世石、柯潔。這時候,有人說來一盤「星際」啊……結果,還不到三年,《星際爭霸2》又被AI拿下,而且人類輸得幾乎體無完膚!
  • 你第一次接觸星際爭霸選的是哪個種族?
    你還記得第一次接觸《星際爭霸》系列的時候用的哪個種族嗎?為什麼會選擇這個種族?是贏了還是輸了呢?先來看看網上的小夥伴們是怎麼說的吧!@蟲蟲壹妍:我的星際天賦全讓showmethemoney耽誤了@ 壹大師兄師傅被妖怪熱瑪吉:蟲族!因為最好看!
  • 昴宿二外星人訊息109:人類是21個外星種族創造的嗎?
    所發生的是,人類不能理解這一點,因為他們已經被精確地編程了這一點,所以他們不理解意識和心靈的超越。非常簡單,一切都是一個想法(信念)!所有的星際種族基因都已經存在於每一個人類體內,它們只是等待被去激活了,它們既沒有被改變也沒有被移除。正是存在於每個身體中的意識意圖,將決定哪些基因將被激活,哪些基因將被忽略,它們在那裡等待它們主人的信號。
  • 韓國棋手用來作弊的AI工具Leela Zero,連柯潔都表示:有點...
    不過,在事件的背後,有網友感嘆,現在隨便一個AI都可以戰勝職業選手了嗎?還有網友調侃道,人工智慧已經開始奴役人類了!談到AI在圍棋中擊敗人類,大部分人可能首先想到的都是谷歌出品的AlphaGo。其他AI棋手大部分都是師從谷歌論文,星陣是獨創了自己的研發程序,而且它的對戰策略也與谷歌明顯不同。谷歌算法更偏向勝率,為保持大局經常會選擇暫時退讓,而星陣的策略是強勢進攻,把人類按在地上摩擦,能前進絕不退讓。據了解,星際圍棋的前身是清華大學的「神算子」,後經過深客科技完成了後續的技術升級。