Alphastar再登Nature!星際爭霸任一種族,戰網狂虐99.8%人類玩家

2021-02-15 大數據文摘

大數據文摘出品


星際爭霸 2 上達到了最高的 Grandmaster(宗師)段位。


AlphaStar成為了第一款在無限制情況下躋身電子競技頂級聯賽的AI。


今天,Deepmind在《自然》雜誌發布最新研究:在不設限制的情況下,以Grandmaster級別玩一場完整遊戲,並放出了相關遊戲視頻和論文,相關數據顯示,AlphaStar在戰網上的排名已超越 99.8%的活躍玩家。



論文連結:

https://www.nature.com/articles/s41586-019-1724-z


年初,由DeepMind構建的另一算法AlphaStar擊敗了《星際爭霸Ⅱ》的頂級人類選手MaNa和TLO。不同於圍棋,《星際爭霸Ⅱ》是一款即時戰略而非回合制的遊戲,玩家的信息隱蔽性和移動自由性較圍棋更高。之後,Deepmind設立了更宏偉的目標:在不設限制的情況下,以Grandmaster級別玩一場完整遊戲。


Deepmind也發布了相關博客,詳細敘述了這次的新研究,稱在幾個關鍵方面超越了先前的工作:

1、AlphaStar現在通過與人類相同的攝像頭視野觀察地圖,以及對AI動作頻率進行了更嚴格限制(與星際爭霸專業Dario「 TLO」Wünsch合作)。

2、AlphaStar現在可以與星際爭霸中三大種族——人族、神族和蟲族進行一對一的對抗。

3、訓練過程完全自動化,並且僅從通過監督學習培訓的智能體開始,而不是從以前的實驗中受過培訓的智能體。

4、AlphaStar在官方遊戲伺服器Battle.net上使用與人類玩家相同的地圖和條件進行遊戲。所有遊戲重播均已放出。



Deepmind稱,使用通用的機器學習技術(包括神經網絡,通過自己與自己遊戲進行強化學習,多智能體學習和模仿學習)。從《自然》雜誌中發表的論文可以看到,AlphaStar在Battle.net平臺上排名高於99.8%的活躍玩家,並且在星際爭霸II的神族、人族和蟲族都達到了宗師級水平。


基於學習的系統和自我博弈是很好的研究概念,這促進了人工智慧的顯著進步。1992年IBM的研究人員開發了TD-Gammon,它將基於學習的系統與神經網絡相結合來玩西洋雙陸棋。TD-Gammon並非根據編碼規則或無窮舉例法來玩遊戲,而是被設計為使用強化學習,通過反覆試驗來找出如何以最大化獲勝概率的方式玩遊戲。


它的開發人員使用自玩博弈的概念來使系統變得更加穩定:通過與自身進行對抗,系統越來越精通遊戲,當與數據結合起來時,基於學習的系統和自我遊戲的概念將提供開放式學習的強大範例。


自那時以來的許多研究取得的進展表明,這些方法可以擴展到其他有待突破的領域。例如,AlphaGo和AlphaZero確立了一種系統,可以在圍棋、西洋棋上實現超越人類的表現,而OpenAI Five和DeepMind的FTW則在Dota 2和Quake的現代遊戲中展示了全新的能力。


DeepMind研究了開放式學習的潛力和局限性,進而能夠開發穩定而靈活的AI,以應對更加複雜的領域。《星際爭霸》就是驗證並發展這些方法的絕佳訓練場,因為玩家必須使用有限的信息來做出實時且關鍵的決定,從而在多個層次和時間尺度上對戰局產生影響。


儘管取得了成功,但自玩遊戲仍存在眾所周知的缺點。其中最大的問題是——遺忘:一個與自博弈爭的智能體可能會不斷進步,但也可能會很快忘記如何與先前的自身競爭。遺忘會造成不斷「追逐尾巴」的循環,而永遠不會收斂或取得真正的進步。


例如,在遊戲剪刀石頭布中,智能體目前可能更喜歡出「石頭」。隨著自我玩法的發展,新的智能體將選擇轉用「布」,因為它會贏得勝利。稍後,智能體將切換到「剪刀」上,最後回到「石頭」,從而形成一個循環。虛擬自我遊戲-與以前所有策略綜合對抗-是應對這一挑戰的一種解決方案。


Deepmind稱,在首次將StarCraft II開源作為研究環境之後發現,即使虛擬的自玩技術也不足以產生強大的智能體,因此著手開發更好的通用解決方案。


Deepmind在《自然》雜誌發布論文的中心思想,是將虛構的自學遊戲這一概念擴展到一組智能體–聯盟。


通常,在自學遊戲中,每個智能體都希望最大程度地贏得對手。但這其實只是解決方案中的一部分。現實世界中,嘗試在《星際爭霸》中精進的玩家一般會選擇與朋友合作,訓練特定的策略,一起獲取勝利。因此,你的戰友不一定在與所有對手對抗中競爭,而是幫助你發現你的缺點,以使整個團隊更加強大。合作的主要策略是,不僅僅要贏得勝利。一隻強大的團隊不僅需要與所有人抗衡的「核心」智能體,也需要「剝削者」智能體,他們專注於通過揭示其缺陷而不是最大程度地幫助「核心」智能體變得更強大。通過這種訓練方法,整個隊伍以端到端的全自動方式學習了複雜的《星際爭霸II》策略。



在星際爭霸的複雜環境中,探索是另一個關鍵挑戰。每個智能體在每個步驟中最多可以執行1026種操作,並且該智能體必須先進行數千次操作之後,然後才能知道它是贏了還是輸了。


在如此龐大的方案處理領域中,尋找制勝戰略確實是一項挑戰。即使擁有強大的自我博弈系統,如果沒有一些先驗知識,在如此複雜的環境中,系統幾乎就不可能制定出成功的策略。


學習人的策略,並確保智能體在整個遊戲過程中不斷學習這些策略,這是提升AlphaStar能力的關鍵。為此,Deepmind使用了模仿學習,再加上基於語言建模的高級神經網絡的體系結構和技術,來制定初始策略,使智能體把遊戲玩得比84%的活躍玩家更好。另外deepmind還使用了一個潛在變量,該變量確定了策略並對人類遊戲的開局動作分布進行編碼,這有助於保留一些開局的高級策略。然後,AlphaStar在整個自我遊戲過程中使用一種distillation手段,這種方法使AlphaStar可以在單個神經網絡中展現許多策略(每個種族一個)。在評估過程中,神經網絡不以任何特定的開局動作為條件。



視頻連結:

https://youtu.be/KPLYhRBCcvk


此外,Deepmind稱,由於星際爭霸具有巨大的動作空間,許多先前的強化學習方法均無效。尤其是AlphaStar使用了一種新的算法進行政策外強化學習(Off-Policy),使其能夠在遊戲中有效地更新策略。


視頻連結:

https://youtu.be/xP7LwZxq0ss



利用自我學習智能體的開放式學習系統在越來越具有挑戰性的領域中取得了令人印象深刻的結果。deepmind稱,這多虧了模仿學習,強化學習和聯盟的進步,才得以訓練出AlphaStar Final,這是在整個《星際爭霸II》完整遊戲中達到宗師級水平的智能體,如上面的視頻所示。該智能體使用遊戲平臺戰網匿名在線玩遊戲,並通過三場《星際爭霸II》競賽達到了宗師級水平。


AlphaStar通過攝像頭界面進行播放,具有與人類玩家類似的信息,並且對其動作速度有所限制,以使其與人類玩家具有可比性。界面和限制都已獲專業玩家批准,因此這些結果為證明通用學習技術可以擴展AI系統提供了有力的證據,它們能夠在涉及多個參與者的複雜動態環境中工作。


總體而言,Deepmind稱,用於開發AlphaStar的技術將有助於進一步提高AI系統的安全性和魯棒性,並且可能有助於推進在現實世界中的研究。比如,五角大樓中負責開發商業技術的國防創新部主任Michael Brown表示,利用AI實現「戰略推理」是他們的重點研究方向之一。

相關焦點

  • 10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa
    首先,這場比賽雙方都只能使用Protoss(神族),這並非TLO主族(在天梯上,職業玩家的主族和副族之間往往相差一千分以上)。此外,AlphaStar與普通玩家的比賽視角不同,雖然AI也受到戰爭迷霧的限制,但它基本上可以看到整個小地圖。這意味著它可以快速處理可見的敵方及其自身基礎的等信息,所以其不必像人類玩家那樣將需要將時間分配到地圖的不同區域。
  • Deepmind AI在《星際爭霸2》血虐99.8%人類,登頂宗師段位
    為何專注於攻剋星際爭霸2?因為極為複雜,高度擬真 星際爭霸是一款暴雪出品的經典即時戰略(RTS)遊戲,以其對戰略思維的超強考驗、精妙的種族平衡性和極強的可玩性著稱,玩家也必須在經濟的宏觀管理和微觀個體的控制之間保持謹慎的平衡。
  • 國服《星際爭霸:重製版》將於8月30日上線測試.
    在2018 ChinaJoy暴雪展臺,官方宣布《星際爭霸:重製版》國服將於8月30日正式上線測試。
  • 《星際爭霸II》的玩家遭遇了一個非同尋常的對手!
    《星際爭霸》遊戲截圖(圖片來源:暴雪遊戲官網)這個夏天,科幻電子競技遊戲《星際爭霸II》的玩家遭遇了一個非同尋常的對手——AlphaStar。人工智慧AlphaStar由谷歌的人工智慧公司DeepMind開發,於《星際爭霸II》歐洲伺服器上線,之後登上宗師(Grandmaster)段位,排在該地區九萬名玩家中的前0.15%。
  • 暴雪官方遊戲指南:教你如何入門星際爭霸2
    這是暴雪官方發布針對初學者的遊戲指南,暴雪通過對星際爭霸2的一系列介紹以及指導告訴玩家在遊戲中基本的建造、攻擊以及運營控制,最終實現擊敗對手。
  • AI擊敗星際爭霸職業玩家
    據稱,該系統是迄今為止同類系統中最複雜的。在DeepMind上月舉行的一系列比賽中,AlphaStar成為世界上第一個在沒有任何遊戲限制的情況下擊敗職業人類玩家的AI。星際爭霸2極其複雜,這次勝利是AI的一個重要的裡程碑。與西洋棋和圍棋不同的是,這款遊戲提供了一個所謂的不完美的信息遊戲環境,其中某些關鍵細節被隱藏。這使得它在概念上更類似於AI模型在用於實際應用程式時必須處理的任務。
  • DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了
    在全球首場星際爭霸 2 的「人機大戰」中,AI 和人類玩家都使用了神族。人工智慧表示:Pimba,所以我用神族(其實當然不是了,是因為神族的兵種最容易計算)。挑戰遊戲 AI 的最高峰2018 年,機器之心記錄了 OpenAI 人工智慧挑戰 Dota 2 的全進程:從最初的 1 v 1 戰勝 Dendi,到 5 v 5 團隊賽中擊敗業餘人類玩家,最後在 TI 8 中挑戰職業玩家敗北。
  • 星際爭霸1:各種族終極兵種實力排行,人類巡洋艦是雞肋?
    星際爭霸1:各種族終極兵種實力排行,人類巡洋艦是雞肋? 第一代星際爭霸裡,各種族都有統治地面和空中的終極兵種,讓我們看看這些兵種到底怎麼樣?神族地面終極武器是金甲蟲,它配合上運輸機搞爆破和騷擾都有一定的實用價值。
  • 2020暴雪星際爭霸打折季活動地址 星際爭霸優惠打折季入口
    > 前段時間,暴雪開啟了打折季的活動,在1月7日這天,暴雪打折季開啟了星際爭霸的活動,許多優惠的信息活動上線,很多玩家還不清楚活動的入口在哪,下面就來為大家分享一下2020暴雪星際爭霸打折季活動地址。
  • 《星際爭霸2:自由之翼》簡體中文版下載發布
    《星際爭霸2:自由之翼》簡體中文版已經在3月16日正式對玩家開放下載,玩家可以登錄戰網或通過網易遊戲星際2專區進行官方的下載。《星際爭霸2:自由之翼》簡體中文版已經在3月16日正式對玩家開放下載,玩家可以登錄戰網或通過網易遊戲星際2專區進行官方的下載。
  • 剛剛,星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」橫空出世,兩周內進化神速
    而除了棋類遊戲以外,DeepMind 比較感興趣的,就是遊戲星際爭霸 2。繼圍棋之後,DeepMind 為什麼要選擇星際爭霸 2 這款遊戲為下一個目標呢?星際爭霸 2 是由美國著名遊戲公司暴雪娛樂(Blizzard Entertainment)推出的一款以星際戰爭為題材的即時戰略遊戲。
  • 探知《星際爭霸》背後的故事
    1998年3月31號,暴雪娛樂(Blizzard Entertainment)挾著《魔獸爭霸II》(WarCraft II)的成功,推出了以宇宙科幻為背景的《星際爭霸》(StarCraft),有別於《魔獸爭霸》的聯盟與部落2元勢力對決,《星際爭霸》首度導入了三方種族的不同戰鬥風格,三大種族的故事背景設定也是相當吸引劇情設定魔人的一點
  • 魔獸爭霸加入戰網後續:不是魔獸爭霸4
    昨天網易公布了魔獸爭霸加入戰網的消息後,一時間各種猜測紛紛而起,有人表示是魔獸爭霸4要來了,也有人表示可能只是魔獸爭霸3搬入戰網而已
  • 星際網遊不再是夢 《星際爭霸宇宙》正式發布
    【17173專稿,轉載請註明出處】從1999年開始,《星際爭霸》的玩家們就幻想著有一天,能有一款以遊戲為背景的網遊問世,Kreation也是他們的一員,和其他人不同的是,當其他人的幻想永遠停留在幻想時,他最終用自己的手實現了昔日的夢想。
  • 星際爭霸1的平衡性真的做得比星際爭霸2好麼?
    反觀現在,《星際爭霸2》從誕生開始,平衡性就一直飽受爭議,所以在不少玩家心中就產生了一種《星際爭霸1》的平衡性要比《星際爭霸2》好得多的感覺。那麼20年前的《星際爭霸1》平衡性真的要比10年前的《星際爭霸2》要好麼?今天大麥就來說說這個問題。其實在《星際爭霸1》時代玩家們也曾經抱怨過不少平衡性問題,但是當時玩家們的抱怨情緒遠沒有現在高。
  • 人類又被AI碾壓,這次是星際爭霸
    DeepMind 與它的阿爾法 AI 大軍,在吊打了各路頂級選手之後,甩下一句話:「下次我們想試試打星際爭霸。」昨天,DeepMind 和暴雪進行一場直播,秀了一把他們在《星際爭霸II》中,與人類選手對戰吊打的成果。
  • 暴雪發布臺灣戰網TOP200 亞洲蟲族玩家少而精(全文)
    暴雪官方消息,臺灣官網於今日發布了星際爭霸2目前臺灣戰網排名前200位的選手。
  • 《星際爭霸2》2014真愛玩家盤點
    《星際爭霸2》2014真愛玩家盤點   作為一款風靡全球的RTS遊戲大作,《星際爭霸2》在全球擁有無數狂熱的粉絲,在眾多星際2粉絲中除了遊戲大神之外還隱藏著許多其他行業的大神級玩家,其中不少玩家對《星際爭霸2》的熱愛程度已經超出你的想像,這些星際真愛粉們把自己的隱藏技能淋漓盡致的發揮到對《星際爭霸2》的無限熱愛上,接下來就讓我們一起回顧2014年那些星際真愛粉們的逆天舉動,看看什麼才是真愛
  • 2020暴雪打折季:《星際爭霸》專場促銷來襲
    在2019年12月20日,暴雪就開起了打折季活動,但是首次參與活動的僅有《爐石傳說》一款。
  • 為什麼星際爭霸中,蟲族能夠感染人類的機械單位?
    Hi~ o(* ̄▽ ̄*)ブ ,大麥的《星際爭霸十萬個為什麼》又和大家見面啦!在玩《星際爭霸》時,肯定有不少玩家都熱衷於去尋找一些娛樂玩法。而神族的紅球的「精神控制」,應該是娛樂玩法中最有意思的。想想把敵人好不容易生產出來的單位都變成自己的,坐在對面電腦前的玩家一定是氣得咬牙切齒吧。