2018星際AI大賽冠軍誕生!一個個機器學習算法,都輸給不會學習的韓國bot

2021-02-16 量子位
夏乙 問耕 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

剛剛,星際爭霸AI大賽新王誕生!

二十多個掌握了機器學習技能的AI,全都在一個不會學習、只會基於規則機械行動的bot面前,俯首稱臣。

包括三巨頭之一Yann LeCun治下的Facebook AI團隊。他們的AI獲得亞軍,但在與新王的100回合大戰中,戰績是83負17勝,劣勢明顯。

其他AI更不是對手。

新霸主與全部對手的2600場廝殺中,勝率達到了95.91%。而往屆比賽中,冠軍勝率最高的一次,也不過89%。

到底是誰?哪個團隊的人工規則,能如此碾壓人工智慧?

答案是:賽達(SAIDA)

 SAIDA對戰第二名CherryPi

來自三星,首次參賽的賽達,完全基於規則,在這個機器學習大爆炸的時代,一個如此「復古」的系統,俾睨一眾AI。

賽達之所以如此厲害,一個重要原因是,背後有韓國職業星際選手助力。要知道,星際一度被稱為韓國的國技。

這次星際爭霸AI大賽的組織者戴夫·邱吉爾(Dave Churchill)總結說,今年的比賽成了兩家巨頭之間的爭奪。

第一名三星賽達,代表頂級人類玩家的經驗總結;第二名Facebook CherryPi,有頂級程式設計師坐鎮,3位頂尖bot作者都在麾下。

目前,三星職業選手組更勝一籌。

這還不是賽達的全部成就。在另一個星際賽事——星際AI錦標賽(SSCAIT)上,它的ELO等級分也排在第一名。

總體來看,它已經是地表最強星際AI了。

我們來認識一下這匹黑馬。

基於規則的復古新秀

這次大賽還是基於星際爭霸:母巢之戰(Starcraft Broodwar)。

賽達使用人族(Terran),以穩定的防守優先戰略開局,到中期過後,它會尋找最佳rush時機,一波強攻擊敗對手拿下比賽。

 SAIDA對戰畫面

和現在主流方法不一樣的是,賽達沒有用機器學習方法。

三星的程式設計師們嘗試了用卷積神經網絡和編碼器-解碼器從遊戲視頻中學習戰鬥時機,也嘗試了用多智能體強化學習算法來控制單位……然後決定,在參賽算法裡不用這些東西了。

這些研究當然也沒有白費,他們把研究結果寫進論文,投稿到了AAAI 2019。哪位朋友見到這篇論文的預印本,歡迎通知我們,和更多量子位讀者分享。

 SAIDA對戰畫面

我們說回參賽版本的賽達,它都是手工編寫的基於規則的算法,一共49702行。

不過,這並不是說它的打法就是一成不變的。它所用的策略不是一開始就預設好的,而是會根據偵查和掃描收集的信息來構建。

除了選擇策略的程序,賽達還包含用來控制單位和建築物的有限狀態機,用來尋找建基地位置或者敵人基地的幾種搜索算法。

那麼,人類程式設計師們是如何給這個算法制定規則的呢?

背後有韓國職業星際選手的幫助。戴夫說,把大賽官方提供的樣本程序UAlbertaBot和專業軟體開發者、韓國職業星際選手放到一起,就有了賽達。

距擊敗頂尖職業選手還有一兩年

賽達的源頭,可以追溯到2017年三星SDS舉辦的算法大賽。

當時的主題剛好是星際。比賽中成績不錯的程式設計師們惺惺相惜,向公司提出要聯手打造一個超級厲害的星際AI。

於是,2018年1月,賽達誕生了。

現在,這個誕生還不到一年的新秀不僅是兩大星際AI賽事的第一名,還已經和人類業餘玩家、職業選手都交過手。人類業餘玩家已經不是它的對手。

雖然賽達目前,暫時,還打不過職業選手,但開發團隊認為「已經不遠了」,內心充滿了希望。

他們說,現在的星際AI已經達到了高端業餘玩家的水平,戰網天梯1800分左右的那種。再有一兩年,就能擊敗戰網3000多分的最強7位職業選手之一。

組織者戴夫對這個展望似乎半信半疑,他說,「I』ll believe that when I see it :)」,「眼見為實」吧。

他們的目標是:成為第一個擊敗人類星際職業選手的AI。

 賽達團隊

上面,就是賽達的8名創造者:Iljoo Yoon、Daehun Jun、Junseung Lee、Hyunjin Choi、Changhyeon Bae、Hyunjae Lee、Yonghyun Jeong、Uk Jo。其中,Changhyeon Bae是這支隊伍的leader。

Facebook進步明顯、B站參賽

下面,說說今年的其他選手。

先看看最終的排名。

 今年的星際AI大賽成績單

第二名CherryPi。

如果你關注過這項賽事,一定不會對這個名字陌生。櫻桃派這個選手,家世顯赫,出自著名的Facebook AI Research團隊,領軍人物是大名鼎鼎的Yann LeCun。

戰隊成員包括:Jonas Gehring, Vegard Mella, Daniel Gant, Zeming Lin, Da Ju, Danielle Rothermel, Nicolas Carion, Nicolas Usunier, Gabriel Synnaeve

去年,CherryPi參賽獲得第六名。

今年,經過一番車輪鏖戰,CherryPi最終奪得亞軍,僅次於三星SAIDA戰隊。要知道去年的冠軍ZZZKBot,今年只獲得第10名的成績。

CherryPi會有8-13個候選策略。每場比賽開始時,它會根據與對手之間的歷史表現,基於具有時間衰減權重的強盜模型,選擇一個策略。(通俗的說,也就是越是最近的比賽,權重越高)

隨著比賽進行,CherryPi會根據當前情況,使用預訓練的模型,使用每種策略估計獲勝的可能性,滿足一些條件的情況下,會切換到勝率最高的策略。

所以,這也是一種來回切換的「混合」策略。

 CherryPi對戰畫面

策略選擇上有幾個基本的要素。一是多樣性,能夠考慮到儘可能多的情況。二是穩健性,以及追求100%的勝率。三是更好的揚長避短。

CherryPi使用了非常多的AI技術,包括:

基於搜索的AI。CherryPi使用了區域級尋路來指揮單位繞過地圖上的障礙,使用威脅感知尋路來風箏或者引導單位脫離戰鬥。

CherryPi也會基於人類數據學習建築擺放的位置,還用了離線強化學習,以及在線學習,也使用了BWEM進行自定義的地圖分析。

與去年相比,現在的CherryPi使用了LSTM模型進行高級策略的選擇,使用部分觀察的遊戲狀態作為輸入;在宏觀管理方面進行了優化,微觀管理也進行了改進。

CherryPi使用了Torch框架,全部的代碼是大約5萬行的C++。

 SAIDA對戰FB另一Bot

從第三名到第八名,有個共同特點:全是神族。

第三名CSE。這是一個中國戰隊。

成員包括:Junge Zhang、Wei Guo、Qiyue Yin、Dong Zhan、Qiwei Wang、Yihui Hu、Shengqi Shen、Kaiqi Huang。

其中第一位應該是中科院自動化所的張俊格,去年他也帶領團隊參加了星際AI大賽,只不過去年他們的AI是CPAC,今年改了名字。

這支戰隊算是「改裝」派打法,他們的AI去年基於Steamhammer bot,而今年則基於Locutus。他們在Locutus的基礎上,做了一些策略和微觀層面的優化。

第四名BlueBlueSky,也基於Locutus,作者是科羅拉多大學的博士生Pengfei Hou。

第五名是正牌的Locutus。在八月的CIG星際AI大賽上,丹麥獨立遊戲AI開發者編寫的Locutus一舉奪魁。(當時ZZZKBot也參賽了,最終排名第七。)

可能正是由於Locutus的成功,今年3-8名的戰隊,全都是使用神族的AI。全部戰隊中,有11支使用了神族,蟲族的熱度有所下降。

其實Locutus是基於Steamhammer改進的,不同之處在於,Steamhammer玩蟲族,而Locutus玩神族。

Steamhammer本尊這次排名第十一。

其他中國戰隊

除了CSE和BlueBlueSky,這屆AIIDE星際AI大賽還有其他的中國團隊參賽。

排名第六的ISAMind,作者Fang Gao,來自中國電子科技集團公司認知與智能實驗室。

排名第七的DaQin,作者Lion Gis,看GitHub的畫風應該也是來自中國:
https://github.com/liongis。

而排名第13位的LastOrder,來自B站(Bilibili AI Research)。LastOrder使用了TensorFlow機器學習框架。

B站這個bot,據說用了1000臺機器進行分布訓練,也被對手認為很有潛力。

One More Thing

雖然「不會學習」的賽達擊敗了各路AI,但有個細節很有意思。

我們注意到,如上圖所示,隨著比賽時間的推移,三星賽達的勝率雖然一直很高,但總體上在輕微但持續的下降。

與此同時,獲得第二名的CherryPi的勝率,在輕微而持續的上升。

儘管星際很難,但對於AI來說,也許未來有一天也能跟圍棋一樣,不用依靠人類的知識,自己成長為一代高手。

最後,給幾個開源地址。

賽達的原始碼目前還沒有放出,不過,GitHub頁面已經有了,誰知道官方什麼時候會補一些除了readme之外的東西呢:
https://github.com/TeamSAIDA/SAIDA

CherryPi的GitHub頁面傳送門:
https://github.com/TorchCraft/TorchCraft

Locutus的GitHub頁面傳送門:
https://github.com/bmnielsen/Locutus/

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

相關焦點

  • 2018 AIIDE星際爭霸AI全球挑戰賽結果出爐!中科院季軍,三星拔得頭籌
    圖源:https://www.cs.mun.ca/~dchurchill/starcraftaicomp/2018/不久之前,2018 AIIDE StarCraft AI 全球挑戰賽結果最終出爐,三星 SAIDA 獲得冠軍,Facebook 團隊開發的 CherryPi 獲得亞軍,中科院自動化所智能系統與工程研究中心的張俊格研究團隊獲得季軍。
  • IJCAI 2018國際廣告算法大賽遷移學習奪冠,中國包攬冠亞季軍
    IJCAI 2018阿里媽媽國際廣告算法大賽上周圓滿結束,有來自50多個國家和地區的6000多名選手組成的5300多支隊伍參賽(有700多名來自國外)。這代表了中國在整個網際網路算法,在大數據、人工智慧相關的研發中已經跟國際同步,甚至有所超前,阿里媽媽副總裁張勤在決賽答辯的致辭中說。目前,各大公司紛紛舉辦算法大賽,提供數據、工具和真實的業務場景,吸引在學術界和工業界的頂尖人才。谷歌收購Kaggle,微軟收購Github,其中一個很大的因素,都在於後者所保有的開發者。
  • 資源 | 2018 AIIDE星際爭霸AI挑戰賽亞軍CherryPi開源TorchCraftAI
    不久前,2018 AIIDE StarCraft AI 挑戰賽順利結束。
  • 谷歌DeepMind《星際爭霸》AI負責人即將來華!人類選手4-0完勝AI恐成絕唱
    Vinyals將在EmTech China全球新興科技峰會(2018年1月28-30日)發表主題演講。但《星際爭霸》則會設置戰爭迷霧,使玩家無法看到戰場全貌,這就要求人類選手或 AI 都必須具備預測戰場態勢和提前制定策略的能力。也正因此,《星際爭霸》被視為 AI 進階的跳板。
  • K'bot Asia 2018大賽凱旋歸來!
    K』bot Asia 2018大賽於8月21日在香港理工大學正式落下了帷幕。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    本系列文章主要介紹機器學習在實踐中的應用,介紹利用 Python 的生態環境,使用機器學習的算法來解決工程實踐中的問題,而不是介紹算法本身。本系列文章參考了《機器學習Python實踐》,會通過例子一步一步地引導大家使用機器學習來處理和分類與回歸模型相關的問題。
  • 【消息】2017星際爭霸AI大賽結果揭曉,中科院自動化所第4,Facebook第6
    星際爭霸AI大賽是加拿大紐芬蘭紀念大學David Churchill組織的年度活動,今年是第八屆比賽。比賽的目的是促進和評估即時戰略遊戲(RTS)對人工智慧的意義。此次大賽選用的版本是《星際爭霸:母巢之戰》。所有參賽的AI Bot(軟體)在16臺虛擬機上,1v1捉對廝殺,為期兩周共進行41580場大戰,按照最終的勝率排定座次。
  • 【賽事推薦】IJCAI-2018阿里媽媽國際廣告算法大賽
    2018年2月,阿里媽媽攜手國際人工智慧聯合會議(IJCAI-18)以及阿里雲天池平臺,共同啟動了「IJCAI 2018-阿里媽媽國際廣告算法大賽
  • 首屆「開悟AI+遊戲高校大賽」啟動,18所名校學霸要教AI打王者榮耀
    本屆大賽依託王者榮耀的遊戲測試環境和開悟平臺提供的算法、脫敏數據、計算平臺等資源,為研究者開放脫敏遊戲數據集及遊戲核心集群,並提供評估工具、計算平臺以及其他研究支持服務,以測試並提升AI在複雜對戰遊戲場景下的多維度決策水平。參賽隊伍需要在指定的時間內,在給定的資源下訓練出最優模型,並最終部署好使用最優模型的AI伺服器,提交系統進行1V1、5V5對局。
  • 常見的機器學習算法,你知道幾個?
    誕生於1956年的人工智慧,由於受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益於數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智慧迎來了大爆發的時代。提到機器學習這個詞時,有些人首先想到的可能是科幻電影裡的機器人。
  • 【星際】兩大戰爭寶箱加持!2018星際2WCS賽事計劃出爐
    WCS年終總決賽直通名額,再加上另外三場WCS巡迴賽(奧斯汀站、瓦倫西亞站、蒙特婁站),今年共有4大分站賽冠軍可以直通年底的全球總決賽。WCS韓國區在韓國,全球星際爭霸II聯賽(GSL)將繼續作為連續第八年最受歡迎的星際2賽事打響。2018年賽程將再次由三個 GSL 賽季,與兩個 GSL 超級賽混合組成。每個 GSL 賽季冠軍將直通年底的全球總決賽。
  • 熱點|啟元AI兩局2:0戰勝中國星際爭霸冠軍,僅用頂級科技巨頭1%算力
    此後多年在海內外的電競大賽中榮獲共11項冠軍,包括2013NSL冠軍,2016年GPL黃金聯賽第二季冠軍等等。最高成就是《星際爭霸I/II》全國總冠軍。另一位選手李培楠(TIME)是個00後,出生於2000年6月,粉絲親切稱呼其為李少,現效力於KaiZiGaming電子競技俱樂部。自古英雄出少年。
  • AI大事件丨Paige.ai斥資將機器學習帶入癌症病理學
    過去的一周中AI圈都發生了什麼?大佬們互撕了哪些問題?研究者們發布了哪些值得一讀的論文?又有哪些開源的代碼和資料庫可以使用了?文摘菌帶你盤點過去一周AI大事件!Lightmatter目標通過光子計算和1100萬美元的資金重新發明人工智慧晶片來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/02/05/lightmatter-aims-to-reinvent-ai-specific-chips-with-photonic-computing-and
  • 不公正的AI算法,正折射出人類的偏見
    "這讓我很不舒服,圍繞這些算法做決定的人都住在大城市,上過研究生,而且不會與和他們身份背景有很大不同的人有什麼來往,"她說。值得注意的是,她的同事中很少有女性或少數族裔。從事技術工作的女性相當稀少是一個有據可查的話題,而且這個狀況幾乎沒有被改善。
  • 星際2職業高手被AI虐了?網友:比國足輸伊朗還慘
    前三局基本都是這樣。TLO說第四局就像換了個AI一樣,打法完全變了,很接近典型神族打法。當然,他又輸了。AlphaStar還用了一個新的多智能體學習算法。這個神經網絡,經過了監督學習和強化學習的訓練。最開始,訓練用的是監督學習,素材來自暴雪發布的匿名人類玩家的遊戲實況。
  • 吳恩達官宣下一步:新推深度學習新課程,繼續培養AI人才
    吳恩達的下一步,將通過deeplearning.ai這個網址,繼續提供一系列深度學習的Coursera課程。Coursera的全新深度學習專項認證,將包括五個課程。這些課程,將由吳恩達和斯坦福研究生Kian Katanforoosh以及Younes Mourr合作教授。課程內容包括神經網絡、反向傳播、卷積網絡、循環網絡以及其他深度學習相關的核心內容。
  • 星際2十周年,這些載入史冊的聯賽我們不會忘記!
    星際2項目上這項賽事的冠軍,可以直通年底的WCS世界總決賽,因此各路豪強對於這個賽事可以說是相當重視。在2019年,IEM迎來了它創立多年以來最燃的一位冠軍——SoO。這位背負著亞軍宿命的選手,在這裡掀翻了去年剛剛奪冠的"主宰"Serral,決賽中用剛猛的正面進攻碾壓了老對手Stats,拿到了他職業生涯當中目前為止唯一一個P級別大賽的冠軍獎盃。這一刻,全世界的星際玩家都在仰望這位傳奇選手的背影。
  • 從700多支隊伍脫穎而出,知乎這個算法大賽冠軍這樣讓大V「謝邀」答題
    昨日,智源-看山杯專家發現算法大賽正式落幕。機器之心帶你走進冠軍算法,揭秘什麼樣的方法能讓系統準確邀請到答題者回答問題。知乎是目前國內最大的知識問答社區。截止 2019 年 1 月,它已經成為一個擁有 2.2 億用戶的平臺。每天平臺上都會產生大量的新提問,但是如此海量的問題往往不會被能夠回答問題的答題者主動發現。
  • 機器學習算法的新女王——XGBoost
    基於樹的算法進化的每一步都可以看作是面試過程的一個版本。決策樹:每個招聘經理都有一套標準,比如教育水平、工作年限、面試表現。決策樹類似於招聘經理根據自己的標準面試應聘者。Bagging:現在想像一下,不是一個面試官,而是一個面試小組,每個面試官都有投票權。Bagging聚合包括通過民主投票過程將所有面試官的意見結合起來,以最終做出決定。
  • ...Tom Mitchell:帶著理性擁抱機器學習的熱潮 | GMIC 2018
    實際上,除了 Michael I.Jordan,還有一位機器學習領域的祖師爺級教授 Tom Mitchell 也來到了 GMIC 2018。會後雷鋒網記者對 Tom Mitchell 教授進行了專訪,教授風度翩翩,語言嚴謹但也非常溫和。