DeepMind讓AI組隊踢足球學會「合作」,並開源訓練環境

2021-01-09 大數據文摘

大數據文摘編輯部出品

從足球競技到戰爭,團隊合作一直被認為是人類社會進步的基石。基於長遠的共同目標,弱化甚至犧牲個人利益,促成了人類作為共同體的最大利益。

DeepMind也正嘗試讓人工智慧學會這一點,並且選擇了最有可能顯示團隊合作的考核方式——足球比賽。

今天凌晨,DeepMind發布了最新研究:證明了在足球環境下,一種基於分布式代理的連續控制培訓框架,結合獎勵渠道的自動優化,可以實現多智能體端到端的學習。

簡單來說就是,DeepMind設置了環境,讓多個AI一起踢足球賽。並且提前設置了規則,獎勵整隻「足球隊」而不去鼓勵某個"AI球員」的個人成績,以促成整個球隊的進步。用這種方式證明了,AI也是可以相互合作的!

先附上論文連結:

https://arxiv.org/pdf/1902.07151.pdf

這篇論文被ICLP 2019收錄。

通過競爭,實現緊急協調的多方協作

多智能體通過協作,完成團隊最優目標並不是一個陌生的話題,去年,OpenAI就曾發布了由五個神經網絡組成的DOTA團戰AI團隊——OpenAI Five(超連結),並在5v5中擊敗了頂級人類玩家團隊。比賽中,OpenAI Five也展示了,在勝利是以摧毀防禦塔為前提的遊戲中,犧牲「小兵」利益是可以被接受的,也就是說,AI是可以朝著長期目標進行優化的。

DeepMind的最新研究進一步專注於多智能體(multi-agent)這一領域。

他們組織了無數場2v2的AI足球比賽,並設定了規則,一旦有一方得分或者比賽超過45秒,比賽就結束。

DeepMind稱,通過去中心化的、基於群體的訓練可以使得代理人的行為不斷發展:從隨機,簡單的追球,到最後的簡單「合作」。他們的研究還強調了在連續控制的大規模多智能體訓練中遇到的幾個挑戰。

值得一提的是,DeepMind通過設置自動優化的簡單獎勵,不鼓勵個體,而去鼓勵合作行為和團隊整體的成績,可以促成長期的團隊行為。

在研究中通過引入一種「基於單獨折扣因子來形成自動優化獎勵的思想」,可以幫助他們的代理從一種短視的訓練方式,過渡到一種長時間但更傾向於團隊合作的訓練模式當中。

DeepMind也進一步提出了一個以博弈論原理為基礎的評估方案,可以在沒有預定義的評估任務或人類基線的情況下評估代理的表現。

具體思想

將足球比賽看做一個多智能體強化學習(MARL)的過程,模擬一個可交互的環境,智能主體通過學習與環境互動,然後優化自己累計獎勵。MARL的主題思想是協作或競爭,亦或兩者皆有。選擇什麼樣的行為,完全取決於「報酬獎勵」的設置。MARL的目標是典型的馬爾科夫完美均衡。大致意思是尋找隨機博弈中達到均衡條件的混合策略集合。

具體意思是:博弈參與者的行動策略有馬爾科夫特點,這意味著每個玩家的下一個動作是根據另一個玩家的最後一個動作來預測的,而不是根據先前的行動歷史來預測的。馬爾科夫完美均衡是:基於這些玩家的動作尋找動態均衡。

DeepMind在github上發布了他們使用的MuJoCo Soccer環境,這是一個競爭協作多智能體交互的開源研究平臺,在機器學習社區已經得到了相當廣泛的使用。

github地址:

https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer

評估

相關比賽視頻連結:

https://youtu.be/wPtF_ygW2ss

為了有效地評估學習團隊,DeepMind選擇優化評估方法,所選團隊都是以前由不同評估方法產生的10個團隊,每個團隊擁有250億次的學習經驗。他們在10個團隊中收集了一百萬種比賽情況。

上圖顯示了支持團隊的3個智能體顯示的成對預期目標差異。納什均衡要求3個團隊的權重都是非零的,這些團隊協作展示了具有非傳遞性能的不同策略,這是評估方案中並不存在的:團隊A在59.7%的比賽中贏得或打平團隊B; 團隊B在71.1%的比賽中贏得或打平團隊C,團隊C在65.3%的比賽中贏得或打平團隊A.,他們展示了團隊A,B和C之間的示例比賽的記錄,可以定性地量化其策略的多樣性。

在上圖中,DeepMind展示了代理行為的典型軌跡:在5B步驟中,當代理更個性化地行動時,我們觀察到無論blue1的位置如何,blue0總是試圖自己運球。但在訓練的後期,blue0則積極尋求團隊合作,其行為呈現出由其隊友驅動的特點,顯示出高水平的協調精神。特別是在「8e10_left」這一場比賽中中,DeepMind稱他們觀察到了兩次連續傳球(blue0到blue1和後衛),這是在人類足球比賽中經常出現的2對1撞牆式配合。

未來研究

DeepMind此項研究意義重大,將2v2足球領域引入多智能體協作是以前沒有過的研究,通過強化學習研究,利用競爭與合作來訓練獨立智能個體,展示了團隊的協調行為。

這篇論文也證明了一種基於連續控制的分布式集群訓練框架,可以結合獎勵路逕自動優化,因此,在這種環境下可以進行進行端到端的學習。

其引入了一種思想,將獎勵方向從單策略行為轉變為長期團隊合作。引入了一種新的反事實政策評估來分析主題策略行為。評估強調了匹配結果中的非傳遞性和對穩健性的實際需求。

DeepMind開源的訓練環境可以作為多智能體研究的平臺,也可以根據需要擴展到更複雜的智能體行為研究,這為未來的研究打下堅實的基礎。

相關焦點

  • DeepMind、哈佛造出 AI「小白鼠」,窺探神經網絡的奧秘
    這一虛擬小鼠將作為「dm_control/locomotion/」項目的一部分來開源。 項目地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    近日,DeepMind開源了一個「費米網絡」(FermiNet),用來求解分子的電子行為,在30個電子的有機分子上也達到了很高的精度。文章結果發表在期刊Physical Review Research上。為什麼叫費米網絡在量子力學中,電子沒有精確的位置,我們只能從波函數預測電子在空間中出現的概率,也就是電子云。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    近日,DeepMind宣布與其合作,幫助Google Maps變得更準確。你是不是也經歷過這樣的故事?但是,每個超級路段都需要單獨訓練神經網絡模型。要想實現大規模部署,則必須訓練數百萬個這樣的模型,這就對基礎設施構成了巨大的挑戰。因此,該團隊開始研究能夠處理可變長度序列的模型,例如循環神經網絡(RNN)。但是,向 RNN 添加來自道路網絡的結構也不是容易的事。
  • 現在,你可以親手調教一個AI,帶它攻陷《星際爭霸2》了!
    AlphaGo的親爹deepmind和暴雪聯手開發了個新的接口,可以訓練AI打《星際爭霸2》了。2. AlphaGo能來得了這個麼?不能,打遊戲比下棋複雜多多多了。3. 這接口分兩個部分,一個是暴雪給AI定做的訓練場,可以讓AI以人類視角進入遊戲;另一個是deepmind打造的「通關攻略」,可以調教AI逐漸變強。
  • Deepmind AI在《星際爭霸2》血虐99.8%人類,登頂宗師段位
    比如說這張圖,電腦終於學會藏基地這種人類基本操作,玩家露出了欣慰的姨母笑。就像是一個人下象棋的同時還要踢足球。你需要高度集中的注意力、超人般的手指和胳膊、以及超出常人的戰略頭腦。」
  • AI打星際2即將直播,DeepMind暴雪發出神秘預告
    大家也可以一起來猜一猜,下面是他列出的選項:AI打星際2難在哪裡2016年11月暴雪嘉年華上,DeepMind工程師宣布了訓練AI打星際2的計劃。算起來到現在已經兩年多了。DeepMind與暴雪合作的目標之一,就是開發一套足夠好的人工智慧系統,使之可以擊敗星際2人類選手。就像AlphaGo擊敗李世乭、柯潔一樣。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • Facebook放出十萬個Deepfakes視頻來訓練AI識別它們
    排名前五的參賽模型沒有學習司法鑑定技術(比如在Deepfake生成過程留下的視頻像素中尋找數字指紋),而是似乎已經學會了辨別什麼東西看起來「不對勁」,就像人類一樣。為了做到這一點,獲獎者都使用了谷歌研究人員去年開發的一種名為「效率網(EfficientNets)」的新型卷積神經網絡(CNN, convolutional neural network)。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元(按現代標準,計算能力適中)上運行,這種訓練需要數周時間。
  • 50年難遇AI「諾獎級」裡程碑:DeepMind攻破生物學界重大難題
    為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元(按現代標準,計算能力適中)上運行,這種訓練需要數周時間。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 還與谷歌團隊合作為現實世界帶來影響。我們的團隊參與了許多項目,包括提高風力發電的可預測性、促進塞倫蓋蒂的生態研究等。」儘管虧損略有上升,但 DeepMind 2019 年的收入達到 2.66 億英鎊(約合 3.6 億美元),相比 2018 年的 1.03 億英鎊(約合 1.4 億美元)增長了 158%。
  • DeepMind 提出壓縮 Transformer,並開源書本級數據集PG-19
    論文連結:https://arxiv.org/pdf/1911.05507.pdfPG-19開源連結:https://github.com/deepmind/pg19在過去二十年的時間裡,人工神經網絡在記憶這一方面有了長足的進展。
  • 靠聯合學習打造多款醫療AI,AI Labs更開源自家框架力推
    另外,也涉足精準醫療,打造能進行30億個鹼基的基因測序分析平臺,去年更加入英國國家基因研究計劃Genetic England,要推動跨國基因AI分析合作。然而,AI Labs既非握有醫療數據的醫院,在嚴格的個人信息保護法規下,就靠聯合學習來訓練模型。
  • 2019 年 1 月 AI 最佳網文榜單最新出爐!
    如果大家想要跟著這些教程進行實際操作,建議準備好一個 Python 環境。首先不妨來看一個本月的笑話:「當收到的大部分正面反饋都是挖苦的時,研究人員很難對深度學習算法進行訓練。」1.當 AI 在繪畫時,它在想什麼?
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • 受啟於做夢,DeepMind 提出壓縮 Transformer,並開源書本級數據集PG...
    論文連結:https://arxiv.org/pdf/1911.05507.pdfPG-19開源連結:https://github.com/deepmind/pg19在過去二十年的時間裡,人工神經網絡在記憶這一方面有了長足的進展。
  • AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger
    論文中,研究人員用中文、英文、粵語三種語言進行了試驗,並用訓練後得出的不同音色演唱了這首《Far Away Of Home》。可以先點擊下方連結,聽一下演唱效果:如上文所說,歌曲的韻律和環境比語音更具複雜性,因此,SVS相比於TTS的研究也更有挑戰性。研究人員介紹,此次生成多種語言風格的歌聲合成系統DeepSinger,採用了一種含多個數據挖掘和數據建模步驟的研究路徑,優化了現有研究的很多困境。這個路徑可以分為以下五個步驟:
  • 機器學習新聞綜述:2019年AI領域不得不看的6篇文章
    此外,我們還將簡要介紹一些有意思的人工智慧應用程式,幾款2019年發布的遊戲,以及一些機器學習項目的開源數據集資源。美國眾議院就深度偽造(Deepfake)的風險舉行聽證會文章連結:https://lionbridge.ai/articles/deepfakes-a-threat-to-individuals-and-national-security/深度偽造(Deepfake)是2019年最大的機器學習主題之一。
  • AI戰「疫」:百度開源業界首個口罩人臉檢測及分類模型
    百度表示,如此高的準確率是大量數據訓練的結果,新模型採用了超過十萬張圖片的訓練數據,確保樣本量足夠且有效。另一方面,人臉檢測模型基於百度自研的冠軍算法,整個研發過程都是基於百度開源的飛槳深度學習平臺,能夠進行高效、便捷的模型開發、訓練、部署。
  • 『燒錢機器』DeepMind持續多年虧損後,仍無商業...
    其公司CEO兼聯合創始人創始人德米斯•哈薩比斯(Demis Hassabis)曾公自傲的宣稱:「DeepMind組建了一支由機器學習專家,神經科學家,工程師,倫理學家等組成的世界級跨學科團隊,創造了一個獨特的環境。我們將繼續投資前沿技術研發,期待未來能為科學界帶來更多突破。