DeepMind全能AI:完全自學規則,攻破多款遊戲,表現碾壓人類!

2020-12-25 新浪科技

來源:環球科學

DeepMind用同一個算法,攻克了西洋棋、將棋、圍棋和雅達利遊戲。動圖來源:DeepMind

開發出人工通用智能,一直是人工智慧研究的一大目標。此前的許多算法雖能精通諸如圍棋、象棋等遊戲,卻無法「觸類旁通」,每遇到新的遊戲都需要更改框架,重新學習,更不用說將棋類遊戲的方法搬到電腦遊戲上了。

然而就在昨天,曾開發AlphaGo的DeepMind公司在《自然》上發文,正式宣布了MuZero:這個新的算法不僅精通圍棋、西洋棋和將棋,還能在30多款雅達利(Atari)遊戲上全面超越過去的人工智慧算法和人類。MuZero的正式發布,為人工智慧領域揭開了新的篇章。

撰文 | 羅丁豪

故事從2014年開始,基於倫敦的DeepMind公司懷著一腔雄心壯志,著手建造一個巨大項目:他們想要將正在生根發芽的人工智慧(artificial intelligence,簡稱AI)技術大面積地應用到人類生活場景中,讓機器與人真正地互動並融合。

他們決定從西洋棋入手:這是一個需要長期計劃能力的人類遊戲,對初出茅廬的AI技術來說是一項嚴峻的挑戰。即使在1997年IBM的「深藍」(Deep Blue)擊敗當時的西洋棋冠軍卡斯帕羅夫之後,棋類AI的發展仍步履維艱。以圍棋(Go,即日語「碁」字之轉寫)為例:2013年,AI在不讓子的情況下幾乎無法擊敗人類職業選手。

2016年,AlphaGo橫空出世,以4:1擊敗韓國選手李世石,並在2017年的烏鎮圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協會當即授予AlphaGo職業圍棋九段的稱號。

如果說AlphaGo的成功確立了AI的「圍棋霸權」,隨後的AlphaGo Zero和AlphaZero則進一步揭示了「棋類霸權」的可能性。作為AI算法,不論是AlphaGo還是其繼位者,都需要大量的訓練。AlphaGo依賴於專家棋法(expert moves)數據集,而AlphaGo Zero捨去了這一步,直接與自己對戰以為訓練提供數據。AlphaZero則除了圍棋,更學會了日本象棋(將棋)和西洋棋。值得一提的是,2018年底發布的AlphaZero,從第一次見到棋盤,到成為世界級棋類大師,只用了24小時。

DeepMind公司在過去幾年中陸續開發了AlphaGo、AlphaGo Zero、AlphaZero和MuZero。圖片來源:DeepMind,翻譯製圖:羅丁豪

然後,MuZero來了。一篇昨晚正式發表於《自然》的論文,揭示了一個更加通用、強力的算法:MuZero不僅能下圍棋、將棋和西洋棋,還在30多款雅達利遊戲中展示出了超人類表現(superhuman performance)。

最重要的是,沒人教過MuZero這些遊戲的規則。

無師自通

自古以來,哲學家和科學家都幻想著有朝一日能造出「人工通用智能」(artificial general intelligence)。簡單地說,人工通用智能需要有極高的可塑性(flexibility),從而適應(甚至精通)各式不同的任務:一個能下棋、玩遊戲、做家務、開飛機的AI。然而在此之前,最好的AI算法也只能精通數個同類任務;會下圍棋、將棋和西洋棋的AlphaZero就是一個例子。

這種限制,在很大程度上來自AI算法對規則的依賴性。要想讓AlphaZero下好各種棋,人類需要明確地教它各種棋的規則。以西洋棋為例,AlphaZero知道象只能斜著走,還不能跨過障礙物,而馬可以跨過障礙物,但需要走「日」字。AlphaZero也知道什麼是輸贏和平局。可是一旦更換棋種,人類就需要將新棋種的規則從頭教給AlphaZero。

AlphaZero(簡稱AZ)對戰各個此前最強的棋類AI。圖片來源:DeepMind,翻譯製圖:羅丁豪

既然這種依賴性限制了目前AI算法的應用範圍,那最簡單的解決方案,就是去除這種依賴性:人類可以不教AI下棋,只給它一個棋盤。每當AI選擇了下一步該如何走時,人類才告訴它這一步合不合法,並且是否導致了輸贏或平局。

——這就是MuZero面臨的情境。對於任何一個遊戲或任務,MuZero所掌握的只有一套「思考方式」,並沒有該任務的「行為準則」。它不知道西洋棋裡的馬該怎麼走,也不知道將棋中如何達成「王手」。如同第一次見到電腦的小孩,MuZero具有作出推理論斷的「思維工具」,但不知道如何才能贏得「掃雷」。

跟人類一樣,MuZero的秘訣,在於摸著石頭過河,為外部世界建立一個只屬於自己的「模型」(internal model)。在這個內部模型中,MuZero捨棄了一切表面上的規則,只留下對決策有用的信息:價值(value,即當前決策「有多好」)、策略(policy,即最好的「下一步」是什麼)和獎勵(reward,即上一步「有多好」)。

MuZero能為外部世界建立模型,從而指導自己在不同任務中的策略。圖片來源:Connor Shorten,翻譯製圖:羅丁豪

要明白這種策略的特殊和有效性,我們可以拿MuZero和AlphaZero的神經網絡作對比:

任何深度學習算法在面對棋盤時,第一步總是觀察。AlphaZero能觀察當前棋局(),並直接利用計劃未來的棋步。這要多虧了它所知道的棋類規則:它明白做出一個動作(action)後的下一個棋局長什麼樣,並可以在下一個棋局的基礎上繼續規劃棋路,「想像」並評估各種不同的可能性。這樣的規劃方式,在深度學習上稱為「蒙特卡洛樹搜索」(Monte Carlo tree search,MCTS)。MCTS允許算法探索不同的可能性,並從中擇出最優的動作。因此,熟知規則的AlphaZero要想精通棋類,只需要一個「神經網絡」(neural network),即「預測網絡」(prediction network),給輸入一個狀態,它就能給出這個狀態的價值()和潛在策略();通過評估各個可能性,AlphaZero就能得知當前最好的棋步。

MuZero則沒有這種「奢華待遇」:它需要摸索出棋盤上各個子的合法(legal)走法,還需要弄清輸贏的概念;當然,它的目標與AlphaZero一樣,贏就好了,越多越好。但在不清楚規則的情況下,MuZero需要另闢蹊徑,利用「表徵網絡」(representation network),將觀察到的棋盤狀態轉換成只屬於自己的隱藏狀態(hidden state)。我們將當前的棋盤狀態稱為「O」(observation,即觀察),MuZero的當前隱藏狀態稱為。但這時,MuZero遇到了第二個大難題:如何像AlphaZero一樣評估未來的各種可能性呢?

不像AlphaZero,不知道棋盤規則的MuZero不能預測棋盤的各種可能狀態,因此,MuZero需要從零開始,創造自己對棋路的內部模型。幸運的是,有了隱藏狀態之後,MuZero就能算出狀態下可以做出的各種行動(經過學習,MuZero得出的可能行動會越來越符合規則),並能通過「動態網絡」(dynamic network),利用MuZero選擇的行動和當前潛在狀態,推演出。在每一個真實世界的時間點內,MuZero都能利用自己的內部模型和MCTS選擇出這一個時間點的最佳行為,並將其應用於真實世界中。在實際做出了一個最佳行為後,這個行為又能再「回收」,用於訓練動態網絡(從而改進MuZero的內部模型)。

AlphaZero和MuZero MCTS方法的並列對比。熟知規則的AlphaZero能由一個真實狀態和可能行為,推測下一個真實狀態。而MuZero由於不知道遊戲規則,只能將真實狀態表徵為隱藏狀態,學會建立自己的內在模型。製圖:羅丁豪

也就是說,由於AlphaZero對規則的掌握,它只需要一個預測網絡就能精通棋類。而不能預先知曉規則的MuZero,則需要利用動態網絡和表徵網絡,自己學習並建立一個內在模型,從而學會下棋。在建立內在模型的過程中,人類不會給MuZero設置任何限制:MuZero可以捨棄任何信息,只保留有用的元素(即價值、策略和獎勵)。

相比於只需要1個神經網絡的AlphaZero,MuZero需要3個神經網絡來建立內部模型,從而指導精確規劃。製圖:羅丁豪

與人類一樣,MuZero可以在它的「腦海」中創造任何規則和動態。它的目標是做出最精確、最有效的未來規劃。捨棄了「循規蹈矩」的MuZero反而因此獲得了極強的可塑性,在截然不同的棋類和電腦遊戲中都「得心應手」。

「超人」表現?

就這樣,MuZero這樣一個「無師自通」的算法,竟然在AlphaZero引以為傲的棋類遊戲中輕鬆與後者打成了平手。

在西洋棋、將棋和圍棋中,MuZero的表現(藍線)達到甚至超過了AlphaZero(橙線)。而在雅達利遊戲「吃豆人小姐」中,MuZero的表現(藍線)遠超此前表現最佳的R2D2算法得分(橙線)。圖片來源:Schrittwieser et al。, Nature,翻譯製圖:羅丁豪

在西洋棋、將棋和圍棋中,MuZero都能達到AlphaZero的水平,甚至在圍棋中稍稍勝過了AlphaZero。這表明MuZero「自學成才」建立的內部模型,或許比AlphaZero的「循規蹈矩」更接近圍棋的要義。在雅達利遊戲中,MuZero的表現也非同尋常。以「吃豆人小姐」(Ms。 Pac-Man)為例,MuZero的得分為243401。10,相比之下,人類的最高分只有6951.60,是MuZero的1/35。在57個測試用的雅達利遊戲中,MuZero在37個中取得了歷史最高分,而人類則僅在5個遊戲中保持著最佳成績。

但是,在利用AlphaZero和其他算法攻破了這些遊戲後,反而對MuZero隱藏起規則,讓它「閉上眼」下棋、「背著手」玩遊戲的目的是什麼呢?

正如本文開頭所說,DeepMind和整個AI領域一樣,並不在乎西洋棋和雅達利遊戲本身。這是一場事關智能的徵途,目標是理解智能本身。牙牙學語的嬰兒並不明白動名詞的區別,卻能在短短幾個月內連詞成句,甚至創造出只屬於他們的句子。生物學家也並非生來就知曉細胞的各種秘密,而是在實驗和失敗中,一步步對生物世界建立了理論和模型,從而獲得深刻洞見。

事實很殘酷:循規蹈矩不是智能。事先熟知規則再精通下棋,與先摸索規則、建立內部模型再精通棋路是全然不同的。前者只能困於「棋」中,後者則能將一套「思考方式」搬到各種任務上。前者的例子包括AlphaGo到AlphaZero的各種棋類AI,後者則包括MuZero和于爾根·施密德胡波(Jürgen Schmidhuber)著名的「循環世界模型」(Recurrent World Model)。

為外界建立內部表徵是人類最引以為傲的能力之一。如今在AI身上,這個能力再次證明了自己的價值。MuZero不僅讓人類看到了創造人工通用智能的可能性,還為我們打開了一扇通往智能本身的大門:

智能究竟是什麼?我們離答案似乎越來越近。

相關焦點

  • DM最新全能AI:完全自學規則,表現碾壓人類!
    此前的許多算法雖能精通諸如圍棋、象棋等遊戲,卻無法「觸類旁通」,每遇到新的遊戲都需要更改框架,重新學習,更不用說將棋類遊戲的方法搬到電腦遊戲上了。然而就在昨天,曾開發AlphaGo的DeepMind公司在《自然》上發文,正式宣布了MuZero:這個新的算法不僅精通圍棋、西洋棋和將棋,還能在30多款雅達利(Atari)遊戲上全面超越過去的人工智慧算法和人類。
  • DeepMind制霸《雷神之錘3》!碾壓人類的超級多智能體這樣訓練
    AI智能體在遊戲中,無論是跟同類打配合,還是跟人類組團,完全天衣無縫,表現的不像個機器人。DeepMind的科學家已經在籌劃將奪旗中的方法,應用在雷神之錘3的全部遊戲模式中。越是簡單的規則,越能衍生出多種多樣的玩法,在人類來說是增加了趣味性,在多智能體來講就是增加了難度。為了繼續刁難多智能體,遊戲地圖被設置成每局一換,以防止多智能體靠著優於人類的記憶來獲得地利優勢。
  • 人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    機器之心報導機器之心編輯部讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。
  • DeepMind 第四代:不學規則就能下棋玩遊戲
    近日,谷歌 DeepMind 人工智慧已進化到第四代,名為 MuZero,最突出的能力是無需提前學習規則就可以下棋玩遊戲。
  • DeepMind升級版MuZero:無需告知規則,觀察學習時即可掌握遊戲
    在象棋和圍棋比賽中,都是為AI提供了一組不變的、已知的遊戲規則,但MuZero完全不需要提供規則手冊,通過自己試驗,就學會了象棋圍棋遊戲和各種Atari遊戲,其通過考慮遊戲環境的各個方面來評估是否重要,並可通過復盤遊戲在自身錯誤中學習。
  • 星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」進化神速
    「這種情況在同水平人類對局中完全不會出現,」MaNa 在演講中無奈地說道。最終 MaNa 也以 0-5 的成績敗北,人類與 AlphaStar 的 10 局比賽結果全是失敗。當時,DeepMind 研究科學家 Oriol Vinyals 在暴雪嘉年華現場透露 Deepmind 與星際爭霸 2 緊密合作的最新進展及未來的計劃。在 AlphaGo 在 2017 年圍棋大獲全勝之後,DeepMind 開始對外宣布,團隊正在著手讓人工智慧徵服星際爭霸 2,這款遊戲對人工智慧在處理複雜任務上的成功提出了"重大挑戰"。
  • 碾壓人類!Deepmind改寫圍棋定式開玩星際2!
    然後,Deepmind宣布與暴雪聯合弄出了機器學習打星際的API,連遊戲也要淪陷了……需要點圍棋基礎知識在理解本文之前,我們需要鋪墊一些基礎知識。關於圍棋基本規則的,大家可以通過網上的幾分鐘教學視頻大致了解一下,簡單來說,就是無氣要被提子,兩個眼才是活期。那麼什麼是定式呢?定式的落子位置、方向、次序不能錯定式這個詞起源於中國古代。
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    星際爭霸 AI 背景自以圍棋為代表的完全信息博弈/遊戲被 AlphaGo 攻克、取得超出人類頂尖棋手的水平之後,研究人員們立刻向非完全信息博弈發起更加猛烈的進攻。典型的非完全信息博弈比如德州撲克,玩家需要在看不到對手的牌面的狀況下做出決策,CMU 的德撲 AI 論文也拿到了 NIPS 2017 的最佳論文獎。
  • 【DOTA之後新裡程碑】DeepMind強化學習重大突破:AI在多人射擊遊戲完勝人類!
    :首次在第一人稱射擊遊戲的多人模式中完勝人類,而且沒有使用大量訓練局數,輕鬆超過了人類水平。CEO Hassabis在Twitter上分享:「我們最新的工作展示了智能體在複雜的第一人稱多人遊戲中達到人類水平,還能與人類玩家合作!」
  • DeepMind 和暴雪聯合官宣,邀大家看一場 AI 打《星際爭霸 II》的...
    《星際爭霸 II》,並在 11 月份一年一度的 Blizzcon 上宣布與著名遊戲公司暴雪達成協議,共同合作《星際爭霸》系列遊戲,至此算是定下了 DeepMind 與《星際爭霸 II》這長達 2 年多的淵源。
  • DeepMind揭露新一代AI系統MuZero:不知遊戲規則也能有效規畫行動
    款Atari遊戲,且性能大幅超越了現有最佳的DQN、R2D2與Agent57系統,可望用來解決現實生活中,規則太複雜或完全不知規則的各式難題。比較DeepMind的幾代產品,2016年的AlphaGo是透過已知的規則、圍棋領域的知識,再加上人類數據訓練而成,讓它擊敗了全球的圍棋好手;2017年的AlphaGo Zero,則是僅利用已知規則,自我學習而達到與AlphaGo同樣的境界;2018年的AlphaZero也是僅基於已知規則,但把挑戰範圍從圍棋擴大到西洋棋與將棋,便能同時精通這3項棋戲;而最新的
  • DeepMind最新AI產品MuZero可以在不知道規則情況下掌握遊戲
    【TechWeb】12月24日消息,據國外媒體報導,Alphabet旗下專注於人工智慧的子公司DeepMind最新的人工智慧產品MuZero可以在不知道規則的情況下掌握遊戲。DeepMind的使命是向人們展示,人工智慧不僅能夠真正精通遊戲,甚至在不需要被告知遊戲規則的情況下也能做到這一點。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」
  • DeepMind開源強化學習遊戲框架,25款線上遊戲等你來挑戰
    選自GitHub機器之心編譯參與:一鳴、思強化學習算法沒有遊戲訓練?DeepMind 開源 OpenSpiel 平臺了。研究者可在線部署遊戲環境,快速開始實驗。強化學習算法廣為人知的一個應用場景便是遊戲了,通過智能體在多玩家遊戲中的表現,研究者可以更好地調整算法和參數細節,實現更好的算法性能。
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    這是一個複雜的多智能體環境,也是第一人稱多玩家的經典三維遊戲之一。這些智能體成功地與 AI 隊友和人類隊友協作,表現出了很高的性能,即使在訓練時其反應時間,表現也與人類相當。此外,我們還展示了如何能夠成功地將這些方法從研究 CTF 環境中擴展到完整的「Quake III Arena」遊戲中。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    訓練AI模型參與複雜遊戲已經不是新鮮事。早在2016年,DeepMind研發的AlphaGo就曾在圍棋對弈中擊敗韓國國手李世石。近些年來,還有一些研究用西洋棋、撲克等遊戲訓練AI模型。現有研究中用到的圍棋、西洋棋、撲克等遊戲都是雙人參與的零和博弈遊戲。在現實中,人類往往通過更多人的協作完成任務。
  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    沒錯,就是AI用來掌握圍棋和星際爭霸2等遊戲的技術之一。最簡單的說,強化學習是一種獎勵,它可以強化讓它有所得的行為。這需要了解當前的行動如何導致未來的回報。例如,一條狗可能會學習命令「 坐」,因為當它這樣做時會得到獎勵。以前,AI和神經科學中的強化學習模型都專注於學習以預測「平均」的未來回報。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    其中一位創始人提到,他們相信,當一個程序可以玩各種不同的遊戲時,就可以達到人類水平的人工智慧。 他們的策略得到科學研究的支持,這些科學研究證明,像象棋這樣的遊戲可以提高戰略思維能力。通過學習如何玩這些複雜的遊戲,機器將獲得思考和採取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過遊戲化學習,嘗試獲得類人的智力和行為。
  • DeepMind的最新AI可以在不知道規則的情況下贏得遊戲
    現在,DeepMind團隊設法建立了一種首創的算法,即使AI不知道該遊戲的規則,它也可以使AI贏得遊戲。今年早些時候,我們看到DeepMind創建了可以在57種Atari 2600遊戲中擊敗任何人的AI。儘管如此,仍然需要通過觀看Atari遊戲的遊戲視頻來進行自我訓練。
  • ICLR 2018 DeepMind論文精華一覽
    更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front) 我們的研究結果表明,D4PG 算法在各種簡單的控制任務、困難的操作任務以及一組基於障礙物的運動任務中表現出了最先進的性能。作者:Yan Wu,Greg Wayne,Alex Graves,Timothy Lillicrap我們提供了一個端到端的記憶系統,能夠快速適應新數據並生成與它們相類似的樣本。記憶是可追蹤的,可通過貝葉斯更新規則實現最佳的在線壓縮。