從電玩到圍棋 不懂規則也精通 DeepMind公布新AI技術

2020-12-27 網易

  2016年,AlphaGo戰勝韓國棋王李世乭,向全世界宣示了AI在遊戲領域的強悍實力。如今DeepMind又更上一層樓,向公眾介紹不必知曉規則,也能精通各式遊戲的AI模型MuZero,並有望用於降低YouTube的運營成本。

  MuZero懂得遊玩數十款雅達利(Atari)電玩遊戲、西洋棋、圍棋及日本將棋,不過與它的前輩不同的是,以往沒有一款AI能夠同時精通電玩與棋盤類遊戲,且即使不告知它遊戲規則,也能在過程中自行領悟。

  DeepMind曾於2019年首度披露MuZero的存在,但直到本周才正式於《自然》期刊上,發布論文介紹這項AI技術的細節。DeepMind指出,MuZero在各式遊戲中都有頂尖表現,並展現出對未知環境的掌握能力。

  懂得自行學習遊戲規則,MuZero能以有限信息做出最佳決策

  「我們只是告訴系統說,用你自己構建的認知,去了解這個世界怎麼運行。」DeepMind計算機科學家大衛.希弗(David Silver)表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」

  根據DeepMind披露的信息,MuZero的運行方式是為它所遊玩的遊戲創建一個模型,然後依照模型規劃出遊戲中最好的策略、下一步,然後通過遊玩不斷優化這個模型。

  MuZero的設計理念是考慮到現實應用環境,算法不必全盤了解所有規範、準則,並創建一個100%準確的模型,而是需要在有限的信息下,達到「夠用」的程度。

  

  與前輩AlphaGo、AlphaZero相比,MuZero能夠在沒被告知遊戲規則的情況下,精通各式遊戲。

  例如,在瞬息萬變的電玩遊戲中,AI沒有充足時間解析所有可能性,但在小精靈這類遊戲中,即使只從6、7種選擇中找出最佳路徑,MuZero依舊能取得非常好的成績;而在下圍棋時,MuZero也能以較少的運算量,達到比AlphaZero更好的結果。

  DeepMind解釋,具體來說MuZero會對依照三種環境要素創建模型,一是當前位置、狀況的好壞,二是最好的下一步是什麼,三是最後的結果如何。如同搭建一幅樹狀圖般,AI利用深度學習理解各個行動最後會有怎樣的結果。

  

  MuZero有辦法從數個可能選項中,找出最好的下一步怎麼走。

  希弗指出,「現實世界非常複雜混亂,沒有一本手冊告訴我們他是怎麼運行的,但人類卻可以規劃出接下來該怎麼做。」若以DeepMind的舉例來說,當看到烏雲密布的天空,預測有下雨的可能性,就會決定攜帶雨傘出門。

  「這是我們首次擁有一個有辦法創建自己對世界的見解,據此做出複雜前瞻性決策的系統。」希弗提到,「(AI)可以從完全沒有先備知識的條件下開始,經由反覆測試學習世界規則,並展現出超越人類的表現。」

  壓縮視頻比當代技術更厲害,MuZero有望用於降低YouTube運營成本

  由於是如此突破性的AI技術,DeepMind也持續尋找它適合擔綱的工作,目前表現最好的是視頻壓縮,用類似MuZero的算法實驗後發現,它的表現比以往最好的壓縮法節省5%網絡流量。

  希弗解釋,網絡上資料流量絕大部分是由視頻貢獻,倘若能夠有效壓縮視頻,便可縮減經營成本。根據思科的資料,預估到2022年時,視頻將佔據全球82%的網絡流量。

  英國媒體《BBC》指出,MuZero找到的新視頻壓縮方式,也有望用於降低YouTube的運營成本,不過DeepMind暫時不願透露Google何時會利用這項技術,僅聲稱明年會有更多細節公布。

  

  視頻已佔據全球網絡流量的大多數,《BBC》認為,YouTube有望利用MuZero的壓縮視頻技術,節省運營成本。

  不單用於視頻壓縮上潛力無窮,MuZero也被認為有助於打造虛擬管家、機器人,甚至強化前陣子DeepMind宣布取得突破性進展的蛋白質摺疊預測能力。

  DeepMind一直渴望利用AI對世界做出貢獻,MuZero能夠依照有限信息做出最佳判斷的能力,是AI走出屏幕進入現實的重要裡程碑。就如他們提到的,「知道撐傘能讓你免於淋溼,比分析空氣中的雨滴模型更有價值。」

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    相對於圍棋、西洋棋、日本將棋,Atari遊戲的規則與動態變化未知且複雜。  Atari遊戲是用於測試人工智慧技術的規範視頻遊戲環境,其中,此前基於模型的規劃方法均無效。而在圍棋、西洋棋和日本將棋(用於評估高性能計劃的典型環境)上進行評估時, MuZero算法在無需任何遊戲動態的相關知識,就能與遊戲規則完全匹配。
  • DeepMind揭露新一代AI系統MuZero:不知遊戲規則也能有效規畫行動
    圖片來源: DeepMindAlphabet旗下的人工智慧子公司DeepMind,繼發表了圍棋AI系統AlphaGo,以及同時精通圍棋、西洋棋與將棋的AlphaZero之後,,它能夠在完全不知規則的情況下,熟悉圍棋、西洋棋、將棋,以及57
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。端到端的訓練如此強大的AlphaFold 2系統,不免讓人好奇,它是如何訓練出來的呢?首先,研究人員把摺疊的蛋白質認為是一個「空間圖」,其中殘基是節點,邊緣連接著非常接近的殘基。之後,建立了一個基於注意力機制的神經網絡系統,端到端進行了訓練。
  • DeepMind論文不應帶有錯誤引導成份
    因為它比真正的AlphaGo Zero 弱得多很不幸,網上不少沒有看原文細節的人都以為 AlphaZero 是打敗了真正 AlphaGo Zero   阿嘟昨天睡前困地沒仔細看文章就被那幾張圖表給震驚到了。不過新論文還是說明了DeepMind不論在圍棋還是其他封閉體系的棋藝競技中,深度學習的研究達到一個劃時代的成就。
  • AI打星際2即將直播,DeepMind暴雪發出神秘預告
    也不乏有好事者評論道,它跟OpenAI打Dota的AI相比怎麼樣?算起來到現在已經兩年多了。DeepMind與暴雪合作的目標之一,就是開發一套足夠好的人工智慧系統,使之可以擊敗星際2人類選手。就像AlphaGo擊敗李世乭、柯潔一樣。然而,最終的目標是將其中使用的技術應用到現實世界,而不是讓它始終停留在遊戲裡面。「我們正在試圖理解人類以及我們大腦的工作方式。」
  • 教AI打星際2也不難,試試暴雪和DeepMind的工具包 | 附論文+代碼
    星際2是個實用的基礎AI研究環境,因為遊戲本身複雜多變,且勝利方式不固定。玩家想要取勝需要同時做多手準備,比如管理並創造資源、指揮軍事單位和部署防禦結構等操作需要同時進行,逐步完成。此外,玩家還需預測對手的策略。這項任務確實不容易,但不是無解。
  • 新的一年,DeepMind準備讓AI學會「放煙花」
    研究人員相信這項研究可以帶來全新的技術,引導 AI 學會自我學習以及與人類合作的新方法。近日,DeepMind 與 Google Brain 團隊合作發布了 Hanabi 學習環境(HLE)的代碼和論文,這是一個基於流行紙牌遊戲的多智能體學習和即時通信研究平臺。HLE 為 AI 智能體提供了一個遊戲界面,並附帶了一個基於 Dopamine 框架的學習智能體。
  • AI研究的提速器! DeepMind力薦的JAX到底有多強大?
    此外, 還需要具有增量復用的能力,具有可選擇而不被其他功能鎖定的能力。 這些要素至關重要,有助於為研究人員提供最大程度的靈活性與選擇性。  另外,在開發 JAX 的生態過程中,還需要保證與已有計算框架 (例如 Tensorflow、Sonnet、TRFL 等) 的連續性與一致性,需要在構建過程中儘量接近其基礎數學原理,實現完善的自描述,並避免從紙面到代碼的思維跳躍。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    點擊查看大數據文摘相關報導:Uber無人車發生全球首例行人致死事件,自動駕駛技術信度或倒退10年?https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651658457&idx=1&sn=e25cedcad28b14d724fa5e925fdfe027&scene=21#wechat_redirectUber自動駕駛撞死行人視頻公布:無人車環境感知解決方案該如何優化?https://mp.weixin.qq.com/s?
  • 通用版AlphaGo登《Nature》:最強AI棋手,不懂規則也能精通遊戲
    編譯 | 子佩編輯 | Panken智東西12月24日消息,繼AlphaGo揚名海外後,DeepMind再推新模型MuZero,該模型可以在不知道遊戲規則的情況下,自學圍棋、西洋棋、日本將棋和Atari遊戲並制定最佳獲勝策略,論文今日發表至《Nature》。
  • 通用版 AlphaGo 登《Nature》:最強 AI 棋手,不懂規則也能精通遊戲
    繼 AlphaGo 揚名海外後,DeepMind 再推新模型 MuZero,該模型可以在不知道遊戲規則的情況下,自學圍棋、西洋棋、日本將棋和 Atari 遊戲並制定最佳獲勝策略,論文 12 月始祖 AlphaGo 基於人類棋手的訓練數據和遊戲規則,採用了神經網絡和樹狀搜索方法,成為了第一個精通圍棋的 AI 棋手。二代 AlphaGo Zero 於 2017 年在《Nature》發表,與上代相比,不需要人類棋手比賽數據作為訓練集,而是通過自對抗的方式自己訓練出最佳模型。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    早在2016年,DeepMind研發的AlphaGo就曾在圍棋對弈中擊敗韓國國手李世石。近些年來,還有一些研究用西洋棋、撲克等遊戲訓練AI模型。現有研究中用到的圍棋、西洋棋、撲克等遊戲都是雙人參與的零和博弈遊戲。在現實中,人類往往通過更多人的協作完成任務。
  • DeepMind聯手暴雪:星際II的玩家們,準備好對抗AI了嗎(附論文)
    早在去年,Deepmind已經立下Flag要教會AI玩兒星際爭霸II,也已經有包括facebook、阿里巴巴等不少科技公司或者研究機構開拓過「星際」這片競技場,但DeepMind這樣專治人類各種不服的公司正式宣布與暴雪合作,還是讓一票星際玩家大呼「熱血」。 暴雪承諾將持續發布從「星際爭霸II」天梯中收集的數十萬個匿名錄像,這會將訓練變得更加容易。
  • Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!
    由於在AMA前一天Deepmind剛剛發表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。什麼是AMA?AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的「真心話大冒險」。
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    德州撲克顯然不夠難,德撲 AI 之父表示其中沒有用到任何深度學習;再看圍棋,雖然圍棋中可能出現的局面的總數目是一個天文數字,但具體到每一回合中,比賽的雙方只需要選擇在棋盤的某一處落一顆棋子即可。相比之下,現代的競技類電子遊戲的行動空間就複雜得多,比賽可以有 2 個以上的玩家參與、每個玩家可以同步做出行動、每個行動可以有不同的時間長短、位移和移動都是空間連續的、攻擊防禦技能物品等還有很多的變化。
  • 谷歌DeepMind MuZero 人工智慧可以不學規則掌握遊戲
    IT之家12月24日消息 谷歌的 DeepMind 人工智慧目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等遊戲規則便能掌握遊戲。該技術能夠應用於機器人技術、工業系統以及混亂的現實世界。
  • 從α到μ:DeepMind棋盤遊戲AI進化史
    能玩 Atari 遊戲的強化學習智能體非常值得研究,這些遊戲不僅視覺狀態空間非常複雜,而且與西洋棋、日本將棋、圍棋不一樣的是,在 Atari 遊戲中,智能體無法使用完美模擬器(perfect simulator)來執行規劃。
  • 名家圍棋文化講座 陳祖源:圍棋規則和圍棋的本質
    《圍棋規則世界統一之研究與推進》一文獲2016年第四屆杭州國際棋文化峰會的論文一等獎。著作有《圍棋規則新論》《圍棋規則演變史》《循環劫》《黑白鉤沉》《眉山墅隱(點校)》《杭州圍棋史話》和即將出版的《中國圍棋棋譜史》。 一、圍棋獨一無二
  • 谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    谷歌希望能夠通過這些視頻數據,更好的維護整個社會的網絡安全環境,並使得開發者能夠利用這些數據,開發新的 Deepfake 檢測工具,更高效地識別 Deepfake 假視頻。谷歌在博客上發表了相應的文章來介紹這一數據集,雷鋒網 AI 開發者將其整理編譯如下。Deepfake 視頻檢測數據集背景近幾年來,深度學習的發展催生了曾經被認為不可能實現的技術。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新庫,給這個生態注入了新的活力。 近日,DeepMind 開源了兩個基於 Jax 的新機器學習庫,分別是 Haiku 和 RLax,它們都有著各自的特色,對於豐富深度學習社區框架、提升研究者和開發者的使用體驗有著不小的意義。