DeepMind 論文三連發:如何在仿真環境中生成靈活行為

2021-01-10 機器之心Pro

  ByZhuZhiboSmith2017年7月11日 11:59

  一隻猴子在樹林之間敏捷而靈活地跳躍穿梭,或者一名足球運動員快速帶球過人、勁射得分,這些表現皆令人驚嘆。掌握這種精密複雜的運動控制是物理智能(physical intelligence)成熟的標誌,同時也是人工智慧研究中的關鍵一環。

  真正的運動智能需要學習控制和協調身體的靈活性從而完成複雜環境之中的任務。控制物理仿真類人身體的嘗試來自多個領域,包括計算機動畫和生物力學(biomechanics)。存在一種使用手工對象(有時帶有動作捕捉數據)生成特定行為的趨勢。然而,這可能需要相當多的工程學努力,且會產生受限的行為,或難以泛化到其他新任務的行為。

  在這三篇論文中(論文摘要見後文),我們尋找了產生靈活和自然行為的新方法,它們可被再利用,解決新任務。

  富環境中移動行為的出現

  對於一些人工智慧問題,比如玩Atari 或下圍棋,其目標易於定義,即獲勝。但是你如何描述定義一個後空翻動作,或者跳躍。當教授人工系統學習運動技能時,精確描述複雜行為的困難是普遍存在的。在這一工作中,僅通過使用高水平的對象(比如向前移動而不摔倒),我們探索了如何通過身體與環境的交互從頭創建精密的行為。尤其地,我們使帶有不同仿真身體的智能體穿過不同的地形(這需要跳躍、轉向、蹲伏),從而完成其訓練。結果表明智能體在沒有特殊指示的情況下發展出了複雜技能,這一方法可被應用於訓練系統中多個不同的仿真身體。下面的動圖展示了該技術如何帶來高質量動作和持久力。

  

  一個仿真的 「平面 」行走者('planar' walker)反覆嘗試翻過一堵牆。

  

  一個仿真的 「螞蟻 」行走者學習在木板間進行準確跳躍的動作。

  通過對抗式模仿從動態捕捉中學習人類行為

  上文提到的突發行為極具魯棒性,但是由於這些動作必須從頭開始,它們往往與人類動作並不相似。在第二篇論文中,我們展示了如何訓練一個策略網絡(policy network),它可以模仿人類行為的動態捕捉數據,以對行走、起立、跑步、轉彎等特定動作進行預學習。一旦輸出的動作更接近人類,我們就可以調整並重新利用這些動作來解決其他任務,如爬樓梯、在密封走廊內行走等。

  點擊此處可查看全部動圖(https://youtu.be/hx_bgoTF7bs)。

  

  類人步行者生成與人類相似的行走行為。

  

  仿真步行者摔倒以後成功地站了起來。

  多行為的魯棒性模仿

  第三篇論文提出了一個神經網絡結構,它基於最新的生成模型,這種結構能夠學習不同行為之間的關係,並模仿一些特定動作。訓練之後,我們的系統可以對一個被觀察的單一動作進行編碼,並且在其示範的基礎上創建一個全新的動作。它也可以在不同種類的行為間進行切換,即便之前從來沒有見過它們之間的轉換,例如行走方式之間的轉變。

  

左端和中間的這兩個模型展示了兩個示範行為。右邊的智能體模型則根據這些行為生成了一個全新的轉化(transition)。

  

左邊的模型,平面行走者(planar walker)演示了一個特定的行走方式。右邊的模型中,我們的智能體使用一種單一的策略網絡(policy network)來模仿此種行走方式。

  論文一:富環境中移動行為的出現(Emergence of Locomotion Behaviours in Rich Environments)

  

  論文地址:https://arxiv.org/abs/1707.02286

  摘要:強化學習範式原則上允許從簡單的獎勵信號中直接學習複雜行為。然而實際上,小心地手動設計獎勵函數以鼓勵一個特定方案,或者從演示數據中獲取是慣常情況。這篇論文探索了富環境如何幫助提升複雜行為的學習。尤其是,我們在不同的環境語境中訓練智能體,並發現這鼓勵了在一系列任務中表現良好的魯棒行為的出現。我們為移動演示了這一原則——已知的行為是出於其對獎勵選擇的敏感性。通過使用基於前向進程的一個簡單的獎勵函數,我們在一系列不同的充滿挑戰的地形和障礙中訓練若干個仿真身體。通過一個策略梯度強化學習的全新可擴展變體,我們的智能體學習奔跑、跳躍、蹲伏和轉向,而無需來自環境的明確獎勵指示。

  這一學習性行為的亮點的可視化描述可參見 https://goo.gl/8rTx2F 。

  論文二:通過對抗式模仿學習利用動態捕捉學習人類行為(Learning human behaviors from motion capture by adversarial imitation)

  

  論文地址:https://arxiv.org/abs/1707.0220

  摘要:深度強化學習領域的快速發展增加了為高維類人體訓練控制器的可行性。然而,強化學習僅具備簡單的獎勵函數,使用這種方法生成的動作往往非常僵硬,且不像人類動作。我們將在本論文中論述如何使用生成對抗模仿學習(generative adversarial imitation learning)訓練通用神經網絡策略,從而根據有限的示例生成與人類相似的動作模式,這些示例僅包括部分觀察到的狀態特徵,不包含具體動作,甚至它們的發出體具備不同、未知的物理參數。我們使用該方法,利用動態捕捉數據建立多個子技能策略網絡(sub-skill policy),並證明這些策略網絡可被再利用,用來解決來自更高級別控制器的任務。

  論文三:多行為的魯棒性模擬(Robust Imitation of Diverse Behaviors)

  

  論文地址:https://deepmind.com/documents/95/diverse_arxiv.pdf

  摘要:深度生成模型最近已經在運動控制的模仿性學習方面展現示出了很大的潛力。在給定足夠數據的情況下,即使是監督方法也可以進行一次性模擬學習(one-shot imitation learning);然而,當智能體軌跡與示例偏離時,它們很容易受到連鎖故障的困擾。與純監督方法相比較,生成對抗模仿學習(GAIL)可以從更少的示例中進行更魯棒的控制學習,但是從根本上來講它需要進行模式搜索,並且難以訓練。在本論文中,我們展示了如何將這兩種方法的有利方面進行結合。我們的模型基礎是一種新型的用於示例軌跡的變量自編碼器,可以對語義策略嵌入進行學習。我們展示了這些嵌入式可以在 9 DoF Jaco 機械臂上被學習,然後順利地內插進一個預期動作的結果平滑插值(resulting smooth interpolation)。利用策略表徵,我們開發了一種新版本的 GAIL (1)比純監督式調節器更具有魯棒性,尤其是在示例較少的情況下,(2)避免了模式崩潰(mode collapse),當GAIL 依據其自身的時候就不再捕捉更多不同的行為 。我們展示了我們的方法可以從一個2D 二足模型和一個MuJoCo 物理環境中的62 DoF 3D 類人模型的相關示範中對不同的步態進行學習。

相關焦點

  • DeepMind重大突破:DNN具有人類行為,認知心理學破解黑箱
    編者按:本文由微信公眾號編譯,來源:deepmind.com 等,作者:DeepMind、Brian Mingus,編譯:熊笑;36氪經授權發布。「新智元」(ID:AI_era)DeepMind 的最新論文稱過去「首次」將認知心理學方法引入了對深度神經網絡黑箱的理解研究中,並用認知心理學的方法發現了深度神經網絡存有和人類兒童在學習詞彙時也存在的「形狀偏好」的行為。此文一出,就有學者指出,DeepMind 是在將自己的研究包裝為全新的研究。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • DeepMind 16篇NIPS 2017論文,全部信息都在這裡了 | NIPS 2017
    ,該架構能夠學習不同行為之間的關係,並模仿它所顯示的具體行為。這些過濾目標可以利用模型的順序結構在深生成模型中形成更緊密的界限和更好的模型學習目標。在我們的實驗中,我們發現用濾波目標進行訓練比使用變分下限訓練相同的模型體系結構有了實質性的改進。
  • DeepMind發了篇物理論文,用神經網絡求解薛丁格方程
    既然找不到精確解,科學家們希望能找到一種實用的近似解求法,只要結果足夠近似,也能預測原子或分子的行為。這在物理中叫做「泡利不相容原理」。FermiNet用蒙特卡洛方法隨機選擇電子構型,在每個電子排列中局部評估能量,累加每個排列的貢獻,並將其最小化。
  • Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!
    由於在AMA前一天Deepmind剛剛發表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。什麼是AMA?AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的「真心話大冒險」。
  • DeepMind又立功了 | 附兩篇新論文
    在兩篇最新論文中,我們描述了一類新方法,讓人工智慧建立以想像力為基礎的計劃能力。我們還提出了一種架構,給人工智慧系統提供新方式,去學習並構建計劃,最大化任務效率。對於不完美模型,這些架構高效而健壯,可以利用靈活的策略去發揮想像力。
  • DeepMind破解蛋白質摺疊難題
    只有當知道蛋白質如何摺疊時,他我們才能知曉蛋白質的作用。例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。為了了解蛋白質如何摺疊,DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元(按現代標準,計算能力適中)上運行,這種訓練需要數周時間。
  • 大腦海馬體藏有學習本質的秘密,這是DeepMind新發現 | 附論文
    理解我們這方面的行為是神經科學研究的一個重要課題,而在人工智慧研究中,開發能有效預測未來回報的系統也是個關注重點。 在《自然神經科學》(Nature Neuroscience)上新發布的論文中,DeepMind將神經科學知識應用於機器學習中的數學理論,從而帶來關於學習和記憶本質的新見解。
  • 數據不夠,Waymo用GAN來湊:用生成圖像在仿真環境中訓練模型
    不過,工程師們還可以在GTA(劃掉),啊不,在仿真環境裡接著跑車。模擬環境裡的場景、對象、傳感器反饋通常是用虛幻引擎或者Unity這樣的遊戲引擎來創建的。主要有兩個步驟:首先,掃描目標環境,重建一個由大量有紋理的表面元素(Surfel)構成的場景。然後,用相機軌跡對表面元素進行渲染,同時進行語義和實例分割。接著,通過GAN生成逼真的相機圖像。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    在本文中,DeepMind 研究人員利用最近開發的技術反駁了這一批評。這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。深度強化學習的快與慢近期的 AI 研究引出了強大的技術,如深度強化學習。深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。
  • Deepmind Nature論文揭示最強AlphaGo Zero
    AlphaGo「退役」了,但Deepmind在圍棋上的探索並沒有停止。今年5月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。可惜,公司並沒有公布這個算法的論文。我們就這樣放棄嘛?
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    DeepMind在最近發表的一篇論文中,提出了可微分歸納邏輯編程方法ILP,既能解決傳統歸納邏輯編程擅長的符號類任務,也對噪聲數據、訓練集中的誤差有一定容忍度,還可以通過梯度下降來訓練。怎麼樣?人類認知將這兩種截然不同的思維方式無縫結合在了一起,但想要把這種結合複製到一個AI系統裡,我們還不太清楚是否可能、如何做到。我們最近在《JAIR》期刊(Journal of AI Research)上發表的論文表明,系統可以將直觀的感性思維和概念性的可解釋推理結合起來。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    ,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。同日,Deepmind也發布了一篇博文宣布這一消息:今天我們很高興地發布了AlphaZero的完整評估,該評估發表在Science (開放訪問版本)雜誌上,該期刊確認並更新了這些初步結果。論文中描述了AlphaZero如何從了解規則開始訓練,並快速學習每個遊戲成為高級玩家。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    近日,谷歌的 AI 部門 DeepMind 開發了一種叫做可微分神經計算機(DNC)的神經網絡模型,相關論文發表於 10 月 12 日在線出版的《自然》雜誌上,題為《 利用神經網絡與外部動態存儲器進行混合計算》。這種新模型將神經網絡與可讀寫的外部存儲器結合,既能像神經網絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統計算機一樣處理數據。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    接收論文數量最多的機構:谷歌第一、伯克利第二、斯坦福第三 如果一篇論文的所有作者都來自同一個機構,該機構被算作寫了一篇論文。如果三位作者中只有一位來自該機構,則認為該機構寫了三分之一篇論文。 論文下載地址: https://deepmind.com/blog/deepmind-papers-iclr-2018/ https://research.googleblog.com/2018/04/google-at-iclr-2018.html
  • DeepMind破解蛋白質摺疊難題
    只有當知道蛋白質如何摺疊時,他我們才能知曉蛋白質的作用。例如,胰島素如何控制血液中的糖水平以及抗體如何對抗冠狀病毒,都由蛋白質的結構來決定。我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    在昨天發表的博客文章中,DeepMind 表示,他們用 AlohaFold 生成了六種可能與新冠病毒有關的蛋白質結構預測結果,而且已經開放下載。這一結果可能對新冠病毒疫苗研發等工作起到推動作用。DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • DeepMind AlphaStar:Demo很強大,但比賽輸了
    在展示的第三場比賽視頻中,雙方打出一個雙礦對開的局面。AI 前期補了兩礦農民才放下基地,但是人口還是領先,給到了人類選手一定的壓力。尤其是在操作上,AI 操作猛如虎。但是從比賽看來它還是有非常大的局限性,對於一些情況完全不知道如何處理,而且並沒有多線操作,而是所有兵力集中推進。大概唯一的多線就是在 AI 家裡的運營一直非常穩健。