ByZhuZhiboSmith2017年7月11日 11:59
一隻猴子在樹林之間敏捷而靈活地跳躍穿梭,或者一名足球運動員快速帶球過人、勁射得分,這些表現皆令人驚嘆。掌握這種精密複雜的運動控制是物理智能(physical intelligence)成熟的標誌,同時也是人工智慧研究中的關鍵一環。
真正的運動智能需要學習控制和協調身體的靈活性從而完成複雜環境之中的任務。控制物理仿真類人身體的嘗試來自多個領域,包括計算機動畫和生物力學(biomechanics)。存在一種使用手工對象(有時帶有動作捕捉數據)生成特定行為的趨勢。然而,這可能需要相當多的工程學努力,且會產生受限的行為,或難以泛化到其他新任務的行為。
在這三篇論文中(論文摘要見後文),我們尋找了產生靈活和自然行為的新方法,它們可被再利用,解決新任務。
富環境中移動行為的出現
對於一些人工智慧問題,比如玩Atari 或下圍棋,其目標易於定義,即獲勝。但是你如何描述定義一個後空翻動作,或者跳躍。當教授人工系統學習運動技能時,精確描述複雜行為的困難是普遍存在的。在這一工作中,僅通過使用高水平的對象(比如向前移動而不摔倒),我們探索了如何通過身體與環境的交互從頭創建精密的行為。尤其地,我們使帶有不同仿真身體的智能體穿過不同的地形(這需要跳躍、轉向、蹲伏),從而完成其訓練。結果表明智能體在沒有特殊指示的情況下發展出了複雜技能,這一方法可被應用於訓練系統中多個不同的仿真身體。下面的動圖展示了該技術如何帶來高質量動作和持久力。
一個仿真的 「平面 」行走者('planar' walker)反覆嘗試翻過一堵牆。
一個仿真的 「螞蟻 」行走者學習在木板間進行準確跳躍的動作。
通過對抗式模仿從動態捕捉中學習人類行為
上文提到的突發行為極具魯棒性,但是由於這些動作必須從頭開始,它們往往與人類動作並不相似。在第二篇論文中,我們展示了如何訓練一個策略網絡(policy network),它可以模仿人類行為的動態捕捉數據,以對行走、起立、跑步、轉彎等特定動作進行預學習。一旦輸出的動作更接近人類,我們就可以調整並重新利用這些動作來解決其他任務,如爬樓梯、在密封走廊內行走等。
點擊此處可查看全部動圖(https://youtu.be/hx_bgoTF7bs)。
類人步行者生成與人類相似的行走行為。
仿真步行者摔倒以後成功地站了起來。
多行為的魯棒性模仿
第三篇論文提出了一個神經網絡結構,它基於最新的生成模型,這種結構能夠學習不同行為之間的關係,並模仿一些特定動作。訓練之後,我們的系統可以對一個被觀察的單一動作進行編碼,並且在其示範的基礎上創建一個全新的動作。它也可以在不同種類的行為間進行切換,即便之前從來沒有見過它們之間的轉換,例如行走方式之間的轉變。
左端和中間的這兩個模型展示了兩個示範行為。右邊的智能體模型則根據這些行為生成了一個全新的轉化(transition)。
左邊的模型,平面行走者(planar walker)演示了一個特定的行走方式。右邊的模型中,我們的智能體使用一種單一的策略網絡(policy network)來模仿此種行走方式。
論文一:富環境中移動行為的出現(Emergence of Locomotion Behaviours in Rich Environments)
論文地址:https://arxiv.org/abs/1707.02286
摘要:強化學習範式原則上允許從簡單的獎勵信號中直接學習複雜行為。然而實際上,小心地手動設計獎勵函數以鼓勵一個特定方案,或者從演示數據中獲取是慣常情況。這篇論文探索了富環境如何幫助提升複雜行為的學習。尤其是,我們在不同的環境語境中訓練智能體,並發現這鼓勵了在一系列任務中表現良好的魯棒行為的出現。我們為移動演示了這一原則——已知的行為是出於其對獎勵選擇的敏感性。通過使用基於前向進程的一個簡單的獎勵函數,我們在一系列不同的充滿挑戰的地形和障礙中訓練若干個仿真身體。通過一個策略梯度強化學習的全新可擴展變體,我們的智能體學習奔跑、跳躍、蹲伏和轉向,而無需來自環境的明確獎勵指示。
這一學習性行為的亮點的可視化描述可參見 https://goo.gl/8rTx2F 。
論文二:通過對抗式模仿學習利用動態捕捉學習人類行為(Learning human behaviors from motion capture by adversarial imitation)
論文地址:https://arxiv.org/abs/1707.0220
摘要:深度強化學習領域的快速發展增加了為高維類人體訓練控制器的可行性。然而,強化學習僅具備簡單的獎勵函數,使用這種方法生成的動作往往非常僵硬,且不像人類動作。我們將在本論文中論述如何使用生成對抗模仿學習(generative adversarial imitation learning)訓練通用神經網絡策略,從而根據有限的示例生成與人類相似的動作模式,這些示例僅包括部分觀察到的狀態特徵,不包含具體動作,甚至它們的發出體具備不同、未知的物理參數。我們使用該方法,利用動態捕捉數據建立多個子技能策略網絡(sub-skill policy),並證明這些策略網絡可被再利用,用來解決來自更高級別控制器的任務。
論文三:多行為的魯棒性模擬(Robust Imitation of Diverse Behaviors)
論文地址:https://deepmind.com/documents/95/diverse_arxiv.pdf
摘要:深度生成模型最近已經在運動控制的模仿性學習方面展現示出了很大的潛力。在給定足夠數據的情況下,即使是監督方法也可以進行一次性模擬學習(one-shot imitation learning);然而,當智能體軌跡與示例偏離時,它們很容易受到連鎖故障的困擾。與純監督方法相比較,生成對抗模仿學習(GAIL)可以從更少的示例中進行更魯棒的控制學習,但是從根本上來講它需要進行模式搜索,並且難以訓練。在本論文中,我們展示了如何將這兩種方法的有利方面進行結合。我們的模型基礎是一種新型的用於示例軌跡的變量自編碼器,可以對語義策略嵌入進行學習。我們展示了這些嵌入式可以在 9 DoF Jaco 機械臂上被學習,然後順利地內插進一個預期動作的結果平滑插值(resulting smooth interpolation)。利用策略表徵,我們開發了一種新版本的 GAIL (1)比純監督式調節器更具有魯棒性,尤其是在示例較少的情況下,(2)避免了模式崩潰(mode collapse),當GAIL 依據其自身的時候就不再捕捉更多不同的行為 。我們展示了我們的方法可以從一個2D 二足模型和一個MuJoCo 物理環境中的62 DoF 3D 類人模型的相關示範中對不同的步態進行學習。