看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...

2020-11-30 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:機器學習能讓機器人學會複雜的技能,例如抓住把手打開門。然而學習這些技能需要先人工編寫一個獎勵函數,然後才能讓機器人開始優化它。相比之下,人類可以通過觀察別人的做法來理解任務的目標,或者只是被告知目標是什麼,就可以完成任務。目前,谷歌期望通過教會機器人理解語義概念,以使得機器人能夠從人類的示範中學習動作,以及理解物體的語義概念,完成抓取動作。

以下為雷鋒網 AI 科技評論編譯的這篇谷歌博客的部分內容。

問題的引入

人類與機器人不同,我們不需要編寫目標函數即可以完成許多複雜的任務。我們可以這樣做,是因為我們利用了自己對世界先驗知識:當我們看到有人切蘋果時,我們明白,目標是切出兩個蘋果片,不管它是什麼類型的蘋果,還是用什麼樣的工具來切蘋果。同樣,如果我們被告知拿起蘋果,我們明白我們要抓住特定的物體「蘋果」,而不是梨或者桃子,因為我們可以在環境中理解「蘋果」這個詞:我們知道這個詞的意思。

這些就是語義概念:例如切兩個蘋果切片為顯著事件,而「蘋果」這樣的詞就表示的物體類別。那麼我們可以教導機器人來了解語義概念,讓它們通過物體類別標籤或用戶提供的示例來實現簡單命令嗎?在這篇文章中,谷歌的研究者討論了他們最近關於機器人學習的一些工作,它們結合了機器人自主收集的經驗和人工標註的數據,其中機器人的自主收集的數據很豐富,但缺乏人工提供的標註,而人工標註的數據能使機器人更好地理解語義。同時本文也描述了機器人如何使用它們的經驗來理解人工示範中的顯著事件,並且理解諸如「玩具」和「筆」之類的語義類別,以基於用戶命令拾取物體。

通過深度視覺特徵理解人類示範

在第一組實驗中,研究者介紹了他們這篇論文中的內容:「Unsupervised Perceptual Rewards for Imitation Learning」。目標是使機器人能夠在只看到少量未標註的人類演示的情況下,理解一個任務,比如打開一扇門。通過分析這些演示,機器人必須理解執行哪些語義方面顯著的事件能夠使任務成功,然後使用強化學習來執行這些顯著事件。

左圖:人類演示    右圖:相應的機器人模擬

在非常小的數據集上使用無監督學習是機器學習中最具挑戰性的場景之一。為了使該方法可行,研究者使用了從ImageNet上進行圖像識別訓練的大型網絡的深度視覺特徵。這種深度視覺特徵對於語義概念是敏感的,能夠很好的提取語義概念,同時防止諸如外觀和照明等變量的幹擾。研究者使用這些功能來解釋用戶提供的演示,結果顯示從幾個演示中就可以以無監督的方式學習到獎勵函數,而無需額外訓練。

 

在從觀察中學習到獎勵函數之後,研究者用它來引導機器人學習開門任務,只使用圖像來評估獎勵函數。藉助初始的動作演示,機器人有10%的時間能夠成功完成開門動作,而在機器人使用學習到的獎勵函數繼續學習之後,準確率則能夠提高到100%。

 

學習過程

通過自我監督和模仿來模仿人的動作

在「Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation」這篇論文中,谷歌的研究者提出了一種從觀察中學習世界的新穎方法,並通過自我監督的姿態模擬實驗證明了該方法的可行性。該方法主要依靠的時間和空間的同時性進行監督:通過訓練區分視頻不同時期的幀,該方法學會將現實分解和組織成有用的抽象表示。

在例如姿態模擬的任務中,抽象表示的不同維度可能編碼了人或機器人身體的不同關節。研究者並沒有手動定義人與機器人關節之間的映射(這種映射通常由於人和機器人的生理差異而模糊不清),而是讓機器人以端到端的方式進行模仿學習。當模型同時接受人和機器人觀察的訓練時,即使沒有提供任何人與機器人的對應關係,模型也可以自然地發現兩者之間的對應關係。因此,該方法可以得到一種機器人,無需人與機器人之間的對應關係,即可模仿人的姿勢。

機器人的自監督人類動作模擬

上面展示的多對一和高度非線性關節映射是端到端學習有點的有力證明。在這個例子中,人的上下運動涉及許多關節,而機器人只需要一個關節。結果顯示機器人並沒有使用任何明確的人類姿態信息,本身就發現了這種高度複雜的映射

通過物體語義類別進行抓取

上面的實驗展示了人類如何通過演示來制定機器人的目標,在這種情況下,機器人必須解釋任務的語義:顯著事件和姿勢的相關特徵。如果不向機器人展示任務來制定目標,而是只是通過告訴機器人要做什麼來制定目標,這該怎麼辦呢?這就需要機器人理解語義,以便識別世界中哪些物體與用戶指定的語義類別相對應。在End-to-End Learning of Semantic Grasping這篇文章中,谷歌的研究者研究了人類手工標註的數據和機器人自動收集的數據的組合如何用於執行語義抓取的任務,機器人必須從與箱子中拾取用戶指定物體,例如「橡皮擦」或「玩具」。

為了學習如何執行語義抓取,機器人首先通過自主地嘗試拾取各種各樣的物體,收集一個大量的抓取數據集。該數據本身可以使機器人拾取物體,但並不能使機器人理解如何將物體與其語義標籤相關聯。為了能夠理解語義,研究者再次使用了適度的人工監督。每次機器人成功抓住一個物體,機器人會對該物體進行拍照,如下圖所示。

然後,這些圖像的中的一部分由人工進行標註。由於呈現的圖像展示了物體在抓取姿態下的標準外觀,因此很容易通過在標註的圖片上訓練分類器,將這些標籤傳遞給剩餘的未標註的圖像。然後標註過的表示圖像即可以告訴機器人實際拾取了哪個物體。在此後機器人從箱子拾取物體時,可以將抓取時觀察到的圖像與標籤聯繫到一起。

使用這個標記的數據集,谷歌的研究者訓練了一個雙流模型,該模型以當前獲得的圖像和機器人將要採取的動作為條件,預測應該抓取哪個物體。研究者採用的雙流模型靈感來源於人類視覺皮層中觀察到的dorsal-ventral分解,其中ventral流負責推理物體語義類別,而dorsal流負責推理抓取的幾何結構。關鍵的是,ventral流可以包含由物體(不一定來自機器人)的標記圖像組成的輔助數據,而dorsal流可以包含不具有語義標籤的輔助數據,從而允許整個系統更有效地使用更大量的不同類別的標籤數據。以這種方式,可以將有限數量的人工標記與大量自動收集的機器人數據結合在一起,以便根據所需的語義類別來抓取對象,如下面的視頻所示:

https://youtu.be/WR5WUKXUQ8U

未來的工作:

實驗顯示了有限的人工標註語義標籤數據可以與由機器人自動收集和標記的數據相結合,以使機器人能夠理解顯著事件,物體類別以及用戶的演示。將來,機器人系統可以通過用戶標註的數據和不斷增加自主收集的數據集的組合進行訓練,提高機器人能力,並減輕設計自主機器人的工程負擔。此外,隨著機器人系統在現實世界中收集越來越多的自動標記的數據,該數據不僅可以用於改進機器人系統,還可以用於改進計算機視覺,語音識別和自然語言處理系統等其他系統,這些系統都可以從這樣大的輔助數據中得到改進。

當然,這並不是研究者們第一次考慮機器人語義學。自然語言理解,機器人感知,抓取和模仿學習等的廣泛研究工作已經考慮了如何在機器人系統中結合語義和行為,然而,谷歌的研究者在上面討論的這些實驗可能指向未來在自主機器人系統結合自我監督和人工標註數據進行工作的一個可行方向。

致謝:本文中的實驗由下列人員進行Pierre Sermanet, Kelvin Xu, Corey Lynch, Jasmine Hsu, Eric Jang, Sudheendra Vijayanarasimhan, Peter Pastor, Julian Ibarz, 以及 Sergey Levine。同時也感謝Mrinal Kalakrishnan, Ali Yahya, and Yevgen Chebotar 在開門任務中開發的學習框架,以及 John-Michael Burke在語義抓取實驗中進行的實驗設計。


想要進一步了解的讀者可以閱讀原文:Google Blog,或者閱讀文中所提到的論文:

Unsupervised Perceptual Rewards for Imitation Learning

Time-Contrastive Networks: Self-supervised Learning from Multi-View Observation

更多人工智慧學術新聞、近期 各大學術會議全方位報導,請繼續關注 雷鋒網 AI 科技評論。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 機器人是如何模仿動物行為,執行更複雜的動作?谷歌這樣說
    自本田於2000年發布ASIMO機器人以來,在過去的二十年中,人類機器人大大提高了其執行功能的能力,例如抓取物體和使用計算機視覺來檢測事物。儘管有這些改進,但它們的行走,跳躍和執行其他複雜功能的能力像人類一樣流暢的腿動作一直是機器人專家的挑戰。
  • 谷歌聯手伯克利給機器人上網課!觀看8位醫生手術視頻學縫合
    最近在Google Brain,英特爾還有UC伯克利的合作研究中,研究人員通過用手術教學視頻來對機器人進行「訓練」,讓其能模仿手術過程。之前,UC伯克利的教授有用過YouTube視頻指導機器人學習各種動作(比如跳躍和跳舞), 而Google則是有訓練機器人理解場景中的深度還有動作。
  • 李航《統計學習方法》第二版上線,6 年耕耘增加無監督學習
    李航博士告訴機器之心,《統計學習方法》第二版新加了無監督學習方面的內容,並對第一版的監督學習方法做了一些修改。總體而言,第二版可以分為監督學習和無監督學習兩篇。從這兩大塊出發,基本上傳統機器學習的主要概念就能一步步掌握了。
  • 地圖中的語義理解 | 雷鋒網公開課
    這對於自然語言理解技術是非常大的考驗,並且目前國內做語義理解的公司整體上都沒有很好的效果,也是搜狗目前正在嘗試突破的話題。最高的層次,就是做到跟人一樣的交談。現在市面上的對話機器人,以「小冰」為代表,都在渲染這方面的能力。但實際上目前是做不到的。
  • 運用深度學習教機器人理解自然語言
    其符號方法包括WordNet、ConceptNet和FrameNet,通過對比來更好地理解深度學習的能力。然後我會討論深度學習如何用向量來表示語義,以及如何更靈活地表示向量。接著我將探討如何用向量編碼的語義去完成翻譯,甚至為圖片添加描述和用文字回答問題。最後,總結了用深度學習技術真正地理解人類語言還需要哪些改進。WordNet可能是最著名的象徵意義的語料庫,由普林斯頓大學研發。
  • 港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南
    解釋 GAN 潛在空間的關鍵點在於找到與人類可理解屬性相對應的子空間。通過這種方法,將潛碼(latent code)向特定子空間的方向移動,即可對應地改變合成圖像的語義。然而,由於潛在空間的高維性以及圖像語義的多樣性,在潛在空間中尋找有效方向是極具挑戰性的。
  • 谷歌語義理解框架SyntaxNet升級開啟無數可能性
    在 AI 語義理解領域,谷歌一直不遺餘力地進行研發投入。對於普通用戶而言,2015 年發布的基於深度神經網絡的谷歌智能郵件回復,2016 年上線的神經機器翻譯系統(GNMT),便源自於谷歌在該領域的研究成果。
  • NVIDIA開發機器人學習技術:模仿人類行為自我編程
    從Volta架構遲遲無法惠及消費級顯卡就能知道,NVIDIA是多麼看重深度學習、機器學習這個領域了。據VentureBeat等報導,NVIDIA在世界機器人與自動化會議上宣布,已經開發出一種新的技術,可以幫助機器人通過觀察人類的行為進行模仿。這有點像是動物學習中的印隨、洞察等學習方式。
  • 谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!
    在「挑戰無監督解耦表示中的常見假設」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監督解耦方法進行了大規模評估,對一些常見假設進行了實驗驗證
  • 卡內基梅隆大學機器人學院博士後王晨:無監督在線學習在機器人場景...
    我們希望機器人在未知的環境中不斷探索新的事物,並對相似物體進行忽略,同時也希望機器人能夠在短時間內從不平衡的數據中進行學習。針對場景預測問題的研究,目前多為基於有監督的學習方法,其數據也需要有對應的標籤信息。但移動機器人的實際操作環境往往是未知的,數據的標籤信息很難獲取,因此基於有監督的學習方法並不適用於移動機器人的場景預測問題。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。儘管此後有一些研究(https://arxiv.org/abs/1805.04032)通過引入語義或者句法的監督信息來增強這些無監督方法,但是純粹的無監督學習方法在 2017 年到 2018 年得到了令人關注的提升,最著名的是「FastText」(word2vec 的一種拓展)以及「ELMo」(目前最先進的基於上下文的詞嵌入技術)。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    它與目標檢測不同之處在於,輸出是表示每個對象的形狀的掩碼,而不僅僅是一個邊界框。而它與語義分割的不同之處在於,研究目標不僅僅是使用標籤(或背景)對每個像素進行分類,而且還要區分同一類別的各個實例。因此,標籤空間是沒有大小限制的(例如,假設有兩個人和一輛車,可能會標記「人-1」,「人-2」和「車-1」)。這個問題在諸如無人駕車、機器人、照片編輯等領域有許多實際應用。
  • 為什麼說「無監督學習」才是深度學習的未來?
    比如,Facebook的深度學習軟體能夠將一張陌生人的兩張照片進行匹配,其準確性與人類相當(實際上97%的情況下要好於人類),而谷歌在今年早些時候推出了一種可以從醫學影像中探測腫瘤的神經網絡,它的準確性甚至高於醫師。
  • 強化學習與3D視覺結合新突破:高效能在線碼垛機器人
    近日,國防科技大學、克萊姆森大學和視比特機器人的研究人員合作提出了使用深度強化學習求解這一問題。該算法性能優異,實現簡單,可適用於任意多個前瞻箱子的情形,擺放空間利用率達到甚至超過人類水平。同時,該團隊結合 3D 視覺技術,實現了業界首個高效能無序混合碼垛機器人。論文已被人工智慧頂會 AAAI 2021 大會接收。
  • 多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • 多任務實現SOTA,UBC谷歌等提出3D點雲的無監督膠囊網絡
    這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • GAN用於無監督表徵學習,效果依然驚人……
    論文:Large Scale Adversarial Representation Learning論文地址:https://arxiv.org/abs/1907.02544用 GAN 來做表徵學習真的能行?其實在 GAN 的早期,它也是能用於無監督表徵學習的,只不過後來自編碼器等自監督學習有了更好的效果。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    第二大方向是語義理解,實際上從最初期開始,NLP 就一直在致力於這樣的一個方向。在原來的搜索時代,會分析用戶的搜索 Query 含義是什麼。到今天新的產品形態產生之後,已經不僅僅是分析搜索的意圖。越來越多的用戶會開始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。第三個方向是對話系統。對話系統就是讓機器能像人一樣,和用戶有對話性質的交互。
  • DeepMind爆出無監督表示學習模型BigBiGAN,GAN之父點讚!
    Andrej Karpathy也說:「無監督/自監督學習是一個非常豐富的領域,它將消除目前對大規模數據集的必要性.」總結而言,這篇論文展示了GAN可以用於無監督表示學習,並在ImageNet上獲得了最先進的結果。下面是BigBiGAN生成的一些重建樣本,可以看到,重建是傾向於強調高級語義,而不是像素級的細節。
  • 人工智慧:使無監督學習適用於視覺語言模型將是一項重要概念突破
    像GPT-3這樣的語言模型是通過無監督學習來進行訓練的,該過程不需要手動數據標記,因此會出現易於擴展的優勢。而相比之下,像目標識別系統這樣的圖像模型可以直接從現實中學習到更多。換句話來說,就是他們學到的東西並不依賴於書本網絡文字上所提供的內容。他們可以從綿羊的照片中「看到」綿羊實際上是白色的。可以解析語言和視覺輸入的AI模型也有非常實際的用途。