UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想像力的多任務強化...

2020-12-06 雷鋒網

雷鋒網 AI 科技評論按:NIPS 2018 的錄用論文近期已經陸續揭開面紗,強化學習毫不意外地仍然是其中一大熱門的研究領域。來自加州大學伯克利分校人工智慧實驗室(BAIR)的研究人員分享了他們獲得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他們提出了一種只需要圖片即可進行視覺監督的強化學習方法,使得機器人能夠自主設定目標,並學習達到該目標。下面是雷鋒網(公眾號:雷鋒網)對該博客的部分編譯。

對於機器人,我們希望它能夠在非結構化的複雜環境中實現任意目標,例如可以完成各種家務的私人機器人。想要實現這個目標,一個有效的方法是使用深度強化學習,這是一種強大的學習框架,機器人通過最大化獎勵函數學到各種行動。然而,經典的強化學習方法通常使用人工設計的獎勵函數訓練機器人去完成任務。例如,通過每個盤子和器具在桌子上的當前位置和目標位置之間的距離設計獎勵函數來訓練機器人布置餐桌。這種方法需要人為每個任務單獨設計獎勵函數,還需要例如物體檢測器之類的額外系統作為輔助,這會使得整個系統變得昂貴且脆弱。此外,如果想要機器能夠執行各種瑣碎的小任務,需要在每個新任務上重複強化學習的訓練過程。

儘管在模擬環境中設計獎勵函數並建立傳感器系統(門角度測量傳感器,物體檢測傳感器等)相當容易,但是到了現實生活中,這種方法並不實用,如最右圖所示。

我們的算法只使用視覺就能夠訓練解決多種問題的智能體,而沒有使用額外的設備。上面一行展示了目標圖片,下面一行展示了該策略達到這些目標的過程

在下面的博客中,我們將討論一個無人工監督的,可以同時學習多個不同任務的強化學習算法。對於能夠在無人工幹預的情況下學會技能的智能體(agent),它必須能夠為自己設定目標(goal),與環境交互,並評估自己是否已經達到目標,並朝目標方向改善其行為。在我們的算法中這一切都是通過最原始的觀測(圖像)來實現的,並沒有手動設計的額外裝置(如物體檢測器)。比如想要讓機器人到達指定位置狀態,只需給他一張目標狀態的圖像,機器人就可以學習到到達指定位置的方法。在算法中,我們引入了一個能夠設定抽象目標,並向目標主動學習的系統。我們還展示了智能體如何通過這些自主學習技能來執行各種用戶指定的目標(例如推動物體,抓取物體,開門等),而無需針對每個任務的額外訓練。文章的最後展示了我們的方法足夠有效,可以在現實世界的 Swayer 機器人中工作。機器人可以自主學習設定目標並實現目標,在僅有圖像作為系統輸入的前提下,將目標推到指定位置。

給定目標的強化學習

想要實現強化學習,首先要面對一個問題:我們應該如何表示世界的狀態和想要達到的目標呢?在多任務情況下,枚舉機器人可能需要注意的所有對象是不現實的:對象的數量和類型在不同情況下會有所不同,並且想準確檢測出它們還需要專用的視覺處理方法。換一種思路,我們可以直接在機器人的傳感器上操作,用機器人相機傳感器捕捉到的圖片表示當前真實世界的狀態,將我們希望世界是什麼樣子的圖片作為目標。想要為機器人制定新任務,用戶只需提供一個目標圖像即可,比如希望盤子下圖樣子的圖片。在未來,這項工作可以擴展到更複雜的方式來指定目標,比如通過語言或者演示等來指定。

目標任務:將世界變成圖像中的樣子

強化學習的核心思路是訓練機器人最大化獎勵函數。對於給定目標的強化學習方法,獎勵函數的一種選擇是當前狀態和目標狀態之間距離的相反數,因此最大化獎勵函數即等價於最小化當前狀態到目標狀態的距離。

我們可以訓練一個策略來最大化獎勵函數,這樣學習一個給定目標的 Q 函數就可以達到目標狀態。一個給定目標的 Q 函數 Q(s,a,g) 能夠告訴我們,在給定狀態 s 和目標 g 時,行動 a 的好壞。比如,一個 Q 函數可以告訴我們:「如果我拿著一個盤子(狀態 s)並且想把盤子放在桌子上(目標 g),那麼舉手(行動 a)這個動作有多好?」一旦將此 Q 函數訓練好,就可以通過執行下面的優化策略來提取給定目標的策略:

該公式可以簡單的總結為:「根據 Q 函數選擇最好的行動」。通過使用這個過程,我們能夠得到最大化所有獎勵函數之和的策略,即達到不同目標。

Q學習流行的一大原因是:它能夠以離線策略的形式執行,即我們訓練 Q 函數所需的所有信息僅為(狀態,行動,下一步狀態,目標,獎勵)的採樣:(s, a, s', g, r)。這些數據可以通過任何策略收集到,而且可以被多個任務重複利用。因此一個簡單的給定目標的Q學習算法流程如下:

訓練過程中的最大瓶頸在於收集數據。如果我們能夠人工生成更多數據,我們就能夠在理論上學習解決多種任務,甚至不需要與真實世界交互。然而不幸的是,想得到準確的真實世界模型相當困難,所以我們通常不得不依賴於採樣以得到(狀態-行動-下一狀態)的數據:(s,a,s')。然而,如果我們能夠修改獎勵函數 r(s, g), 我們就可以反過頭重新標註目標,並重新計算獎勵,這樣就使得我們能夠在給定一個(s, a, s')元組的情況下,人工生成更多數據。所以我們可以將訓練過程修改為如下:

這種目標重採樣的方法的好處是,我們可以同時學習如何一次實現多個目標,而無需從環境中獲取更多數據。總的來說,這種簡單的修改可以大大加快學習速度。

要想實現上述方法,需要有兩個主要假設:(1)知道獎勵函數的形式。(2)知道目標的採樣分布 p(g)。之前有研究者使用這種目標重標註策略的工作( Kaelbling '93 , Andrychowicz '17 , Pong '18)是在真實的狀態信息上操作(比如物體的笛卡爾位置),這就很容易手動設計目標分布p(g)和獎勵函數。然而,在目標狀態是圖像的基於視覺的任務上,這兩個假設在實際中都不成立。首先,我們不清楚應該使用哪種獎勵函數,因為與當前狀態圖像與目標狀態圖像之間的像素級距離可能在語義上沒有任何意義。其次,因為我們的目標是圖像,對於第二個假設,我們需要知道一個目標圖像的分布 p(g),使得我們可以從中對目標圖像進行採樣。然而圖像的分布相當複雜,手動設計目標圖像的分布是一個相當困難的任務,圖像生成仍然是一個活躍的研究領域。因此,為了解決這兩個問題,在我們的算法中我們希望智能體能夠自主想像出自己的目標,並學習如何實現這些目標。

使用想像的目標的強化學習

圖像作為一種高維信息,直接進行處理相當困難。因此可以通過學習圖像的表示,並使用這種表示來代替圖像本身,以減輕給定目標圖像的 Q 強化學習的挑戰。關鍵問題是:這種表示應該滿足哪些屬性?為了計算語義上有意義的獎勵,需要一種能夠捕捉到圖像變化隱變量的表示。此外,需要一種能夠輕鬆生成新目標的方法。

我們通過首先訓練一個生成隱變量的模型來實現這個目標,我門使用了一個變分自動編碼機(variational autoencoder, VAE)。該生成模型將高維觀察 X,如圖像,轉換到低維隱變量 z 中,反之亦然。訓練該模型使得隱變量能夠捕捉圖像中變化的潛在變量,這與人類解釋世界和目標的抽象表示類似。給定當前圖像 x 和目標圖像 xg,將它們分別轉換為隱變量 z 和 zg。然後使用這些隱變量來表示強化學習算法的狀態和目標。在這個低維隱空間上而不是直接在圖像上學習Q函數和策略能夠有效加快學習的速度。

智能體將當前圖像(x)和目標圖像(xg)編碼到隱空間,使用隱空間中的距離作為獎勵函數。

使用圖像和目標的隱變量表示也解決了另一個問題:如何計算獎勵。使用隱空間中的距離來作為智能體的獎勵,而不是使用像素級的距離。在完整論文中,我們展示了這種方法與最大化達到目標的概率的目的相符合,而且能夠提供更有效的學習信號。

這種生成模型也很重要,因為它使得智能體能夠更容易地在隱空間中生成目標。特別的是,我們的生成模型能夠使在隱變量空間中的採樣變得不重要:我們只是從VAE先驗中採樣隱變量。我們使用這種採樣機制主要有兩種原因:首先,它為智能體設置自己的目標提供了一種機制。智能體只是從生成模型中對隱變量的值進行採樣,並嘗試達到該隱目標。第二,該重採樣機制也可以被用於上面提到的重新標記目標的過程中。因為生成模型經過訓練,可以將真實圖像編碼到先驗圖像中,所以從隱變量先驗中採樣可以生成有意義的隱目標。

即使沒有人提供目標,智能體也能夠生成它自己的目標

總之,圖像的隱變量能夠(1)捕捉場景的潛在因素,(2)提供有意義的距離進行優化,(3)提供有效的目標採樣機制,允許我們有效訓練能夠在像素上直接操作的給定目標的強化學習智能體。我們將這個整個方法稱為具有想像目標的強化學習(reinforcement learning with imagined goals, RIG).

實驗

我們進行了實驗,以測試 RIG 是否具有足夠的採樣效率,能夠在合理的時間內訓練好真實世界的機器人策略。我們測試了機器人的兩種能力:達到用戶指定的位置,和將物體推到目標圖像所示的位置。機器人首先將輸入的目標圖像映射到隱空間中,作為自己的目標來學習。我們可以使用解碼器從隱空間映射回圖片來可視化機器人想像中的目標。在下面的動圖中,上面顯示了解碼出來的「想像」中的目標,而下面一行顯示了實際策略執行的情況

機器人設定它自己的目標(上圖),練習達到這個目標(下圖)

通過設定自己的目標,機器人可以自主的訓練達到不同的位置而無需人為參與。只有當人想要機器人執行特定任務時,才需要人類參與。此時,給予機器人目標圖像。因為機器人已經通過練習,能夠實現很多種目標,可以看到它在沒有經過額外訓練的情況下,即能實現這個目標。

人類給一個目標圖像(上圖),機器人達到這個目標(下圖)

下面展示了使用 RIG 訓練了將物體推到指定區域的策略:

左:Sawyer機器人初始化。右:人類給出一個目標圖片(上圖),機器人達到該目標(下圖)

直接從圖像訓練強化學習的策略可以輕鬆地在不同的任務中切換,如使機器人到達某個位置變成推動某個物體。只需改變一下物體重新拍一下照片即可。最後,儘管直接根據像素進行工作,這些實驗並沒有花費很長時間。到達指定位置,只需一小時的訓練時間,而推動物體到某位置需要 4.5 小時。許多真實世界的機器人強化學習需要真實的機器人狀態信息如物體的位置。然而,這通常需要更多的機器,購買並設置額外的傳感器或者訓練物體檢測系統。相比這下,本方法只需 RGB 相機就可以直接從圖像中進行工作。

對於更多結果,包括各部分對性能的提升以及與基準方法的對比,大家可以閱讀原始論文:https://arxiv.org/abs/1807.04742 

未來發展方向

我們已經證明,可以直接從圖像訓練真實世界的機器人策略,同時可以以高效的方式實現各種任務。這個項目有很多令人興奮的後續發展。可能有一些任務無法用目標圖像表示,但是可以用其他模態的信息來表示(如語言和演示)。此外,我們雖然提供了一種機制來對自主探索的目標進行採樣,但我們能否以更有理論指導的方式選擇這些目標來進行更好的探索?結合內部動機的思路能夠使得我們的模型更積極的選擇能夠更快達到目標的策略。未來的另外一個方向是訓練更好的生成模型,使其能夠理解動態信息。將環境的動態信息編碼能夠使隱空間更適合於強化學習,從而加快學習速度。最後,有些機器人任務的狀態難以用傳感器捕捉到,例如操縱可變性對象或者處理數量可變的對象的場景。進一步拓展 RIG 使得它能夠解決這些任務將是令人興奮的。

via Berkeley Blog,雷鋒網 AI 科技評論編譯

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    此外,在今年的多個頂級學術會議中,騰訊AI Lab也入選多篇論文,位居國內企業前列,包括計算機視覺領域頂會CVPR(21篇)和ECCV(19篇)、機器學習領域頂會ICML(16篇)、NLP領域頂會EMNLP(16篇),以及語音領域頂會Interspeech(8篇)等。
  • NIPS 2016精華大盤點丨吳恩達、LeCun等大師的論文、PPT都在這兒...
    前幾天 NIPS官網開放了部分錄用文章的 Spotlight Videos(連結:https://nips.cc/Conferences/2016/SpotlightVideos),為學術達人魏秀參童鞋把所有論文都捋了一遍,特地將一些有趣、有料的內容整理出來分享給大家。文章連結均為 Youtube 視頻。
  • 【CVPR2018最佳論文重磅出爐】斯坦福伯克利折桂,何愷明獲TPAMI年輕研究員獎
    最佳論文最佳論文題目:Taskonomy: Disentangling Task Transfer Learning論文地址:https://arxiv.org/pdf/1804.08328.pdf作者來自史丹福大學和加州大學伯克利分校,包括計算機視覺領域的著名教授Jitendra
  • AI研究實力最強的25所高校,據NIPS2017論文數統計
    NIPS 2017在加州長灘舉辦,吸引了8000名參會者,從3240篇提交的論文中接收了679篇,接收率為21%。根據這679篇論文,統計得到以下結果。根據論文統計,全球TOP25的大學:1.UC Berkeley,加州大學伯克利分校5. UIUC,伊利諾伊大學香檳分校6. Inria,法國國家信息與自動化研究所7. ETH Zurich,蘇黎世聯邦理工學院8.
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    其中最佳論文獎由加州大學伯克利分校的David Gaddy、Dan Klein兩人獲得,愛丁堡大學華人博士生 Yanpeng Zhao 獲得了最佳論文榮譽提名獎(共4篇)。另外,本屆大會的最佳 Demo 獎由大家所熟知的 Hugging Face 團隊摘得。復旦大學計算機科學學院教授黃萱菁將出任下一屆大會的程序主席。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    此外,在今年的多個頂級學術會議中,騰訊AI Lab也入選多篇論文,位居國內企業前列,包括計算機視覺領域頂會CVPR(21篇)和ECCV(19篇)、機器學習領域頂會ICML(16篇)、NLP領域頂會EMNLP(16篇),以及語音領域頂會Interspeech(8篇)等。
  • 2018最具突破性計算機視覺論文Top 10
    FastPhotoSyle可以在13秒內合成一張解析度為1024 x 512的圖像,而之前最先進的方法需要650秒才能完成相同的任務。AI社區的評價 該論文在歐洲計算機視覺會議ECCV 2018上發表。未來研究方向找到一種從風格照片遷移小圖案的方法,因為這篇論文提出的方法可以將它們平滑化。
  • DeepMind 16篇NIPS 2017論文,全部信息都在這裡了 | NIPS 2017
    Weber,Razvan Pascanu,Peter Battaglia,Daniel Zoran摘要:在這項研究中我們提出了一種基於神經網絡的模型」視覺交互網絡「(VIN),在沒有先驗知識的情況下學習物理動力學。
  • 一文告訴你,NIPS 2017有多火爆 | 附PPT、視頻、代碼大總結
    這個問題比文本域要複雜得多。因為人們說一個單詞的方式是多種多樣的。相應的波形因揚聲器而異,也取決於韻律和材質。長短期記憶網絡(LSTM)可用於生成一個口語詞的固定長度向量表示,還可以用於模擬嵌入空間的對比損失技術。這種方法也是多視角的,這意味著字符和聲音的表現是共模的。
  • NIPS 2018人工智慧假肢挑戰賽結束,百度Firework團隊奪得第一
    雷鋒網 AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術挑戰賽也接近尾聲。關於挑戰賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰賽已經開始啦在上周結束的 2018 人工智慧假肢挑戰賽(AI for Prosthetics Challenge)中,來自中國百度的技術團隊 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領先第二名高達 30 多分。
  • NIPS 2017錄用論文先睹為快!GAIR大講堂NIPS清華專場精彩回顧
    從大會官方公布的一些數據就可以看出:NIPS 2017共收到3240篇論文投稿,有678篇論文被選中作為大會論文,比例20.9%,其中有40篇被選中進行口頭報告(oral),112篇選為spotlight進行展示。毫不意外這些數字又創了大會歷史新高。就在論文收錄結果公布僅僅10天之後,官方數據顯示註冊名額已滿!
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    代表性論文:《視覺常識推理》(arXiv 2018)這是第一個包含了每個答案所對應的基本原理(解釋)的視覺 QA 數據集。此外,問題要求複雜的推理。(Peters et al., 2018)7)巧妙的輔助任務(Clever auxiliary tasks)在許多場景下,我們看到研究者越來越多地將精心挑選的輔助任務與多任務學習一起使用。一個好的輔助任務來說,它必須是易於獲取數據的。
  • AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型 |...
    因此,視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。在近期雷鋒網 GAIR 大講堂舉辦的線上公開上,來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法,能對視頻進行高效的檢測。
  • 谷歌聯手伯克利給機器人上網課!觀看8位醫生手術視頻學縫合
    最近在Google Brain,英特爾還有UC伯克利的合作研究中,研究人員通過用手術教學視頻來對機器人進行「訓練」,讓其能模仿手術過程。之前,UC伯克利的教授有用過YouTube視頻指導機器人學習各種動作(比如跳躍和跳舞), 而Google則是有訓練機器人理解場景中的深度還有動作。
  • 伯克利 AI 研究院提出新的元強化學習算法!
    但這一次伯克利 AI 研究院不只是使用了元強化學習,還考慮POMDP、異步策略梯度等等知識體系,最終得到了一個高樣本效率、高探索效率的新算法「PEARL」。這一成果不僅為解決 AI 的實際問題提供新的思考角度;同時也是實現在現實系統中規模化應用元強化學習的的第一步。伯克利 AI 研究院發布博文介紹了這一成果,雷鋒網 AI 科技評論編譯如下。
  • 年度必讀:2018最具突破性人工智慧論文Top 10
    這些發現可以幫助那些依賴混淆梯度來防禦的組織強化他們當前的方法。>論文摘要 我們探索並建立了流行的強化學習環境的生成神經網絡模型。Guibas,Jitendra Malik,Silvio Savarese(2018) https://arxiv.org/abs/1804.08328 論文摘要 視覺任務之間有關聯嗎?
  • 斯坦福找到一種更適應動態環境的強化學習方法
    他們在一篇關於LILAC的論文中寫道:「我們觀察到,在具有顯著非平穩性的各種連續控制任務中,與最先進的強化學習方法相比,我們的方法帶來了實質性的改進。」例如,它能夠更好地適應環境,機器人或自主車輛可以在天氣條件變化較多(比如遇到雨雪環境)引入時運行這一方法。
  • 【盤點影響計算機視覺Top100論文】從ResNet到AlexNet
    1新智元編譯來源:github編譯整理: 新智元編輯部 【新智元導讀】計算機視覺近年來獲得了較大的發展,代表了深度學習最前沿的研究方向。本文梳理了2012到2017年計算機視覺領域的大事件:以論文和其他乾貨資源為主,並附上資源地址。
  • 機器之心年度盤點:2018年重大研究與開源項目
    多層次特徵的風格遷移人臉生成器流模型目前,生成對抗網絡 GAN 被認為是在圖像生成等任務上最為有效的方法,越來越多的學者正朝著這一方向努力:在計算機視覺頂會 CVPR 2018 上甚至有 8% 的論文標題中包含 GAN。
  • 加州伯克利博士:基於隱模型的圖神經網絡設計|NeurIPS 2020論文分享
    圖神經網絡在計算機視覺、基於圖的推薦系統、交通路線規劃、化學分子的圖結構等等領域有著廣泛的應用前景。但是現有的圖神經網絡發展也存在著諸多不足,仍需要這一領域的專家學者們進行深入探索。本周六上午11點,我們特別邀請到遠在加州大學伯克利分校的顧方達博士,作客AI研習社NeurIPS 2020系列論文解讀直播間,為大家詳細介紹他被收錄的論文情況。嘉賓分享完還有問答環節,歡迎大家積極參與討論,一起探討《基於隱模型的圖神經網絡設計》。