伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習

2020-12-06 InfoQ技術實驗室

將任務目標傳達給他人並不是什麼難事:我們可以使用語言向對方表述所需要的結果、向他們發送一段操作視頻,或者將這類辦法結合起來共同做出說明。

但在另一方面,為機器人指定任務以進行強化學習則需要投入大量精力。大多數原有項目已經在嘗試引導物理機器人進行深度強化學習,這要求我們使用專門的傳感器建立獎勵或者研究任務,而機器人則利用其內部傳感器對獎勵指標進行測量。例如,機器人可以使用熱成像儀跟蹤液體運動,或者使用專門的計算機視覺系統跟蹤物體軌跡。

然而,這種作法顯然無法讓此類機器人掌握一切新型任務,意味著我們在機器人領域廣泛採用強化學習技術時勢必面臨重大瓶頸,更遑論在缺乏傳感設置的開放世界環境中直接使用強化學習方法。

為此,我們開發出一種端到端新方法,允許機器人從描述任務成功完成的適度數量圖像中學習,從而擺脫對手動獎勵工程的依賴性。機器人能夠直接以這部分信息為起點開始學習(初始圖像約為 80 個),且偶爾向用戶查詢其它標籤。在這些查詢當中,機器人會向用戶展示圖像並要求用戶提供標籤以確定該圖像是否代表著任務已成功完成。整個過程中,我們需要提供的查詢數量較低(大約 25 至 75 次),機器人則可利用這些查詢在 1 到 4 小時的交互周期之內直接通過現實世界完成學習——這意味著其成功實現了基於圖像且適用於現實環境的最高效機器人強化學習方法之一。目前,我們已經對自己的實現方案進行了開源。

我們的方法使我們能夠以端到端方式從圖像像素當中解決諸多基於現實世界的機器人問題,且無需任何以手動方式設計的獎勵函數。

基於分類器的獎勵機制

雖然大多數以往工作傾向於利用專用系統來建立獎勵機制,從而解決各類實際任務,但我們也從原有體系當中探索出一種更為簡單的替代性方案。我們可以利用一組目標圖像進行任務指定,而後訓練分類器以區分目標圖像與非目標圖像。以此為基礎,來自該分類器的成功概率則可作為訓練強化學習代理時的目標實現獎勵。

通過示例圖像進行任務指定通常非常簡單。以上圖為例,我們指派的任務可以是將等量的葡萄酒倒入玻璃杯中、以符合圖像效果的方式摺疊衣物,以及按圖擺放餐具。

分類器的問題

雖然分類器是立足現實世界為強化學習代理指定任務的最直觀且直接的解決方案,但其在實際應用當中也會產生不少問題。具體而言,在指定包含目標分類器的任務時,用戶不僅需要提供該任務的正例,同時也必須提供一些反例。此外,這組反例必須足夠詳盡,同時涵蓋機器人可能訪問到的所有空間區域。如果該組反例未能充分窮舉,那麼強化學習算法則可能通過執行分類器在訓練當中未曾見過的情況而成功騙過分類器。下面來看一個相關實例。

在此任務中,機器人的目標是將綠色對象推到紅色標記之上。利用分類器作為獎勵機制,我們採用強化學習進行機器人訓練。來自分類器的成功概率在右下方隨時間進行可視化呈現。如大家所見,雖然分類器輸出的成功概率為 1.0,機器人仍然無法解決任務。強化學習算法已經設法以特殊方式移動機器人手臂騙過了分類器,這是因為該分類器在訓練當中從未見過這種特定類型的反例。

攻克分類器局限性難題

我們採取的最新方法被稱為變量逆控制事件(簡稱 VICE),旨在通過對抗方式挖掘分類器所需要的反例以解決實際問題。該方法以分類器與策略的隨機初始化為起點,首先修復分類器並更新策略,從而實現獎勵最大化。接下來,它會訓練分類器以區分用戶所提供的目標示例與策略收集樣本。此後,強化學習算法會利用經過更新的分類器作為學習策略,進而實現期望目標的獎勵;這一過程將不斷重複,直到策略收集到的樣本與用戶提供的已證明目標示例之間無法相互區分。這一過程類似於生成對抗網絡,且基於逆強化學習形式;但與標準的逆強化學習相比,這種方法不需要示例演示——而僅需要在分類器訓練開始時提供成功的示例圖像。VICE(如下圖所示)能夠有效解決初始分類器的欺騙問題,而用戶不再需要提供任何反例素材。

我們看到,分類器學習後的成功概率與實際成功情況密切相關,這意味著機器人確實掌握了完成任務的訣竅。

利用主動學習

雖然 VICE 能夠在無需任何獎勵工程的前提下,幫助機器人學會足以解決現實世界任務的端到端策略,但其仍然有著自己的局限性:需要提前接收數千個正例才能完成學習。對於人類用戶而言,這仍是一種不小的負擔。為了解決這個問題,我們開發出一種新方法:除了提供適量的初始目標示例之外,機器人還能夠向用戶提出標籤查詢。我們將這種方法稱為具有主動目標查詢(簡稱 RAQ)機制的強化學習。在這些主動查詢當中,機器人會向用戶展示圖像並要求用戶標記該圖像是否表示任務已經成功完成。雖然這種主動申請標籤的作法實際上等同於要求用戶手動提供獎勵信號,但我們的方法只涉及訓練期間所使用圖像素材中的一小部分,這使其成為一種高效且實用的技能學習方法,而不再涉及大量的人工獎勵設計。

在此任務中,我們的目標是將書籍放入書架中的任何一個空槽內。該圖展示了我們的算法所做出的一些查詢示例。該算法在學習任務解決的過程當中挑選出以上幾幅圖像(基於分類器學習到的概率估計結果),並由用戶為這些圖像提供二元成功 / 失敗標籤。

我們將這種組合方法稱為 VICE-RAQ,其能夠解決機器人在現實世界當中的任務執行問題。我們大約需要預先提供 80 幅目標示例圖像,而後是 25 到 75 次主動查詢。我們利用最近推出的 soft actor-critic 算法進行策略優化,從而在 1 到 4 個小時左右的實際交互周期之內解決任務——這要比以往單純基於圖像的端到端策略訓練速度快得多。

我們的方法能夠在一個多小時的交互周期之內完成推動任務的學習(目標是將杯子推到白色杯託之上)。而且只需要進行 25 次查詢。即使對於更為複雜的書架擺放與懸掛任務,我們的方法也只需要不到 4 個小時的交互時間,以及不到 75 次的主動查詢。

解決與可變形對象相關的任務

由於我們是以像素為基礎進行獎勵函數學習,因此我們可以解決那些以往很難以手動方式指定獎勵函數的任務。我們採取的實驗任務之一,是將布覆蓋在盒子上——這實際上屬於桌面懸掛任務的一種簡化版本。為了成功完成任務,機器人必須平滑地覆蓋布料,不可弄皺布料也不能產生任何摺疊部位。我們發現這種方法能夠成功解決這項任務。為了證明此項任務當中包含的挑戰,我們評估了另一種僅使用機器人末端執行器位置作為觀察點的方法,同時配合手動定義的獎勵函數(與目標間的平面幾何距離)。我們觀察到,這種方法並不能實現任務的既定目標,因為它只會簡單地將末端執行器以直線方式移動至目標位置,但很明顯這項任務無法通過直線軌跡來解決。

圖上:採用由手動定義獎勵產生的策略後,機器臂的操作結果。圖下:採用由像素學習獎勵函數產生的策略後,機器臂的操作結果。

解決具有多個目標條件的任務

分類器的能力當然遠不止是描述任務中的目標圖像,這一點在多目標條件任務當中體現得非常明顯。在我們實驗的書架擺放任務當中,目標是將書籍插入書架上的空槽處。拿著書籍的手臂擁有隨機的初始位置,意味著機器人必須能夠從隨機位置出發並成功完成任務。最重要的是,書架上有多個空槽,意味著不同的起始位置可能對應不同的最優目標空槽。在這個任務中,我們發現強化學習方法學習到了新的策略,能夠根據書籍的初始位置將其插入不同的空槽。機器人通常更傾向於將書放入最近的槽中,因為這能夠最大程度提高其從分類器處獲得的獎勵評分。

圖上:機器人選擇將書籍插入左側的空槽。圖下:機器人選擇將書籍插入右側的空槽。

相關工作

作為這套設置中的亮點,我們採用了多種數據驅動型方法以解決獎勵規範問題,同時引入了逆強化學習(簡稱 IRL)方法。VICE 與最近的 IRL 方法可謂密切相關,例如引導成本學習與對抗逆強化學習等。雖然 IRL 方法要求人類專家提供正確的引導(狀態、動作等),但 VICE 卻能夠將素材類別縮減至正確的最終狀態,這就使得任務指定變得更加輕鬆易行,同時也讓強化學習算法能夠自主發現更多新的任務完成方式(而非簡單模仿專家的行為)。

我們的方法同樣與生成對抗網絡有著一定關聯。受到生成對抗網絡(GAN)啟發的各類技術已被廣泛應用於控制問題,但這些技術仍需要之前 IRL 技術介紹部分提到的專家引導機制。我們的方法表明,這種對抗性學習框架能夠成功擴展至無需專家引導的體系當中,而我們只需要為其提供與期望狀態相符的示例即可。

機器人技術中的端到端感知與控制方法在過去幾年當中獲得了極高的關注,但初步的解決方法要麼是在訓練過程中訪問低維狀態(例如對象的位置)、要麼需要通過單獨的訓練進行體現。好在最近出現的新方法能夠直接立足像素進行策略學習,而不再依賴於訓練期間內的低維狀態,但其仍然需要配合與獎勵相關的機制。我們的方法在這方面更進一步——其能夠直接從像素當中學習策略與獎勵函數。通過這種方式,我們將能夠解決那些較難指定獎勵指標的任務,例如懸掛類任務。

總結

通過在無需用戶編程獎勵函數或演示的前提下實現機器人強化學習,我們堅信我們的方法使得強化學習朝著實用性、自動化以及低門檻工具的方向邁出了重要的一步,亦使得多功能實踐型機器人成為可能。通過幫助機器人直接從現實環境當中學習並提升技能水平,而無需任何額外的機制或手動獎勵設計,我們亦堅信我們的方法幫助機器人開始朝著全面實現真實場景下的持續學習能力奮力進發。這種能力將使得未來的機器人得以通過與現實世界的交互,直接獲取廣泛且概括性極高的技能儲備。

本文基於以下論文:

Avi Singh、Larry Yang、Kristian Hartikainen、Chelsea Finn、Sergey LevineEnd-to-End Robotic Reinforcement Learning without Reward EngineeringRobotics: Science and Systems (RSS), 2019.項目網頁開原始碼Justin Fu*、Avi Singh*、Dibya Ghosh、Larry Yang、Sergey LevineVariational Inverse Control with Events: A General Framework for Data-Driven Reward DefinitionNeural Information Processing Systems (NeurIPS), 2018.項目網頁開原始碼最後,我要感謝 Sergey Levine、Chelsea Finn 以及 Kristian Hartikainen 為本文的撰寫做出的貢獻。原文連結:

https://bair.berkeley.edu/blog/2019/05/28/end-to-end/

相關焦點

  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    為了解決上述問題,本文提出一種基於深度強化學習的端到端的解決方案,即用一個 Conv-LSTM 神經網絡直接將圖像序列輸入映射成控制信號輸出(如前進、左轉等)。為了避免人工標記數據和在真實環境試錯,我們使用仿真環境進行訓練。我們進一步提出了一種環境增強技術和自定義的獎賞函數,以保證訓練得到一個魯棒的端到端主動跟蹤器。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    1 導語強化學習(RL)實際上是關於序列決策的一種工具,它能夠解決包括科學研究、工程文理等學科的一系列問題(Sutton and Barto, 2017)。增強學習及神經網絡的結合可以追溯到 1990 年代(Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015)。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    1 導語強化學習(RL)實際上是關於序列決策的一種工具,它能夠解決包括科學研究、工程文理等學科的一系列問題(Sutton and Barto, 2017)。增強學習及神經網絡的結合可以追溯到 1990 年代(Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015)。
  • 深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold
    本文將介紹一種用於預測 RNA 二級結構的端到端深度學習模型 E2Efold,在結構預測方面具有顯著更優表現,同時大大縮短新冠病毒 RNA 二級結構預測時間,為病毒研究、藥物篩選、疫苗研製等工作提供更多助力。這項成果來自螞蟻金服的研究團隊,目前這篇論文已被 ICLR 2020 接收為 Talk 論文。
  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    ,應該怎麼做?伯克利 AI 研究院給出了一個很好的答案——元強化學習(meta-RL)。但這一次伯克利 AI 研究院不只是使用了元強化學習,還考慮POMDP、異步策略梯度等等知識體系,最終得到了一個高樣本效率、高探索效率的新算法「PEARL」。這一成果不僅為解決 AI 的實際問題提供新的思考角度;同時也是實現在現實系統中規模化應用元強化學習的的第一步。
  • 深度學習框架比較,我該選擇哪一個?
    省去了部署和適配環境的煩惱:具備靈活的移植性,可將代碼部署到CPU/GPU/移動端上,選擇具有分布式性能的深度學習工具會使模型訓練更高效。 因此,在開始深度學習項目之前,選擇一個合適的框架是非常重要的。
  • 騰訊優圖開源深度學習推理框架TNN 助力AI開發降本增效
    一方面,它以「授人以漁」的方式為AI構建了一個開放共進的生態環境,幫助行業加速AI應用落地;另一方面,在解決行業實際問題時持續更新和迭代,源源不斷地給AI領域輸送重要的技術養料和創造力,可以說開源是AI落地和繁榮不可或缺的源動力。  6月10日,騰訊優圖實驗室宣布正式開源新一代移動端深度學習推理框架TNN,通過底層技術優化實現在多個不同平臺的輕量部署落地,性能優異、簡單易用。
  • 伯克利RISE實驗室大牛也在關注的深度學習庫評測
    論文作者強調這是一個開源項目,所有配置文件和實驗數據均在 http: //www.comp.hkbu.edu.hk/chxw/dlbench.html 公開。David Patterson在體系結構領域的名聲如雷貫耳,RISC之父。不熟悉的吃瓜群眾可能留意到1月25日螞蟻金服宣布跟伯克利大學前身為AmpLab,更名為RISE實驗室合作的新聞。
  • 基於動態編譯(Just-in-Time)的全新深度學習框架
    基於動態編譯(Just-in-Time)的全新深度學習框架 風君子 發表於 2020-11-25 11:08:37 據官方消息,清華大學計算機系圖形實驗室宣布開源一個全新的深度學習框架
  • 強化學習的10個現實應用
    通過強化學習,金融貿易不再像從前那樣由分析師做出每一個決策,真正實現機器的自動決策。例如,IBM構建有一個強大的、面向金融交易的強化學習平臺,該平臺根據每一筆金融交易的損失或利潤來調整獎勵函數。強化學習在自然語言處理NLP中的應用RL可用於文本摘要、問答和機器翻譯等NLP任務。
  • 騰訊優圖開源深度學習推斷框架TNN - 軟體與服務 - 中國軟體網...
    6月12日消息,騰訊優圖實驗室宣布開源新一代移動端深度學習推理框架TNN。騰訊優圖希望通過底層技術優化幫助用戶實現人工智慧在多個不同平臺的輕量部署落地。據悉,基於TNN,開發者能夠輕鬆將深度學習算法移植到手機端高效的執行,開發出人工智慧 APP,將 AI 帶到指尖。
  • 澳門大學陳俊龍:無需深度結構的高效增量學習系統
    其中,寬度學習系統提供了一種深度學習網絡的替代方法,同時,如果網絡需要擴展,模型可以通過增量學習高效重建。單層前饋神經網絡(Single layer feedforward neural networks,SLFN)已被廣泛應用於分類和回歸等問題,因為它們可以全局地逼近給定的目標函數。一般來說,基於梯度下降的 SLFN 的泛化性能對某些參數設置,例如學習率,非常敏感。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 桌面端1.0讓工作學習「輕+快」
    但由於信息渠道多樣,在翻譯過程中需頻繁切換工具,導致信息翻譯速度和理解效率低下,這也成為當前電腦工作、學習時使用翻譯的痛點。近日,百度翻譯全新發布桌面端1.0,支持200多個語種互譯,內含海量中英詞典,並重磅推出「極簡模式」、「劃譯」與「快捷鍵發起翻譯」三大核心功能,盡顯其「輕·快」特性,幫助用戶即時翻譯陌生詞句,高效便捷地理解、獲取信息。
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀
    參考閱讀: 業界 | 讓人工智慧學會談判,Facebook 開源端到端強化學習模型 2.傳統的方法是將該問題分成兩步解決:設計或學習視覺特徵、以及預測。最近的深度唇讀方法是可以端到端訓練的(Wand et al., 2016; Chung & Zisserman, 2016a)。目前唇讀的準確度已經超過了人類。
  • 通過對比深度學習各大框架的優缺點尋找最優
    開源的深度學習神經網絡正步入成熟,而現在有許多框架具備為個性化方案提供先進的機器學習和人工智慧的能力。那麼如何決定哪個開源框架最適合你呢?本文試圖通過對比深度學習各大框架的優缺點,從而為各位讀者提供一個參考。你最看好哪個深度學習框架呢?
  • IPTV電視端加入「學習強國」重慶學習平臺
    解決學習困難 從小屏擴展到大屏據了解,「學習強國」學習平臺以習近平新時代中國特色社會主義思想和黨的十九大精神為主要內容,包括PC端、手機端「學習強國」App兩大終端。「在推廣運用『學習強國』學習平臺過程中,更好滿足老黨員、農村黨員群眾學習需求,是我們在工作中遇到的難點問題。」
  • 如何解決稀疏獎勵下的強化學習?
    本文重點探討的就是在存在稀疏獎勵的情況下引導 agent 繼續學習或探索的強化學習問題。目前解決稀疏獎勵下的強化學習主要有兩類方法:一是,利用數據改進 agent 的學習 ,包括已有數據、外部數據等;二是,改進模型,提升模型在大狀態、大動作空間下處理複雜問題的能力。
  • 微軟強化學習開源節項目開始接受申請,1萬美元助學金,3月6日截止
    雷鋒網AI開發者訊,微軟研究院的全球項目:強化學習開放原始碼節(RL Open Source Fest),目前已經開始面向全球接受申請。強化學習(RL,Reinforcement Learning )開放原始碼節是一項全球性在線計劃,旨在讓學生與數據科學家和微軟研究院「真實世界強化學習」小組的工程師一起,進行開源強化學習程序和軟體開發。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。