伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習

2020-12-06 InfoQ技術實驗室

將任務目標傳達給他人並不是什麼難事：我們可以使用語言向對方表述所需要的結果、向他們發送一段操作視頻，或者將這類辦法結合起來共同做出說明。

但在另一方面，為機器人指定任務以進行強化學習則需要投入大量精力。大多數原有項目已經在嘗試引導物理機器人進行深度強化學習，這要求我們使用專門的傳感器建立獎勵或者研究任務，而機器人則利用其內部傳感器對獎勵指標進行測量。例如，機器人可以使用熱成像儀跟蹤液體運動，或者使用專門的計算機視覺系統跟蹤物體軌跡。

然而，這種作法顯然無法讓此類機器人掌握一切新型任務，意味著我們在機器人領域廣泛採用強化學習技術時勢必面臨重大瓶頸，更遑論在缺乏傳感設置的開放世界環境中直接使用強化學習方法。

為此，我們開發出一種端到端新方法，允許機器人從描述任務成功完成的適度數量圖像中學習，從而擺脫對手動獎勵工程的依賴性。機器人能夠直接以這部分信息為起點開始學習（初始圖像約為 80 個），且偶爾向用戶查詢其它標籤。在這些查詢當中，機器人會向用戶展示圖像並要求用戶提供標籤以確定該圖像是否代表著任務已成功完成。整個過程中，我們需要提供的查詢數量較低（大約 25 至 75 次），機器人則可利用這些查詢在 1 到 4 小時的交互周期之內直接通過現實世界完成學習——這意味著其成功實現了基於圖像且適用於現實環境的最高效機器人強化學習方法之一。目前，我們已經對自己的實現方案進行了開源。

我們的方法使我們能夠以端到端方式從圖像像素當中解決諸多基於現實世界的機器人問題，且無需任何以手動方式設計的獎勵函數。

基於分類器的獎勵機制

雖然大多數以往工作傾向於利用專用系統來建立獎勵機制，從而解決各類實際任務，但我們也從原有體系當中探索出一種更為簡單的替代性方案。我們可以利用一組目標圖像進行任務指定，而後訓練分類器以區分目標圖像與非目標圖像。以此為基礎，來自該分類器的成功概率則可作為訓練強化學習代理時的目標實現獎勵。

通過示例圖像進行任務指定通常非常簡單。以上圖為例，我們指派的任務可以是將等量的葡萄酒倒入玻璃杯中、以符合圖像效果的方式摺疊衣物，以及按圖擺放餐具。

分類器的問題

雖然分類器是立足現實世界為強化學習代理指定任務的最直觀且直接的解決方案，但其在實際應用當中也會產生不少問題。具體而言，在指定包含目標分類器的任務時，用戶不僅需要提供該任務的正例，同時也必須提供一些反例。此外，這組反例必須足夠詳盡，同時涵蓋機器人可能訪問到的所有空間區域。如果該組反例未能充分窮舉，那麼強化學習算法則可能通過執行分類器在訓練當中未曾見過的情況而成功騙過分類器。下面來看一個相關實例。

在此任務中，機器人的目標是將綠色對象推到紅色標記之上。利用分類器作為獎勵機制，我們採用強化學習進行機器人訓練。來自分類器的成功概率在右下方隨時間進行可視化呈現。如大家所見，雖然分類器輸出的成功概率為 1.0，機器人仍然無法解決任務。強化學習算法已經設法以特殊方式移動機器人手臂騙過了分類器，這是因為該分類器在訓練當中從未見過這種特定類型的反例。

攻克分類器局限性難題

我們採取的最新方法被稱為變量逆控制事件（簡稱 VICE），旨在通過對抗方式挖掘分類器所需要的反例以解決實際問題。該方法以分類器與策略的隨機初始化為起點，首先修復分類器並更新策略，從而實現獎勵最大化。接下來，它會訓練分類器以區分用戶所提供的目標示例與策略收集樣本。此後，強化學習算法會利用經過更新的分類器作為學習策略，進而實現期望目標的獎勵；這一過程將不斷重複，直到策略收集到的樣本與用戶提供的已證明目標示例之間無法相互區分。這一過程類似於生成對抗網絡，且基於逆強化學習形式；但與標準的逆強化學習相比，這種方法不需要示例演示——而僅需要在分類器訓練開始時提供成功的示例圖像。VICE（如下圖所示）能夠有效解決初始分類器的欺騙問題，而用戶不再需要提供任何反例素材。

我們看到，分類器學習後的成功概率與實際成功情況密切相關，這意味著機器人確實掌握了完成任務的訣竅。

利用主動學習

雖然 VICE 能夠在無需任何獎勵工程的前提下，幫助機器人學會足以解決現實世界任務的端到端策略，但其仍然有著自己的局限性：需要提前接收數千個正例才能完成學習。對於人類用戶而言，這仍是一種不小的負擔。為了解決這個問題，我們開發出一種新方法：除了提供適量的初始目標示例之外，機器人還能夠向用戶提出標籤查詢。我們將這種方法稱為具有主動目標查詢（簡稱 RAQ）機制的強化學習。在這些主動查詢當中，機器人會向用戶展示圖像並要求用戶標記該圖像是否表示任務已經成功完成。雖然這種主動申請標籤的作法實際上等同於要求用戶手動提供獎勵信號，但我們的方法只涉及訓練期間所使用圖像素材中的一小部分，這使其成為一種高效且實用的技能學習方法，而不再涉及大量的人工獎勵設計。

在此任務中，我們的目標是將書籍放入書架中的任何一個空槽內。該圖展示了我們的算法所做出的一些查詢示例。該算法在學習任務解決的過程當中挑選出以上幾幅圖像（基於分類器學習到的概率估計結果），並由用戶為這些圖像提供二元成功 / 失敗標籤。

我們將這種組合方法稱為 VICE-RAQ，其能夠解決機器人在現實世界當中的任務執行問題。我們大約需要預先提供 80 幅目標示例圖像，而後是 25 到 75 次主動查詢。我們利用最近推出的 soft actor-critic 算法進行策略優化，從而在 1 到 4 個小時左右的實際交互周期之內解決任務——這要比以往單純基於圖像的端到端策略訓練速度快得多。

我們的方法能夠在一個多小時的交互周期之內完成推動任務的學習（目標是將杯子推到白色杯託之上）。而且只需要進行 25 次查詢。即使對於更為複雜的書架擺放與懸掛任務，我們的方法也只需要不到 4 個小時的交互時間，以及不到 75 次的主動查詢。

解決與可變形對象相關的任務

由於我們是以像素為基礎進行獎勵函數學習，因此我們可以解決那些以往很難以手動方式指定獎勵函數的任務。我們採取的實驗任務之一，是將布覆蓋在盒子上——這實際上屬於桌面懸掛任務的一種簡化版本。為了成功完成任務，機器人必須平滑地覆蓋布料，不可弄皺布料也不能產生任何摺疊部位。我們發現這種方法能夠成功解決這項任務。為了證明此項任務當中包含的挑戰，我們評估了另一種僅使用機器人末端執行器位置作為觀察點的方法，同時配合手動定義的獎勵函數（與目標間的平面幾何距離）。我們觀察到，這種方法並不能實現任務的既定目標，因為它只會簡單地將末端執行器以直線方式移動至目標位置，但很明顯這項任務無法通過直線軌跡來解決。

圖上：採用由手動定義獎勵產生的策略後，機器臂的操作結果。圖下：採用由像素學習獎勵函數產生的策略後，機器臂的操作結果。

解決具有多個目標條件的任務

分類器的能力當然遠不止是描述任務中的目標圖像，這一點在多目標條件任務當中體現得非常明顯。在我們實驗的書架擺放任務當中，目標是將書籍插入書架上的空槽處。拿著書籍的手臂擁有隨機的初始位置，意味著機器人必須能夠從隨機位置出發並成功完成任務。最重要的是，書架上有多個空槽，意味著不同的起始位置可能對應不同的最優目標空槽。在這個任務中，我們發現強化學習方法學習到了新的策略，能夠根據書籍的初始位置將其插入不同的空槽。機器人通常更傾向於將書放入最近的槽中，因為這能夠最大程度提高其從分類器處獲得的獎勵評分。

圖上：機器人選擇將書籍插入左側的空槽。圖下：機器人選擇將書籍插入右側的空槽。

相關工作

作為這套設置中的亮點，我們採用了多種數據驅動型方法以解決獎勵規範問題，同時引入了逆強化學習（簡稱 IRL）方法。VICE 與最近的 IRL 方法可謂密切相關，例如引導成本學習與對抗逆強化學習等。雖然 IRL 方法要求人類專家提供正確的引導（狀態、動作等），但 VICE 卻能夠將素材類別縮減至正確的最終狀態，這就使得任務指定變得更加輕鬆易行，同時也讓強化學習算法能夠自主發現更多新的任務完成方式（而非簡單模仿專家的行為）。

我們的方法同樣與生成對抗網絡有著一定關聯。受到生成對抗網絡（GAN）啟發的各類技術已被廣泛應用於控制問題，但這些技術仍需要之前 IRL 技術介紹部分提到的專家引導機制。我們的方法表明，這種對抗性學習框架能夠成功擴展至無需專家引導的體系當中，而我們只需要為其提供與期望狀態相符的示例即可。

機器人技術中的端到端感知與控制方法在過去幾年當中獲得了極高的關注，但初步的解決方法要麼是在訓練過程中訪問低維狀態（例如對象的位置）、要麼需要通過單獨的訓練進行體現。好在最近出現的新方法能夠直接立足像素進行策略學習，而不再依賴於訓練期間內的低維狀態，但其仍然需要配合與獎勵相關的機制。我們的方法在這方面更進一步——其能夠直接從像素當中學習策略與獎勵函數。通過這種方式，我們將能夠解決那些較難指定獎勵指標的任務，例如懸掛類任務。

總結

通過在無需用戶編程獎勵函數或演示的前提下實現機器人強化學習，我們堅信我們的方法使得強化學習朝著實用性、自動化以及低門檻工具的方向邁出了重要的一步，亦使得多功能實踐型機器人成為可能。通過幫助機器人直接從現實環境當中學習並提升技能水平，而無需任何額外的機制或手動獎勵設計，我們亦堅信我們的方法幫助機器人開始朝著全面實現真實場景下的持續學習能力奮力進發。這種能力將使得未來的機器人得以通過與現實世界的交互，直接獲取廣泛且概括性極高的技能儲備。

本文基於以下論文：

Avi Singh、Larry Yang、Kristian Hartikainen、Chelsea Finn、Sergey LevineEnd-to-End Robotic Reinforcement Learning without Reward EngineeringRobotics: Science and Systems (RSS), 2019.項目網頁開原始碼Justin Fu*、Avi Singh*、Dibya Ghosh、Larry Yang、Sergey LevineVariational Inverse Control with Events: A General Framework for Data-Driven Reward DefinitionNeural Information Processing Systems (NeurIPS), 2018.項目網頁開原始碼最後，我要感謝 Sergey Levine、Chelsea Finn 以及 Kristian Hartikainen 為本文的撰寫做出的貢獻。原文連結：

https://bair.berkeley.edu/blog/2019/05/28/end-to-end/

伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習

相關焦點

TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法

專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...

...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)

深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold

讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!

深度學習框架比較,我該選擇哪一個?

騰訊優圖開源深度學習推理框架TNN 助力AI開發降本增效

伯克利RISE實驗室大牛也在關注的深度學習庫評測

基於動態編譯(Just-in-Time)的全新深度學習框架

強化學習的10個現實應用

騰訊優圖開源深度學習推斷框架TNN - 軟體與服務 - 中國軟體網...

澳門大學陳俊龍:無需深度結構的高效增量學習系統

深度學習與強化學習

桌面端1.0讓工作學習「輕+快」

從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

通過對比深度學習各大框架的優缺點尋找最優

IPTV電視端加入「學習強國」重慶學習平臺

如何解決稀疏獎勵下的強化學習?

微軟強化學習開源節項目開始接受申請,1萬美元助學金,3月6日截止

DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習