無懼雨雪風霜?斯坦福找到一種更適應動態環境的強化學習方法

2020-07-02 雷鋒網
無懼雨雪風霜?斯坦福找到一種更適應動態環境的強化學習方法

斯坦福人工智慧實驗室(SAIL)的研究人員最近設計了一種方法,能處理那些會隨時間變化的數據和環境,性能優於一些領先的強化學習方法,它被命名為LILAC(Lifelong Latent Actor-Critic)。

這一方法使用了潛在變量模型和最大熵策略,以此利用過去的經驗,在動態環境中獲得更好的採樣效率和性能。

他們在一篇關於LILAC的論文中寫道:

「我們觀察到,在具有顯著非平穩性的各種連續控制任務中,與最先進的強化學習方法相比,我們的方法帶來了實質性的改進。」例如,它能夠更好地適應環境,機器人或自主車輛可以在天氣條件變化較多(比如遇到雨雪環境)引入時運行這一方法。

作者在該動態強化學習環境中進行了四個測試,包括來自metaworld基準測試的Sawyer機器人、OpenAI Gym的Half-Cheetah和2D導航任務。

研究人員發現,與伯克利AI研究院(BAIR)於2018年推出的SAC(Soft Actor Critical)和加州大學伯克利分校(UC Berkeley)研究人員今年早些時候推出的SLAC(Rastic Potential Actor Critic)等頂級強化學習方法相比,LILAC在所有領域都能獲得更高、更穩定的回報。

史丹福大學的研究人員Annie Xie、James Harrison和Chelsea Finn兩周前在arXiv上發表了一篇關於LILAC的論文。主要作者Xie也與加州大學伯克利分校教授Sergey Levine合作研究SAC和SLAC。

「與這些方法不同,儘管在每一集中都會經歷環境的持續變化,但LILAC卻能推斷出未來環境的變化,並在訓練過程中穩步保持高回報。」

作者說,LILAC與終身學習和在線學習算法有相似之處。元學習和元強化學習算法也試圖快速適應新的設置。

在最近的其他強化學習新聞中,來自Google Brain、卡內基梅隆大學、匹茲堡大學和加州大學伯克利分校的AI研究人員最近又引入了一種新的域適應方法,即在強化學習環境中改變代理的獎勵函數。與其他強化學習環境一樣,該方法試圖使模擬器中的源域更像真實世界中的目標域。

一篇上周發布的域適配論文指出,「行為主體會因為轉換而受到懲罰,轉換可以表明行為主體是在與源域還是目標域交互。」「在一系列控制任務上的實驗表明,我們的方法可以利用源域來學習在目標域中運行良好的策略,儘管只觀察到目標域的少數轉換。」

研究人員修改了獎勵函數,使用分類器來區分源域和目標域的轉換。他們在OpenAI Gym用三個任務來測試他們的方法。

雷鋒網編譯,via Stanford AI researchers introduce LILAC, reinforcement learning for dynamic environments | VentureBeat

雷鋒網雷鋒網

相關焦點

  • 強化學習機器人也有很強環境適應能力,伯克利AI實驗室賦能元訓練+...
    另一方面,機器人通常被部署了固定行為(無論編碼還是學習),這讓它們在特定的環境中做的很好,但也導致了它們在其他方面做不好:系統故障、遇到陌生地帶或是碰上環境改變(比如風)、需要處理有效載荷或是其他意料之外的變化。BAIR 最新研究的想法是,在目前階段,預測和觀察之間的不匹配應該告訴機器人,讓它去更新它的模型,去更精確地描述現狀。
  • 機器人強化遷移學習指南:架設模擬和現實的橋梁
    機器人的強化遷移學習背景介紹機器之心在之前的文章中對一般的強化遷移學習進行過梳理,我們首先來回顧一下:強化學習是一種根據環境反饋進行學習的技術。本文選擇 PPO[1] 作為強化學習的方法,在每個學習過程中,將源域中的當前狀態遷移至模型φ,計算目標環境中對當前狀態的估計,根據該估計值選擇動作:然後將源域狀態設置為目標域狀態的當前估計值,從而允許模型修正來自源域的軌跡,使它們更接近目標域中的相應軌跡,以縮小兩個域之間的差距。
  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    針對這類既需要採取行動又需要積累過往經驗的智能體來說,元強化學習可以幫助其快速適應新的場景。但美中不足的是,雖然訓練後的策略可以幫助智能體快速適應新的任務,但元訓練過程需要用到來自一系列訓練任務的大量數據,這就加劇了困惱強化學習算法的樣本效率低下問題。因此,現有的元強化學習算法在很大程度上只能在模擬環境中正常運行。
  • 強化學習的10個現實應用
    論文提出了一種新的內注意力神經網絡,通過該注意力可以關注輸入並連續生成輸出,監督學習和強化學習被用於模型訓練。該系統能夠利用以往的經驗找到最優的策略,而無需生物系統的數學模型等先驗信息,這使得基於RL的系統具有更廣泛的適用性。基於RL的醫療保健動態治療方案(DTRs)包括慢性病或重症監護、自動化醫療診斷及其他一些領域。
  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    該論文主要提出了一種基於強化學習的端到端主動目標跟蹤方法,通過自定義獎賞函數和環境增強技術在虛擬環境中訓練得到魯棒的主動跟蹤器,並在真實場景中對模型的泛化能力進行了進一步的驗證。簡介主動目標跟蹤是指智能體根據視覺觀測信息主動控制相機的移動,從而實現對目標物體的跟蹤(與目標保持特定距離)。
  • 泰國史丹福大學中國教育部承認嗎?
    中英文授課項目  泰國斯坦佛國際大學有全英文授課和中英雙語課程,針對英語語言基礎相對較弱的同學,在出國後,一下子無法適應全英語授課環境,設立了中英文授課項目,即採用進階式學習方法,幫助學生更好地從語言過渡到專業的學習過程。  在教學中,以中文授課起步,同時進行英語的強化學習,逐步過渡到全英文授課,中文課程僅佔20%。
  • 斯坦福教授:你以為的天賦和努力,在「學習習慣」面前不值一提
    如果我們把學習效率看成一個以天賦,努力,習慣,方法,環境等諸多因素為變量的多元函數,那麼只取天賦與習慣兩者的貢獻,它們的對比應該如下圖所示: 那些讓「學神」們用更少的付出得到更好的成績的因素,可以歸結為兩類:學習習慣與思維習慣。 這兩者的作用是如此廣泛,如此隱蔽,以至於滲透到了學習的每一個細節中,體現出來就是一種「天賦」的錯覺。 學習習慣有多重要?
  • 導讀020期|探秘學習記憶:動態環境學習中的功能性腦網絡重構
    本文提供了對這些研究的簡要概述,確定了新出現的模式,並討論了開放性問題,如有符號與無符號RPE在陳述式學習中的作用。在動物習得某項任務之前,大腦皮層是如何建立起這種強化的刺激辨別能力的?該研究通過在小鼠學習使用觸鬚完成紋理分辨任務時,對新皮層進行廣域的鈣成像來考察學習過程中的皮層時空動力學。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • 多巴胺引領下的分布式強化學習
    我們從多巴胺和強化學習的研究歷史中娓娓道來一窺究竟。1 強化學習基本概念讓機器來決策,首先體現在如何模仿人類的決策。對於決策這個問題, 對於人類是困難的, 對於機器就更難。而強化學習, 就是一套如何學習決策的方法論。
  • 斯坦福學者找到方法預測黑天鵝事件
    史丹福大學最近完成的一項研究,找到一種方法,可以預測這些事件。為了回答他們的疑問,他們需要找到其它生物系統中的黑天鵝事件,而且不僅需要這些事件的細節,發生這種事件的背景環境也很重要。因此,他們選擇了已經監測多年的三個生態系統的數據作為研究對象。
  • 如何解決稀疏獎勵下的強化學習?
    強化學習(Reinforcement Learning,RL)是實現強人工智慧的方法之一,在智能體(Agent)與環境的交互過程中,通過學習策略(Policy)以最大化回報或實現特定的目標。本文方法明顯優於基線(優於最佳基線 10 倍)。表 1. MuJoCo 螞蟻學習運動1.3 文章小結本文提出了一種基於周期性記憶內存和可達性思想的新的好奇心模塊,利用「好奇心」的概念本質上拓展了強化學習中的獎勵(reward)。而且作者表示引入該模塊的方法效果遠超已有的方法。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    在本工作中,我們為策略網絡表示提出了一種新的神經網絡架構,該架構簡單而有效。所提出的結構化控制網(Structured Control Net ,SCN)將通用多層感知器MLP分成兩個獨立的子模塊:非線性控制模塊和線性控制模塊。直觀地,非線性控制用於前視角和全局控制,而線性控制圍繞全局控制以外的局部動態變量的穩定。
  • DRL:強化學習——實例
    強化學習是學習該如何去做(learning what to do)即學習如何從一個狀態映射到某一個行為,來最大化某一個數值的獎勵信號。強化學習算法主體是智能體,環境是老師,老師僅僅是評分,不告訴智能體為什麼錯,為什麼對?智能體不斷的試錯,不斷的嘗試,累計經驗,學習經驗。記住高分的行為,避免低分的行為。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    這使我們能夠真正了解代理是否真正在學習。通過我們的探索,我們能夠發現我們的模型從股票交易中學到的一些有趣的見解。為了測試不同的超參數值與模型性能之間的關係,我們決定採用科學的方法。這種方法涉及我們一次只更改一個超參數來測試代理的性能。通過確保所有其他超參數保持恆定,我們能夠找出最有效地允許我們的代理學習的每個超參數的範圍。我們還通過使用種子控制了每個試驗中訓練的數據的隨機性。
  • 強化學習基礎-對偶梯度上升
    該方法的核心思想是把目標函數轉換為可以迭代優化拉格朗日對偶函數。其中拉格朗日函數 ? 和拉格朗日對偶函數 g 定義為: 只要找到使得g最大的 λ ,我們就解決了原始優化問題。 所以,我們隨機指定 λ 為初始值,使用優化方法解決這個無約束的g(λ)。
  • 綜述 | Google-斯坦福發布~深度學習統計力學
    最近來自谷歌大腦和斯坦福的學者共同在Annual Review of Condensed Matter Physics 發布了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯繫。
  • 複雜適應系統思維模型-人生需要不斷的適應、學習和進化
    複雜適應系統建模方法的核心是通過在局部細節模型與全局模型間的循環反饋和校正,來研究局部細節變化如何突現出整體的全局行為,其模型組成一般是基於大量參數的適應性主體,其主要手段和思路是正反饋和適應,其認為環境是演化的,主體應主動從環境中學習。正是由於以上這些特點,CAS理論具有了其它理論所沒有的、更具特色的新功能,提供了模擬生態、社會、經濟、管理、軍事等複雜系統的巨大潛力。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    深度強化學習(Deep reinforcement learning)方法在人工智慧方面取得了矚目的成就,從 Atari 遊戲、到圍棋、再到無限制撲克等領域,AI 的表現都大大超越了專業選手,這一進展引起了眾多認知科學家的關注。
  • 一種能夠動態響應環境的新型雙聚合物材料開發出一套模塊化水凝膠...
    打開APP 一種能夠動態響應環境的新型雙聚合物材料開發出一套模塊化水凝膠組件 發表於 2019-04-03 16:13:23