來源:NIPS2019
編輯:DeepRL
NeurIPS(前稱NIPS)可謂人工智慧年度最大盛會。每年全球的人工智慧愛好者和科學家都會在這裡聚集,發布最新研究,並進行熱烈探討,大會的技術往往這未來幾年就會演變成真正的研究甚至應用成果。NIPS2019大會將在12月8日-14日在加拿大溫哥華舉行,據官方統計消息,NeurIPS今年共收到投稿6743篇,再次打破了歷年來的接收記錄。其中接收論文1429篇。
Google共179篇
其中Deepmind-53篇
Google-Brain-Research-126篇
為了能夠對本次會議的論文有一個整體的認識,本文粗略將論文根title進行了分析與統計,以下是本次會議論文的大致分類
由於部分論文尚未公開,本文就一部分論文進行簡單解讀,具體如下:
該文章提出了一種具有直接值傳播的新型深度強化學習算法Episodic Backward Update(EBU)。它的代理對整個事件進行採樣並且連續地將狀態的值傳播到其先前的狀態。通過計算效率高的遞歸算法允許稀疏和延遲獎勵直接傳播到採樣情節的所有轉換中。作者在理論上證明了EBU方法的收斂性,並在確定性和隨機環境中實驗證明了它的性能。特別是在Atari 2600域的49場比賽中,EBU分別僅使用5%和10%的樣本,達到了相同的DQN均值和中值人歸一化性能。
該論文提出了一種基於面對不確定性(OFU)原理的算法,該算法能夠有效地學習具有有限狀態作用空間的馬爾可夫決策過程(MDP)建模的強化學習(RL),其通過評估最優偏差函數的狀態對差異,在h*跨度的上限H的情況下,提出的算法實現了具有S狀態和A動作的MDP的後悔界限,其邊界如下。【這是清華大學出的一篇包含大量數學證明的。
在非策略評估(OPE)中允許人們在不需要進行探索的情況下評估新穎的決策政策,這通常是昂貴的或不可行的。該問題的重要性吸引了許多提出的解決方案,包括重要性抽樣(IS),自標準化IS(SNIS)和雙重魯棒(DR)估計。作者基於經驗似然提出了新的OPE估計,這些估計總是比IS,SNIS和DR更有效,並且滿足與SNIS相同的穩定性和有界性。通過它們對現有的估算器進行分類,除了理論上的保證外,實證研究表明新的估算器具有優勢。
本文是一篇由DeepMind, GoogleBrain,牛津大學等共同發表的文章,作者基於價值函數空間的幾何性質,提出了強化學習中表徵學習的新視角。其利用這種觀點提供關於價值函數作為輔助任務的有用性的正式證據。並表述考慮調整表示以最小化給定環境的所有固定策略的值函數的(線性)近似,這種優化減少了對一類特殊值函數的準確預測,他們將其稱為對抗值函數(AVF)。結果證明使用值函數作為輔助任務對應於我公式的預期誤差放寬,AVF是一個自然的候選者,並確定與原始值函數的密切關係, 其強調了AVF的特徵及其在四室域系列實驗中作為輔助任務的實用性。
作者研究了兩種時間尺度的線性隨機近似算法,可用於模擬眾所周知的強化學習算法,如GTD,GTD2和TDC。其給出了學習率固定的情況下的有限時間性能界限,並獲得這些界限的關鍵思想是使用由奇異攝動理論驅動的線性微分方程的Lyapunov函數(Lyapunov function motivated by singular perturbation theory for linear differential equations)。並使用邊界來設計自適應學習速率方案,該方案在實驗中顯著提高了已知最優多項式衰減規則的收斂速度,並且可用於潛在地改善學習速率在前期改變的任何其他時間表的性能。確定的時間瞬間。
作者認為時間的測量是智能行為的核心。一般知道動物和人工代理都可以成功地使用時間依賴來選擇動作。在人工智慧體中,很少有工作直接解決
(1)哪些架構組件是成功開發此能力所必需的
(2)如何在代理的單元和動作中表示這種時序能力
(3)是否系統的最終行為會集中在類似於生物學的解決方案上。
在這裡,我們研究了深度強化學習智能體的區間定時能力,這些代理能力是在間隔再生範式上進行端到端訓練,這種範式受到關於時間機制的實驗文獻的啟發。並描述了由經常性和前饋性代理人開發的策略,這些策略都使用不同的機制在時間再生上取得成功,其中一些機制與生物系統具有特定且有趣的相似性。這些發現推動了我們對代理人如何代表時間的理解,並突出了實驗啟發的方法來表徵代理人能力的價值。
這項工作解決了非平穩隨機環境中強大的零射擊規劃問題。作者研究馬爾可夫決策過程(MDP)隨時間演變並在此設置中考慮基於模型的強化學習算法。提出兩個假設:1)環境以有限的進化速率不斷演變; 2)當前模型在每個決策時期都是已知的,但不是它的演化。我們的貢獻可以分為四點。1)定義了一類特定的MDP,稱之為非固定MDP(NSMDP)。作者通過對過渡和獎勵函數w.r.t做出Lipschitz-Continuity的假設來介紹常規進化的概念。時間; 2)考慮使用當前環境模型但未意識到其未來發展的計劃代理。這導致我們考慮一種最壞情況的方法,其中環境被視為對抗劑; 3)遵循這種方法,最後作者提出風險反向樹搜索(RATS)算法,一種類似於Minimax搜索的基於模型的零射擊方法; 4)通過經驗證明了RATS帶來的好處,並將其性能與基於模型的參考算法進行了比較。
預算馬爾可夫決策過程(BMDP)是馬爾可夫決策過程對需要安全約束的關鍵應用的擴展。它依賴於以成本信號的形式實施的風險概念,該成本信號被限制在低於-可調-閾值。到目前為止,BMDP只能在具有已知動態的有限狀態空間的情況下求解。這項工作將最先進的技術擴展到連續的空間環境和未知的動態。作者證明了BMDP的解決方案是一個新的預算貝爾曼最優性算子的固定點。這一觀察結果使我們能夠引入Deep Reinforcement Learning算法的自然擴展來解決大規模BMDP問題,並在口語對話和自動駕駛兩個模擬應用上驗證了方法:
非策略評估涉及使用不同行為政策獲得的歷史數據評估政策的績效。在強化學習的現實應用中,策略政策可能成本高昂且危險,而策略外評估通常是關鍵步驟。目前,離線策略評估的現有方法主要基於離散樹MDP的馬爾可夫決策過程(MDP)模型,並且由於重要性權重的累積乘積而具有高方差。在本文中,作者直接基於離散有向無環圖(DAG)MDP提出了一種新的非策略評估方法。方法可以應用於大多數非策略評估的估算,無需修改,可以顯著減少差異。作者還對方法進行了理論分析,並通過實證結果對其進行了評估。
最先進的基於模型的有效強化學習(RL)算法通常通過迭代求解經驗模型來行動,即,通過對所收集的經驗構建的馬爾可夫決策過程(MDP)執行完全規劃。在本文中,作者關注有限狀態有限時間MDP設置中基於模型的RL,並建立用貪婪策略進行探索 - 通過one-step planning行動,可以實現緊密的極小極大表現為reget。因此,可以完全避免基於模型的RL中的完全規劃而不會降低性能,並且通過這樣做,計算複雜度降低了S因子。結果基於對實時動態編程的新穎分析,然後擴展到基於模型的RL。具體而言,作者概括了執行完整計劃的現有算法,以便通過一步規劃來實現。對於這些概括,最後以與其全規劃對應方相同的速率證明了後悔。
在標準強化學習(RL)中,學習智能體尋求優化整體獎勵。然而,期望行為的許多關鍵方面更自然地表達為約束。例如,設計者可能想要限制不安全動作的使用,增加軌跡的多樣性以實現探索,或者在獎勵稀疏時近似專家軌跡。在本文中,作者提出了一種算法方案,可以處理RL任務中的一大類約束:具體而言,任何需要某些向量測量的期望值(例如使用動作)的約束都位於凸集中。這捕獲了先前研究的約束(例如安全性和與專家的接近度),但也實現了新的約束類(例如多樣性)。作者的方法具有嚴格的理論保證,並且僅依賴於近似解決標準RL任務的能力。因此,它可以很容易地適用於任何無模型或基於模型的RL。在實驗中,結果表明它匹配以前通過約束強制實施安全性的算法,但也可以強制執行這些算法不包含的新屬性,例如多樣性。
作者提出了模仿預測策略梯度(IPPG),這是一種用於學習策略的算法框架,這些策略以結構化程式語言簡潔地表示。與神經政策相比,此類計劃政策可以更具解釋性,可推廣性,並且易於進行形式驗證;然而,為計劃政策設計嚴格的學習方法仍然是一項挑戰。IPPG,作者對這一挑戰的回應,基於三個見解。首先,他將學習任務視為策略空間中的優化,模擬所需策略具有編程表示的約束,並使用「提升和項目」視角解決此優化問題,該視角採用漸變步驟進入無約束策略空間然後投射到受約束的空間。其次,將無約束的政策空間視為混合神經和程序化表示,這使得能夠採用最先進的深度政策梯度方法。第三,通過模仿學習將投射步驟作為程序綜合,並利用當代組合方法完成這項任務。最後提出了IPPG的理論收斂結果,以及三個連續控制域的經驗評估。實驗表明,IPPG可以明顯優於現有技術
作者研究了參數化模型何時以及如何在強化學習中最有用的問題。特別是,我們研究參數模型和體驗重放之間的共性和差異。基於重放的學習算法與基於模型的方法共享重要特徵,包括計劃:使用更多計算而無需額外數據來改進預測和行為的能力。我們討論何時期望從這兩種方法中獲益,並在此背景下解釋先前的工作。我們假設,在適當的條件下,基於重放的算法應該比基於模型的算法具有競爭力或者更好,如果該模型僅用於從觀察狀態生成虛構的過渡,則更新規則是無模型的。我們在Atari 2600視頻遊戲中驗證了這一假設。基於重放的算法獲得了最先進的數據效率,與參數模型的先前結果相比有所改進。
該論文討論了學習未知線性動力系統控制策略的問題,以最小化二次成本函數。作者提出了一種基於凸優化的方法,它可以穩健地完成這項任務:即最小化最壞情況成本,考慮到觀測數據給出的系統不確定性。該方法平衡了開發和探索,以這種方式激勵系統,以減少最壞情況成本最敏感的模型參數的不確定性。硬體在環伺服機構的數值模擬和應用證明了這種方法,與兩者中觀察到的替代方法相比,具有可觀的性能和魯棒性。
我們提出並研究正則化馬爾可夫決策過程(MDP)的一般框架,其目標是找到最大化預期貼現總獎勵加上政策正規化期限的最優政策。現存的熵正則化MDP可以投射到我們的框架中。此外,在我們的框架下,許多正則化術語可以帶來多模態和稀疏性,這在強化學習中可能是有用的。特別是,我們提出了足夠和必要的條件,導致稀疏的最優政策。我們還對所提出的正則化MDP進行了全面的數學分析,包括最優性條件,性能誤差和稀疏度控制。我們提供了一種通用的方法來設計正規化形式,並在複雜的環境設置中提出非策略行為者批評算法。我們實證分析了最優策略的數值性質,並比較了離散和連續環境中不同稀疏正則化形式的性能 。
作者試圖將概率模型應用於強化學習(RL)使得能夠應用強大的優化工具,例如對RL的變分推理。然而,現有的推理框架及其算法對學習最優策略提出了重大挑戰,例如,在偽似然方法中缺少模式捕獲行為以及在基於最大熵RL的方法中學習確定性策略的困難。於是提出了VIREL,一種新的,理論上基於RL的概率推理框架,它利用參數化的動作-值函數來總結底層MDP的未來動態。這使得VIREL成為一種模式尋求形式的KL分歧,能夠自然地從推理中學習確定性最優策略,以及在單獨的迭代步驟中優化價值函數和策略的能力,在將變分期望最大化應用於VIREL時,結果表明,演員 -評論者算法可以減少到期望最大化,政策改進等同於E步驟和政策評估到M步驟。然後從VIREL推導出一系列演員評論方法,包括一個適應性探索方案。最後,作者證明了來自這個家族的演員評論算法在幾個領域的表現優於基於軟值函數的最新方法
多模擬器培訓通過穩定學習和提高培訓吞吐量,為最近深度強化學習的成功做出了貢獻。作者提出了基於Gossip的Actor-Learner Architectures(GALA),其中幾個演員學習者(如A2C代理人)以對等通信拓撲結構組織,並通過異步八卦交換信息以利用大量分布式模擬器。並證明在使用鬆散耦合的異步通信時,GALA代理在訓練期間保持在一個ε-球之間。通過減少代理之間的同步量,與A2C(其完全同步的對應物)相比,GALA在計算上更有效且可擴展。GALA也優於A2C,更加強大,樣品效率更高。最後作者展示了可以在單個GPU上並行運行幾個鬆散耦合的GALA代理,並且在可比功耗方面實現了比樸素A2C更高的硬體利用率和幀速率。
在該論文中,作者考慮一個強化學習代理如何解決一系列強化學習問題(一系列馬爾可夫決策過程)可以使用在其生命早期獲得的知識來提高其解決新問題的能力的問題。具體而言,他們關注的是智能體在面對新環境時應該如何探索的問題。儘管時間尺度不同,但尋找最優勘探策略本身可以作為強化學習問題。作者通過實驗得出結論,這些實驗顯示了使用我們提出的方法優化勘探策略的好處。
UCB對元學習的研究可以說是出於前沿,本文基於元學習是一種強大的工具,它建立在多任務學習的基礎上,以學習如何快速地將模型適應新任務。在強化學習的背景下,元學習算法可以獲得強化學習過程,通過元學習先驗任務更有效地解決新問題。元學習算法的性能關鍵取決於可用於元訓練的任務:與監督學習算法最佳地概括為從與訓練點相同的分布中繪製的測試點一樣,元學習方法最好地概括為來自與元訓練任務相同的分布。實際上,元強化學習可以減輕從算法設計到任務設計的設計負擔。如果我們也可以自動化任務設計過程,我們可以設計一個真正自動化的元學習算法。在這項工作中,作者朝這個方向邁出了一步,提出了一系列無監督的元學習算法,用於強化學習。描述了無監督元強化學習的一般方法,並基於最近提出的無監督探索技術和模型無關的元學習描述了該方法的有效實例化。還討論了開發無監督元學習方法的實踐和概念考慮。實驗結果表明,無監督的元強化學習有效地獲得了加速強化學習過程,而不需要手動任務設計,顯著超過了從頭學習的性能,甚至匹配使用手工指定任務分布的元學習方法的性能。
解決複雜的,時間延長的任務是強化學習(RL)中長期存在的問題。我們假設解決這些問題的一個關鍵因素是組合性概念。通過學習可以組成以解決更長任務的概念和子技能的能力,即分級RL,我們可以獲得時間延長的行為。然而,獲得有層次的RL的有效但一般的抽象是非常具有挑戰性的。在本文中,我們建議使用語言作為抽象,因為它提供了獨特的組合結構,實現了快速學習和組合泛化,同時保留了極大的靈活性,使其適用於各種問題。我們的方法學習了一個遵循指令的低級策略和一個高級策略,可以重複跨任務的抽象,實質上是允許代理使用結構化語言進行推理。為了研究組合任務學習,我們介紹了使用MuJoCo物理引擎和CLEVR引擎構建的開源對象交互環境。我們發現,使用我們的方法,代理可以學習解決各種時間擴展的任務,例如對象排序和多對象重新排列,包括原始像素觀察。我們的分析發現,與使用相同監督的非組合抽象相比,語言的組成性質對於學習各種子技能和系統地推廣到新的子技能至關重要。
反向強化學習(IRL)使智能體能夠通過觀察(近似)最優策略的演示來學習複雜行為。典型的假設是學習者的目標是匹配教師所展示的行為。在本文中,作者考慮了學習者有自己喜好的環境,並將其考慮在內。這些偏好可以例如捕獲行為偏差,不匹配的世界觀或物理約束。他們研究了兩種教學方法:學習者不可知教學,教師通過忽略學習者偏好的最優政策提供示範,以及教師考慮學習者偏好的學習者意識教學。最後設計了學習者感知的教學算法,並表明與學習者無關的教學可以實現顯著的性能提升。
逆強化學習(IRL)是找到獎勵函數的問題,該獎勵函數為給定的馬爾可夫決策過程生成給定的最優策略。該論文著眼於有限狀態和動作的IRL問題的算法無關幾何分析。然後提出了由幾何分析驅動的IRL問題的L1正則化支持向量機公式,其中考慮了反向強化問題的基本目標:找到生成指定最優策略的獎勵函數。同時進一步分析了具有n個狀態和k個動作的逆強化學習的擬議公式,並且顯示了用於恢復獎勵函數的O(n2log(nk))的樣本複雜度,該獎勵函數生成滿足貝爾曼關於真實性的最優性條件的策略轉換概率。
該論文使用了softmax時間一致性和分散優化方法,獲得了原理和數據有效的迭代算法。在每次迭代的第一步中,代理計算其本地策略和值漸變,然後僅更新策略參數。並且代理根據其值函數將消息傳播給其鄰居,然後更新其自己的值函數。同時使用非線性函數逼近證明了非漸近收斂速度的過程。
協作多智能體強化學習通常需要分散的政策,這嚴重限制了智能體協調行為的能力。在本文中,作者表明代理之間的常識允許複雜的分散協調。在大量分散的協作多智能體任務中自然產生了常識,例如,當智能體可以重建彼此觀察的部分時。由於智能體可以獨立地就他們的共同知識達成一致,他們可以執行複雜的協調政策,以完全分散的方式對這些知識進行調整。作者提出了多智能體常識知識強化學習(MACKRL),一種學習分層策略樹的新型隨機行為者 - 批評算法。層次結構中的較高級別通過調整其常識來協調代理組,或者通過較小的子組委託較低級別但可能具有更豐富的常識。整個策略樹可以完全分散的方式執行。由於最低的策略樹級別由每個代理的獨立策略組成,因此MACKRL將獨立學習的分散策略簡化為特殊情況。作者證明了方法可以利用常見知識在複雜的分散協調任務中獲得卓越的性能,包括隨機矩陣遊戲和星際爭霸II單元微觀管理中的挑戰性問題。
Distributional Reward Decomposition for Reinforcement Learning
該論文闡述了一種關於Web頁面的優化目標,並在每周大約18M URL數據的基礎上進行試驗。
獲取論文pdf
1、關注公眾:Deep-RL
2、後臺回覆:NIPS2019
GitHub倉庫
https://github.com/NeuronDance/DeepRL
歡迎Fork,Star,Pull Request