不出所料!ICLR 2018最佳論文:基於梯度的元學習算法

2021-01-10 機器之心Pro

於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網絡和元學習算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。

論文:On the convergence of Adam and Beyond論文地址:https://openreview.net/pdf?id=ryQu7f-RZ機器之心文章:超越 Adam,從適應性學習率家族出發解讀 ICLR 2018 高分論文

論文:Spherical CNNs論文地址:https://openreview.net/pdf?id=Hkbd5xZRb機器之心文章:ICLR 2018 | 阿姆斯特丹大學論文提出球面 CNN:可用於 3D 模型識別和霧化能量

論文:Continuous adaptation via meta-learning in nonstationary and competitive environments論文地址:https://openreview.net/pdf?id=Sk2u1g-0-

這三篇論文在開放式雙盲審中都有非常高的評價,它們都被接收為 Oral 論文。其實我們感覺這三篇論文所研究的領域都是非常受關注的主題,首先 Sashank J. Reddi 等人關於優化算法的研究表明了基於歷史梯度平方的指數移動均值如何會影響適應性學習率算法的收斂效果,這也是近來很多研究者所困惑的地方。Taco S. Cohen 等研究者對球面 CNN 的研究擴寬了卷積神經網絡的應用邊界,因而能高效處理無人機和機器人等全向視角。最後 Maruan Al-Shedivat 等研究者提出一種基於梯度的簡單元學習算法,該算法適用於動態變化和對抗性的場景,並獲得顯著高效的適應性智能體。

接下來,是機器之心對第三篇論文主要內容的編譯介紹:

摘要

在非平穩環境中根據有限的經驗連續地學習和適應對於發展通用人工智慧而言至關重要。在本文中,我們將連續適應的問題在 learning-to-learn 框架中重構。我們開發了一種簡單的基於梯度的元學習算法,該算法適用於動態變化和對抗性的場景。此外,我們還設計了一種新的多智能體競爭環境 RoboSumo,並定義了迭代適應的遊戲,用於測試連續適應的多個層面。研究表明,在少樣本機制下,相比反應性的基線算法,通過元學習可以得到明顯更加高效的適應性智能體。對智能體集群的學習和競爭實驗表明元學習是最合適的方法。

介紹

強化學習 ( RL ) 近期取得了令人矚目的成果,從玩遊戲(Mnih 等,2015;Silver 等,2016)到對話系統的應用(Li 等,2016)再到機器人技術(Levine 等,2016)。儘管取得了一定的進展,但用於解決許多此類問題的學習算法都是為處理靜止環境而設計的。另一方面,由於複雜性(Sutton 等人,2007)、動態環境中的變化或系統實時環境的目標變化(Thrun,1998)及存在多個學習智能體(Lowe 等,2017;Foerster 等,2017a)等因素,現實世界往往是非平穩的(Sutton 等, 2007)。非平穩性打破了標準假設,要求智能體在訓練和執行時不斷適應,以便取得成功。

在非平穩條件下學習是一項挑戰。處理非平穩性的典型方法通常是以語境檢測(Da Silva 等,2006)及追蹤(Sutton 等,2007)為基礎,即通過持續微調策略對環境中已經發生的變化做出反應。雖然現代深度強化學習算法能夠在某些任務上實現超人類性能,但不幸的是,這種算法採樣效率很低。非平穩性僅允許在環境屬性改變之前進行有限的交互。因此,它會立即將學習置於少樣本機制,這通常使得簡單的微調方法變得不切實際。

非平穩環境可以看作是平穩任務的序列,因此我們建議將它作為一個多任務學習問題來處理(Caruana,1998)。learning-to-learn(或元學習)的方法(Schmidhuber,1987;Thrun & Pratt,1998)在少樣本機制中特別受歡迎,因為它們可以從少數幾個例子中概括出靈活的學習規則。元學習在監督領域展現了有潛力的效果,最近得到了研究界的廣泛關注 (如 Santoro 等,2016;Ravi & Larochelle, 2016)。本文提出了一種基於梯度的元學習算法,這種算法類似(Finn 等,2017b)的方法,並適用於非平穩環境中 RL 智能體的連續適應。更具體地說,我們的智能體以元學習的方式學習預測環境的變化並相應地更新其策略。

雖然實際環境中的任何變化都可能帶來非平穩性(如智能體的物理變化或特性變化),但是由於緊急行為的複雜性,具有多個智能體的環境特別具有挑戰性,並且對於從多人遊戲(Peng 等人,2017)到協作無人駕駛艦隊的應用具有實際意義(Cao 等,2013)。從任何單個智能體的角度來看,多智能體環境都是非平穩的,因為所有的智能體都在同時學習和改變(Lowe 等,2017)。本文研究了競爭性多智能體環境下連續適應學習對手的問題。

為此,我們設計了 RoboSumo——一個具有模擬物理特性的 3D 環境,允許成對的智能體相互競爭。為了測試連續適應性,我們引入了迭代適應遊戲,這是一種新的設置,其中訓練有素的智能體在重複遊戲的多個回合中與相同的對手競爭,同時允許二者在回合之間更新策略、改變行為。在這種迭代博弈中,從智能體的角度來看,每個回合的環境不同,智能體必須適應這種變化才能贏得博弈。此外,競爭成分的存在使得環境不僅是非平穩的,而且是對抗的,這提供了一個自然的訓練課程,並鼓勵學習魯棒的戰略(Bansal 等,2018)。

我們以(單個智能體)具有手動非平穩性的移動任務和 RoboSumo 迭代適應遊戲上的一些基線評估了我們的元學習智能體。實驗結果表明,元學習策略在單個智能體和多智能體環境下的小樣本模式下明顯優於其他適應方法。最後,我們進行了一個大規模實驗,訓練具有不同形態、策略結構和適應方法的多種智能體,並使它們通過相互競爭在迭代博弈中進行交互。我們根據智能體在這些遊戲中的 TrueSkills 對其進行評估(Herbrich 等,2007),在幾次迭代中實現智能體群體的進化——輸的智能體會消失,而贏的得到複製。結果表明,具有元學習適應策略的智能體是最合適的。演示適應行為的視頻參見以下連結:https://goo.gl/tboqaN。

圖 1:(a)多任務強化學習中的 MAML 的概率模型。其中,任務 T、策略π和軌跡τ都是隨機變量,並按圖中連接的邊互相關聯。(b)我們的擴展模型可以連續地適應由於環境的非平穩性導致動態變化的任務。上一時間步的策略和軌跡被用於為當前時間步構建新的策略。(c)從φ_i 到φ_i+1 的元更新的計算圖。方框表示的是帶具體參數的策略圖的副本。模型是通過從 L_(T_i+1) 開始的截斷反向傳播優化的。

算法 1 訓練時的元學習;算法 2 執行時的改編

圖 2:(a)實驗中使用的三類智能體。三個機器人之間的不同之處在於:腿的數量、位置以及大腿和膝蓋上的運動限制。(b)不平穩的運動環境。紅色腿應用的力矩通過動態變化的因子而擴展。(c)RoboSumo 環境。

圖 3:在一輪包含多個 episode 的迭代適應遊戲中,一個智能體與對手間的比賽。智能體如果贏得大部分 episode,就等於贏得一輪(輸贏用顏色表示)。智能體和對手都可能逐輪(用版本編號來表示)升級自己的策略。

圖 4:在 3 個非平穩移動環境中的 7 個連續 episode 的獎勵。為了評估適應性策略,我們在每個環境中運行這 7 個 episode,其中每個環境、策略和元更新都在重複迭代前經過了完全重置(重複 50 次)。陰影區域是 95% 置信區間。最好閱讀彩圖。

圖 5:迭代遊戲中的不同適應策略對抗 3 個不同預訓練對手的勝率結果。在測試時,智能體和對手都從 700 版本開始。對手的版本數在自我對抗學習中隨著每個連續回合而不斷增加,而智能體只能按給定的有限經驗和給定的對手進行適應。每個回合由 3 個事件構成。每個迭代遊戲重複 100 次;陰影區域表示 95% 引導置信區間;沒有經過平滑化。最好閱讀彩圖。

圖 6:在和學習對手的迭代遊戲中,隨著每回合事件數量的增加所帶來的勝率變化效應。

圖 7:性能最好的基於 MLP 和基於 LSTM 的智能體的 TrueSkill 值。TrueSkill 值基於 1000 次迭代適應性遊戲的結果(贏、輸、平)計算,其中每個遊戲包含 100 個連續回合,每個回合有 3 個事件。遊戲中的對抗雙方從 105 個預訓練的智能體群體中隨機選取。

圖 8:1050 個智能體群體進化 10 代。最好閱讀彩圖。

相關焦點

  • 華為諾亞ICLR 2020滿分論文:基於強化學習的因果發現算法
    在此論文中,華為諾亞方舟實驗室因果研究團隊將強化學習應用到打分法的因果發現算法中,通過基於自注意力機制的 encoder-decoder 神經網絡模型探索數據之間的關係,結合因果結構的條件,並使用策略梯度的強化學習算法對神經網絡參數進行訓練,最終得到因果圖結構。在學術界常用的一些數據模型中,該方法在中等規模的圖上的表現優於其他方法,包括傳統的因果發現算法和近期的基於梯度的算法。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    以下帶來ICLR 2018的最佳論文的介紹,以及DeepMind和谷歌的論文概況。 論文下載地址: https://deepmind.com/blog/deepmind-papers-iclr-2018/ https://research.googleblog.com/2018/04/google-at-iclr-2018.html
  • 機器學習頂會ICML 2018:復旦大學副教授獲最佳論文亞軍 騰訊清華...
    智東西(公眾號:zhidxcom)文 | 心緣智東西7月12日消息,第35屆機器學習國際大會ICML 2018在7月10日至15日期間登陸瑞典斯特哥爾摩。ICML官網上提前公布了最佳論文名單,來自MIT和UC Berkeley的研究人員摘得最佳論文的桂冠。
  • OpenAI提出Reptile:可擴展的元學習算法
    近日,OpenAI發布了簡單元學習算法Reptile,該算法對一項任務進行重複採樣,執行隨機梯度下降,更新初始參數直到習得最終參數。該方法的性能可與MAML(一種廣泛應用的元學習算法)媲美,且比後者更易實現,計算效率更高。
  • ICLR 2020 匿名評審九篇滿分論文,最佳論文或許就在其中|模型|杜克...
    但實際上,小批量梯度的方差或者其它逼近海塞矩陣的方法,可以和梯度一樣高效地計算。研究者對這些計算值非常感興趣,但DL框架並不支持自動計算,且手動執行又異常繁雜。為了解決這個問題,來自圖賓根大學的研究者在本文中提出一種基於PyTorch的高效框架BackPACK,該框架可以擴展反向傳播算法,進而從一階和二階導數中提取額外信息。
  • 自「彩票假設」理論被授予2019 ICLR 最佳論文後,該領域又有了哪些...
    這種對於權值處理的矛盾也催生出了相關的技術,這些技術使用基於梯度的方法或者更高階的曲率信息來學習剪枝掩模。問題 3:我們應該多久進行一次剪枝?基於權值的幅值對其重要性進行評估會在很大程度上受到噪聲幹擾。我們知道,網絡剪枝方法可以分為單次剪枝(One-Shot)和迭代式(Iterative)剪枝。
  • ICLR-17最佳論文一作張弛原新作:神經網絡層並非「生而平等」
    來源:arxiv 編輯:大明,文強【新智元導讀】ICLR-17最佳論文《理解深度學習需要重新思考泛化》曾引發學界熱議。今天新智元要介紹的論文是ICLR 2017最佳論文獎得主、《理解深度學習需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作:
  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    兩年前一些關於元學習的論文(RL2 https://arxiv.org/abs/1611.02779 ,Wang et al. https://arxiv.org/abs/1611.05763, 和 MAML https://arxiv.org/abs/1703.03400) ,介紹了在策略梯度(policygradient)和密集獎勵(denserewards)的有限環境中將元學習應用於強化學習的初步結果
  • 手把手 | OpenAI開發可拓展元學習算法Reptile,能快速學習
    大數據文摘作品編譯:Zoe Zuo、丁慧、Aileen本文來自OpenAI博客,介紹一種新的元學習算法Retile。在OpenAI, 我們開發了一種簡易的元學習算法,稱為Reptile。它通過對任務進行重複採樣,利用隨機梯度下降法,並將初始參數更新為在該任務上學習的最終參數。
  • 7篇ICLR論文,遍覽聯邦學習最新研究進展
    具體算法如下:實驗分析本文基於經典聯邦學習的合成資料庫和非合成資料庫進行實驗,實驗中同時使用凸模型和非凸模型,在 TensorFlow 中實現所有代碼,以一個伺服器和 m 個設備模擬一個聯邦學習網絡。特別地,在實踐中,一種合理的方法是並行運行具有多個 q 的算法(詳見 q-FedAvg 的算法流程),以獲得多個最終全局模型,然後通過驗證數據性能(例如準確度)從中進行選擇。在這個過程中,聯邦學習網絡中的每個設備不僅可以從此過程中選擇一個最佳 q,還可以根據其驗證數據選擇特定於設備的模型。表 1 中顯示了這種針對特定設備的策略的性能改進。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    Adam優化算法是隨機梯度下降算法的擴展式,近來其廣泛用於深度學習應用中,尤其是計算機視覺和自然語言處理等任務。本文分為兩部分,前一部分簡要介紹了Adam優化算法的特性和其在深度學習中的應用,後一部分從Adam優化算法的原論文出發,詳細解釋和推導了它的算法過程和更新規則。
  • 數十篇滿分論文,接收率26.5%,ICLR2020接收結果,明年非洲見
    機構:麻省理工學院 關鍵詞:深度策略梯度方法、深度強化學習 連結:https://openreview.net/forum?Beom Lee、Hayeon Lee 等 機構:韓國科學技術院、浦項科技大學 關鍵詞:元學習、少樣本學習、貝葉斯神經網絡 連結:https://openreview.net/forum?
  • NeurIPS提前看|四篇論文,一窺元學習的最新研究進展
    機器之心原創作者:仵冀穎編輯:H4O2019 年,NeurIPS 接受與元學習相關的研究論文約有 20 餘篇。元學習(Meta-Learning)是近幾年的研究熱點,其目的是基於少量無標籤數據實現快速有效的學習。
  • NIPS2018最佳論文解讀:Neural Ordinary Differential Equations
    原標題:NIPS2018最佳論文解讀:Neural Ordinary Differential Equations雷鋒網 AI 科技評論按,不久前,NeurIPS 2018 在加拿大蒙特婁召開,在這次著名會議上獲得最佳論文獎之一的論文是《Neural Ordinary Differential Equations》,論文地址:https://arxiv.org
  • 精彩論文|基於嵌入波矢濾波算法設計的「域」復用計算全息圖
    撰稿人 | 武霖論文題目 | 基於嵌入波矢濾波算法設計的「域」復用計算全息圖Domain multiplexed computer-generated holography designed by wavevector filtering embedded algorithm主要作者| Lin Wu(武霖),Ziyang Zhang
  • NeurIPS2018時間檢驗獎論文回顧:為什麼深度學習適合大規模數據集
    他們的研究對象是一種較老的算法,隨機梯度下降(SGD),而它如今幾乎也和所有的深度學習應用形影不離。他們也研究了許多種不同的優化算法,結果表明隨機梯度下降是最好的。他們的結果得到了許多別的研究者的實驗支持,同時也引領了在線優化算法的新研究興趣。如今,在線優化算法也在機器學習領域有著許多的應用。謎團尚未完全解開在隨後的幾年中,研究人員們開發了隨機梯度下降的許多變種,包括對於凸函數和非凸函數的(非凸函數的優化方法對深度學習非常重要)。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    上一講已經深入剖析了 gym 環境的構建強化學習實戰《第一講 gym學習及二次開發 - 知乎專欄》。這一講,我們將利用gym和tensorflow來實現兩個最經典的強化學習算法qleanring 和基於策略梯度的方法。本節課參考了莫煩的部分代碼(見知乎問答《強化學習(reinforcement learning)有什麼好的開源項目、網站、文章推薦一下?》),在此對其表示感謝。
  • 斯坦福ICLR 2018錄用論文:高效稀疏Winograd卷積神經網絡| ICLR 2018
    雷鋒網 AI 科技評論按:ICLR 2018 於 5 月初在加拿大溫哥華舉辦。論文「Efficient Sparse-Winograd Convolutional Neural Networks」被 ICLR 2018 錄用,第一作者、史丹福大學的博士生劉星昱為雷鋒網AI 科技評論撰寫了獨家解讀稿件,未經許可不得轉載。
  • 10個梯度下降優化算法+備忘單
    V是梯度的指數加權平均值,S是過去p階梯度的指數加權平均值,類似於最大函數,如下所示(參見論文收斂證明)。Nesterov組件在Nadam算法中對學習率產生了更強的約束,同時對梯度的更新也有更直接的影響。一般而言,在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。