ICLR 2018 DeepMind論文精華一覽

2021-03-02 AI前線

AI 前線導讀:4 月 30 號至 5 月 3 號,數百名研究人員將齊聚加拿大溫哥華,參加第六屆國際學習表徵大會。以下是 DeepMind 已經通過審查的論文合集以及演講內容。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)



作者:Abbas Abdolmaleki,Jost Tobias Springenberg,Nicolas Heess,Yuval Tassa,Remi Munos

我們引入了一種新的強化學習算法,稱為最大化後驗策略優化(MPO)。我們將介紹幾種現有方法,它們直接與我們的推導相關。我們開發了兩種離策略(off-policy)算法,並證明它們可與深度強化學習中的最新技術展開競爭。我們的方法在樣本效率、早熟收斂以及對超參數設置的魯棒性方面優於現有方法。

作者:Hanxiao Liu(CMU),Karen Simonyan,Oriol Vinyals,Chrisantha Fernando,Koray Kavukcuoglu

我們探索高效的神經架構搜索方法,並介紹一個簡單但功能強大的演化算法,可用於發現具有卓越性能的新架構。我們的方法結合了一種模仿人類專家普遍採用的模塊化設計模式的新型分層遺傳表示模式,以及支持複雜拓撲的搜索空間。在發現新架構方面,我們的算法已經超越了大量人為設計的圖像分類模型,在 CIFAR-10 上達到 3.6%的 top-1 誤差,而在 ImageNet 上可達 20.3%,可與現有的最佳神經架構搜索方法相媲美。我們還使用隨機搜索的方式呈現結果,在 CIFAR-10 上的 top-1 精度低於 0.3%,在 ImageNet 上低於 0.1%,同時將搜索時間從 36 小時減少到 1 小時。

作者:Karol Hausman,Jost Tobias Springenberg,Ziyu Wang,Nicolas Heess,Martin Riedmiller

我們提出了一種通過技能嵌入空間進行參數化的強化學習方法。我們通過利用隱藏變量及探索強化學習和變分推理之間的聯繫來學習這些技能。

我們的主要貢獻是用於分層策略的熵正則化策略梯度公式,以及基於隨機值梯度的離策略梯度算法。我們將證明我們的方法可有效地應用在幾種模擬機器人操作任務上。

作者:Brandon Amos,Laurent Dinh,Serkan Cabi,ThomasRothörl,SergioGómezColmenarejo,Alistair M Muldal,Tom Erez,Yuval Tassa,Nando de Freitas,Misha Denil

我們將告訴大家,預測本體感受信息的訓練模型可用於表示外部世界中的物體。這些模型能夠成功地預測未來 100 步以上的傳感器讀數,並且即使在斷開連接後仍可以繼續呈現外部物體的形狀。我們將展示通過最大化未來傳感器讀數的不確定性來進行主動數據採集,模型在此時表現出卓越的性能。我們還從真實的機器手收集數據,並演示相同的模型可用於回答有關現實世界中物體屬性的問題。

作者:James Martens,Jimmy Ba(Vector Institute),Matthew Johnson(谷歌)

Kronecker 因子近似曲率 (Martens&Grosse,2015)(K-FAC) 是一種二階優化方法,已被證明可在大規模神經網絡優化任務中提供最先進的性能(Ba et al.,2017)。它基於 Fisher 信息矩陣(FIM)的近似值,該矩陣對網絡的特定結構和參數化方式進行了假設。最初的 K-FAC 方法僅適用於完全連接的網絡,不過 Grosse&Martens(2016)最近對它進行了擴展,可用於處理卷積網絡。我們通過引入 RNN 的 FIM 逼近似來擴展處理 RNN 的方法。該逼近通過使用鏈式結構線性高斯圖形模型對不同時間步長的梯度貢獻之間的協方差結構進行建模,對各種交叉協方差進行求和並計算倒數。我們在實驗中證明,在幾個具有挑戰性的 RNN 訓練任務上,我們的方法明顯優於通用的最新優化器,如 SGD 和 Adam。

作者:Gabriel Barth-maron,Matthew Hoffman,David Budden,Will Dabney,Daniel Horgan,Dhruva Tirumala Bukkapatnam,Alistair M Muldal,Nicolas Heess,Timothy Lillicrap

我們採用了非常成功的強化學習分布視角,並將其應用在持續控制中。為了開發出我們所說的分布式分布深度確定性策略梯度算法(D4PG),我們還結合使用了一個用於離策略學習的分布式框架。我們還將這項技術與其他一些簡單的改進結合在一起,例如使用 N 步回退和優先體驗重放。在實驗中,我們檢查每個組件的貢獻,並展示它們如何相互作用,以及它們的組合貢獻。我們的研究結果表明,D4PG 算法在各種簡單的控制任務、困難的操作任務以及一組基於障礙物的運動任務中表現出了最先進的性能。

作者:Yan Wu,Greg Wayne,Alex Graves,Timothy Lillicrap

我們提供了一個端到端的記憶系統,能夠快速適應新數據並生成與它們相類似的樣本。記憶是可追蹤的,可通過貝葉斯更新規則實現最佳的在線壓縮。我們將其表示為一種分層的條件生成模型,其中記憶提供了豐富的依賴數據的優先分布。因此,自上而下的記憶和自下而上的感知被結合起來,生成可表示觀察感知的代碼。

作者:Pablo Sprechmann,Siddhant Jayakumar,Jack Rae,Alexander Pritzel,Adria P Badia·Benigno Uria,Oriol Vinyals,Demis Hassabis,Razvan Pascanu,Charles Blundell

人類和動物能夠通過幾個例子快速整合新知識,並在整個生命周期中持續不斷重複這項能力。相比之下,基於神經網絡的模型依賴靜止的數據分布和逐步訓練過程來獲得良好的泛化。我們從互補學習系統理論中汲取靈感,提出了基於記憶的參數自適應(Memory-based Parameter Adaptation,MbPA),這是一種用情景記憶增強神經網絡的方法,可以快速獲取新知識,同時保持高性能和良好的泛化。 MbPA 將樣本存儲在記憶中,然後使用基於上下文的查找來直接修改神經網絡的權重。它彌補了神經網絡的一些短板,如災難性遺忘、快速而穩定地獲取新知識,以及在評估過程中快速學習。



作者:Irina Higgins,Nicolas Sonnerat,Loic Matthey,Arka Pal,Christopher P Burgess,MatkoBošnjak,Murray Shanahan,Matthew Botvinick,Alexander Lerchner

我們提出了一種新穎的理論方法來解決抽象的組合性問題——如何學習少量的基礎構建塊,並用它們來動態創建大量新的抽象概念?我們提出了一種名為符號 - 概念關聯網絡(SCAN)的新型神經網絡架構,它可以學習基礎的視覺概念層次結構,可通過語言指令來指導它想像出新的概念。

作者:Angeliki Lazaridou,Karl M Hermann,Karl Tuyls,Stephen Clark

人們通過使用即時溝通任務來研究算法在演進或學習(組合)溝通協議方面的能力。我們通過使用當代深度學習方法和在指稱溝通遊戲上訓練強化學習神經網絡代理來擴大這項研究。我們通過開發具備從原始像素數據中進行學習的代理來擴展以前的工作,我們在符號環境中訓練代理,這是一種更具挑戰性和實際意義的輸入表示。我們發現,輸入數據中的結構化程度會影響到協議的屬性,從而證實這樣的一個假設,即當代理認為世界是結構化的時候,最有可能出現結構化的組合語言。

作者:William Fedus(蒙特婁大學),Mihaela Rosca,Balaji Lakshminarayanan,Andrew Andrew(谷歌),Shakir Mohamed,Ian Goodfellow(Google Brain)

在計算機視覺領域取得的成功推動了生成敵對網絡研究的發展。為了解決生成對抗網絡中的訓練不穩定性問題,人們已經提出了多種用於訓練動態的理論,並提出了新的訓練方法。通過關注生成對抗網絡和規範化(如梯度懲罰)的最小化發散視圖,我們可憑經驗證明,這些方法不能只通過相應的基礎理論來解釋。這激發了對新理論框架的需求,這類框架可包含和解釋所呈現的結果。

作者:Richard Evans,David Saxton,David Amos,Pushmeet Kohli,Edward Grefenstette

我們引入了一個新的邏輯蘊涵數據集,目的是度量模型捕獲和利用邏輯表達式結構來處理蘊含預測任務的能力。我們通過這個任務來比較一系列在序列處理中無處不在的架構,另外還有一個新的模型類——PossibleWorldNets——它將蘊含計算成「基於可能世界的卷積」。結果表明,相對於 LSTM RNN,卷積網絡在這類問題上存在錯誤歸納偏差,由於樹形結構神經網絡利用邏輯語法的能力得到增強,所以其性能優於 LSTM RNN,而 PossibleWorldNets 優於所有測試基準。

作者:Daniel Horgan,John Quan,David Budden,Gabriel Barth-maron,Matteo Hessel,Hado van Hasselt,David Silver

我們提出了一種分布式架構,用於大規模深度強化學習,使代理能夠從比以前多一個數量級的數據中學習。該算法對學習進行了解耦:actor 基於共享神經網絡選擇動作,與自己的環境實例進行溝通,並將所得到的體驗累積放在共享的體驗重放記憶中,然後 learner 重放經驗樣本並更新神經網絡。該架構依賴於優先體驗重放,只關注 actor 產生的重要數據。我們的架構在 Arcade Learning Environment 上大有改進,在部分 wall-clock 訓練時間方面表現出更好的性能。

作者:Audrunas Gruslys,Will Dabney,Mohammad Gheshlaghi Azar,Bilal Piot,Marc G Bellemare,Remi Munos

我們提出了多種算法和架構改進,生成的代理比 Prioritized Dueling DQN 和 Categorical DQN 具有更高的採樣效率,同時提供比 A3C 更好的運行時性能。分布式回溯策略評估算法為分布式強化學習帶來了多步的離策略更新。我們的方法可以用來將幾類多步策略評估算法轉換為分布式算法。 β-leave-one-out 策略梯度算法使用操作值作為基準。新的優先重放算法利用時間局部性來實現更高效的重播放先級。



作者:Ari Morcos,David GT Barrett,Neil C Rabinowitz,Matthew Botvinick

我們主要研究單一方向泛化的重要性,我們所採用的是受到幾十年實驗神經科學啟發的方法——探索損傷影響——用以確定:深度神經網絡中的神經元組到底有多重要?更容易解釋的神經元對網絡的計算更重要嗎?我們通過刪除單個神經元以及神經元組來測試損傷對網絡的性能影響。實驗給我們帶來兩個驚人的發現:首先,儘管以前的很多研究專注於理解易於解釋的單個神經元(例如「貓神經元」或深度網絡隱藏層中的神經元),我們發現這些可解釋的神經元並不比混淆難解釋的神經元更重要。其次,能夠正確分類看不見的圖像的網絡比僅能分類以前見過的圖像的網絡對刪除神經元更具適應性。換句話說,泛化網絡比記憶網絡更不依賴單一方向。

作者:Dani Yogatama,Yishu Miao,GáborMelis,Wang Ling,Adhiguna Kuncoro,Chris Dyer,Phil Blunsom

生成流利的語法語言需要記錄過去生成的單詞。我們在論文中比較了三種記憶架構(順序、隨機訪問和基於棧),並發現基於棧結構的記憶在持久性複雜度方面表現出最佳性能。為了給基於棧的記憶提供更多的功能,並且更好地匹配語言中出現的各種現象,我們對現有基於棧的差分記憶進行了泛化,讓它們能夠在每個時間步執行多個彈出操作,從而進一步提高性能。最後,我們展示了我們的棧增強語言模型能夠預測傳統 LSTM 語言模型難以實現的長期協定模式。

作者:Scott Reed,Yutian Chen,Thomas Paine,Aaron van den Oord,S. M. Ali Eslami,Danilo J Rezende,Oriol Vinyals,Nando de Freitas

目前的圖像密度模型訓練需要大量的數據和時間。我們在論文中展示了如何將神經注意力和元學習技術與自回歸模型結合在一起,用以實現有效的機率密度估算。我們改進的 PixelCNN 可以在 Omniglot 上實現最先進的少量密度估算。我們將所學習的關注策略可視化,並發現它為簡單任務學習了直觀的算法,例如在沒有監督的情況下在 Omniglot 上進行圖像鏡像和數字繪圖。最後,我們在斯坦福的在線產品數據集上演示少量圖像生成。

作者:GáborMelis,Chris Dyer,Phil Blunsom

遞歸神經網絡架構的持續創新為語言建模基準測試提供了穩定且顯著的最新成果。然而,它們是使用不同的代碼庫和有限的計算資源進行評估,而這些資源代表了不受控制的實驗變化源。我們重新評估了一些流行的架構和泛化方法,它們都帶有大規模的自動黑盒超參數調整,並得出了一些令人驚訝的結論,即標準 LSTM 架構在經過適當的規範化後,其表現勝過更新的模型。我們在 Penn Treebank 和 Wikitext-2 語料庫上實現了最新突破,並在 Hutter Prize 數據集上建立了更強大的基線。

作者:Kris Cao,Angeliki Lazaridou,Marc Lanctot,Joel Z Leibo,Karl Tuyls,Stephen Clark

多代理強化學習提供了一種方法,用於研究在需要解決特定問題的代理社區中,溝通將以怎樣的形式出現。我們在論文中探討了在談判環境中,溝通將如何出現——一種半合作的代理溝通模型。我們介紹了兩種溝通協議,一種是基於遊戲語義的協議,另一種是無根據的,並且是基於廉價談話的。我們發現,自利的代理可以使用有根據的溝通渠道進行公平談判,但無法有效地使用無根據的渠道。然而,親社會代理確實學會了使用廉價談話來尋找最佳的談判策略,這表明合作對於語言的出現來說是必要的。我們還研究溝通行為,讓一個代理與社區中不同親社會等級的代理進行溝通,並展示代理識別將如何協助談判的進行。



作者:Edward Choi,Angeliki Lazaridou,Nando de Freitas

人類語言的一個顯著特點是其合成性,它使我們能夠用有限的詞彙來描述複雜的環境。之前的研究已經表明,神經網絡代理可以學會使用基於高度結構化組合語言進行通信。然而,人類卻無法基於總結特徵學會溝通。在我們的研究中,我們通過訓練神經系統基於原始圖像像素開發視覺感知,並學習如何與一系列離散符號溝通。代理參與圖像描述遊戲,其中圖像包含了顏色和形狀等元素。我們使用逆向轉換技術來訓練代理,其中代理會生成最大化自己理解的消息。通過定性分析、可視化和零點測試,我們發現代理可以基於原始圖像像素開發出具有合成屬性的語言。

作者:Meire Fortunato,Mohammad Gheshlaghi Azar,Bilal Piot,Jacob Menick,Matteo Hessel,Ian Osband,Alex Graves,Volodymyr Mnih,Remi Munos,Demis Hassabis,Olivier Pietquin,Charles Blundell,Shane Legg

我們將介紹 NoisyNet,一個深度強化學習代理,在權重中加入了參數噪音,並將告訴大家,代理策略的誘導隨機性有助於進行探索。NoisyNet 實現的方式很直接了當,只會增加很少的計算開銷。 我們發現,用 NoisyNet 替代 A3C、DQN 和競爭代理(分別為熵獎勵和ε貪婪)的常規探索啟發式方法在各種各樣的 Atari 遊戲中獲得了更高的分數。在某些情況下,代理超過了人類。

原文連結:

https://deepmind.com/blog/deepmind-papers-iclr-2018/

相關焦點

  • ICLR 2018論文評審結果出爐:一文概覽論文 TOP 5
    ICLR 2018 大會的論文評審已經於 11 月 27 日截止。
  • 【重磅】深度學習頂會ICLR2018評審結果出爐,一文快速了解評審分析簡報和評分最高的十篇論文
    Open Review 則非常不同,根據規定,所有提交的論文都會公開姓名等信息,並且接受所有同行的評價及提問(open peer review),任何學者都可或匿名或實名地評價論文。而在公開評審結束後,論文作者也能夠對論文進行調整和修改。這幾天ICLR 2018的審稿結果陸續出來了,讓我們來看一下。
  • DeepMind詳解新WaveNet:比原來快千倍,語音更自然 | 附論文
    DeepMind說,WaveNet在去年論文發布的時候還只是個研究用的原型,對於消費類產品來說,它消耗的計算力太多了。於是,DeepMind用一年時間為這個語音合成算法打造了升級版:並行WaveNet(parallel WaveNet),運行速度比原版快1000倍,語音質量也有所提升。
  • ICML 2018 | 清華排名國內居首:大會論文接收情況一覽
    本文介紹了在瑞典斯德哥爾摩舉行的機器學習技術國際會議(ICML)中接收論文的情況。[ 導讀 ] ICML 2018 於 7 月 10 日在瑞典斯德哥爾摩舉行,今日該會議公布了接收論文列表,本次會議共收到 2473 篇論文,621 篇被接收,接收率為 25.1%(與去年基本持平)。
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • ICLR2018 | 深度學習頂會見聞,乾貨資源都在這裡(附源碼、論文連結)
    第六屆ICLR於2018.4.30~2018.5.03在溫哥華會展中心召開,筆者署名的一篇文章有幸被workshop接收且受邀參會,下面聊一聊個人在ICLR2018上的見聞。ICLR2018會議大觀ICLR 2018共計收到1003篇論文投稿,最終2.3%的Oral論文、31.4%的Poster論文、9%被接收為Workshop track,51%的論文被拒收、6.2%的撤回率。
  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌
    直播地址:https://www.facebook.com/iclr.ccICLR 全稱為「International Conference on Learning Representations(國際學習表徵會議)」。2013 年,深度學習巨頭 Yoshua Bengio、Yann LeCun 主持舉辦了第一屆 ICLR 大會。
  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌(附最佳論文與直播地址)
    直播地址:https://www.facebook.com/iclr.ccICLR 全稱為「International Conference on Learning Representations(國際學習表徵會議)」。2013 年,深度學習巨頭 Yoshua Bengio、Yann LeCun 主持舉辦了第一屆 ICLR 大會。
  • Deepmind "預測地圖"論文背後:神經科學或將助力深度學習迎來新突破
    2017年10月2日,《NATURE NEUROSCIENCE》發表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中,Deepmind通過對主管人類長期記憶行為的「海馬體」(hippocampus)神經元活動的研究,進一步提出了可以轉化為神經網絡架構的「預測圖」理論。
  • 反思ICLR 2017:拼運算拼資源時代,學術研究如何生存?
    企業附屬型科研的最高榮譽根據質量、明確性、原創性和重要性,提交至該會議的論文會被分為口頭報告、會議海報、研討會海報以及拒稿這幾類,而其中三篇口頭報告的論文進一步被評為了「最佳論文」。在提交的 451 篇論文中,有 15 篇被選為口頭報告,另外 230 篇作為會議海報或研討會頻道的海報。
  • ICLR 2020華人雄起!華人參與度近60%,清華、南大均斬獲滿分論文
    總體來看,此次華人參與的論文數超過半壁江山,共有 412 篇,佔總論文數的 60%。其中華人一作論文共有 301 篇,佔華人參與論文數的 73%,佔收錄論文總數的 44%。下圖為入選 3 篇以上的華人學者。ICLR 2020 高產之星,兩位華人學者有7篇論文入選。
  • ACL 2018 國內企業錄用論文一覽
    ACL 是計算機語言學領域的頂級學術會議,ACL 2018 於 7 月 15 日-7 月 20 日在墨爾本召開。雷鋒網整理了多家國內企業的錄用論文。百度2018 年,百度有多篇論文被 ACL 2018 大會錄用。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    近日,谷歌的 AI 部門 DeepMind 開發了一種叫做可微分神經計算機(DNC)的神經網絡模型,相關論文發表於 10 月 12 日在線出版的《自然》雜誌上,題為《 利用神經網絡與外部動態存儲器進行混合計算》。這種新模型將神經網絡與可讀寫的外部存儲器結合,既能像神經網絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統計算機一樣處理數據。
  • DeepMind開了個心理學實驗室
    關於這個實驗室,DeepMind剛剛公開了一篇論文:Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents,在裡邊詳細介紹了Psychlab的環境、API,還展示了一些示例任務。
  • 一文盡覽 ICLR 2019 Facebook & Google 入選論文
    論文入選結果公布,各大公司和研究院紛紛在博客上公布了今年入選的論文。其中,Facebook 戰果滿滿,一共有 23 篇論文入選。值得注意的是,2018 年圖靈獎得主 Yann LeCun 是其中兩篇入選論文的共同作者之一。Facebook 人工智慧研究院研究員、圍棋項目負責人田淵棟博士也參與了其中兩篇論文的寫作。而一直備受關注的 Google 在今年也有 57 篇論文入選了 ICLR 2019,其中,oral 論文有三篇。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    研究者們發布了哪些值得一讀的論文?又有哪些開源的代碼和資料庫可以使用了?快快跟隨文摘菌盤點過去一周AI大事件!>Uber自動駕駛汽車在亞利桑那州發生致命事故來源:WWW.THEGUARDIAN.COM 連結:https://www.theguardian.com/technology/2018
  • DeepMind私貨公開,推出分布式機器學習庫,TF、Keras可用
    distribute_strategy.ipynbGitHub筆記本https://github.com/tensorflow/docs/blob/master/site/en/r2/guide/distribute_strategy.ipynbDeepMind博客https://deepmind.com
  • DeepMind首次披露旗下AI專利申請情況,引發熱議
    DeepMind 創始人 Demis Hassabis 博士曾在一篇文章中介紹了其人工智慧方法(地址:https://www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago-google-deepmind-ai)。
  • 【ICLR 2016最佳論文】DeepMind 開發 NPI,有望取代初級程式設計師(附下載)
    來源:arXiv.org譯者:朱煥【新智元導讀】特徵學習和深度學習重要會議 ICLR 2016 最佳論文,DeepMind 團隊開發了一個「神經編程解釋器」(NPI),能自己學習並且編輯簡單的程序,排序的泛化能力也比序列到序列的 LSTM 更高。