142頁「ICML會議」強化學習筆記整理,值得細讀

2020-12-22 AI科技大本營

作者 | David Abel

編輯 | DeepRL

ICML 是 International Conference on Machine Learning的縮寫,即國際機器學習大會。ICML如今已發展為由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級會議。其中強化學習便是該會議很重要的一個話題,每年都有非常多的投稿。本文整理了David Abel總結的ICML2018、2019兩年的深度強化學習筆記,詳看正文。

1

ICML-2019-RL-Note

作者整理簡介:我在本次會議的RL分場上度過了大部分時間(可惜錯過了所有主題演講), 所以我的大部分反思(和筆記)都集中在RL:

關於非策略評估和非策略學習的大量工作(例如,參見Hanna 等人[35],Le等人[49],Fujimoto等人[26],Gottesman等人的工作)等[32]探索再次成為一個熱門話題(參見Mavrin等人[57],Fatemi等人[25],Hazan等人[37],Shani等人[76]的工作)。除了策略評估(以及其他一些評估),這也是RL中的基本問題之一。一些非常好的工作繼續澄清分布式RL [10](參見[74,57,67]的工作)。作者認為我們需要標準化RL中的評估。並不是說我們只需要一個單一的方法或一個域,而是目前評估協議中有太多差異。元學習&元強化學習

元學習算法通用方法

Choose a form of Pr(φi | Dtrain i , θ).Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.

為什么元強化學習有用?

幾乎所有問題都與現有方法的樣本效率低下有關。將TRPO應用於真正的機器人時,機器人需要花費數天或數周的時間才能開始取得任何進展(學習步行)。

通常情況下,智能體的目標是學習一個策略最大化累計期望獎勵。

而且,RL目標的元學習問題是學習

,因此,元RL問題如下:

其優化過程如下:

當然元學習有它的優勢,也有對應的挑戰。

挑戰1:超量配置:元學習需要任務分配,一些元學習方法可能會過度適合這些任務分配。

挑戰2:任務設計:通常必須手動選擇這些任務分配,或者它們的多樣性不足以鼓勵正確的行為。很難以正確的方式選擇任務分配!

挑戰3:了解哪種算法過度擬合:許多不同的方法(黑盒,基於優化的非參數方法),但是我們不知道哪種算法最容易遭受元過度擬合。

圖強化學習

圖模型最近在深度學習中特別的人們,然而在強化學習中也是獨領風騷:TibGM: A Graphical Model Approach for RL

還有包括分布式強化學習,理論等相關內容,詳見文末PDF2019

2

ICML-2018-RL-Note

Github查看(歡迎star倉庫):

https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source

(*本文為 AI科技大本營轉載文章,轉載請聯繫原作者)

2019 中國大數據技術大會(BDTC)再度來襲!豪華主席陣容及百位技術專家齊聚,15 場精選專題技術和行業論壇,超強幹貨+技術剖析+行業實踐立體解讀,深入解析熱門技術在行業中的實踐落地。

即日起,限量 5 折票開售,數量有限,掃碼購買,先到先得!

相關焦點

  • ICML 2019必看!87頁超強幹貨博士筆記總結
    這篇87頁、由布朗大學博士四年級學生David Abel總結整理的ICML 2019參會Highlights筆記,提煉了演講和會談亮點,通篇乾貨!6月9日至15日,ICML 2019(國際機器學習大會)於美國加州舉行。
  • ICML2018 模仿學習教程
    【導讀】機器學習領域最具影響力的學術會議之一的ICML於2018年7月10日-15日在瑞典斯德哥爾摩舉行。
  • 一份AI博士生的ICML2018「學霸」筆記(55頁)
    大數據文摘出品作者:魏子敏7 月 10 日,第35屆機器學習技術國際會議
  • 乾貨分享|學會這8種筆記整理術,學習效率Up百分百!
    今天和大家分享本人認認真真,勤勤懇懇整理出來的8種筆記方法,學習,讀書,開會都會用得到,如何有效地做筆記才會讓自己所學發揮最大長處。其中筆記記得漂亮,整理的好,對於邏輯思考也是很好的鍛鍊,希望對你們有啟發。好筆記:邏輯性強,條理清晰,提高學習工作效率。
  • 史上最全的機器學習筆記,301頁PDF精心整理
    機器學習筆記PDF版本訂閱版權申明:特在此聲明,「機器學習筆記(訂閱版)」為本人獨立工作成果,未經允許,不得轉載。Copyright © 2020 Sakura-gh關注微信公眾號「Sakura的知識庫」,即可訂閱301頁的機器學習筆記PDF版本,訂閱後24小時內會發送到郵箱~訂閱版本將長期進行修訂和更新,並會在後續免費發送到你的郵箱中~封面概覽如下:
  • 數千人頂會的乾貨,ICML、CVPR2019演講視頻資源在此
    機器之心整理 參與:李亞洲 不久之前,兩大人工智慧國際頂會 ICML 2019、CVPR 2019 相繼在美國加州長灘落幕。沒能現場參會如何學習大會內容?近日,這兩場大會的相關視頻已經放出,感興趣的讀者可通過視頻學習。
  • ICML 2019全紀錄:論文解讀、workshop討論、核心知識都在這裡了
    這份筆記來自布朗大學博士David Abel,他整理了6月10日-6月14日五天ICML會議的精華內容,包含大牛發言、重要的定義公式、重點PPT,還有學術會議中最精彩的問答環節整理,總共涵蓋95篇論文。
  • ICML進行時|一文看盡獲獎論文及Google、Facebook、微軟、騰訊的最新科研成果
    後續三天就是主要技術的精彩紛呈,涉及了深度學習、強化學習、有限學習、變分貝葉斯、優化方法、自動機器學習等內容。用於強化學習的基於反饋的樹搜索論文地址:https://ai.tencent.com/ailab/media/publications//icml/148_Transfer_Learning_via_Learning_to_Transfer.pdf通過強化學習實現端到端的主動目標跟蹤
  • AI學習路線,詳細整理,由淺入深
    之前編寫過吳恩達老師機器學習個人筆記黃海廣博士帶領團隊整理了中文筆記:https://github.com/fengdu78/deeplearning_ai_books參考論文吳恩達老師在課程中提到了很多優秀論文,黃海廣博士整理如下:https://github.com/fengdu78
  • 【ICML2018】63篇強化學習論文全解讀
    【導讀】一年一度的國際機器學習會議( ICML ),於7月15日在瑞典斯德哥爾摩閉幕,ICML 的會議日程之緊湊,會議內容之豐富,令人目不暇接。
  • 學霸是怎麼整理數學壓軸題筆記的,值得每一位學生學習
    其實在聰明程度一定的情況下,學習上有句話是「好記性不如爛筆頭」,在學習中筆記的整理是非常重要的,其實我們可以看一下不管是偉大的領袖,還是聰明絕頂的科學家,他們在後天的學習中筆記的整理和梳理都是每天必做的功課。
  • 李宏毅強化學習完整筆記!開源項目《LeeDeepRL-Notes》發布
    李宏毅老師的課程包括很多常見的強化學習算法,比如策略梯度、PPO、DQN、DDPG、演員-評論員算法、模仿學習、稀疏獎勵等算法。「近端策略優化算法」課程中的 PPT,展示了重要性採樣的問題李宏毅老師的《深度強化學習》是強化學習領域經典的中文教程之一。李老師幽默風趣的上課風格讓晦澀的強化學習理論變得輕鬆易懂,他會通過很多有趣的例子來講解強化學習理論。
  • 衡水中學學霸超詳細 「神仙筆記」 :僅英語語法就整理了178頁
    僅英語語法一項內容,這位學霸用了178頁筆記去整理,以此推算,這位學霸的全科筆記該有幾千頁? 英語語法最大的特點就是容易學的不高不低,不好不壞,不上不下,考試時能拿到80%的分,卻總也滿分不了。
  • 近期必讀的六篇 ICML 2020【對比學習】相關論文
    我們簡化了最近提出的對比自監督學習算法,並且不需要專門的體系結構或存儲庫。為了理解什麼使對比預測任務能夠學習有用的表示,我們系統地研究了我們框架的主要組成部分。我們表明:(1)數據增強部分在定義有效的預測任務中起著關鍵作用;(2)在表示和對比損失之間引入可學習的非線性變換大大提高了學習表示的質量;(3)與監督學習相比,對比學習受益於更大的batch和更多的訓練。
  • 303頁|手寫高中英語筆記!筆記沒整理好的抓緊收藏
    高中階段的英語學習,其實就是學語法、記單詞和研究並熟練題型。其中,語法是大多數同學最頭疼的問題,原因在於其內容之繁雜和零散。那麼高中英語是高考時的重要科目之一,也是很多同學複習的重點和難點。英語和其他學科不同,想必所有同學都知道,筆記非常重要,英語課老師會要求每人一個筆記本,每節課都會記很多東西。下來看,背,理解。一學期下來可能就會寫厚厚的一本筆記。想必,很多同學到了高三還是空空如也吧,筆記沒有?那麼我們清北助學團隊早已為大家整理好《高中英語筆記》共303頁,想要列印的同學抓緊來吧!
  • 389頁!北大學霸整理:「高中地理」手寫筆記!不愛記筆記的福利
    "對於這個問題,我覺得都是正常的,讓孩子感到地理難的主要原因在於沒有掌握到好的學習方法。高中地理課本的內容比較抽象,理論性較強,不像初中課本那麼淺顯易懂,光靠"背地理"肯定是學不好的。除了理解重於記憶,還需聯繫實際分析解決問題。
  • 高效率學習法之方格筆記本記筆記
    不管你參加的是多麼優秀的培訓、講座、研討,如果你的筆記無法再現當時的學習內容,那麼,你好不容易學到的知識化為烏有的可能性將很大。而方格筆記本由於可以更加便捷的記錄文字和繪製圖表,能夠輕易地再現學習內容。當然,當你的筆記擁有了思維框架,擁有了再現性,你的學習和生活將會變得輕鬆快樂許多。
  • 用筆記整理生活,打造一座屬於自己的人生圖書館
    邁入職場之後,公司會定期發「工作日誌」,用於書寫每天、每周、每月的工作計劃,記錄會議內容,格式統一,內容也無甚新奇,每寫完一本就扔在一邊再也不會翻開。近幾年開始流行電子筆記,XX筆記、XX文檔等應用軟體一個一個冒出來,支持文字、語音、拍照輸入,只要有手機就能隨時記錄、隨時查閱。
  • 【乾貨】ICML2018:63篇強化學習論文精華解讀!
    ,作者將這些論文分成了多個類別,並對每篇文章的核心貢獻做了精煉的總結,這些文章也是追蹤強化學習最前沿技術的絕佳材料,精煉的總結也也便於我們快速查找與自己研究相關的文章。強化學習分類我將接受的所有RL論文分類為以下主題:強化學習理論(Theory)--- 8篇強化學習網絡(Network)---3篇強化學習算法
  • 【吐血整理】臺灣大學李宏毅深度強化學習筆記(49PPT)
    49頁PPT以及筆記,熬夜整理,值得收藏。假設是監督式方法讓機器去學習,就會變成你教授5-5後,第二手教機器下3-3,一步一步的帶下法。但強化學習不一樣,是到棋局結束才有獎勵。我們用語音機器人舉例。如果把語音機器人用監督和強化學習來比喻,非監督方式就是一句一句地教,強化學習就是讓機器自己去對話,直到對方掛電話結束語音聊天。