NeurIPS 2020 | 近期必讀Q-learning精選論文

2021-03-02 AMiner科技
AMiner平臺(https://www.aminer.cn)由清華大學計算機系研發,擁有我國完全自主智慧財產權。平臺包含了超過2.3億學術論文/專利和1.36億學者的科技圖譜,提供學者評價、專家發現、智能指派、學術地圖等科技情報專業化服務。系統2006年上線,吸引了全球220個國家/地區1000多萬獨立IP訪問,數據下載量230萬次,年度訪問量超過1100萬,成為學術搜索和社會網絡挖掘研究的重要數據和實驗平臺。


Q-learning是強化學習的一種方法。Q-learning就是要記錄下學習過的政策,因而告訴智能體什麼情況下採取什麼行動會有最大的獎勵值。Q-learning不需要對環境進行建模,即使是對帶有隨機因素的轉移函數或者獎勵函數也不需要進行特別的改動就可以進行。

對於任何有限的馬可夫決策過程(FMDP),Q-learning可以找到一個可以最大化所有步驟的獎勵期望的策略。在給定一個部分隨機的策略和無限的探索時間,Q-learning可以給出一個最佳的動作選擇策略。

根據AMiner-NeurIPS 2020詞雲圖和論文可以看出,與Q-learning是在本次會議中的熱點,下面我們一起看看Q-learning主題的相關論文。


1.論文名稱:Conservative Q-Learning for Offline Reinforcement Learning

論文連結:https://www.aminer.cn/pub/5edf5ddc91e011bc656defe2?conf=neurips2020

簡介:有效地利用強化學習(RL)中以前收集的大型數據集是大規模實際應用程式的主要挑戰。離線RL算法承諾無需進一步交互即可從先前收集的靜態數據集中學習有效的策略。但是,在實踐中,離線RL提出了一個重大挑戰,標準的非政策性RL方法可能會因對數據集和學習的策略之間的分布偏移引起的值的高估而失敗,尤其是在訓練複雜和多模式數據分布時。在本文中,我們提出了保守的Q學習(CQL),其目的是通過學習保守的Q函數來解決這些局限性,從而使策略在該Q函數下的期望值降低其真實值。我們從理論上證明,CQL對當前政策的價值產生了下限,可以將其納入原則上的政策改進程序中。在實踐中,CQL通過簡單的Q值正則化器擴展了標準Bellman錯誤目標,該Q值正則化器可以在現有的深層Q學習和基於行為者的實現基礎上直接實現。在離散和連續控制域上,我們都表明CQL明顯優於現有的離線RL方法,經常學習的策略可以獲得更高的2-5倍的最終回報,尤其是從複雜的多模式數據分布中學習時


2.論文名稱:Can Q-Learning with Graph Networks Learn a Generalizable Branching Heuristic for a SAT Solver?

論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828397a17?conf=neurips2020

簡介:我們提出了Graph-Q-SAT,這是布爾SAT求解器的分支啟發式算法,它使用圖神經網絡進行函數逼近,使用基於值的強化學習(RL)進行訓練。使用Graph-Q-SAT的求解器是完整的SAT求解器,可以提供令人滿意的分配結果或不滿足證明,這是許多SAT應用程式所必需的。 SAT解算器中常用的分支啟發法在預熱期間做出的決策很差,而GraphQ-SAT受過訓練,可以檢查特定問題實例的結構,以便在搜索早期做出更好的決策。 Training Graph-Q-SAT具有數據有效的功能,不需要精心準備的數據集或特徵工程。我們使用與MiniSat求解器的RL接口訓練Graph-Q-SAT,並顯示GraphQ-SAT可以將解決SAT問題所需的迭代次數減少2-3倍。此外,它泛化到無法滿足的SAT實例以及變量比其訓練的5倍多的問題。我們表明,對於較大的問題,迭代次數的減少導致壁鍾時間的減少,這是設計啟發式方法的最終目標。當在與訓練所用不同的任務系列上測試Graph-Q-SAT時,我們還顯示出積極的零射傳輸行為。儘管需要更多工作來應用Graph-Q-SAT來減少現代SAT解決環境中的掛鍾時間,但令人信服的概念證明表明,配備有Graph神經網絡的RL可以學習用於SAT搜索的通用分支啟發法

3.論文名稱:Zap Q-Learning With Nonlinear Function Approximation

論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828397be9?conf=neurips2020

簡介:Zap Q學習是一類新的強化學習算法,其主要目的是加速收斂。 在兩個限制類之外,沒有穩定性理論:表格設置和最佳停止。 本文介紹了一個用於分析更通用的遞歸算法(稱為隨機逼近)的新框架。 基於該一般理論,表明即使在函數近似體系為非線性的情況下,Zap Q學習在非簡併性假設下也是一致的。 具有神經網絡功能逼近的Zap Q學習作為一種特殊情況出現,並在OpenAI Gym的示例中進行了測試。 基於一系列神經網絡大小的多次實驗,發現新算法收斂迅速並且對於選擇函數逼近架構具有魯棒性


4.論文名稱:Self-Imitation Learning via Generalized Lower Bound Q-learning

論文連結:https://www.aminer.cn/pub/5ee8986891e011e66831c293?conf=neurips2020

簡介:下限Q學習驅動的自我模仿學習是一種新穎,有效的非政策學習方法。 在這項工作中,我們提出了一個n步下界,該下界概括了原始的基於返回值的下界Q學習,並介紹了一個新的自模仿學習算法系列。 為了為自模仿學習提供潛在的性能提升提供正式動力,我們展示了n階下限Q學習實現了定點偏差和收縮率之間的折衷,並與流行的未經校正的n 步驟Q學習。 我們最終證明,在許多連續控制基準任務上,n步下限Q學習是基於返回值的自模仿學習和未校正n步的更強大的替代選擇。


5.論文名稱:The Mean-Squared Error of Double Q-Learning

論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828398041?conf=neurips2020

簡介:理解視覺輸入中的空間關係(例如「桌上的筆記本電腦」)對於人類和機器人都非常重要。 現有數據集不足,因為它們缺乏大規模,高質量的3D地面真相信息,這對於學習空間關係至關重要。 在本文中,我們通過構建Rel3D來填補這一空白:Rel3D:第一個大規模的,帶有人類注釋的數據集,用於將3D空間關係作為基礎。 Rel3D能夠量化3D信息在預測大規模人類數據上的空間關係時的有效性。 此外,我們提出了最低限度的對比數據收集-一種減少數據集偏差的新穎眾包方法。 數據集中的3D場景成對形成最小的對:成對的兩個場景幾乎相同,但一個空間關係成立,而另一個則失敗。 我們憑經驗驗證最小限度的對比示例可以診斷當前關係檢測模型中的問題,並可以提高樣本效率。


根據主題分類查看更多論文,掃碼進入NeurIPS2020會議專題,最前沿的研究方向和最全面的論文數據等你來~添加「小脈」微信,留言「NeurIPS」,即可加入【NeurIPS會議交流群】,與更多論文作者學習交流!


閱讀原文,直達「NeurIPS2020」會議專題,了解更多會議論文!

相關焦點

  • NeurIPS 2020 | 近期必讀隨機梯度下降精選論文
    根據AMiner-NeurIPS 2020詞雲圖和論文可以看出,與Stochastic Gradient Descent是在本次會議中的熱點,下面我們一起看看Stochastic Gradient Descent主題的相關論文。
  • 【源頭活水】NeurIPS 2020 Federated Learning(一句話論文系列)
    不知不覺,距離上次寫完ICML 2020的Federated Learning論文解讀系列已經兩個月了。
  • 【重磅整理】180篇NeurIPS2020頂會《強化學習領域》Accept論文大全
    /Conferences/2020/https://www.aminer.cn/conf/neurips2020NeurIPS終於放榜,提交數再次創新高,與去年相比增加了38%,共計達到9454篇,總接收1900篇,其中谷歌以169篇傲視群雄,清華大學63篇,南京大學周志華教授團隊3篇。論
  • NeurIPS 2020最佳論文公布:OpenAI、米蘭理工大學、UC伯克利獲獎
    NeurIPS2020提交數再次創新高,共計達到9454篇,總接收1900篇,論文接收率是20.09%,但是較去年有所下降。論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828397d9e?conf=neurips20202.
  • 人工智慧相關論文 2020 accepted papers list
    id=ICLR.cc/2020/ConferenceCOLING 2020 https://coling2020.org/pages/accepted_papers_main_conferenceEMNLP 2020 :https://2020.emnlp.org/papers/mainNeurIPS 2020:https://neurips.cc/Conferences
  • NeurIPS 2019最佳論文出爐,今年增設「新方向獎」,微軟華人學者獲經典論文獎
    論文地址:https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise
  • 17篇論文詳解圖的機器學習趨勢 | NeurIPS 2019
    論文4:Group Representation Theory for Knowledge Graph Embedding連結:https://grlearning.github.io/papers/15.pdf論文 4 從群論的角度來研究KG嵌入。結果表明,在復空間中可以對阿貝爾群進行建模,且證明了RotatE(在復空間中進行旋轉)可以表示任何有限阿貝爾群。
  • 必讀論文 | 機器學習必讀論文20篇
    擁有AI賦能的科技大數據檢索平臺 AMiner 新推出的必讀論文模塊,將會不讓你為了不知道讀什麼論文而禿頭,美貌與才華兼可得也。以下是小編整理搜索得到的,近五年來有關機器學習的 20 篇必讀論文,不知道是否符合您的心中所想?如有疏漏,請輕拍,與小編聯繫後,我們將會及時添加您心目中的dream paper。
  • 大盤點:Top100 深度學習論文+7 篇下載量最多的 AI 研究文章!
    傳送門:https://github.com/terryum/awesome-deep-learning-papers在 Brainstorming box 這個網站上也整理了近年來 7 篇下載量最多的論文:1.
  • 論文審稿意見太奇葩?NeurIPS 2021:把它曝光出來給人看
    人工智慧頂會 NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增長了 40%。組織者不得不將 3 萬多個審稿任務分派給約 7000 位審稿人。NeurIPS 2020 大會主席 Marc』Aurelio Ranzato 曾表示:「這非常累,壓力很大。」論文提交數量的激增,對同行評審的質量提出了挑戰,因為稱職審稿人顯然要比投稿的增長數量少很多。
  • SARSA和Q-Learning
    所以Q-learning是off-policy的方法。為什麼有些朋友在書中這裡很難區分開SARSA和Q-learning,原因在於如果SARSA和Q-learning中policy都選擇greedy貪婪策略,也就是每一步行動都選擇Q-value最大的那個行為進行,這個時候SARSA和Q-learning生成的樣本路徑和實際訓練中的政策policy路徑基本是一致的。
  • 論文精選—CVPR2020目標檢測文章大盤點
    一、引言CVPR是計算機視覺領域最重要的國際性會議之一,官方公布2020年共計收到有效投稿
  • Talk預告 | 加州理工學院在讀博士石冠亞分享NeurIPS'20工作: 在線優化、控制和學習的結合
    他與大家分享的NeurIPS 2020工作主題是: 「在線優化、控制和學習的結合: 魯棒性和複雜度分析」。屆時將通過分享相關工作,帶領大家重新思考控制、優化和學習的內在關聯。DUANG!複雜動態系統的控制問題往往有三個視角:優化(optimization),學習(learning),以及控制(control)。傳統的分析方法一般將三者分割開來,使用不同的指標(metric)來分析不同的模塊,而忽視了它們之間的相互作用和內在關聯。重新思考控制、優化和學習的內在關聯,不僅有利於開發新的理論工具和建立新的研究視角,也可以為真實複雜動力系統的控制問題提供理論基石。1.
  • 增強學習之Q-Learning入門
    基於tensorflow的最簡單的強化學習入門-part0:Q-learning和神經網絡https://zhuanlan.zhihu.com/p/257103272. Simple Reinforcement Learning with Tensorflow Part 0: Q-Learning with Tables and Neural Networkshttps://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-0-q-learning-with-tables-and-neural-networks-d195264329d0
  • NeurIPS 2021——你不容錯過的 10 篇論文(一)
    作 者  |  Sergi Castella i Sapé@medium原文| https://towardsdatascience.com/neurips會議的增長並沒有停止:去年的會議有 1899 篇論文被接受,而今年是 2334 篇。一些已發表的論文在 arxiv.org 上已經有一段時間了,並且已經產生了影響, 這裡列出了前 10 名被引用最多的 NeurIPS 論文。1.
  • 【乾貨】2017年深度學習必讀31篇論文(附論文下載地址)
    序列學習Tensorized LSTMsTensorized LSTMs for sequence learning論文下載地址:https://arxiv.org/pdf/1711.01577.pdf最後,無需多言。
  • Training deep learning based denoisers without ground truth data
    論文標題Training deep learning based denoisers without
  • NeurIPS 2018最佳論文發布:華為諾亞方舟實驗室等獲獎,加拿大實力凸顯
    剛剛,4篇最佳論文獎、1篇時間檢驗獎悉數頒出。今年的最佳論文共有四篇。其中有一篇的一作,來自華為諾亞方舟實驗室,另外這四篇論文以及作者的履歷,大多與加拿大的大學有關,凸顯了加拿大在人工智慧領域的實力。這個大會,就是原來的人工智慧頂級會議NIPS,今年不僅有了全新簡稱NeurIPS,還有全新LOGO:左上角的N變成了一個Vr。
  • 深度學習第56講:強化學習簡介與Q-Learning實例
    關於 Q-Learning算法的細節和原理筆者這裡不做詳細描述,感興趣的朋友可以直接研讀相關論文:Watkins C J C H, Dayan P. Technical Note: Q-Learning[J]. Machine Learning, 1992, 8(3-4):279-292.
  • 2017年深度學習必讀31篇論文(附下載地址)
    序列學習Tensorized LSTMsTensorized LSTMs for sequence learning論文下載地址:https://arxiv.org/pdf/1711.01577.pdf最後,無需多言。