Q-learning是強化學習的一種方法。Q-learning就是要記錄下學習過的政策,因而告訴智能體什麼情況下採取什麼行動會有最大的獎勵值。Q-learning不需要對環境進行建模,即使是對帶有隨機因素的轉移函數或者獎勵函數也不需要進行特別的改動就可以進行。
對於任何有限的馬可夫決策過程(FMDP),Q-learning可以找到一個可以最大化所有步驟的獎勵期望的策略。在給定一個部分隨機的策略和無限的探索時間,Q-learning可以給出一個最佳的動作選擇策略。
根據AMiner-NeurIPS 2020詞雲圖和論文可以看出,與Q-learning是在本次會議中的熱點,下面我們一起看看Q-learning主題的相關論文。
論文連結:https://www.aminer.cn/pub/5edf5ddc91e011bc656defe2?conf=neurips2020
簡介:有效地利用強化學習(RL)中以前收集的大型數據集是大規模實際應用程式的主要挑戰。離線RL算法承諾無需進一步交互即可從先前收集的靜態數據集中學習有效的策略。但是,在實踐中,離線RL提出了一個重大挑戰,標準的非政策性RL方法可能會因對數據集和學習的策略之間的分布偏移引起的值的高估而失敗,尤其是在訓練複雜和多模式數據分布時。在本文中,我們提出了保守的Q學習(CQL),其目的是通過學習保守的Q函數來解決這些局限性,從而使策略在該Q函數下的期望值降低其真實值。我們從理論上證明,CQL對當前政策的價值產生了下限,可以將其納入原則上的政策改進程序中。在實踐中,CQL通過簡單的Q值正則化器擴展了標準Bellman錯誤目標,該Q值正則化器可以在現有的深層Q學習和基於行為者的實現基礎上直接實現。在離散和連續控制域上,我們都表明CQL明顯優於現有的離線RL方法,經常學習的策略可以獲得更高的2-5倍的最終回報,尤其是從複雜的多模式數據分布中學習時
論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828397a17?conf=neurips2020
簡介:我們提出了Graph-Q-SAT,這是布爾SAT求解器的分支啟發式算法,它使用圖神經網絡進行函數逼近,使用基於值的強化學習(RL)進行訓練。使用Graph-Q-SAT的求解器是完整的SAT求解器,可以提供令人滿意的分配結果或不滿足證明,這是許多SAT應用程式所必需的。 SAT解算器中常用的分支啟發法在預熱期間做出的決策很差,而GraphQ-SAT受過訓練,可以檢查特定問題實例的結構,以便在搜索早期做出更好的決策。 Training Graph-Q-SAT具有數據有效的功能,不需要精心準備的數據集或特徵工程。我們使用與MiniSat求解器的RL接口訓練Graph-Q-SAT,並顯示GraphQ-SAT可以將解決SAT問題所需的迭代次數減少2-3倍。此外,它泛化到無法滿足的SAT實例以及變量比其訓練的5倍多的問題。我們表明,對於較大的問題,迭代次數的減少導致壁鍾時間的減少,這是設計啟發式方法的最終目標。當在與訓練所用不同的任務系列上測試Graph-Q-SAT時,我們還顯示出積極的零射傳輸行為。儘管需要更多工作來應用Graph-Q-SAT來減少現代SAT解決環境中的掛鍾時間,但令人信服的概念證明表明,配備有Graph神經網絡的RL可以學習用於SAT搜索的通用分支啟發法
3.論文名稱:Zap Q-Learning With Nonlinear Function Approximation論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828397be9?conf=neurips2020
簡介:Zap Q學習是一類新的強化學習算法,其主要目的是加速收斂。 在兩個限制類之外,沒有穩定性理論:表格設置和最佳停止。 本文介紹了一個用於分析更通用的遞歸算法(稱為隨機逼近)的新框架。 基於該一般理論,表明即使在函數近似體系為非線性的情況下,Zap Q學習在非簡併性假設下也是一致的。 具有神經網絡功能逼近的Zap Q學習作為一種特殊情況出現,並在OpenAI Gym的示例中進行了測試。 基於一系列神經網絡大小的多次實驗,發現新算法收斂迅速並且對於選擇函數逼近架構具有魯棒性
論文連結:https://www.aminer.cn/pub/5ee8986891e011e66831c293?conf=neurips2020
簡介:下限Q學習驅動的自我模仿學習是一種新穎,有效的非政策學習方法。 在這項工作中,我們提出了一個n步下界,該下界概括了原始的基於返回值的下界Q學習,並介紹了一個新的自模仿學習算法系列。 為了為自模仿學習提供潛在的性能提升提供正式動力,我們展示了n階下限Q學習實現了定點偏差和收縮率之間的折衷,並與流行的未經校正的n 步驟Q學習。 我們最終證明,在許多連續控制基準任務上,n步下限Q學習是基於返回值的自模仿學習和未校正n步的更強大的替代選擇。
論文連結:https://www.aminer.cn/pub/5f7fdd328de39f0828398041?conf=neurips2020
簡介:理解視覺輸入中的空間關係(例如「桌上的筆記本電腦」)對於人類和機器人都非常重要。 現有數據集不足,因為它們缺乏大規模,高質量的3D地面真相信息,這對於學習空間關係至關重要。 在本文中,我們通過構建Rel3D來填補這一空白:Rel3D:第一個大規模的,帶有人類注釋的數據集,用於將3D空間關係作為基礎。 Rel3D能夠量化3D信息在預測大規模人類數據上的空間關係時的有效性。 此外,我們提出了最低限度的對比數據收集-一種減少數據集偏差的新穎眾包方法。 數據集中的3D場景成對形成最小的對:成對的兩個場景幾乎相同,但一個空間關係成立,而另一個則失敗。 我們憑經驗驗證最小限度的對比示例可以診斷當前關係檢測模型中的問題,並可以提高樣本效率。
閱讀原文,直達「NeurIPS2020」會議專題,了解更多會議論文!