深度學習與強化學習

2021-01-14 數學人生

隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。除了眾所周知的 AlphaGo 之外,DeepMind 之前已經使用深度學習與強化學習的算法構造了能夠自動玩 Atari 遊戲的 AI,並且在即時戰略遊戲 StarCraft II 的遊戲 AI 構建上做出了自己的貢獻。雖然目前還沒有成功地使用 AI 來戰勝 StarCraft II 的頂尖職業玩家,但是 AI 卻能夠帶給大家無窮的想像力和期待。


本篇 PPT 將會從強化學習的一些簡單概念開始,逐步介紹值函數與動作值函數,以及 Q-Learning 算法。然後介紹深度學習中卷積神經網絡的大致結構框架。最後將會介紹卷積神經網絡是如何和強化學習有效地結合在一起,來實現一些簡單的遊戲 AI。


之前也寫過一份PPT《當強化學習遇見泛函分析》,之前文章從強化學習的定義出發,一步一步地給讀者介紹強化學習的簡單概念和基本性質,並且會介紹經典的 Q-Learning 算法。文章的最後一節會介紹泛函分析的一些基本概念,並且使用泛函分析的經典定理 Banach Fixed Point Theorem 來證明強化學習中 Value Iteration 等算法的收斂性。










歡迎大家關注公眾帳號數學人生

(長按圖片,識別二維碼即可添加關注)

Long-press QR code to transfer me a reward

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    在深度學習的世界中,無論您的模型多麼先進,沒有充分對業務充分理解和乾淨的數據都不會走得太遠。這個事實在金融領域尤其如此,在我們的數據集中,只存在股票的開盤價,最高價,最低價,調整後的收盤價和交易量的5個變量。在第一幅圖中,不難發現這些原始數據值不足以訓練機器學習模型。高度相關的變量乍看起來似乎很有希望,但是相關係數極高的缺點是實際上沒有那麼多的信息。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀摘要本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀摘要本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 「句子級」的深度強化學習方法難以求解器空間
    backpropagation和progressivegradientxpress(引入hinton先驗,更多方法變為基於歷史記錄的scheme)都是深度學習起步之初的主流方法,除此之外還有包括reinforcementlearning和proximalandadaptiverl等重要進展。但是深度學習從起步到發展至今,說的上的諸多進展似乎都停留在rl的範疇。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    在這一年,AI 社區尤其將深度強化學習大肆宣揚為下一個朝著通用人工智慧(AGI)前進的革命性的一步。通用人工智慧,顧名思義,就是指能夠像人類一樣以一種通用的方式學習萬事萬物的計算機算法。近年來,研究者們針對深度強化學習開展了大量研究工作,現在也逐漸取得了一定進展。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    2ff99a73c8b 論文連結:https://arxiv.org/abs/1802.08311 摘要:近年來,深度強化學習在解決序列決策的幾個重要基準問題方面取得了令人矚目的進展我們正繼續研究深層強化學習的策略網絡結構,希望在未來能有更多有趣的發現。下次再見! 想要繼續查看該篇文章相關連結和參考文獻?
  • Nature重磅:科學家利用深度強化學習使全自動環境監測實現
    近日,來自谷歌研究院(Google Research )和 Alphabet 旗下公司 Loon 的研究人員組成的科研團隊,成功開發出的一種基於深度強化學習的高性能人工智慧控制器,能讓高空氣球一連數周待在原地,並根據環境因素進行實時決策並實現自主導航。
  • 當強化學習遇見泛函分析
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 深度強化學習從入門到大師:以刺蝟索尼克遊戲為例講解PPO(第六部分)
    同樣,我們不想最大化減少該行動被選中的概率,因為這種貪婪學習會導致策略過大的改變,以至於變得糟糕也說不定。 總而言之,多虧裁剪替代目標函數,我們約束了新策略相對舊策略兩種情形下的變動範圍。於是,我們把概率比控制在小區間內,因此,這種裁剪有利於求策略梯度。如果概率在[1 - ?, 1+?]區間外,梯度值為0。
  • 強化學習的10個現實應用
    本文我們將會聚焦於強化學習在現實生活中的實際應用。無人駕駛中的應用很多論文都提到了深度強化學習在自動駕駛領域中的應用。Wayve.ai已經成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習算法來處理車道跟隨任務的問題。他們的網絡結構是一個有4個卷積層和3個全連接層的深層神經網絡。例子如圖。中間的圖像表示駕駛員視角。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    不過 Deep RL 需要大量的訓練數據,人們開始質疑深度強化學習過於依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。但在本文中,DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。
  • 專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...
    所以本文基於近些年被提出的、能夠有效解決某些組合優化問題的深度強化學習方法—Pointer Network 方法來優化物品的放入順序。本文基於大量實際業務數據對網絡模型進行了訓練和檢驗。結果表明,相對於已有的啟發式算法,深度強化學習方法能夠獲得大約 5% 的效果提升。 1.
  • AI學會「以牙還牙」,OpenAI發布多智能體深度強化學習新算法LOLA
    OpenAI和牛津大學等研究人員合作,提出了一種新的算法LOLA,讓深度強化學習智能體在更新自己策略的同時,考慮到他人的學習過程,甚至實現雙贏。每個LOLA智能體都調整自己的策略,以便用有利的方式塑造其他智能體的學習過程。初步試驗結果表明,兩個LOLA 智能體相遇後會出現「以牙還牙/投桃報李」(tit-for-tat)策略,最終在無限重複囚徒困境中出現合作行為。
  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    但在另一方面,為機器人指定任務以進行強化學習則需要投入大量精力。大多數原有項目已經在嘗試引導物理機器人進行深度強化學習,這要求我們使用專門的傳感器建立獎勵或者研究任務,而機器人則利用其內部傳感器對獎勵指標進行測量。例如,機器人可以使用熱成像儀跟蹤液體運動,或者使用專門的計算機視覺系統跟蹤物體軌跡。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • 資料| Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化...
    《Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習》共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關係,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法
  • 強化學習基礎-對偶梯度上升
    該方法的核心思想是把目標函數轉換為可以迭代優化拉格朗日對偶函數。其中拉格朗日函數 ? 和拉格朗日對偶函數 g 定義為: 長按連結點擊打開或點擊【強化學習基礎:對偶梯度上升】: https://ai.yanxishe.com/page/TextTranslation/1427 AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網 盤點圖像分類的竅門動態編程:二項式序列如何用Keras來構建LSTM模型,並且調參一文教你如何用