深度強化學習教與學(教學大綱+視頻)

2022-01-01 書圈

收錄於話題 #計算類課程的教與學(教學大綱) 169個

深度強化學習教學大綱

強化學習是一種尋找搜索策略模型的優化控制算法,它通過環境交互和數據反饋不斷地改進算法模型,實現算法模型的自學習和更新,從而更好地找到優化目標和方向。此課程作為機器學習、自然語言理解、數據挖掘、模式識別等人工智慧領域的基礎,課設課程是十分必要的。通過學習該課程後,學生能更好地將深度學習的表徵能力與強化學習的決策能力有機地結合起來,提高學生解決複雜系統控制優化的能力。

掃描,優惠購書

 

本書基於PyTorch框架,用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,包括傳統的強化學習基本方法和目前流行的深度強化學習方法。在對強化學習任務建模的基礎上,首先介紹動態規劃法、蒙特卡洛法、時序差分法等表格式強化學習方法,然後介紹在PyTorch框架下,DQN、DDPG、A3C等基於深度神經網絡的大規模強化學習方法。全書以一個掃地機器人任務貫穿始終,並給出具有代表性的實例,增加對每個算法的理解。全書配有PPT和視頻講解,對相關算法和實例配有代碼程序。全書共分三部分:第一和第二部分(第1~8章)為表格式強化學習部分,著重介紹深度強化學習概述、環境的配置、數學建模、動態規劃法、蒙特卡洛法、時序差分法、n步時序差分法、規劃和蒙特卡洛樹搜索;第三部分(第9~14章)為深度強化學習部分,著重介紹深度學習、PyTorch與神經網絡、深度Q網絡、策略梯度、基於確定性策略梯度的深度強化學習、AC框架的拓展。全書提供了大量的應用實例,每章章末均附有習題。

第一部分:預備知識及環境安裝

第1章深度強化學習概述

1.1引言

1.2深度學習

1.3強化學習

1.4深度強化學習

1.5小結

1.6習題

第2章環境的配置

2.1PyTorch簡介

2.2PyTorch和TensorFlow

2.3強化學習的開發環境

2.3.1Anaconda環境搭建

2.3.2Anaconda環境管理

2.3.3PyTorch的安裝

2.3.4Jupyter Notebook的安裝

2.3.5Jupyter Notebook的使用

2.3.6Gym的安裝

2.3.7Gym案例

2.4小結

2.5習題

第二部分:表格式強化學習

第3章數學建模

3.1馬爾可夫決策過程

3.2基於模型與無模型

3.3求解強化學習任務

3.3.1策略

3.3.2獎賞與回報

3.3.3值函數與貝爾曼方程

3.3.4最優策略與最優值函數

3.4探索與利用

3.5小結

3.6習題

第4章動態規劃法

4.1策略迭代

4.1.1策略評估

4.1.2策略迭代

4.2值迭代

4.3廣義策略迭代

4.4小結

4.5習題

第5章蒙特卡洛法

5.1蒙特卡洛法的基本概念

5.1.1MC的核心要素

5.1.2MC的特點

5.2蒙特卡洛預測

5.3蒙特卡洛評估

5.4蒙特卡洛控制

5.4.1基於探索始點的蒙特卡洛控制

5.4.2同策略蒙特卡洛控制

5.4.3異策略與重要性採樣

5.4.4蒙特卡洛中的增量式計算

5.4.5異策略蒙特卡洛控制

5.5小結

5.6習題

第6章時序差分法

6.1時序差分預測

6.2時序差分控制

6.2.1Sarsa算法

6.2.2QLearning算法

6.2.3期望Sarsa算法

6.3最大化偏差與DoubleQLearning

6.3.1最大化偏差

6.3.2Double Learning

6.3.3Double QLearning

6.4DP、MC和TD算法的關係

6.4.1窮舉式遍歷與軌跡採樣

6.4.2期望更新與採樣更新

6.5小結

6.6習題

第7章n步時序差分法

7.1n步TD預測及資格跡

7.1.1n步TD預測

7.1.2前向TD(λ)算法

7.1.3後向TD(λ)算法

7.2n步TD控制及其資格跡實現

7.2.1同策略n步Sarsa算法

7.2.2Sarsa(λ)算法

7.2.3異策略n步Sarsa算法

7.2.4n步Tree Backup算法

7.3小結

7.4習題

第8章規劃和蒙特卡洛樹搜索

8.1模型、學習與規劃

8.1.1模型

8.1.2學習

8.1.3規劃

8.2DynaQ結構及其算法改進

8.2.1DynaQ架構

8.2.2優先遍歷

8.2.3模擬模型的錯誤性

8.3決策時間規劃

8.3.1啟發式搜索

8.3.2預演算法

8.3.3蒙特卡洛樹搜索

8.4小結

8.5習題

第三部分:深度強化學習

第9章深度學習

9.1傳統神經網絡

9.1.1感知器神經元

9.1.2激活函數

9.2反向傳播算法

9.2.1前向傳播

9.2.2權重調整

9.2.3BP算法推導

9.3卷積神經網絡

9.3.1卷積神經網絡核心思想

9.3.2卷積神經網絡結構

9.4小結

9.5習題

第10章PyTorch與神經網絡

10.1PyTorch中的Tensor

10.1.1直接構造法

10.1.2間接轉換法

10.1.3Tensor的變換

10.2自動梯度計算

10.2.1標量對標量的自動梯度計算

10.2.2向量對向量的自動梯度計算

10.2.3標量對向量(或矩陣)的自動梯度計算

10.3神經網絡的模型搭建和參數優化

10.3.1模型的搭建

10.3.2激活函數

10.3.3常用的損失函數

10.3.4模型的保存和重載

10.4小結

10.5習題

第11章深度Q網絡

11.1DQN算法

11.1.1核心思想

11.1.2訓練算法

11.1.3實驗結果與分析

11.2Double DQN算法

11.2.1核心思想

11.2.2實驗結果與分析

11.3Prioritized DQN

11.3.1核心思想

11.3.2訓練算法

11.3.3實驗結果與分析

11.4Dueling DQN

11.4.1訓練算法

11.4.2實驗結果與分析

11.5小結

11.6習題

第12章策略梯度法

12.1隨機策略梯度法

12.1.1梯度上升算法

12.1.2策略梯度法與值函數逼近法的比較

12.2策略優化方法

12.2.1情節式策略目標函數

12.2.2連續式策略目標函數

12.2.3策略梯度定理

12.3策略表達形式

12.3.1離散動作空間策略參數化

12.3.2連續動作空間策略參數化

12.4蒙特卡洛策略梯度法

12.4.1REINFORCE

12.4.2REINFORCE算法的實驗結果與分析

12.4.3帶基線的REINFORCE

12.4.4帶基線的REINFORCE算法的實驗結果與分析

12.5行動者評論家

12.6確定性策略梯度定理

12.7小結

12.8習題

第13章基於確定性策略梯度的深度強化學習

13.1DDPG算法

13.1.1算法背景

13.1.2核心思想

13.1.3DDPG算法

13.2DDPG算法的實驗結果與分析

13.2.1DDPG算法網絡結構與超參數設置

13.2.2實驗環境

13.2.3實驗結果與分析

13.3雙延遲確定性策略梯度算法

13.3.1過高估計問題解決方案

13.3.2累計誤差問題解決方案

13.3.3TD3算法

13.3.4實驗結果與分析

13.4小結

13.5習題

第14章基於AC框架的深度強化學習

14.1行動者評論家框架

14.2A3C算法

14.2.1算法的核心思想

14.2.2異步1步Q學習算法

14.2.3A3C算法

14.2.4實驗結果與分析

14.3A2C算法

14.3.1A2C算法

14.3.2實驗結果與分析

14.4小結

14.5習題

參考文獻

 

 

在公眾號書圈後臺回復【9787302578208】,下載本書配套的教學資源

推薦【羽毛】系列大數據與人工智慧教材(點擊圖片可以查看教學大綱):

相關焦點

  • Python機器學習教與學(教學大綱+視頻)
    Python機器學習教學大綱《機器學習》是新工科專業中的一門非常實用的課程,該課程以機器學習算法為主題
  • 算法競賽(程序設計競賽)教與學(教學大綱+視頻)
    《算法競賽(程序設計競賽)》課程教學大綱課程編號:課程性質
  • HTML前端設計教與學(32/48/60學時教學大綱+視頻)
    HTML5網頁前端設計是學習Web前端開發的必修課程。本課程介紹了開發Web前端網頁應具備的基礎知識,包括HTML5、CSS3、JavaScript技術入門以及HTML5拖放、表單、畫布、音頻和視頻、地理定位、Web存儲的應用API等知識。通過理論教學和上機練習訓練學生編寫程序的熟練度和規範性;在項目經驗的積累方面,通過完成項目案例,增加對實際軟體項目開發的經驗。
  • 資源 | 學到了!UC Berkeley CS 294深度強化學習課程(附視頻與PPT)
    CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。
  • DeepMind推出深度學習與強化學習進階課程(附視頻)
    昨天,DeepMind 與 UCL 合作推出了一門深度學習與強化學習進階課程,以在線視頻形式呈現。該課程共有 18 節課,每節課都長達 1 小時 40 分鐘,內容從深度學習框架 TensoFlow 的介紹到構建遊戲智能體,可謂全面。
  • 「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)
    本次培訓分為Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜和強化學習五大專題。本次培訓由權威專家主講,提供實驗環境及實驗數據,並提供配套資料,通過剖析工程案例展現機器學習、深度學習落地全過程。培訓暫定2021年1月5日開始,每個專題6天左右,一共28天,直播集訓。本次培訓由淺入深,面向0基礎、不懂機器學習、不具備任何Python基礎的老師和同學。
  • 資源 | UC Berkeley CS 294深度強化學習課程(附視頻、學習資料)
    本文主要介紹了課程中的強化學習主題,涉及深度強化學習的基本理論與前沿挑戰。CS294 深度強化學習 2017 年秋季課程的所有資源已經放出。該課程為各位讀者提供了強化學習的進階資源,且廣泛涉及深度強化學習的基本理論與前沿挑戰。本文介紹了該課程主要討論的強化學習主題,讀者可根據興趣愛好與背景知識選擇不同部分的課程。
  • 機器學習課程教與學(教學大綱和教案)
    「機器學習」教學大綱課程編號:課程名稱:機器學習
  • 模式識別與機器學習(教學大綱)|向量|貝葉斯|算法|神經網絡_網易訂閱
    首先介紹貝葉斯學習基礎、邏輯回歸、概率圖模型基礎、隱馬爾可夫模型和條件隨機場,接著介紹支持向量機、人工神經網絡與深度學習、高斯過程、聚類、主成分分析與相關的譜方法,最後介紹確定性近似推理、隨機近似推理和強化學習。附錄包括傳統的模式識別與機器學習方法,即近鄰法和決策樹,還有向量微積分和隨機變量的變換等與本學科強相關的重要知識點。
  • Java基礎入門教與學(教學大綱+視頻+題庫+項目案例)
    收錄於話題 #計算類課程的教與學通過本課程的學習,有助於學習者理解和掌握Java語言面向對象的基礎知識,形成面向對象思維方式,學會用Java語言來模擬並解決實際編程問題,使學習者具有Java桌面應用程式開發能力,了解計算機編程的通用技巧,為後繼課程的學習打好基礎。本課程適用於零基礎的初學者,是本科低年級、非計算機專業學生的程序設計入門課。雲
  • 深度強化學習從入門到大師:通過Q學習進行強化學習(第二部分)
    本文是 Tensorflow 深度強化學習課程的一部分。?️點擊這裡查看教學大綱。今天我們將學習 Q-Learning。 Q-Learning 是一種基於數值的強化學習算法。本文是關於深度強化學習的免費系列博客文章的第二部分。有關更多信息和更多資源,請查看  課程的教學大綱。 請參閱  此處的第一篇文章。
  • 南昌理工學院成為國內首個本科階段開設深度強化學習WORKSHOP創新...
    南理網訊(通訊員 李老師)日前,南昌理工學院人工智慧學院深度強化學習實驗室專職正研究員、王博士及講師團隊開設神經網絡與決策的前沿WORKSHOP實踐學習型項目《從零開始教你用深度強化學習設計與實現南理ARPG遊戲平行宇宙、模擬企業決策與簡單量化金融投資》。
  • 軟體測試技術教與學(教學大綱+教案+視頻+題庫)
    收錄於話題 #計算類課程的教與學(教學大綱) 169個
  • JSP Web 開發課程教與學(教學大綱,考核大綱和試卷)
    主 要 教 學 環 節 的 質 量 標 準備    課1. 掌握本課程教學大綱內容,嚴格按照教學大綱要求進行本課程教學內容的組織;2.主 要 教 學 環 節 的 質 量 標 準作 業 布 置 與 批 改學生必須完成一定數量的作業題,是本課程教學的基本要求,是實現人才培養目標的必要手段。本課程作業布置的要求:每完成6個學時布置一個課外作業習題。2. 作業本規範。
  • UC伯克利最新深度強化學習課程上線,視頻已上傳到B站
    這次是來自UC伯克利的秋季課程:Deep Reinforcement Learning,課程代號CS 285,講解內容為深度強化學習。授課教授,依舊是獲得學生好評不斷的Sergey Levine教授。這次課程上線後,多名網友強烈推薦大家學這門課。
  • 2019年度最佳書單:深度學習/機器學習/強化學習(附部分電子書下載)
    它描述了業內從業者使用的深度學習技術,包括深度前饋網絡,正則化,優化算法,卷積網絡,序列建模和實用方法;它調查了自然語言處理,語音識別,計算機視覺,在線推薦系統,生物信息學和視頻遊戲等應用。最後,本書提供了研究視角,涵蓋了線性因子模型,自動編碼器,表示學習,結構化概率模型,蒙特卡羅方法,分區函數,近似推理和深度生成模型等理論主題。
  • 李沐:在伯克利教深度學習
    原文地址:https://zhuanlan.zhihu.com/p/660624382019 年春季我跟 Alex Smola 一起在加州大學伯克利分校(下面簡稱 Berkeley)教了一門針對本科生的實驗性質的深度學習課程,旨在探索如何有效地教授深度學習。連同兩位助教(Rachel 和 Ryan)和一百來位學生一起度過了高強度的、痛並快樂的四個月。
  • 作業系統的教與學(教學大綱)
    作業系統的教學大綱課程編碼:
  • reddit高贊資源:20h系統性深度學習&強化學習課程,視頻、PPT、代碼全都有 | 免費
    最近,一套深度學習和強化學習的免費課程在reddit上引起網友關注,獲贊690+。只因其不僅形式豐富,還綜合了基礎理論和具體應用,幫你將幾何學、統計學等相關理論串聯起來,解決複雜的問題。對於初學者來說,稱得上是個學習大禮包了。
  • 課程標準與教學大綱的區別
    在教育學知識中,有兩個非常相似的知識,教學大綱和課程標準。這兩個知識點很多同學都認為是一模一樣的,因此在做題時將二者等同,其實不然。教學大綱指的是學校每門學科的教學綱要。其中包括教學目的、教學要求、教學內容以及講授和實習、實驗、作業的時數分配等。根據教學計劃,以綱要形式規定一門課程教學內容的文件。