掃描,優惠購書
第一部分:預備知識及環境安裝
第1章深度強化學習概述
1.1引言
1.2深度學習
1.3強化學習
1.4深度強化學習
1.5小結
1.6習題
第2章環境的配置
2.1PyTorch簡介
2.2PyTorch和TensorFlow
2.3強化學習的開發環境
2.3.1Anaconda環境搭建
2.3.2Anaconda環境管理
2.3.3PyTorch的安裝
2.3.4Jupyter Notebook的安裝
2.3.5Jupyter Notebook的使用
2.3.6Gym的安裝
2.3.7Gym案例
2.4小結
2.5習題
第二部分:表格式強化學習
第3章數學建模
3.1馬爾可夫決策過程
3.2基於模型與無模型
3.3求解強化學習任務
3.3.1策略
3.3.2獎賞與回報
3.3.3值函數與貝爾曼方程
3.3.4最優策略與最優值函數
3.4探索與利用
3.5小結
3.6習題
第4章動態規劃法
4.1策略迭代
4.1.1策略評估
4.1.2策略迭代
4.2值迭代
4.3廣義策略迭代
4.4小結
4.5習題
第5章蒙特卡洛法
5.1蒙特卡洛法的基本概念
5.1.1MC的核心要素
5.1.2MC的特點
5.2蒙特卡洛預測
5.3蒙特卡洛評估
5.4蒙特卡洛控制
5.4.1基於探索始點的蒙特卡洛控制
5.4.2同策略蒙特卡洛控制
5.4.3異策略與重要性採樣
5.4.4蒙特卡洛中的增量式計算
5.4.5異策略蒙特卡洛控制
5.5小結
5.6習題
第6章時序差分法
6.1時序差分預測
6.2時序差分控制
6.2.1Sarsa算法
6.2.2QLearning算法
6.2.3期望Sarsa算法
6.3最大化偏差與DoubleQLearning
6.3.1最大化偏差
6.3.2Double Learning
6.3.3Double QLearning
6.4DP、MC和TD算法的關係
6.4.1窮舉式遍歷與軌跡採樣
6.4.2期望更新與採樣更新
6.5小結
6.6習題
第7章n步時序差分法
7.1n步TD預測及資格跡
7.1.1n步TD預測
7.1.2前向TD(λ)算法
7.1.3後向TD(λ)算法
7.2n步TD控制及其資格跡實現
7.2.1同策略n步Sarsa算法
7.2.2Sarsa(λ)算法
7.2.3異策略n步Sarsa算法
7.2.4n步Tree Backup算法
7.3小結
7.4習題
第8章規劃和蒙特卡洛樹搜索
8.1模型、學習與規劃
8.1.1模型
8.1.2學習
8.1.3規劃
8.2DynaQ結構及其算法改進
8.2.1DynaQ架構
8.2.2優先遍歷
8.2.3模擬模型的錯誤性
8.3決策時間規劃
8.3.1啟發式搜索
8.3.2預演算法
8.3.3蒙特卡洛樹搜索
8.4小結
8.5習題
第三部分:深度強化學習
第9章深度學習
9.1傳統神經網絡
9.1.1感知器神經元
9.1.2激活函數
9.2反向傳播算法
9.2.1前向傳播
9.2.2權重調整
9.2.3BP算法推導
9.3卷積神經網絡
9.3.1卷積神經網絡核心思想
9.3.2卷積神經網絡結構
9.4小結
9.5習題
第10章PyTorch與神經網絡
10.1PyTorch中的Tensor
10.1.1直接構造法
10.1.2間接轉換法
10.1.3Tensor的變換
10.2自動梯度計算
10.2.1標量對標量的自動梯度計算
10.2.2向量對向量的自動梯度計算
10.2.3標量對向量(或矩陣)的自動梯度計算
10.3神經網絡的模型搭建和參數優化
10.3.1模型的搭建
10.3.2激活函數
10.3.3常用的損失函數
10.3.4模型的保存和重載
10.4小結
10.5習題
第11章深度Q網絡
11.1DQN算法
11.1.1核心思想
11.1.2訓練算法
11.1.3實驗結果與分析
11.2Double DQN算法
11.2.1核心思想
11.2.2實驗結果與分析
11.3Prioritized DQN
11.3.1核心思想
11.3.2訓練算法
11.3.3實驗結果與分析
11.4Dueling DQN
11.4.1訓練算法
11.4.2實驗結果與分析
11.5小結
11.6習題
第12章策略梯度法
12.1隨機策略梯度法
12.1.1梯度上升算法
12.1.2策略梯度法與值函數逼近法的比較
12.2策略優化方法
12.2.1情節式策略目標函數
12.2.2連續式策略目標函數
12.2.3策略梯度定理
12.3策略表達形式
12.3.1離散動作空間策略參數化
12.3.2連續動作空間策略參數化
12.4蒙特卡洛策略梯度法
12.4.1REINFORCE
12.4.2REINFORCE算法的實驗結果與分析
12.4.3帶基線的REINFORCE
12.4.4帶基線的REINFORCE算法的實驗結果與分析
12.5行動者評論家
12.6確定性策略梯度定理
12.7小結
12.8習題
第13章基於確定性策略梯度的深度強化學習
13.1DDPG算法
13.1.1算法背景
13.1.2核心思想
13.1.3DDPG算法
13.2DDPG算法的實驗結果與分析
13.2.1DDPG算法網絡結構與超參數設置
13.2.2實驗環境
13.2.3實驗結果與分析
13.3雙延遲確定性策略梯度算法
13.3.1過高估計問題解決方案
13.3.2累計誤差問題解決方案
13.3.3TD3算法
13.3.4實驗結果與分析
13.4小結
13.5習題
第14章基於AC框架的深度強化學習
14.1行動者評論家框架
14.2A3C算法
14.2.1算法的核心思想
14.2.2異步1步Q學習算法
14.2.3A3C算法
14.2.4實驗結果與分析
14.3A2C算法
14.3.1A2C算法
14.3.2實驗結果與分析
14.4小結
14.5習題
參考文獻
在公眾號書圈後臺回復【9787302578208】,下載本書配套的教學資源
推薦【羽毛】系列大數據與人工智慧教材(點擊圖片可以查看教學大綱):