強化學習——從原理到實踐
李福林
- 出版商: 清華大學
- 出版日期: 2025-03-01
- 定價: $414
- 售價: 8.5 折 $352
- 語言: 簡體中文
- ISBN: 7302682410
- ISBN-13: 9787302682417
-
相關分類:
Reinforcement、化學 Chemistry
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
本書源碼
附贈資源
基礎篇
第1章強化學習概述
1.1強化學習的定義
1.2玩耍和學習
1.3對比傳統方法
1.4基於表格的直觀示例
1.5一般的學習過程
1.6小結
第2章Q函數和時序差分
2.1一個直觀的例子
2.2數學描述
2.3精確計算Q函數是困難的
2.4尋求Q函數
2.5小結
基礎算法篇
第3章基於表格的強化學習方法
3.1代碼運行環境說明
3.2游戲環境
3.2.1Gym包介紹
3.2.2定義游戲環境
3.2.3游戲環境操作方法介紹
3.3定義Q表
3.4強化學習的一般過程
3.4.1數據池的必要性
3.4.2異策略和同策略
3.5定義play函數和數據池
3.5.1定義play函數
3.5.2定義數據池
3.6使用時序差分方法更新Q表
3.7QLearning算法
3.8SARSA算法
3.9實現無數據池的SARSA算法
3.10小結
第4章DQN算法
4.1DQN算法介紹
4.2平衡車游戲環境
4.3定義神經網絡模型
4.4數據部分的修改
4.4.1play函數的修改
4.4.2數據池的修改
4.5實現DQN算法
4.6雙模型
4.7加權的數據池
4.8Double DQN
4.9Dueling DQN
4.10Noise DQN
4.11小結
第5章策略梯度
5.1基於策略的算法
5.2一個直觀的例子
5.3數學表達
5.4小結
第6章Reinforce算法
6.1基於策略的算法
6.2組件修改
6.2.1游戲環境
6.2.2神經網絡模型
6.2.3play函數
6.3Reinforce算法
6.4去基線
6.4.1去基線的目的
6.4.2實現去基線
6.5熵正則
6.5.1動作分佈概率收斂太快的弊端
6.5.2熵
6.5.3實現熵正則
6.6小結
高級算法篇
第7章AC和A2C算法
7.1時序差分和策略梯度的結合
7.2AC算法介紹
7.3實現AC算法
7.3.1定義模型
7.3.2訓練critic模型
7.3.3訓練actor模型
7.3.4執行訓練
7.4A2C算法介紹
7.5實現A2C算法
7.6小結
第8章近端策略優化
8.1重要性採樣
8.2懲罰與裁剪
8.2.1約束KL散度法
8.2.2懲罰KL散度法
8.2.3重要性採樣裁剪法
8.3優勢函數
8.4廣義優勢估計
8.5小結
第9章PPO算法
9.1在離散動作環境中的應用
9.1.1定義模型
9.1.2訓練value模型
9.1.3訓練action模型
9.1.4執行訓練
9.2在連續動作環境中的應用
9.2.1倒立擺游戲環境介紹
9.2.2定義模型
9.2.3定義play函數
9.2.4訓練value模型
9.2.5訓練action模型
9.2.6執行訓練
9.3小結
第10章DDPG和TD3算法
10.1DDPG算法概述
10.1.1確定的動作
10.1.2異策略化
10.2優化方法
10.3緩解過高估計
10.4DDPG算法實現
10.4.1定義模型
10.4.2定義工具類和輔助函數
10.4.3定義訓練過程
10.5TD3算法實現
10.5.1定義模型
10.5.2定義訓練過程
10.6小結
第11章SAC算法
11.1SAC算法簡介
11.1.1考慮動作的熵
11.1.2異策略化
11.2實現SAC算法
11.2.1定義模型
11.2.2定義工具類和輔助函數
11.2.3訓練value模型
11.2.4訓練action模型
11.2.5執行訓練
11.2.6關於alpha的調整
11.3SAC算法的簡化版實現
11.3.1定義模型
11.3.2訓練value模型
11.3.3訓練action模型
11.3.4執行訓練
11.4在連續動作環境中的應用
11.4.1定義模型
11.4.2value模型的輸入和輸出
11.4.3修改工具類和輔助函數
11.4.4訓練value模型
11.4.5訓練action模型
11.4.6執行訓練
11.5小結
第12章模仿學習
12.1模仿學習簡介
12.2在離散動作環境中的應用
12.2.1定義數據集
12.2.2定義模型
12.2.3執行訓練
12.2.4測試
12.3在連續動作環境中的應用
12.3.1定義數據集
12.3.2定義模型
12.3.3執行訓練
12.3.4測試
12.4小結
多智能體篇
第13章合作關系的多智能體
13.1多智能體簡介
13.1.1有通信的情況
13.1.2訓練時有通信的情況
13.1.3無通信的情況
13.2合作關系游戲環境介紹
13.3定義A2C算法
13.4有通信的實現
13.4.1定義模型
13.4.2修改play函數
13.4.3執行訓練
13.5訓練時有通信的實現
13.5.1修改模型
13.5.2執行訓練
13.6小結
第14章對抗關系的多智能體
14.1對抗關系的多智能體簡介
14.2納什均衡簡介
14.3游戲環境介紹
14.4無通信的實現
14.4.1定義模型
14.4.2執行訓練
14.5訓練時有通信的實現
14.5.1定義模型
14.5.2執行訓練
14.6小結
擴展算法篇
第15章CQL算法
15.1離線學習簡介
15.2離線學習中Q值過高估計的問題
15.3CQL算法是如何抑制Q值的
15.4實現CQL算法
15.4.1數據集介紹
15.4.2封裝數據集
15.4.3定義算法模型
15.4.4執行訓練
15.5小結
第16章MPC算法
16.1MPC算法簡介
16.1.1假環境學習
16.1.2最優動作搜索
16.2實現MPC算法
16.2.1定義假環境
16.2.2定義動作函數
16.2.3訓練假環境
16.2.4重寫動作函數
16.2.5動作學習
16.3小結
第17章HER目標導向
17.1HER算法概述
17.1.1稀疏反饋的游戲環境
17.1.2放置假目標點
17.2HER算法實現
17.2.1游戲環境介紹
17.2.2定義算法模型
17.2.3定義數據池
17.2.4執行訓練
17.3小結
框架篇
第18章SB3強化學習框架
18.1SB3簡介
18.2快速上手
18.3模型的保存和加載
18.4多環境並行訓練
18.5Callback類
18.6綜合實例
18.7使用SB3 Contrib
18.8小結