強化學習——從原理到實踐

李福林

  • 出版商: 清華大學
  • 出版日期: 2025-03-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7302682410
  • ISBN-13: 9787302682417
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

  • 強化學習——從原理到實踐-preview-1
  • 強化學習——從原理到實踐-preview-2
  • 強化學習——從原理到實踐-preview-3
強化學習——從原理到實踐-preview-1

相關主題

商品描述

"本書是對強化學習算法的綜合性講解書籍,內容包括主要的強化學習算法的實現思路講解,以及主要的優化方法的原理講解。本書介紹的每個算法都分為原理講解和代碼實現兩部分,代碼實現是為了通過實驗驗證原理部分的可行性。通過本書的學習,讀者可以快速地瞭解強化學習算法的設計原理,掌握強化學習算法的實現過程,並能研發屬於自己的強化學習算法,瞭解各個算法的優缺點,以及各個算法適用的場景。 本書共18章,分為強化學習基礎篇(第1章和第2章)介紹了強化學習中的基本概念。強化學習基礎算法篇(第3~6章)介紹了QLearning算法、SARSA算法、DQN算法、Reniforce算法。強化學習高級算法篇(第7~12章)介紹了AC演員評委算法、A2C優勢演員評委算法、PPO近端策略優化算法、DDPG深度確定性策略梯度算法、TD3雙延遲深度確定性策略梯度算法、SAC柔性演員評委算法、模仿學習算法。多智能體篇(第13章和第14章),介紹了在一個系統中存在多智能體時,各個智能體之間的合作、對抗等關系,以及各個智能體之間的通信策略。擴展算法篇(第15~17章)介紹了CQL離線學習算法、MPC環境學習算法、HER目標導向算法。SB3強化學習框架篇(第18章),介紹了強化學習框架SB3的使用方法。 本書將使用最簡單淺顯的語言,帶領讀者快速地瞭解各個主要的強化學習算法的設計思路,以及實現過程。通過本書各個章節的學習,讀者可以掌握主流的強化學習算法的原理和實現方法,能夠讓讀者知其然也知其所以然,做到融會貫通。 "

目錄大綱

 

 

本書源碼

 

 

附贈資源

 

基礎篇

 

第1章強化學習概述

 

1.1強化學習的定義

 

1.2玩耍和學習

 

1.3對比傳統方法

 

1.4基於表格的直觀示例

 

1.5一般的學習過程

 

1.6小結

 

第2章Q函數和時序差分

 

2.1一個直觀的例子

 

2.2數學描述

 

2.3精確計算Q函數是困難的

 

2.4尋求Q函數

 

2.5小結

 

基礎算法篇

 

第3章基於表格的強化學習方法

 

3.1代碼運行環境說明

 

3.2游戲環境

 

3.2.1Gym包介紹

 

3.2.2定義游戲環境

 

3.2.3游戲環境操作方法介紹

 

3.3定義Q表

 

3.4強化學習的一般過程

 

3.4.1數據池的必要性

 

3.4.2異策略和同策略

 

3.5定義play函數和數據池

 

3.5.1定義play函數

 

3.5.2定義數據池

 

3.6使用時序差分方法更新Q表

 

3.7QLearning算法

 

3.8SARSA算法

 

3.9實現無數據池的SARSA算法

 

3.10小結

 

第4章DQN算法

 

4.1DQN算法介紹

 

4.2平衡車游戲環境

 

4.3定義神經網絡模型

 

4.4數據部分的修改

 

4.4.1play函數的修改

 

4.4.2數據池的修改

 

4.5實現DQN算法

 

4.6雙模型

 

4.7加權的數據池

 

4.8Double DQN

 

4.9Dueling DQN

 

4.10Noise DQN

 

4.11小結

 

第5章策略梯度

 

5.1基於策略的算法

 

5.2一個直觀的例子

 

5.3數學表達

 

5.4小結

 

第6章Reinforce算法

 

6.1基於策略的算法

 

6.2組件修改

 

6.2.1游戲環境

 

6.2.2神經網絡模型

 

6.2.3play函數

 

6.3Reinforce算法

 

6.4去基線

 

6.4.1去基線的目的

 

6.4.2實現去基線

 

6.5熵正則

 

6.5.1動作分佈概率收斂太快的弊端

 

6.5.2熵

 

6.5.3實現熵正則

 

6.6小結

 

高級算法篇

 

第7章AC和A2C算法

 

7.1時序差分和策略梯度的結合

 

7.2AC算法介紹

 

7.3實現AC算法

 

7.3.1定義模型

 

7.3.2訓練critic模型

 

7.3.3訓練actor模型

 

7.3.4執行訓練

 

7.4A2C算法介紹

 

7.5實現A2C算法

 

7.6小結

 

第8章近端策略優化

 

8.1重要性採樣

 

8.2懲罰與裁剪

 

8.2.1約束KL散度法

 

8.2.2懲罰KL散度法

 

8.2.3重要性採樣裁剪法

 

8.3優勢函數

 

8.4廣義優勢估計

 

8.5小結

 

第9章PPO算法

 

9.1在離散動作環境中的應用

 

9.1.1定義模型

 

9.1.2訓練value模型

 

9.1.3訓練action模型

 

9.1.4執行訓練

 

9.2在連續動作環境中的應用

 

9.2.1倒立擺游戲環境介紹

 

9.2.2定義模型

 

9.2.3定義play函數

 

9.2.4訓練value模型

 

9.2.5訓練action模型

 

9.2.6執行訓練

 

9.3小結

 

第10章DDPG和TD3算法

 

10.1DDPG算法概述

 

10.1.1確定的動作

 

10.1.2異策略化

 

10.2優化方法

 

10.3緩解過高估計

 

10.4DDPG算法實現

 

10.4.1定義模型

 

10.4.2定義工具類和輔助函數

 

10.4.3定義訓練過程

 

10.5TD3算法實現

 

10.5.1定義模型

 

10.5.2定義訓練過程

 

10.6小結

 

 

第11章SAC算法

 

11.1SAC算法簡介

 

11.1.1考慮動作的熵

 

11.1.2異策略化

 

11.2實現SAC算法

 

11.2.1定義模型

 

11.2.2定義工具類和輔助函數

 

11.2.3訓練value模型

 

11.2.4訓練action模型

 

11.2.5執行訓練

 

11.2.6關於alpha的調整

 

11.3SAC算法的簡化版實現

 

11.3.1定義模型

 

11.3.2訓練value模型

 

11.3.3訓練action模型

 

11.3.4執行訓練

 

11.4在連續動作環境中的應用

 

11.4.1定義模型

 

11.4.2value模型的輸入和輸出

 

11.4.3修改工具類和輔助函數

 

11.4.4訓練value模型

 

11.4.5訓練action模型

 

11.4.6執行訓練

 

11.5小結

 

第12章模仿學習

 

12.1模仿學習簡介

 

12.2在離散動作環境中的應用

 

12.2.1定義數據集

 

12.2.2定義模型

 

12.2.3執行訓練

 

12.2.4測試

 

12.3在連續動作環境中的應用

 

12.3.1定義數據集

 

12.3.2定義模型

 

12.3.3執行訓練

 

12.3.4測試

 

12.4小結

 

 

多智能體篇

 

第13章合作關系的多智能體

 

13.1多智能體簡介

 

13.1.1有通信的情況

 

13.1.2訓練時有通信的情況

 

13.1.3無通信的情況

 

13.2合作關系游戲環境介紹

 

13.3定義A2C算法

 

13.4有通信的實現

 

13.4.1定義模型

 

13.4.2修改play函數

 

13.4.3執行訓練

 

13.5訓練時有通信的實現

 

13.5.1修改模型

 

13.5.2執行訓練

 

13.6小結

 

第14章對抗關系的多智能體

 

14.1對抗關系的多智能體簡介

 

14.2納什均衡簡介

 

14.3游戲環境介紹

 

14.4無通信的實現

 

14.4.1定義模型

 

14.4.2執行訓練

 

14.5訓練時有通信的實現

 

14.5.1定義模型

 

14.5.2執行訓練

 

14.6小結

 

 

 

擴展算法篇

 

第15章CQL算法

 

15.1離線學習簡介

 

15.2離線學習中Q值過高估計的問題

 

15.3CQL算法是如何抑制Q值的

 

15.4實現CQL算法

 

15.4.1數據集介紹

 

15.4.2封裝數據集

 

15.4.3定義算法模型

 

15.4.4執行訓練

 

15.5小結

 

第16章MPC算法

 

16.1MPC算法簡介

 

16.1.1假環境學習

 

16.1.2最優動作搜索

 

16.2實現MPC算法

 

16.2.1定義假環境

 

16.2.2定義動作函數

 

16.2.3訓練假環境

 

16.2.4重寫動作函數

 

16.2.5動作學習

 

16.3小結

 

第17章HER目標導向

 

17.1HER算法概述

 

17.1.1稀疏反饋的游戲環境

 

17.1.2放置假目標點

 

17.2HER算法實現

 

17.2.1游戲環境介紹

 

17.2.2定義算法模型

 

17.2.3定義數據池

 

17.2.4執行訓練

 

17.3小結

 

框架篇

 

第18章SB3強化學習框架

 

18.1SB3簡介

 

18.2快速上手

 

18.3模型的保存和加載

 

18.4多環境並行訓練

 

18.5Callback類

 

18.6綜合實例

 

18.7使用SB3 Contrib

 

18.8小結