Joy RL:強化學習實踐教程

江季、王琦、楊毅遠

  • 出版商: 人民郵電
  • 出版日期: 2025-04-01
  • 定價: $479
  • 售價: 8.5$407
  • 語言: 簡體中文
  • 頁數: 160
  • ISBN: 7115631549
  • ISBN-13: 9787115631541
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

  • Joy RL:強化學習實踐教程-preview-1
  • Joy RL:強化學習實踐教程-preview-2
Joy RL:強化學習實踐教程-preview-1

商品描述

本書是繼《Easy RL:強化學習教程》(俗稱“蘑菇書”)之後,為強化學習的讀者專門打造的一本深入實踐的全新教程。全書大部分內容基於3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,並輔以一套開源代碼框架“JoyRL”,便於讀者適應業界應用研究風格的代碼。與“蘑菇書”不同,本書對強化學習核心理論進行提煉,並串聯知識點,重視強化學習代碼實踐的指導而不是對理論的詳細講解。

本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。

作者簡介

江季,網易高級算法工程師,碩士畢業於北京大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為強化學習、深度學習、大模型、機器人等。曾獲國家獎學金、上海市優秀畢業生等,取得強化學習與游戲AI等相關專利多項。

王琦,上海交通大學人工智能教育部重點實驗室博士研究生,碩士畢業於中國科學院大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者,AI TIME成員,Hugging Face社區志願者。主要研究方向為視覺強化學習與世界模型。曾獲“中國光谷·華為杯”第十九屆中國研究生數學建模競賽二等獎、中國大學生電腦設計大賽二等獎、亞太地區大學生數學建模競賽(APMCM)二等獎等,發表NeurIPS、ICLR Oral論文多篇。

楊毅遠,牛津大學電腦系博士研究生,碩士畢業於清華大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為時間序列、數據挖掘、智能傳感系統、深度學習。曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文獎、全國大學生智能汽車競賽總冠軍等,發表SCI、EI論文多篇。

目錄大綱

第 1 章 緒論 1

1.1 為什麽要學習強化學習? 2

1.2 強化學習的應用 3

1.3 強化學習方向概述 6

1.3.1 多智能體強化學習 6

1.3.2 模仿學習和逆強化學習 6

1.3.3 探索策略 7

1.3.4 實時環境 7

1.3.5 多任務強化學習 8

1.4 學習本書之前的一些準備 8

第 2 章 馬爾可夫決策過程 10

2.1 馬爾可夫決策過程 10

2.2 馬爾可夫性質 12

2.3 回報 12

2.4 狀態轉移矩陣 13

2.5 本章小結 16

2.6 練習題 16

第 3 章 動態規劃 17

3.1 動態規劃的編程思想 17

3.2 狀態價值函數和動作價值函數 20

3.3 貝爾曼方程 20

3.4 策略迭代算法 22

3.5 價值迭代算法 23

3.6 本章小結 25

3.7 練習題 25

第 4 章 免模型預測 26

4.1 有模型與免模型 26

4.2 預測與控制 27

4.3 蒙特卡羅方法 27

4.4 時序差分方法 30

4.5 時序差分方法和蒙特卡羅方法的差異 31

4.6 n 步時序差分方法 32

4.7 本章小結 33

4.8 練習題 34

第 5 章 免模型控制 35

5.1 Q-learning 算法 35

5.1.1 Q 表格 36

5.1.2 探索策略 38

5.2 Sarsa 算法 39

5.3 同策略算法與異策略算法 40

5.4 實戰:Q-learning 算法 .41

5.4.1 定義訓練 41

5.4.2 定義算法 42

5.4.3 定義環境 44

5.4.4 設置參數 46

5.4.5 開始訓練 46

5.4.6 結果分析 48

5.4.7 消融實驗 49

5.5 實戰:Sarsa 算法 .50

5.6 本章小結 51

5.7 練習題 51

第 6 章 深度學習基礎 52

6.1 強化學習與深度學習的關系 52

6.2 線性回歸模型 55

6.3 梯度下降 56

6.4 邏輯回歸模型 57

6.5 全連接網絡 59

6.6 高級的神經網絡模型 60

6.7 本章小結 62

6.8 練習題 62

第 7 章 DQN 算法 63

7.1 深度神經網絡 63

7.2 經驗回放 65

7.3 目標網絡 67

7.4 實戰:DQN 算法 68

7.4.1 偽代碼 68

7.4.2 定義模型 69

7.4.3 經驗回放 70

7.4.4 定義智能體 71

7.4.5 定義環境 74

7.4.6 設置參數 75

7.5 本章小結 77

7.6 練習題 77

第 8 章 DQN 算法進階 78

8.1 Double DQN 算法 78

8.2 Dueling DQN 算法 80

8.3 Noisy DQN 算法 81

8.4 PER DQN 算法 82

8.5 實戰:Double DQN 算法 86

8.6 實戰:Dueling DQN 算法 87

8.7 實戰:Noisy DQN 算法 89

8.8 實戰:PER DQN 算法 92

8.8.1 偽代碼 92

8.8.2 SumTree 結構 93

8.8.3 PER . 95

8.9 本章小結 98

8.10 練習題 98

第 9 章 策略梯度 99

9.1 基於價值的算法的缺點 99

9.2 策略梯度算法 100

9.3 REINFORCE 算法 104

9.4 策略梯度推導進階 105

9.4.1 平穩分佈 106

9.4.2 基於平穩分佈的策略梯度推導 110

9.5 策略函數的設計 111

9.5.1 離散動作空間的策略函數 111

9.5.2 連續動作空間的策略函數 112

9.6 本章小結 112

9.7 練習題 113

第 10 章 Actor-Critic 算法 114

10.1 策略梯度算法的優缺點 114

10.2 Q Actor-Critic 算法 115

10.3 A2C 與 A3C 算法 116

10.4 廣義優勢估計 118

10.5 實戰:A2C 算法 119

10.5.1 定義模型 119

10.5.2 採樣動作 120

10.5.3 策略更新 121

10.6 本章小結 123

10.7 練習題 123

第 11 章 DDPG 與 TD3 算法 124

11.1 DPG 算法 124

11.2 DDPG 算法 126

11.3 DDPG 算法的優缺點 128

11.4 TD3 算法 129

11.4.1 雙 Q 網絡 130

11.4.2 延遲更新 130

11.4.3 噪聲正則化 131

11.5 實戰:DDPG 算法 131

11.5.1 DDPG 偽代碼 131

11.5.2 定義模型 132

11.5.3 動作採樣 133

11.6 實戰:TD3 算法 136

11.7 本章小結 138

11.8 練習題 138

第 12 章 PPO 算法 139

12.1 重要性採樣 139

12.2 PPO 算法141

12.3 一個常見的誤區 142

12.4 實戰:PPO 算法.143

12.4.1 PPO 算法偽代碼 143

12.4.2 PPO 算法更新 144

12.5 本章小結 146

12.6 練習題 146

練習題答案 147