深度強化學習 Deep Reinforcement Learning

[荷蘭] 阿斯克·普拉特（Aske Plaat）著殷海英譯殷海英譯

預覽內頁

出版商: 清華大學
出版日期: 2024-06-01
售價: $479
貴賓價: 9.5 折 $455
語言: 簡體中文
頁數: 254
ISBN: 7302659796
ISBN-13: 9787302659792
相關分類: Reinforcement、化學 Chemistry
此書翻譯自: Deep Reinforcement Learning

立即出貨

買這商品的人也買了...

~~$534~~ $507

深入淺出神經網絡與深度學習
$556

深度學習 500問 — AI 工程師面試寶典
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
~~$6,370~~ $6,243

Quantum Mechanics, Volume 1: Basic Concepts, Tools, and Applications (Hardcover)
~~$3,600~~ $3,420

Computer Vision: Algorithms and Applications 2/e (Hardcover)
~~$2,600~~ $2,548

Quantum Mechanics, Volume 3: Fermions, Bosons, Photons, Correlations, and Entanglement (Hardcover)
~~$6,230~~ $6,105

Quantum Mechanics, Volume 2: Angular Momentum, Spin, and Approximation Methods (Hardcover)
$658

深度學習與信號處理：原理與實踐
$735

計算機視覺 40例從入門到深度學習 (OpenCV-Python)
~~$659~~ $626

深度學習高手筆記捲1：基礎算法
~~$779~~ $740

深度強化學習
$356

強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)
~~$954~~ $906

深度學習之圖像識別：核心算法與實戰案例（全彩版）
~~$3,980~~ $3,781

5G/5G-Advanced: The New Generation Wireless Access Technology, 3/e (Paperback)
$407

深度學習理論與實踐
~~$594~~ $564

深度學習的理論基礎與核心算法
~~$414~~ $393

圖強化學習 -- 原理與實踐入門
~~$2,260~~ $2,215

Foundations of Computer Vision (Hardcover)
$516

PyTorch 深度學習指南捲2 電腦視覺
~~$779~~ $740

深度學習高手筆記捲2：經典應用
~~$474~~ $450

深度學習
~~$714~~ $678

高效深度學習：模型壓縮與設計
~~$270~~ $257

基於Python的深度學習影像處理
~~$714~~ $678

深度學習和大模型原理與實踐
~~$680~~ $537

讓 AI 好好說話！從頭打造 LLM (大型語言模型) 實戰秘笈

商品描述

"　　近年來，深度強化學習成為關註的熱點。在自動駕駛、棋牌游戲、分子重排和機器人等領域，電腦程序能夠通過強化學習，理解以前被視為超級困難的問題，取得了令人矚目的成果。在圍棋比賽中，AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網絡和深度學習的出現，而心理學研究人和動物如何學習，如何通過正負刺激來強化目標行為。瞭解了強化學習如何指導機器人行走時，我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。電腦似乎真正具備了人類的某些行為特徵，深度強化學習技術成為實現AI夢想的核心。　　教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書恰到好處地介紹了深度強化學習領域的技術細節，可作為AI研究生課程的教材。本書講解全面，涵蓋深度Q-learning的基本算法，乃至多智能體強化學習和元學習等高級主題。 "

作者簡介

Aske Plaat是荷蘭萊頓大學的數據科學教授，兼任萊頓高級電腦科學研究所(LIACS)主任。Aske是萊頓數據科學中心(LCDS)的聯合創始人，發起了跨學科研究項目“社會、人工智能與生命科學”(SAILS)。Aske的研究領域包括強化學習、可擴展的組合推理算法、游戲和自學習系統。

目錄大綱

第1章簡介 1

1.1 什麽是深度強化學習 1

1.1.1 深度學習 2

1.1.2 強化學習 2

1.1.3 深度強化學習 3

1.1.4 應用 3

1.1.5 四個相關領域 6

1.2 三種機器學習範式 10

1.2.1 監督學習 12

1.2.2 無監督學習 13

1.2.3 強化學習 14

1.3 本書概述 15

1.3.1 預備知識 16

1.3.2 本書結構 17

第2章表格值為基礎的強化學習 21

2.1 序貫決策問題 22

2.1.1 網格世界 23

2.1.2 迷宮和盒子謎題 23

2.2 基於表格值的智能體 24

2.2.1 智能體和環境 25

2.2.2 馬爾可夫決策過程 25

2.2.3 MDP目標 31

2.2.4 MDP問題的解決方法 35

2.3 經典的Gym環境 50

2.3.1 Mountain car和Cartpole 50

2.3.2 路徑規劃與棋盤游戲 51

2.4 本章小結 51

2.5 擴展閱讀 53

2.6 練習 53

2.6.1 復習題 53

2.6.2 練習題 54

第3章基於值的深度強化學習 57

3.1 大規模、高維度問題 60

3.1.1 Atari街機游戲 60

3.1.2 實時戰略游戲和視頻游戲 62

3.2 深度值函數智能體 62

3.2.1 利用深度學習對大規模問題進行泛化 62

3.2.2 三個挑戰 65

3.2.3 穩定的基於值的深度學習 67

3.2.4 提升探索能力 72

3.3 Atari 2600環境 75

3.3.1 網絡結構 76

3.3.2 評估Atari游戲表現 76

3.4 本章小結 77

3.5 擴展閱讀 78

3.6 習題 78

3.6.1 復習題 78

3.6.2 練習題 79

第4章基於策略的強化學習 81

4.1 連續問題 82

4.1.1 連續策略 82

4.1.2 隨機策略 83

4.1.3 環境：Gym和MuJoCo 83

4.2 基於策略的智能體 86

4.2.1 基於策略的算法：

REINFORCE 86

4.2.2 基於策略的方法中的偏差-方差權衡 89

4.2.3 演員-評論家“自舉”方法 90

4.2.4 基線減法與優勢函數 92

4.2.5 信任域優化 95

4.2.6 熵和探索 96

4.2.7 確定性策略梯度 98

4.2.8 實際操作：MuJoCo中的PPO和DDPG示例 100

4.3 運動與視覺-運動環境 101

4.3.1 機器人運動 102

4.3.2 視覺-運動交互 103

4.3.3 基準測試 104

4.4 本章小結 105

4.5 擴展閱讀 105

4.6 習題 106

4.6.1 復習題 106

4.6.2 練習題 107

第5章基於模型的強化學習 109

5.1 高維問題的動態模型 111

5.2 學習與規劃智能體 112

5.2.1 學習模型 117

5.2.2 使用模型進行規劃 121

5.3 高維度環境 126

5.3.1 基於模型的實驗概覽 126

5.3.2 小型導航任務 127

5.3.3 機器人應用 127

5.3.4 Atari游戲應用 128

5.3.5 實際操作：PlaNet示例 129

5.4 本章小結 130

5.5 擴展閱讀 132

5.6 習題 132

5.6.1 復習題 132

5.6.2 練習題 133

第6章雙智能體自對弈 135

6.1 雙智能體的“零和問題” 138

6.1.1 困難的圍棋游戲 140

6.1.2 AlphaGo的成就 142

6.2 空白板自我對弈智能體 144

6.2.1 棋步級別的自我對弈 147

6.2.2 示例級別的自我對弈 157

6.2.3 錦標賽級別的自我對弈 159

6.3 自我對弈環境 162

6.3.1 如何設計世界級圍棋程序 163

6.3.2 AlphaGo Zero的性能表現 164

6.3.3 AlphaZero 166

6.3.4 自我對弈開放框架 167

6.3.5 在PolyGames中實例化Hex游戲 168

6.4 本章小結 170

6.5 擴展閱讀 171

6.6 習題 172

6.6.1 復習題 172

6.6.2 練習題 173

第7章多智能體強化學習 175

7.1 多智能體問題 177

7.1.1 競爭行為 179

7.1.2 合作行為 179

7.1.3 混合行為 181

7.1.4 挑戰 183

7.2 多智能體強化學習智能體 184

7.2.1 競爭性行為 185

7.2.2 合作行為 187

7.2.3 混合行為 190

7.3 多智能體環境 194

7.3.1 競爭行為：撲克 195

7.3.2 合作行為：捉迷藏 196

7.3.3 混合行為：奪旗比賽和星際爭霸 198

7.3.4 實際操作：體育館中的捉迷藏示例 200

7.4 本章小結 201

7.5 擴展閱讀 202

7.6 習題 203

7.6.1 復習題 203

7.6.2 練習題 204

第8章分層強化學習 205

8.1 問題結構的粒度 206

8.1.1 優點 207

8.1.2 缺點 207

8.2 智能體的分而治之 208

8.2.1 選項框架 208

8.2.2 尋找子目標 209

8.2.3 分層算法概述 210

8.3 分層環境 214

8.3.1 四個房間和機器人任務 214

8.3.2 蒙特祖瑪的復仇 215

8.3.3 多智能體環境 217

8.3.4 實際操作示例：分層演員-評論家 217

8.4 本章小結 219

8.5 擴展閱讀 220

8.6 習題 220

8.6.1 復習題 220

8.6.2 練習題 221

第9章元學習 223

9.1 學會與學習相關的問題 225

9.2 遷移學習與元學習智能體 226

9.2.1 遷移學習 227

9.2.2 元學習 231

9.3 元學習環境 238

9.3.1 圖像處理 239

9.3.2 自然語言處理 240

9.3.3 元數據集 240

9.3.4 元世界 241

9.3.5 Alchemy 242

9.3.6 實際操作：Meta-World示例 242

9.4 本章小結 244

9.5 擴展閱讀 244

9.6 習題 245

9.6.1 復習題 245

9.6.2 練習題 245

第10章未來發展 247

10.1 深度強化學習的發展 247

10.1.1 表格方法 247

10.1.2 無模型深度學習 248

10.1.3 多智能體方法 248

10.1.4 強化學習的演化歷程 249

10.2 主要挑戰 249

10.2.1 潛在模型 250

10.2.2 自我對弈 250

10.2.3 分層強化學習 251

10.2.4 遷移學習和元學習 251

10.2.5 種群化方法 252

10.2.6 探索與內在動機 252

10.2.7 可解釋的人工智能 253

10.2.8 泛化 253

10.3 人工智能的未來 254

—以下內容可掃描封底二維碼下載—

附錄A 數學背景知識 255

附錄B 深度監督學習 269

附錄C 深度強化學習套件 299

參考文獻 303

深度強化學習 Deep Reinforcement Learning

[荷蘭] 阿斯克·普拉特（Aske Plaat）著殷海英譯殷海英譯

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (11)

深度強化學習 Deep Reinforcement Learning

[荷蘭] 阿斯克·普拉特（Aske Plaat）著 殷海英 譯 殷海英 譯

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (11)

[荷蘭] 阿斯克·普拉特（Aske Plaat）著殷海英譯殷海英譯