Deep Reinforcement Learning
暫譯: 深度強化學習

Name: Deep Reinforcement Learning
Price: 2204 TWD
Availability: InStock
Author: Plaat, Aske
ISBN: 9811906378

Plaat, Aske

出版商: Springer
出版日期: 2022-06-12
售價: $2,320
貴賓價: 9.5 折 $2,204
語言: 英文
頁數: 424
裝訂: Quality Paper - also called trade paper
ISBN: 9811906378
ISBN-13: 9789811906374
相關分類: Reinforcement、DeepLearning
相關翻譯: 深度強化學習 (簡中版)

立即出貨 (庫存=1)

買這商品的人也買了...

$1,680

Computer Vision: Algorithms and Applications (Hardcover)
$1,550

Optimal Control, 3/e (Hardcover)
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
~~$880~~ $695

Python 資料分析, 2/e (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)
~~$1,000~~ $790

tf.keras 技術者們必讀！深度學習攻略手冊
~~$750~~ $593

GAN 對抗式生成網路 (GANs in Action: Deep learning with Generative Adversarial Networks)
~~$1,940~~ $1,843

Make Your First GAN With PyTorch
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$2,090~~ $1,986

Deep Reinforcement Learning with Python: With Pytorch, Tensorflow and Openai Gym
$518

深度強化學習算法與實踐：基於 PyTorch 的實現
$356

深度強化學習實戰用OpenAI Gym構建智能體

商品描述

Contents1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 What is Deep Reinforcement Learning? . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Three Machine Learning Paradigms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Overview of the Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Tabular Value-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Sequential Decision Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Tabular Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3 Classic Gym Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Approximating the Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.1 Large, High-Dimensional, Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2 Deep Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3 Atari 2600 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874 Policy-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.1 Continuous Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2 Policy-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3 Locomotion and Visuo-Motor Environments . . . . . . . . . . . . . . . . . . . . 1114.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165 Model-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1 Dynamics Models of High-Dimensional Problems . . . . . . . . . . . . . . . 1225.2 Learning and Planning Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.3 High-dimensional Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142viiviii CONTENTS5.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446 Two-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1476.1 Two-Agent Zero-Sum Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1506.2 Tabula Rasa Self-Play Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.3 Self-Play Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1866.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1887 Multi-Agent Reinforcement Learning . . . .

商品描述(中文翻譯)

```
目錄
1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 什麼是深度強化學習？ . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 三種機器學習範式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 本書概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 基於表格的價值方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1 序列決策問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 基於表格的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 經典健身房環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3 近似價值函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1 大型、高維度問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2 深度基於價值的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3 Atari 2600 環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4 基於策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1 連續問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2 基於策略的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3 運動與視覺-運動環境 . . . . . . . . . . . . . . . . . . . . 111
4.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5 基於模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.1 高維度問題的動態模型 . . . . . . . . . . . . . . . 122
5.2 學習與規劃代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3 高維度環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6 兩代理強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.1 兩代理零和問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.2 Tabula Rasa 自我對弈代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.3 自我對弈環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7 多代理強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
```