Deep Reinforcement Learning
暫譯: 深度強化學習
Plaat, Aske
- 出版商: Springer
- 出版日期: 2022-06-12
- 售價: $2,320
- 貴賓價: 9.5 折 $2,204
- 語言: 英文
- 頁數: 424
- 裝訂: Quality Paper - also called trade paper
- ISBN: 9811906378
- ISBN-13: 9789811906374
-
相關分類:
Reinforcement、DeepLearning
-
相關翻譯:
深度強化學習 (簡中版)
立即出貨 (庫存=1)
買這商品的人也買了...
-
$1,680Computer Vision: Algorithms and Applications (Hardcover)
-
$1,550Optimal Control, 3/e (Hardcover)
-
$780$616 -
$580$458 -
$880$695 -
$1,000$850 -
$750$592 -
$1,920$1,824 -
$1,000$790 -
$1,590$1,511 -
$518深度強化學習算法與實踐:基於 PyTorch 的實現
-
$356深度強化學習實戰 用OpenAI Gym構建智能體
相關主題
商品描述
商品描述(中文翻譯)
```
目錄
1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 什麼是深度強化學習? . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 三種機器學習範式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 本書概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 基於表格的價值方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1 序列決策問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 基於表格的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 經典健身房環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3 近似價值函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1 大型、高維度問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2 深度基於價值的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3 Atari 2600 環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4 基於策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1 連續問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2 基於策略的代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3 運動與視覺-運動環境 . . . . . . . . . . . . . . . . . . . . 111
4.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5 基於模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.1 高維度問題的動態模型 . . . . . . . . . . . . . . . 122
5.2 學習與規劃代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3 高維度環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6 兩代理強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.1 兩代理零和問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.2 Tabula Rasa 自我對弈代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.3 自我對弈環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.4 總結與進一步閱讀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6.5 練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7 多代理強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
```