深入淺出強化學習 : 原理入門

郭憲

出版商: 電子工業
出版日期: 2018-01-01
售價: $474
貴賓價: 9.5 折 $450
語言: 簡體中文
頁數: 256
裝訂: 平裝
ISBN: 7121329182
ISBN-13: 9787121329180
相關分類: Reinforcement
相關翻譯: 最新人工智慧應用：用強化學習快速上手 AI (繁中版)

銷售排行:

👍 2018 年度簡體中文書銷售排行第 6 名
🥉 2018/4 簡體中文書銷售排行第 3 名
🥉 2018/3 簡體中文書銷售排行第 3 名
🥈 2018/2 簡體中文書銷售排行第 2 名

立即出貨 (庫存 < 4)

買這商品的人也買了...

$250

OpenCV 3 計算機視覺 : Python 語言實現, 2/e (Learning OpenCV 3 Computer Vision with Python, 2/e)
$403

數據科學家養成手冊
$958

深度學習
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
$403

深度學習與計算機視覺 : 算法原理、框架應用與代碼實現 (Deep Learning & Computer Vision:Algorithms and Examples)
$403

深度學習入門之 PyTorch
~~$450~~ $356

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$500~~ $425

為你自己學 Git
$505

深度學習 : 一起玩轉 TensorLayer
$332

深度學習框架 PyTorch : 入門與實踐
~~$590~~ $502

Python 資料運算與分析實戰：一次搞懂 NumPy, SciPy, Matplotlib, Pandas 最強套件
~~$380~~ $296

圖說演算法 : 使用 Python
$403

深入理解 TensorFlow 架構設計與實現原理
$408

強化學習精要：核心算法與 TensorFlow 實現
~~$580~~ $493

最新人工智慧應用：用強化學習快速上手 AI
$332

GAN : 實戰生成對抗網絡
$403

Python 深度學習實戰：75個有關神經網絡建模、強化學習與遷移學習的解決方案 (Python Deep Learning Cookbook: Over 75 practical recipes on neural network modeling, reinforcement learning, and transfer learning using Python)
$607

強化學習
~~$480~~ $379

白話深度學習與 TensorFlow
$352

Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習
~~$550~~ $468

深度學習入門教室：6堂基礎課程 + Python 實作練習，Deep Learning、人工智慧、機器學習的理論和應用全圖解
~~$520~~ $411

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
$857

強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)
$505

白話強化學習與 PyTorch
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)

商品描述

《深入淺出強化學習：原理入門》內容提要
《深入淺出強化學習：原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理，覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從最基本的馬爾科夫決策過程入手，將強化學習問題納入到嚴謹的數學框架中，接著闡述瞭解決此類問題最基本的方法——動態規劃方法，並從中總結出解決強化學習問題的基本思路：交互迭代策略評估和策略改善。
基於這個思路，分別介紹了基於值函數的強化學習方法和基於直接策略搜索的強化學習方法。最後介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。
除了系統地介紹基本理論，書中還介紹了相應的數學基礎和編程實例。因此，《深入淺出強化學習：原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。

海報：

作者簡介

郭憲，南開大學計算機與控制工程學院博士後。2009 年畢業於華中科技大學機械設計製造及自動化專業，同年保送到中國科學院瀋陽自動化研究所碩博連讀，主攻機器人動力學建模與控制，並於2016 年1 月獲得工學博士學位；期間在國內外知名雜誌和會議發表論文數10 篇。
2016 年以來，郭博士主攻方向為機器人智能感知和智能決策，目前主持兩項國家級課題，內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。

目錄大綱

1緒論1
1.1這是一本什麼書1
1.2強化學習可以解決什麼問題2
1.3強化學習如何解決問題4
1.4強化學習算法分類及發展趨勢5
1.5強化學習模擬環境構建7
1.5.1 gym安裝及簡單的demo示例8
1.5.2深入剖析gym環境構建10
1.6本書主要內容及安排12

第一篇強化學習基礎17

2馬爾科夫決策過程18
2.1馬爾科夫決策過程理論講解18
2.2 MDP中的概率學基礎講解26
2.3基於gym的MDP實例講解29
2.4習題34

3基於模型的動態規劃方法36

3.1基於模型的動態規劃方法理論36
3.2動態規劃中的數學基礎講解47
3.2.1線性方程組的迭代解法47
3.2 .2壓縮映射證明策略評估的收斂性49
3.3基於gym的編程實例52
3.4最優控制與強化學習比較54
3.5習題56

第二篇基於值函數的強化學習方法57

4基於蒙特卡羅的強化學習方法58
4.1基於蒙特卡羅方法的理論58
4.2統計學基礎知識67
4.3基於Python的編程實例71
4.4習題74

5基於時間差分的強化學習方法75
5.1基於時間差分強化學習算法理論講解75
5.2基於Python和gym的編程實例83
5.3習題87

6基於值函數逼近的強化學習方法88
6.1基於值函數逼近的理論講解88
6.2 DQN及其變種94
6.2.1 DQN方法94
6.2.2 Double DQN 100
6.2.3優先回放（Prioritized Replay） 102
6.2.4 Dueling DQN 104
6.3函數逼近方法105
6.3 .1基於非參數的函數逼近105
6.3.2基於參數的函數逼近111
6.3.3捲積神經網絡117
6.4習題123

第三篇基於直接策略搜索的強化學習方法125

7基於策略梯度的強化學習方法126
7.1基於策略梯度的強化學習方法理論講解126
7.2基於gym和TensorFlow的策略梯度算法實現134
7.2.1安裝Tensorflow 135
7.2.2策略梯度算法理論基礎135
7.2.3 Softmax策略及其損失函數136
7.2.4基於TensorFlow的策略梯度算法實現138
7.2.5基於策略梯度算法的小車倒立擺問題141
7.3習題141

8基於置信域策略優化的強化學習方法142
8.1理論基礎143
8.2 TRPO中的數學知識153
8.2.1信息論153
8.2.2優化方法155
8.3習題164

9基於確定性策略搜索的強化學習方法165
9.1理論基礎165
9.2習題170

10基於引導策略搜索的強化學習方法171
10.1理論基礎171
10.2 GPS中涉及的數學基礎178
10.2.1監督相LBFGS優化方法178
10.2.2 ADMM算法179
10.2.3 KL散度與變分推理183
10.3習題184

第四篇強化學習研究及前沿185

11逆向強化學習186
11.1概述186
11.2基於最大邊際的逆向強化學習187
11.3基於最大熵的逆向強化學習194
11.4習題201

12組合策略梯度和值函數方法202

13值迭代網絡207
13.1為什麼要提出值迭代網絡207
13.2值迭代網絡210

14基於模型的強化學習方法：PILCO及其擴展214
14.1概述214
14.2 PILCO 216
14.3濾波PILCO和探索PILCO 226
14.3.1濾波PILCO算法227
14.3.2有向探索PILCO算法230
14.4深度PILCO 232

後記235
參考文獻237