強化學習入門：從原理到實踐

葉強閆維新黎斌

出版商: 機械工業
出版日期: 2020-08-01
售價: $474
貴賓價: 9.5 折 $450
語言: 簡體中文
頁數: 192
裝訂: 平裝
ISBN: 7111661265
ISBN-13: 9787111661269
相關分類: Reinforcement、化學 Chemistry

立即出貨 (庫存 < 4)

買這商品的人也買了...

$352

多智能體機器學習 : 強化學習方法 (Multi-Agent Machine Learning : A Reinforcement Approach)
$352

Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習
~~$520~~ $411

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
~~$500~~ $395

實戰人工智慧之深度強化學習｜使用 PyTorch x Python
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
$266

機器學習、深度學習與強化學習
$352

強化學習
~~$594~~ $564

深度強化學習：學術前沿與實戰應用
$311

邊做邊學深度強化學習：PyTorch 程序設計實踐
$505

強化學習
$230

TensorFlow 強化學習快速入門指南使用 Python 動手搭建自學習的智能體 (Tensorflow Reinforcement Learning Quick Start Guide)
~~$454~~ $427

TensorFlow 深度學習 — 深入理解人工智能算法設計
~~$414~~ $393

Python 最優化算法實戰
$422

深度學習 — 從神經網絡到深度強化學習的演進
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
$604

聯邦學習技術及實戰
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
~~$2,090~~ $1,986

Deep Reinforcement Learning with Python: With Pytorch, Tensorflow and Openai Gym
~~$474~~ $450

深入淺出聯邦學習：原理與實踐
~~$658~~ $619

深度強化學習：基礎、研究與應用
~~$1,000~~ $790

核心開發者親授！PyTorch 深度學習攻略 (Deep Learning with Pytorch)
$517

Python 機器學習算法與實戰
$305

深度強化學習
$403

Python 深度強化學習 : 基於 Chainer 和 OpenAI Gym
~~$600~~ $468

PyTorch 深度學習入門與應用：必備實作知識與工具一本就學會

商品描述

本書以理論和實踐相結合的形式深入淺出地介紹強化學習的歷史、基本概念、經典算法和一些前沿技術，共分為三大部分：
一部分（1～5章）介紹強化學習的發展歷史、強化學習的基本概念以及一些經典的強化學習算法；
二部分（6～9章）在簡要回顧深度學習技術的基礎上著重介紹深度強化學習的一些前沿實用算法；
三部分（後一章）以五子棋為例詳細講解戰勝了人類圍棋選手的Alpha Zero算法的核心思想。葉強閆維新黎斌

目錄大綱

目錄
前言
致謝
常用數學符號
主要算法列表
第1章概述1
1.1強化學習的歷史1
1.2強化學習的基本概念2
1.3章節組織6
1.4編程環境與代碼資源6

第2章從一個示例到馬爾可夫決策過程7
2.1馬爾可夫過程7
2.2馬爾可夫獎勵過程9
2.3馬爾可夫決策過程13
2.4編程實踐：學生馬爾可夫決策示例20
2.4.1收穫和價值的計算20
2.4.2驗證貝爾曼方程22

第3章動態規劃尋找*優策略29
3.1策略評估29
3.2策略迭代32
3.3價值迭代33
3.4異步動態規劃算法36
3.5編程實踐：動態規劃求解小型格子世界*優策略37
3.5.1小型格子世界MDP建模37
3.5.2策略評估40
3.5.3策略迭代41
3.5.4價值迭代41

第4章不基於模型的預測43
4.1蒙特卡羅強化學習43
4.2時序差分強化學習45
4.3 n步時序差分學習50
4.4編程實踐：蒙特卡羅學習評估21點遊戲的玩家策略54
4.4.1 21點遊戲規則54
4.4.2將21點遊戲建模為強化學習問題55
4.4.3遊戲場景的搭建55
4.4.4生成對局數據64
4.4.5策略評估64

第5章無模型的控制67
5.1行為價值函數的重要性67
5.2貪婪策略68
5.3同策略蒙特卡羅控制69
5.4同策略時序差分控制70
5.4.1 Sarsa算法70
5.4.2 Sarsa(λ)算法73
5.4.3比較Sarsa和Sarsa(λ) 74
5.5異策略Q學習算法76
5.6編程實踐：蒙特卡羅學習求解21點遊戲的*優策略78
5.7編程實踐：構建基於gym的有風的格子世界及個體81
5.7.1 gym庫簡介81
5.7.2狀態序列的管理83
5.7.3個體基類的編寫84
5.8編程實踐：各類學習算法的實現及與有風的格子世界的交互88
5.8.1 Sarsa算法89
5.8.2 Sarsa( λ)算法90
5.8.3 Q學習算法91

第6章價值函數的近似表示93
6.1價值近似的意義93
6.2目標函數與梯度下降95
6.2.1目標函數95
6.2.2梯度和梯度下降97
6.3常用的近似價值函數100
6.3.1線性近似101
6.3.2神經網絡101
6.3.3捲積神經網絡近似104
6.4 DQN算法108
6.5編程實踐：基於PyTorch實現DQN求解PuckWorld問題109
6.5.1基於神經網絡的近似價值函數110
6.5.2實現DQN求解PuckWorld問題113

第7章基於策略梯度的深度強化學習117
7.1基於策略學習的意義117
7.2策略目標函數119
7.3 Actor-Critic算法121
7.4深度確定性策略梯度算法124
7.5編程實踐：DDPG算法實現125
7.5.1連續行為空間的PuckWorld環境125
7.5.2 Actor-Critic網絡的實現127
7.5.3確定性策略下探索的實現130
7.5.4 DDPG算法的實現130
7.5. 5 DDPG算法在PuckWorld環境中的表現135

第8章基於模型的學習和規劃137
8.1環境的模型137
8.2整合學習與規劃——Dyna算法139
8.3基於模擬的搜索140
8.3.1簡單蒙特卡羅搜索140
8.3.2蒙特卡羅樹搜索141

第9章探索與利用143
9.1多臂遊戲機143
9.2常用的探索方法145
9.2.1衰減的貪婪探索145
9.2.2不確定行為優先探索146
9.2.3基於信息價值的探索149

第10章Alpha Zero算法實戰151
10.1自博弈中的蒙特卡羅樹搜索154
10.2模型評估中的蒙特卡羅搜索156
10.3策略價值網絡結構及策略提升160
10.4編程實踐：Alpha Zero算法在五子棋上的實現161
10.4.1從零開始搭建棋盤環境161
10.4.2搭建兩種MCTS以實現Alpha
Zero自博弈與模型評估168
10.4.3搭建策略價值網絡並進行策略提升177
10.4.4訓練自己的Alpha Zero
模型182
參考文獻184