強化學習:人工智能如何知錯

龔超、王冀、梁霄、貴寧

  • 出版商: 化學工業
  • 出版日期: 2024-08-01
  • 定價: $419
  • 售價: 8.5$356
  • 語言: 簡體中文
  • 頁數: 234
  • ISBN: 7122452824
  • ISBN-13: 9787122452825
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

商品描述

「人工智慧入門叢書」力於面向人工智慧各技術方向零基礎的讀者,內容涉及數據素養、
機器學、視覺感知、情緒分析、搜尋演算法、強化學、知識圖譜、家系統等方向。
本叢書體系完整、內容簡潔、語言通俗,綜合介紹了人工智慧相關知識,
並輔以程式碼解決問題,使得零基礎的讀者能夠快速入門。
《強化學:人工智慧如何知錯能改》是「人工智慧入門叢書」的分冊,
以科普的形式講解了強化學的核心知識,內容生動有趣,帶領讀者走進強化學的。
本書含強化學方向的基礎知識,如動態規劃、時序差分等,讓讀者在開始學時對強化學有初步的認識;
之後,透過對馬可夫決策過程及貝爾曼方程式的解讀,逐漸過渡到強化學的關鍵內容;
同時,本書也重點解析了策略迭代與值迭代兩種核心演算法,也對蒙卡洛方法、
時序差分演算法、深度強化學及基於策略的強化學演算法進行了深度剖析。
本書內容結構完整、邏輯清晰、層層遞進,並配有相關實例與程式碼,讓讀者在閱讀學過程中能加深理解。
本書適合強化學及人工智慧方向的初步閱讀學,也可供高等院校人工智慧及電腦類業的師生參考。

目錄大綱

第1章 強化學概論 001
1.1 什麼是強化學 002
1.1.1 初識強化學 002
1.1.2 強化學的關鍵要素 005
1.1.3 監督、無監督與強化學 007
1.2 三條主線 009
1.2.1 試誤 009
1.2.2 動態規劃 011
1.2.3 時序差分 012
1.3 強化學的方法與應用 014
1.3.1 強強聯合之深度強化學 014
1.3.2 強化學的跨界賦能 017
1.3.3 強化學的分類 021

第2章 馬可夫與貝爾曼方程式 024
2.1 「隨機」那些事 025
2.1.1 機率的基本概念 025
2.1.2 網格迷宮的探索 031
2.1.3 探索的策略與獎勵 034
2.1.4 探索的足跡 037
2.2 馬可夫大家族 040
2.2.1 馬可夫過程 040
2.2.2 馬可夫獎勵過程 043
2.2.3 馬可夫決策過程 044
2.3 貝爾曼方程式 046
2.3.1 值函數與動作值函數 046
2.3.2 貝爾曼方程式 050
2.3.3 貝爾曼方程式 052

第3章 動態規劃 056
3.1 動態規劃基礎與環境 057
3.1.1 動態規劃基礎 057
3.1.2 環境:冰湖 059
3.2 策略迭代演算法 063
3.2.1 原理 063
3.2.2 代碼 067
3.3 值迭代演算法 072
3.3.1 原理 072
3.3.2 代碼 074

第4章 蒙卡洛 078
4.1 隨機變數的數字徵 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙卡洛方法與應用 083
4.2.1 圓面積的估計 084
4.2.2 均值估計 087
4.3 蒙卡洛與強化學 091
4.3.1 原理 091
4.3.2 環境:21點 101
4.3.3 代碼 102

第5章 時序差分 107
5.1 時序差分 108
5.1.1 時序差分基礎 108
5.1.2 環境:懸崖漫步 116
5.2 Sarsa演算法 118
5.2.1 原理 118
5.2.2 代碼 120
5.3 Q-Learning演算法 124
5.3.1 原理 124
5.3.2 代碼 127

第6章 深度強化學 134
6.1 DQN入門 135
6.1.1 DQN的基本概念 135
6.1.2 環境:車桿 139
6.2 BP經網絡+強化學 141
6.2.1 原理 141
6.2.2 代碼 145
6.3 卷積經網路+強化學 157
6.3.1 原理 157
6.3.2 代碼 162
6.4 DQN的改良 167

第7章 策略學 170
7.1 策略梯度演算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE演算法 173
7.1.3 代碼 176
7.2 Actor-Critic演算法 184
7.2.1 原理 184
7.2.2 環境:LunarLander 189
7.2.3 代碼 190
7.3 其他基於策略的演算法 197

附錄 203
附錄A 環境設定與行為探索 204
A.1 Gym庫與環境設定 204
A.2 具有人類偏好的多智能體強化學 206
附錄B 博弈與策略 209
B.1 什麼是賽局 209
B.2 混合策略賽局 212
B.3 序貫博弈 215
B.4 無限賽局與有限賽局 216
附錄C 收益衡量 222
C.1 理性收益:期望值 223
C.2 效用效益:期望效用 226
C.3 情感利益:前景理論 228