強化學習 (微課版)

Name: 強化學習 (微課版)
Price: 352 TWD
Availability: InStock
Author: 袁莎、白朔天、唐傑
ISBN: 7302587949

袁莎、白朔天、唐傑

預覽內頁

出版商: 清華大學
出版日期: 2021-10-01
定價: $414
售價: 8.5 折 $352
語言: 簡體中文
頁數: 276
裝訂: 平裝
ISBN: 7302587949
ISBN-13: 9787302587941
相關分類: Reinforcement、化學 Chemistry

立即出貨 (庫存=1)

買這商品的人也買了...

$352

量化投資專家系統開發與策略實戰
$458

Python 金融大數據挖掘與分析全流程詳解
$403

機器學習理論導引
~~$980~~ $735

提升程式設計師的面試力｜189道面試題目與解答, 6/e (修訂版) (Cracking the Coding Interview : 189 Programming Questions and Solutions, 6/e)
~~$680~~ $578

機器學習：彩色圖解 + 基礎微積分 + Python 實作 -- 王者歸來 (全彩)
$301

算法設計與分析, 4/e (微課視頻版)
$551

OpenCV 4 機器學習算法原理與編程實戰
~~$880~~ $748

500個必問題：深度學習 AI頂尖企業面試實況
~~$534~~ $507

元學習：基礎與應用
~~$680~~ $537

Python 演算法交易 (Python for Algorithmic Trading)
~~$520~~ $406

初學 Python 的第一本書 : 從基本語法到模組應用（iT邦幫忙鐵人賽系列書）
$446

數據結構習題精解（C語言實現+微課視頻）
$352

深度強化學習核心算法與應用
$536

軟件開發的 201個原則
$356

認識 AI：人工智能如何賦能商業, 2/e (Artificial Intelligence for Business, 2/e)
$556

Python 大數據分析與應用實戰
$602

深入理解 Django：框架內幕與實現原理
~~$708~~ $673

Python 商業數據挖掘, 6/e (Data Mining for Business Analytics: Concepts, Techniques and Applications in Python)
$284

Python 機器學習 — 原理、算法及案例實戰 -- 微課視頻版
$335

統計學圖鑒
$407

超簡單：用 Python 讓 Excel 飛起來 (核心模塊語法詳解篇)
~~$1,200~~ $1,020

打下最紮實 AI 基礎不依賴套件：手刻機器學習神經網路穩健前進
$305

計算機操作系統（第4版·微課視頻版）
$305

大數據分析：Python 爬蟲、數據清洗和數據可視化, 2/e (微課視頻版)
~~$580~~ $458

AI 和 ChatGPT 人類和機器共生的未來

商品描述

本書構建了一個完整的強化學習入門路徑，深入淺出地介紹了強化學習算法的基本原理和實現方法。本書首先回顧了相關預備知識，包括數學基礎和機器學習基礎，然後先介紹強化學習的基本概念，給出強化學習的數學框架（馬爾可夫決策過程），隨後介紹強化學習的求解算法，包括表格求解法（動態規劃法、蒙特卡洛法和時序差分法），以及近似求解法（值函數近似法、策略梯度法和深度強化學習）。本書最後一部分為實踐與前沿，實踐部分基於一個相同的例子實現了強化學習領域的主流基礎算法，前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習，配套代碼基於 Python 實現，源代碼均已開源，可開放獲取。本書可作為理工科本科生、研究生的“強化學習”課程的教材，也可作為相關從業者掌握強化學習的入門參考書。

作者簡介

袁莎，清華大學計算機系博士後，合作導師為唐杰教授，主持一項國家自然科學基金青年基金項目和一項博士後科學基金面上項目。唐杰 IEEE Fellow，清華大學計算機系教授、系副主任，獲國家傑出青年科學基金、王選傑青獎。研究人工智能、認知圖譜、數據挖掘、社交網絡和機器學習。發表論文300餘篇，獲ACM SIGKDD Test-of-Time Award（十年最佳論文）。主持研發了超大規模預訓練模型“悟道”，參數規模超過1.75萬億。之前還研發了研究者社會網絡挖掘系統AMiner，吸引全球220個國家/地區2000多萬用戶。擔任國際期刊IEEE T. on Big Data、AI OPEN主編以及WWW’23大會主席。獲國家科技進步二等獎、北京市科技進步一等獎、北京市專利獎一等獎、人工智能學會科技進步一等獎、KDD傑出貢獻獎。

目錄大綱

目   錄
I 概述
第1章  導論 3
1.1  強化學習簡介   3
1.1.1  兩個主要特徵  3
1.1.2  與機器學習的關系 4
1.2  強化學習發展史  5
1.2.1  試錯學習 6
1.2.2  最優控制 6
1.2.3  時序差分學習 7
1.2.4  深度強化學習 7
1.3  本書的主要內容 8
1.4  本章小結 10

II 預備知識
第2章  概率統計與隨機過程 13
2.1  概率論   13
2.1.1  集合  13
2.1.2  概率 15
2.1.3  隨機試驗與隨機事件 16
2.1.4  條件概率與獨立事件 16
2.1.5  隨機變量  18
2.1.6  期望與方差 18
2.1.7  概率分佈  19
2.2  統計學基礎 23
2.2.1  大數定律   23
2.2.2  中心極限定理 24
2.3  隨機過程 27
2.3.1  基本概念 27
2.3.2  分佈函數 29
2.3.3  基本類型 29
2.3.4  馬爾可夫過程 30
2.3.5  馬爾可夫鏈的狀態分類 30
2.3.6  平穩分佈 34
2.4  本章小結  36

第3章  機器學習 37
3.1  基本概念 37
3.2  線性回歸  39
3.3  邏輯回歸  41
3.3.1  邏輯回歸模型 41
3.3.2  邏輯回歸指標 43
3.3.3  邏輯回歸算法 46
3.4  隨機梯度下降 47
3.4.1  隨機梯度下降法 47
3.4.2  基於 SGD 實現邏輯回歸 49
3.5  本章小結 50

第4章  神經網絡 51
4.1  神經元  51
4.2  感知機 53
4.2.1  感知機模型  53
4.2.2  感知機指標 54
4.2.3  感知機算法 55
4.3  神經網絡 59
4.3.1  神經網絡模型 59
4.3.2  神經網絡指標 61
4.3.3  神經網絡算法 61
4.3.4  梯度消失現象 66
4.4  本章小結 68

第5章  深度學習 69
5.1  深度神經網絡  69
5.2  捲積神經網絡 70
5.2.1  圖像  70
5.2.2  捲積 71
5.2.3  填充 73
5.2.4  池化  74
5.3  循環神經網絡 74
5.3.1  循環神經網絡的基本結構  74
5.3.2  LSTM 結構   76
5.3.3  深度循環神經網絡  77
5.4  本章小結  78

III 強化學習基礎
第6章  強化學習概述 81
6.1  強化學習框架  81
6.1.1  基本框架   81
6.1.2  完全觀測與不完全觀測 82
6.2  強化學習要素   83
6.2.1  值函數   84
6.2.2  模型   85
6.3  本章小結 85

第7章  馬爾可夫決策過程   86
7.1  馬爾可夫過程  86
7.1.1  基本概念   86
7.1.2  轉移概率  87
7.2  馬爾可夫獎勵過程  90
7.3  馬爾可夫決策過程   94
7.3.1  形式化表示 94
7.3.2  策略和值函數 95
7.3.3  MDP 與 MRP 的關系 100
7.4  最優化  100
7.4.1  最優策略 100
7.4.2  貝爾曼最優方程 101
7.5  本章小結  104

IV 表格求解法
第8章  動態規劃法 107
8.1  動態規劃  107
8.1.1  算法基礎知識 107
8.1.2  動態規劃基礎知識  111
8.1.3  動態規劃求解 MDP 115
8.2  基於動態規劃的預測（策略評估） 116
8.3  策略改進   120
8.4  基於動態規劃的控制   122
8.4.1  策略迭代  122
8.4.2  值函數迭代 123
8.5  廣義策略迭代    125
8.6  本章小結  125

第9章  蒙特卡洛法  126
9.1  蒙特卡洛法簡介  127
9.1.1  投點法   127
9.1.2  平均值法 129
9.2  21 點遊戲  132
9.2.1  遊戲規則 132
9.2.2  模擬交互序列 137
9.2.3  Gym   139
9.3  蒙特卡洛預測 141
9.4  蒙特卡洛控制 145
9.5  增量均值法  152
9.6  本章小結 153

第10章  時序差分法  154
10.1  TD(0) 預測   154
10.2  TD(0) 控制：Sarsa(0) 算法 157
10.3  n 步時序差分預測  163
10.4  n 步時序差分控制：n 步 Sarsa 算法 164
10.5  本章小結  166

第11章  異策略學習概述 167
11.1  重要性採樣 167
11.1.1  基本重要性採樣  167
11.1.2  自歸一化重要性採樣 171
11.2  每次訪問與異策略學習 173
11.2.1  每次訪問 173
11.2.2  異策略學習 175
11.3  異策略蒙特卡洛控制 177
11.4  異策略時序差分控制：Q-Learning   180
11.5  本章小結   183

V 近似求解法
第12章  值函數近似法   187
12.1  值函數近似   187
12.2  值函數近似預測 188
12.3  值函數近似控制   190
12.4  線性函數逼近器 192
12.5  本章小結   194

第13章  策略梯度法 195
13.1  策略梯度   195
13.1.1  基本概念    195
13.1.2  策略梯度定理  196
13.2  蒙特卡洛策略梯度 198
13.3  帶基線的 REINFORCE 算法 200
13.4  A-C 算法 203
13.5  PPO 算法 205
13.6  本章小結   207

第14章  深度強化學習  209
14.1  DQN 算法  209
14.2  DDPG 算法  212
14.3  本章小結   214

VI 實踐與前沿
第15章  強化學習實踐   219
15.1  MountainCar-v0 環境介紹 219
15.2  表格式方法 222
15.2.1  Sarsa 算法 222
15.2.2  Q-Learning 算法 224
15.3  策略梯度法  225
15.3.1  REINFORCE 算法 225
15.3.2  A-C 算法 229
15.3.3  PPO 算法 233
15.4  深度強化學習   238
15.4.1  DQN 算法   238
15.4.2  DDPG 算法 243
15.5  本章小結  246

第16章  強化學習前沿  248
16.1  深度強化學習   248
16.2  多智能體強化學習  250
16.2.1  基於值函數   250
16.2.2  基於策略 251
16.2.3  基於 A-C 框架 252
16.3  多任務強化學習 253
16.3.1  多任務強化學習算法 254
16.3.2  多任務強化學習框架   256
16.4  本章小結   258

VII 附錄
習題參考答案 (第8章、第9章 )   261
參考文獻   268
後記    275