深度強化學習原理與實踐

陳喆

預覽內頁

出版商: 清華大學
出版日期: 2024-05-01
定價: $354
售價: 8.5 折 $301
語言: 簡體中文
ISBN: 7302660700
ISBN-13: 9787302660705
相關分類: Reinforcement、化學 Chemistry

下單後立即進貨 (約4週~6週)

商品描述

本書從原理的角度，力求講解清楚深度學習、強化學習、深度強化學習中的一些精選方法，並從實踐的角度，通過一系列循序漸進的原創實驗，引領讀者獨立編程實現這些方法，以期為讀者精通深度強化學習並應用深度強化學習方法解決實際問題奠定堅實基礎。本書不僅適合電腦科學與技術、人工智能、物聯網工程、數據科學與大數據、軟件工程、通信工程、電子信息、機器人工程、自動化、智能製造等相關專業高年級本科生及研究生教學與自學使用，也適合機器學習等領域的從業者、科研人員及愛好者自學與參考使用。

目錄大綱

第1章引言1

1.1深度強化學習及其簡史1

1.2深度強化學習的應用領域3

1.3深度強化學習方法的實現4

1.3.1NumPy庫和Matplotlib庫4

1.3.2PyTorch框架7

1.4本章實驗解析11

1.5本書各章聯系14

1.6本章小結14

1.7思考與練習15

第2章從神經網絡到深度學習16

2.1神經網絡回顧16

2.1.1神經網絡的推測過程17

2.1.2神經網絡的訓練過程18

2.1.3神經網絡實踐23

2.2從神經網絡到深度神經網絡26

2.3深度神經網絡29

2.3.1深度神經網絡的推測過程29

2.3.2深度神經網絡的訓練過程30

2.3.3反向模式自動微分34

2.3.4深度神經網絡實踐及分析35

2.4捲積神經網絡37

2.4.1捲積層和合並層38

2.4.2捲積神經網絡實踐41

2.5循環神經網絡42

2.6本章實驗解析45

2.7本章小結51

2.8思考與練習52第3章強化學習基礎53

3.1強化學習概述53

3.1.1多老虎機問題53

3.1.2利用與探索57

3.1.3強化學習的要素58

3.2有限馬爾可夫決策過程59

3.2.1狀態與馬爾可夫性59

3.2.2什麽是有限馬爾可夫決策過程60

3.2.3收益與策略63

3.3求解MDP65

3.3.1貝爾曼方程與貝爾曼最優方程65

3.3.2價值迭代69

3.3.3策略評估74

3.3.4策略迭代77

3.3.5廣義策略迭代82

3.4本章實驗解析85

3.5本章小結90

3.6思考與練習90

深度強化學習原理與實踐目錄第4章行動價值方法92

4.1行動價值與最優行動價值92

4.1.1行動價值92

4.1.2最優行動價值96

4.2蒙特卡洛方法99

4.3Q學習107

4.4DynaQ114

4.5使用監督學習方法推測最優行動價值的極限值118

4.6使用深度神經網絡推測最優行動價值的極限值124

4.7本章實驗解析129

4.8本章小結136

4.9思考與練習136

第5章策略梯度方法138

5.1策略梯度基本方法138

5.2蒙特卡洛策略梯度方法142

5.2.1各個行動的蒙特卡洛策略梯度方法142

5.2.2單個行動的蒙特卡洛策略梯度方法147

5.2.3平移的蒙特卡洛策略梯度方法149

5.3行動評價方法154

5.4不完全觀測160

5.5本章實驗解析163

5.6本章小結168

5.7思考與練習169

附錄A實驗參考程序及註釋171

參考文獻231

深度強化學習原理與實踐

陳喆

相關主題

商品描述

目錄大綱

類似商品