深度強化學習--算法原理與金融實踐入門

Name: 深度強化學習--算法原理與金融實踐入門
Price: 393 TWD
Availability: InStock
Author: 謝文傑、周煒星
ISBN: 7302641064

謝文傑、周煒星

預覽內頁

出版商: 清華大學
出版日期: 2023-09-01
售價: $414
貴賓價: 9.5 折 $393
語言: 簡體中文
頁數: 245
裝訂: 平裝
ISBN: 7302641064
ISBN-13: 9787302641063
相關分類: Reinforcement、化學 Chemistry

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$288~~ $274

時間序列分析及應用 : R語言, 2/e (Time Series Analysis With Applications in R, 2/e)
~~$594~~ $564

深度強化學習：學術前沿與實戰應用
$403

圖解雲計算架構基礎設施和API
~~$420~~ $332

Web 開發者一定要懂的駭客攻防術 (Web Security for Developers: Real Threats, Practical Defense)
$556

遷移學習導論
$602

基於 MATLAB 的人工智能模式識別
$857

基於Python的金融分析與風險管理（第2版）
~~$480~~ $379

網路時代人人要學的資安基礎必修課 (How Cybersecurity Really Works)
~~$539~~ $512

動手學強化學習
~~$834~~ $792

深度強化學習圖解
~~$779~~ $740

深度強化學習
$449

基於 Python 的強化學習 (Reinforcement Learning Algorithms with Python : Learn, understand, and develop smart algorithms for addressing AI challenges)
~~$680~~ $537

金融風險管理的機器學習應用｜使用 Python (Machine Learning for Financial Risk Management with Python: Algorithms for Modeling Risk)
~~$539~~ $512

機器學習公式詳解第2版
$403

情感分析進階
$407

Python 統計機器學習
$458

動手學機器學習
~~$660~~ $515

Python：股票 × ETF 量化交易實戰 105個活用技巧, 2/e
~~$324~~ $308

數字信號處理實踐與應用 — MATLAB 話數字信號處理, 2/e
~~$560~~ $442

AI 神助攻！程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯
~~$680~~ $537

LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具
$602

LangChain 技術解密：構建大模型應用的全景指南
~~$600~~ $570

時間序列與機器學習
$668

大模型時代的基礎架構：大模型算力中心建設指南
~~$600~~ $468

Python：自動化股票網格交易實戰 86個活用技巧

商品描述

深度強化學習是人工智能和機器學習的重要分支領域，有著廣泛應用，如AlphaGo和ChatGPT。本書作為該領域的入門教材，在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章，大致分為4部分：第1部分（第1～2章）介紹深度強化學習背景（智能決策、人工智能和機器學習）；第2部分（第3～4章）介紹深度強化學習基礎知識（深度學習和強化學習）；第3部分（第5～9章）介紹深度強化學習經典算法（DQN、AC、DDPG等）；第4部分（第10章）為總結和展望。每章都附有習題並介紹了相關閱讀材料，以便有興趣的讀者進一步深入探索。本書可作為高等院校電腦、智能金融及相關專業的本科生或研究生教材，也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。

作者簡介

周煒星，男，浙江諸暨人。教育部青年長江學者、上海領軍人才、教育部新世紀優秀人才、上海市曙光學者、上海市青年科技啟明星。現任職於華東理工大學商學院、數學學院，二級教授，博士生導師，金融物理研究中心主任。現兼任中國優選法統籌法與經濟數學研究會理事、風險管理分會副理事長，中國系統工程學會理事、金融系統工程專業委員會副主任，管理科學與工程學會理事、金融計量與風險管理分會副理事長，中國工業統計教學研究會金融科技與大數據技術分會副理事長，中國數量經濟學會經濟覆雜性專業委員會副理事長，中國覆雜性科學學會副理事長。主要從事金融物理學、經濟物理學和社會經濟系統覆雜性研究，以及相關領域大數據分析。

目錄大綱

第 1章智能決策與復雜系統 ......................................................... 1

1.1智能決策.....................................................................1

1.1.1智能決策簡介 ......................................................... 1

1.1.2復雜金融系統中的智能決策 ........................................... 2

1.2復雜系統.....................................................................4

1.2.1復雜性科學 ........................................................... 4

1.2.2復雜系統定義 ......................................................... 6

1.2.3復雜系統類型 ......................................................... 6

1.2.4復雜系統研究 ......................................................... 8

1.3復雜環境特徵 ...............................................................13

1.3.1完全可觀察的和部分可觀察的環境 ................................... 13

1.3.2單智能體和多智能體 ................................................. 14

1.3.3確定的和隨機的環境 ................................................. 14

1.3.4片段式和延續式環境 ................................................. 15

1.3.5靜態和動態環境 ..................................................... 15

1.3.6離散和連續環境 ..................................................... 16

1.3.7已知和未知環境 ..................................................... 16

1.4復雜環境建模 ...............................................................17

1.5智能體建模 ................................................................. 21

1.5.1典型決策系統模型框架 ...............................................21

1.5.2智能體建模框架 ..................................................... 21

1.6智能決策系統建模 .......................................................... 24

1.6.1問題提煉 ............................................................ 24

1.6.2數據採集 ............................................................ 25

1.6.3模型構建 ............................................................ 26

1.6.4算法實現 ............................................................ 26

1.6.5模型訓練 ............................................................ 26

1.6.6模型驗證 ............................................................ 26

1.6.7模型改進 ............................................................ 27

1.6.8模型運用 ............................................................ 27

1.7應用實踐 ................................................................... 27

第 1章習題 ...................................................................... 29

第 2章人工智能與機器學習 ........................................................ 30

2.1人工智能簡介 ...............................................................30

2.1.1人工智能 +農業 .................................................... 31

2.1.2人工智能 +教育 .................................................... 31

2.1.3人工智能 +工業 .................................................... 31

2.1.4人工智能 +金融 .................................................... 32

2.2人工智能前沿 ...............................................................32

2.3人工智能簡史 ...............................................................33

2.4人工智能流派 ...............................................................34

2.4.1符號主義學派 ........................................................35

2.4.2聯結主義學派 ........................................................36

2.4.3行為主義學派 ........................................................37

2.5人工智能基礎 ...............................................................37

2.5.1運籌學...............................................................38

2.5.2最優化控制 .......................................................... 38

2.5.3交叉學科 ............................................................ 39

2.5.4人工智能和機器學習相關會議 ........................................ 39

2.6機器學習分類 ...............................................................39

2.6.1監督學習 ............................................................ 41

2.6.2無監督學習 .......................................................... 41

2.6.3強化學習 ............................................................ 43

2.7機器學習基礎 ...............................................................44

2.7.1激活函數 ............................................................ 44

2.7.2損失函數 ............................................................ 46

2.7.3優化算法 ............................................................ 50

2.8應用實踐 ................................................................... 57 第 2章習題 ...................................................................... 58 第 3章深度學習入門 ...............................................................59

3.1深度學習簡介 ...............................................................59

3.1.1深度學習與人工智能 ................................................. 59

3.1.2深度學習與機器學習 ................................................. 59

3.1.3深度學習與表示學習 ................................................. 61

3.2深度神經網絡 ...............................................................62

3.2.1深度神經網絡構建 ................................................... 62

3.2.2深度神經網絡實例 ................................................... 64

3.3深度捲積神經網絡 .......................................................... 68

3.4深度循環神經網絡 .......................................................... 69

3.5深度圖神經網絡.............................................................71

3.5.1圖神經網絡簡介 ..................................................... 72

3.5.2圖神經網絡聚合函數 ................................................. 72

3.5.3圖神經網絡更新函數 ................................................. 72

3.5.4圖神經網絡池化函數 ................................................. 73

3.6深度神經網絡訓練 .......................................................... 73

3.6.1模型訓練挑戰 ........................................................73

3.6.2數據預處理 .......................................................... 74

3.6.3參數初始化 .......................................................... 75

3.6.4學習率調整 .......................................................... 76

3.6.5梯度優化算法 ........................................................77

3.6.6超參數優化 .......................................................... 78

3.6.7正則化技術 .......................................................... 80

3.7應用實踐 ................................................................... 80

3.7.1 TensorFlow安裝.....................................................81

3.7.2 TensorFlow基本框架 ................................................ 81

3.7.3 TensorBoard.........................................................82

3.7.4 scikit-learn .......................................................... 82

3.7.5 Keras................................................................83 第 3章習題 ...................................................................... 83 第 4章強化學習入門 ...............................................................84

4.1強化學習簡介 ...............................................................84

4.2馬爾可夫決策過程 .......................................................... 86

4.3動態規劃方法 ...............................................................87

4.3.1策略函數 ............................................................ 88

4.3.2獎勵函數 ............................................................ 88

4.3.3累積回報 ............................................................ 89

4.3.4狀態值函數 .......................................................... 89

4.3.5狀態-動作值函數 .....................................................90

4.3.6狀態-動作值函數與狀態值函數的關系 ................................ 90

4.3.7 Bellman方程 ........................................................ 91

4.3.8策略迭代算法 ........................................................92

4.3.9值函數迭代算法 ..................................................... 95

4.4蒙特卡洛方法 ...............................................................97

4.4.1蒙特卡洛估計 ........................................................97

4.4.2蒙特卡洛強化學習算法偽代碼 .......................................100

· VII ·

4.5時序差分學習 ..............................................................100

4.5.1時序差分學習算法 .................................................. 100

4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 .................. 101

4.5.3 Q-learning..........................................................102

4.5.4 SARSA.............................................................104

4.6策略梯度方法 ..............................................................105

4.7應用實踐 .................................................................. 110

4.7.1強化學習的智能交易系統框架 .......................................110

4.7.2智能交易系統環境模型編程 ......................................... 110 第 4章習題 .....................................................................116 第 5章深度強化學習 Q網絡 ..................................................... 117

5.1深度 Q網絡 ............................................................... 117

5.1.1智能策略 ........................................................... 117

5.1.2策略函數與 Q表格 ................................................. 118

5.1.3策略函數與 Q網絡 ................................................. 120

5.2 DQN算法介紹 ............................................................ 121

5.2.1經驗回放 ........................................................... 121

5.2.2目標網絡 ........................................................... 122

5.3 DQN算法 .................................................................123

5.4 DoubleDQN .............................................................. 125

5.4.1 Double DQN背景 .................................................. 125

5.4.2雙 Q網絡結構......................................................126

5.4.3 Double DQN算法偽代碼 ........................................... 127

5.5 Dueling DQN..............................................................128

5.5.1 Dueling DQN算法框架簡介 ........................................ 128

5.5.2 Dueling DQN算法核心思想 ........................................ 128

5.6 Distributional DQN ....................................................... 129

5.7 DQN的其他改進 .......................................................... 130

5.7.1優先級經驗回放 .................................................... 131

5.7.2噪聲網絡 DQN ..................................................... 132

5.7.3多步（Multi-step）DQN............................................134

5.7.4分佈式訓練 ......................................................... 135

5.7.5 DQN算法改進 ..................................................... 136

5.7.6 DQN算法總結 ..................................................... 136

5.8應用實踐 .................................................................. 137

5.8.1智能投資決策系統 .................................................. 137

5.8.2核心代碼解析 .......................................................139

5.8.3模型訓練 ........................................................... 140

5.8.4模型測試 ........................................................... 142 第 5章習題 .....................................................................143 第 6章深度策略優化方法 ......................................................... 144

6.1策略梯度方法簡介 ......................................................... 144

6.1.1 DQN的局限 ....................................................... 144

6.1.2策略梯度方法分類 .................................................. 145

6.2隨機性策略梯度算法 ....................................................... 147

6.2.1軌跡數據 ........................................................... 147

6.2.2目標函數 ........................................................... 147

6.2.3梯度計算 ........................................................... 148

6.2.4更新策略 ........................................................... 150

6.3隨機性策略梯度定理 ....................................................... 150

6.3.1隨機性策略梯度定理介紹 ........................................... 150

6.3.2隨機性策略梯度定理分析 ........................................... 151

6.4策略梯度優化幾種實現方法 ................................................ 152

6.4.1策略梯度優化理論 .................................................. 152

6.4.2完整軌跡的累積獎勵回報 ........................................... 152

6.4.3部分軌跡的累積獎勵回報 ........................................... 153

6.4.4常數基線函數 .......................................................153

6.4.5基於狀態的基線函數 ................................................153

6.4.6基於狀態值函數的基線函數 ......................................... 154

6.4.7基於自舉方法的梯度估計 ........................................... 154

6.4.8基於優勢函數的策略梯度優化 .......................................154

6.5深度策略梯度優化算法.....................................................155

6.6置信閾策略優化算法 ....................................................... 157

6.6.1置信閾策略優化算法介紹 ........................................... 157

6.6.2重要性採樣 ......................................................... 158

6.6.3置信閾策略優化算法核心技巧 .......................................160

6.6.4置信閾策略優化算法偽代碼 ......................................... 160

6.7近端策略優化算法 ......................................................... 162

6.7.1近端策略優化算法介紹..............................................162

6.7.2近端策略優化算法核心技巧 ......................................... 162

6.7.3近端策略優化算法（PPO2）偽代碼 .................................164

6.8應用實踐 .................................................................. 165

6.8.1模型參數 ........................................................... 166

6.8.2模型訓練 ........................................................... 167

· IX ·

6.8.3模型測試 ........................................................... 167 第 6章習題 .....................................................................168 第 7章深度確定性策略梯度方法 .................................................. 169

7.1確定性策略梯度方法應用場景 ..............................................169

7.2策略梯度方法比較 ......................................................... 170

7.3確定性策略函數的深度神經網絡表示 ....................................... 172

7.4確定性策略梯度定理 ....................................................... 173

7.5深度確定性策略梯度算法 .................................................. 175

7.5.1算法核心介紹 .......................................................175

7.5.2經驗回放 ........................................................... 176

7.5.3目標網絡 ........................................................... 176

7.5.4參數軟更新 ......................................................... 177

7.5.5深度確定性策略梯度算法偽代碼 .................................... 178

7.6孿生延遲確定性策略梯度算法 ..............................................179

7.6.1 TD3算法介紹 ...................................................... 179

7.6.2 TD3算法的改進 ....................................................179

7.6.3 TD3算法偽代碼 ....................................................181

7.7應用實踐 .................................................................. 183

7.7.1核心代碼解析 .......................................................183

7.7.2模型訓練 ........................................................... 184

7.7.3模型測試 ........................................................... 184 第 7章習題 .....................................................................185 第 8章 Actor-Critic算法 ........................................................186

8.1 Actor-Critic簡介 .......................................................... 186

8.2 AC算法 ...................................................................187

8.2.1 AC算法介紹 ....................................................... 187

8.2.2 AC算法參數更新...................................................188

8.2.3 AC算法偽代碼 ..................................................... 189

8.3 A2C算法..................................................................190

8.3.1 A2C算法介紹 ...................................................... 190

8.3.2優勢函數和基線函數 ................................................192

8.3.3 A2C算法偽代碼 ....................................................193

8.4 A3C算法..................................................................193

8.4.1 A3C算法介紹 ...................................................... 194

8.4.2 A3C算法的改進和優化 .............................................194

8.4.3 A3C算法偽代碼 ....................................................196

8.5 SAC算法 ................................................................. 197

8.5.1 SAC算法介紹 ...................................................... 197

8.5.2智能體動作多樣性 .................................................. 198

8.5.3 SAC算法理論核心 ................................................. 199

8.5.4 SAC算法偽代碼....................................................201

8.6應用實踐 .................................................................. 203

8.6.1核心代碼解析 .......................................................203

8.6.2模型訓練 ........................................................... 204

8.6.3模型測試 ........................................................... 204 第 8章習題 .....................................................................205 第 9章深度強化學習與規劃 .......................................................206

9.1學習與規劃 ................................................................ 206

9.2基於模型的深度強化學習 .................................................. 207

9.2.1深度強化學習模型分類..............................................207

9.2.2深度強化學習中的學習模塊 ......................................... 208

9.2.3深度強化學習中的規劃模塊 ......................................... 209

9.3 Dyna框架 .................................................................210

9.3.1 Dyna框架介紹 ..................................................... 210

9.3.2 Dyna框架的模型學習 .............................................. 211

9.4 Dyna-Q算法 .............................................................. 212

9.4.1 Dyna-Q算法介紹...................................................212

9.4.2 Dyna-Q算法偽代碼 ................................................ 213

9.5 Dyna-Q改進 .............................................................. 215

9.6 Dyna-2框架 ...............................................................217

9.7應用實踐 .................................................................. 218

9.7.1編程實踐模塊介紹 .................................................. 218

9.7.2 Gym ............................................................... 218

9.7.3強化學習代碼庫 .................................................... 219 第 9章習題 .....................................................................221 第 10章深度強化學習展望 ........................................................223

10.1深度強化學習背景 ........................................................ 223

10.1.1源於學科交叉 ..................................................... 223

10.1.2用於序貫決策 ..................................................... 223

10.1.3強於深度學習 ..................................................... 224

10.2深度強化學習簡史 ........................................................ 224

10.2.1游戲控制嶄露頭角 ................................................. 224

10.2.2 AlphaGo風靡全球 ................................................ 225

10.2.3通用智能備受期待 ................................................. 225

· XI ·

10.3深度強化學習分類 ........................................................ 226

10.3.1基於值函數和基於策略函數的深度強化學習 ........................ 226

10.3.2基於模型和無模型的深度強化學習 ................................. 226

10.3.3異策略和同策略學習 ...............................................228

10.4深度強化學習面臨的挑戰 ................................................. 228

10.4.1樣本效率 .......................................................... 228

10.4.2災難性遺忘 ........................................................229

10.4.3虛實映射鴻溝 ..................................................... 230

10.4.4有效表徵學習 ..................................................... 231

10.4.5可拓展性與規模化 ................................................. 232

10.4.6延遲獎勵 .......................................................... 233

10.4.7稀疏獎勵 .......................................................... 233

10.4.8探索和利用 ........................................................234

10.4.9復雜動態環境 ..................................................... 235

10.5深度強化學習前沿 ........................................................ 236

10.5.1多智能體深度強化學習 ............................................ 236

10.5.2深度逆向強化學習 ................................................. 237

10.5.3模仿學習 .......................................................... 238

10.5.4行為克隆 .......................................................... 239

10.5.5圖強化學習 ........................................................241

10.6深度強化學習實踐 ........................................................ 241

10.6.1深度強化學習建模框架 ............................................ 241

10.6.2深度強化學習模型的核心模塊......................................242 第 10章習題 ....................................................................245