強化學習

白辰甲, 趙英男, 郝建業等編著

  • 出版商: 機械工業
  • 出版日期: 2023-05-01
  • 售價: $654
  • 貴賓價: 9.5$621
  • 語言: 簡體中文
  • 頁數: 304
  • 裝訂: 平裝
  • ISBN: 711172478X
  • ISBN-13: 9787111724780
  • 相關分類: Reinforcement化學 Chemistry
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

本書介紹強化學習基本算法以及前沿研究和應用。
強化學習基礎包括基於值函數和基於策略的算法。
前沿研究是本書的特色和主要部分,將分為六個章節,包括:
基於模型的強化學習、探索與利用、層次化強化學習、離線強化學習、強化學習中的表示學習、元強化學習。
強化學習前沿應用包括三個章節,分別介紹無人駕駛和導航、機械臂任務和星際爭霸遊戲智能體。
本書以構建完整的強化學習前沿理論為主,深入淺出的講解強化學習的各個研究分支,並闡述這些研究分支之間的聯繫。
對於前沿研究中的理論公式,將結合讀者閱讀科研文獻的經驗來進行直觀的講解,降低讀者閱讀的難度。
本書各章節之間彼此獨立又相互聯繫。

目錄大綱

目錄
序言
前言
第1章強化學習簡介
1.1 從監督學習到強化學習
1.2 強化學習的發展歷史
1.3 強化學習的研究範疇
1.4 強化學習的應用領域
第2章強化學習基礎知識
2.1 強化學習的核心概念
2.2 馬爾可夫性和決策過程
2.3 值函數和策略學習
第3章基於值函數的強化學習算法
3.1 深度Q學習的基本理論
3.1.1 深度Q網絡
3.1.2 經驗池
3.1.3 目標網絡
3.2 深度Q學習的過估計
3.2.1 過估計的產生原因
3.2.2 Double Q-學習
3.3 深度Q學習的網絡改進和高效採樣
3.3.1 Dueling網絡
3.3.2 高效採樣
3.4 週期後序迭代Q學習
3.5 Q學習用於連續動作空間
3.5.1 基於並行結構的Q學習
3.5.2 基於順序結構的Q學習
3.6 實例:使用值函數學習的Atari遊戲
3.6.1 環境預處理
3.6.2 Q網絡的實現
3.6.3 Q學習的核心步驟
第4章策略梯度迭代的強化學習算法
4.1 REINFORCE策略梯度
4.1.1 策略梯度的基本形式
4.1.2 降低策略梯度的方差
4.2 異步策略梯度法
4.2.1 引入優勢函數
4.2.2 異步策略梯度
4.3 近端策略優化法
4.3.1 裁剪的優化目標
4.3.2 自適應的優化目標
4.4 深度確定性策略梯度
4.4.1 critic學習
4.4.2 actor學習
4.4.3 拓展1:探索噪聲
4.4.4 拓展2:孿生DDPG
4.5 熵策略梯度
4.5.1 熵約束的基本原理
4.5.2 SAC算法
4.6 實例:使用策略梯度的Mujoco任務
4.6.1 actor-critic網絡實現
4.6.2 核心算法實現
第5章基於模型的強化學習方法
5.1 如何使用模型來進行強化學習
5.2 基於模型預測的規劃
5.2.1 隨機打靶法
5.2.2 集成概率軌跡採樣法
5.2.3 基於模型和無模型的混合算法
5.2.4 基於想像力的隱式規劃方法
5.3 黑盒模型的理論框架
5.3.1 隨機下界優化算法
5.3.2 基於模型的策略優化算法
5.4 白盒模型的使用
5.4.1 隨機值梯度算法
5.4.2 模型增強的actor-critic算法
5.5 實例:AlphaGo圍棋智能體
5.5.1 網絡結構介紹
5.5.2 蒙特卡羅樹搜索
5.5.3 總體訓練流程
第6章值分佈式強化學習算法
6.1 離散分佈投影的值分佈式算法
6.2 分位數回歸的值分佈式算法
6.2.1 分位數回歸
6.2.2 Wasserstein距離
6.2.3 QR-DQN算法
6.2.4 單調的分位數學習算法
6.3 隱式的值分佈網絡
6.4 基於值分佈的代價敏感學習
6.4.1 IQN中的代價敏感學習
6.4.2 基於IQN的actor-critic模型的代價敏感學習
6.5 實例:基於值分佈的Q網絡實現
6.5.1 IQN模型構建
6.5.2 IQN損失函數
第7章強化學習中的探索算法
7.1 探索算法的分類
7.2 基於不確定性估計的探索
7.2.1 參數化後驗的算法思路
7.2.2 重採樣DQN
7.3 進行虛擬計數的探索
7.3.1 基於圖像生成模型的虛擬計數
7.3.2 基於哈希的虛擬計數
7.4 根據環境模型的探索
7.4.1 特徵表示的學習
7.4.2 隨機網絡蒸餾
7.4.3 Never-Give-Up算法
7.5 實例:蒙特祖瑪復仇任務的探索
7.5.1 RND網絡結構
7.5.2 RND的訓練
7.5.3 RND用於探索
第8章多目標強化學習算法
8.1 以目標為條件的價值函數
8.1.1 熵HER
8.1.2 動態目標HER
8.2 監督式的多目標學習
8.2.1 Hindsight模仿學習
8.2.2 加權監督式多目標學習
8.3 推廣的多目標學習
8.4 實例:仿真機械臂的多目標抓取
8.4.1 多目標實驗環境
8.4.2 HER的實現方法
8.4.3 MEP的算法實現
第9章層次化強化學習算法
9.1 層次化學習的重要性
9.2 基於子目標的層次化學習
9.2.1 封建網絡的層次化學習
9.2.2 離策略修正的層次化學習
9.2.3 虛擬子目標的強化學習方法
9.3 基於技能的層次化學習
9.3.1 使用隨機網絡的層次化學習
9.3.2 共享分層的元學習方法
9.4 基於選項的層次化學習
9.4.1 option與半馬爾可夫決策過程
9.4.2 option-critic結構
9.5 實例:層次化學習螞蟻走迷宮任務
第10章基於技能的強化學習算法
10.1 技能學習的定義
10.2 互信息化的技能學習算法
10.2.1 多樣性化技能學習算法
10.2.2 其他基於互信息的技能學習方法
10.3 融合環境模型的技能學習算法
10.4 化狀態覆蓋的技能學習算法
10.5 實例:人形機器人的技能學習
第11章離線強化學習算法
11.1 離線強化學習中面臨的困難
11.2 策略約束的離線學習
11.2.1 BCQ算法
11.2.2 BRAC算法
11.2.3 TD3-BC算法
11.3 使用保守估計的離線學習
11.4 基於不確定性的離線學習
11.4.1 UWAC算法