強化學習
魏慶來、王飛躍
- 出版商: 清華大學
- 出版日期: 2022-07-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- ISBN: 7302589720
- ISBN-13: 9787302589723
-
相關分類:
Reinforcement、化學 Chemistry
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$1,980$1,881 -
$520$411 -
$870$783 -
$305深度強化學習
-
$352深度強化學習核心算法與應用
-
$811多源信息融合, 3/e
-
$880$748 -
$1,200$1,020 -
$419$398 -
$880$695 -
$352人工神經網絡:模型、算法及應用
-
$510人工智能算法
-
$600$468 -
$834$792 -
$600$468 -
$880$748 -
$414$393 -
$780$663 -
$779$740 -
$588$559 -
$611Python 圖像處理經典實例
-
$509群體智能與演化博弈
-
$602Python 機器學習原理與算法實現
-
$1,014$963 -
$380$342
相關主題
商品描述
目錄大綱
目錄
第1章強化學習概論
1.1引言
1.2強化學習的發展歷程
1.3強化學習的研究現狀
1.4本書內容架構
參考文獻
第2章馬爾可夫決策過程
2.1馬爾可夫決策過程
2.2策略與代價函數
2.3最優策略與最優代價函數
參考文獻
第3章動態規劃
3.1動態規劃的興起
3.2動態規劃基本思想: 多級決策過程
3.3最優性原理與遞推方程
3.4離散時間動態規劃
3.5連續時間動態規劃
3.6動態規劃的挑戰
參考文獻
第4章蒙特卡洛學習方法
4.1蒙特卡洛方法背景
4.1.1蒙特卡洛方法的由來
4.1.2基於模型的算法與無模型算法比較
4.1.3蒙特卡洛模擬的思路
4.2蒙特卡洛預測
4.2.1初次訪問蒙特卡洛預測
4.2.2歷次訪問蒙特卡洛預測
4.2.3增量計算技巧
4.3蒙特卡洛控制
4.3.1初始探索問題
4.3.2在策方法: ε貪心算法
4.3.3脫策算法: 重要性採樣
4.4蒙特卡洛強化學習算法總結
參考文獻
第5章時序差分學習
5.1時序差分學習基本概念
5.2時序差分學習算法
5.3n步回報
5.4TD(λ)算法
參考文獻
第6章神經網絡
6.1神經網絡的發展歷史
6.2MP神經元模型
6.3前饋神經網絡
6.3.1感知機
6.3.2誤差反向傳播算法
6.3.3徑向基網絡
6.4其他常見的神經網絡
6.4.1ART網絡
6.4.2Hopfield網絡
6.4.3Boltzmann機
參考文獻
第7章自適應動態規劃
7.1問題描述
7.2自適應動態規劃的原理
7.3自適應動態規劃的分類
7.3.1啟發式動態規劃
7.3.2二次啟發式規劃
7.3.3執行依賴啟發式動態規劃
7.3.4執行依賴二次啟發式規劃
7.4基於執行依賴的自適應動態規劃方法
7.4.1問題描述
7.4.2基於執行依賴的自適應動態規劃方法
參考文獻
第8章策略迭代學習方法
8.1啟發式學習原理
8.2離散時間策略迭代自適應動態規劃
8.2.1策略迭代算法的推導
8.2.2策略迭代算法的性質
8.2.3初始容許控制律的獲得
8.2.4模擬實驗
8.3連續時間策略迭代自適應動態規劃
8.3.1連續時間策略迭代算法
8.3.2連續時間策略迭代自適應動態規劃的性能分析
參考文獻
第9章值迭代學習方法
9.1值迭代學習原理
9.2離散時間值迭代自適應動態規劃
9.2.1離散時間非線性系統的Bellman方程解
9.2.2廣義值迭代自適應動態規劃
9.3連續時間值迭代自適應動態規劃
9.3.1問題描述
9.3.2主要結果
參考文獻
第10章Q學習方法
10.1無模型強化學習
10.2Q學習原理
10.3離散時間確定性Q學習
10.3.1問題描述
10.3.2離散時間確定性Q學習算法的性質
10.3.3離散時間確定性Q學習算法的神經網絡實現
10.3.4模擬實驗
10.4Q學習進展
參考文獻
第11章脫策學習
11.1脫策學習的興盛
11.2脫策學習的基本思想
11.2.1問題描述
11.2.2相關研究工作
11.3脫策學習過程
11.3.1脫策強化學習
11.3.2基於神經網絡的實現
11.4脫策學習收斂性分析
11.5基於脫策強化學習的線性H∞控制
11.6模擬實驗
參考文獻
第12章深度強化學習
12.1深度學習基本概念
12.1.1深度學習的起源
12.1.2深度學習與傳統機器學習
12.1.3深度學習的運用環境
12.2深度神經網絡
12.2.1深度神經網絡溯源
12.2.2梯度下降法
12.2.3反向傳播
12.2.4動量模型
12.2.5學習律
12.3捲積神經網絡
12.3.1捲積神經網絡介紹
12.3.2捲積層
12.3.3採樣層
12.3.4分類層
12.3.5經典捲積神經網絡結構
12.4循環神經網絡
12.4.1循環神經網絡介紹
12.4.2長短期記憶模型
12.5生成對抗網絡
12.6深度強化學習基本理論
12.6.1Q函數
12.6.2策略
12.6.3效用值
12.6.4模型
12.6.5規劃
12.7深度強化學習實際應用
12.7.1游戲
12.7.2機器人與控制
12.7.3自然語言處理
12.7.4電腦視覺
12.8未來待解決的問題
12.8.1採樣效率低下
12.8.2難以尋找合適的效用函數
12.8.3局部最優陷阱
12.8.4過擬合問題
12.8.5復現難題
12.8.6適用場景與未來思考
參考文獻
第13章強化學習展望: 平行強化學習
13.1自適應動態規劃與深度強化學習
13.2平行控制理論的基本思想
13.3平行動態規劃方法
參考文獻