基於模型的強化學習
高藝 夏宇翔 陳鋒 劉攀 鍾家華
- 出版商: 東南大學
- 出版日期: 2024-07-01
- 定價: $588
- 售價: 8.5 折 $500
- 語言: 簡體中文
- 頁數: 236
- ISBN: 7576610441
- ISBN-13: 9787576610444
-
相關分類:
Reinforcement、化學 Chemistry
- 此書翻譯自: Model-Based Reinforcement Learning: From Data to Continuous Actions with a Python-Based Toolbox (Hardcvoer)
下單後立即進貨 (約4週~6週)
商品描述
強化學習是機器學習的一個基本範示,其中智能體執行動作以確保設備的最優性能。雖然這種機器學習範式近年來取得了巨大的成功和普及,但先前的學術研究要麽集中在理論上(最優控制和動態規劃),要麽集中在演算法上,其中大多數是基於模擬的。 《基於模型的強化學習》提供了一個基於模型的框架來橋接這兩個方面,從而創建了一個基於模型的線上學習控制主題的整體處理。在此過程中,作者尋求開發一個基於模型的資料驅動控制框架,該框架將資料系統識別、基於模型的強化學習和最優控制以及每個主題的應用連接起來。這種評估經典結果的新技術將會是更有效的強化學習系統。本書的核心是提供一個端到端的框架——從設計到應用——一種更容易處理的模型為基礎的強化學習技術。
作者簡介
米拉德·法爾西(Milad Farsi),於2010年獲得大不里士大學電機工程(電子)學士學位,2013年獲薩罕德科技大學電機工程(控制系統)專業碩士學位。 2012年至2016年,擔任控制系統工程師,累積相關產業工作經驗。於2022年獲得加拿大滑鐵盧大學應用數學博士學位,目前擔任該校博士後研究員。研究方向包括:控制系統、強化學習及其在機器人和電力電子中的應用。
目錄大綱
前言
1 非線性系統分析
1.1 符號
1.2 非線性動態系統
1.3 Lyapunov穩定性分析
1.4 離散時間動態系統的穩定性分析
1.5 總結
參考文獻
2 優化控制
2.1 問題描述
2.2 動態規劃
2.3 線性二次型調節器
2.4 總結
參考文獻
3 強化學習
3.1 具有二次成本的控制仿射系統
3.2 精確策略迭代
3.3 未知動力學和函數逼近的策略迭代
3.4 總結
參考文獻
4 動態模型的學習
4.1 簡介
4.2 模型選擇
4.3 參數模型
4.4 參數化學習演算法
4.5 持續激勵
4.6 Python工具箱
4.7 對比結果
4.8 總結
參考文獻
5 基於結構化線上學習的連續時間非線性系統控制
5.1 簡介
5.2 結構化近似最適控制框架
5.3 局部穩定性與最適性分析
5.4 SOL演算法
5.5 模擬結果
5.6 小結
參考文獻
6 結構化線上學習方法在未知動態非線性追蹤的應用
6.1 簡介
6.2 追蹤控制的結構化線上學習
6.3 使用SOL的基於學習的追蹤控制
6.4 模擬結果
6.5 總結
參考文獻
7 分段學習與控制及其穩定性保證
7.1 簡介
7.2 問題公式化描述
7.3 分段學習與控制框架
7.4 不確定性邊界分析
7.5 分段仿射學習與控制的穩定性驗證
7.6 數值結果
7.7 總結
參考文獻
8 太陽能光電系統應用
8.1 簡介
8.2 問題描述
8.3 光伏陣列的最佳控制
8.4 應用註意事項
8.5 模擬結果
8.6 總結
參考文獻
9 四旋翼無人機低階控制應用
9.1 簡介
9.2 四旋翼無人機模型
9.3 基於RLS辨識器的四旋翼無人機結構化線上學習
9.4 數值結果
9.5 總結
參考文獻
10 Python工具箱
10.1 概述
10.2 用戶輸入
10.3 SOL
10.4 顯示與輸出
10.5 總結
參考文獻
附錄
A.1 註5.4的補充分析
A.2 註5.5的補充分析