智能控制與強化學習先進值迭代評判設計

王鼎 趙明明 哈明鳴 任進

  • 出版商: 人民郵電
  • 出版日期: 2024-09-01
  • 定價: $839
  • 售價: 8.5$713
  • 語言: 簡體中文
  • 頁數: 236
  • ISBN: 7115633959
  • ISBN-13: 9787115633958
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

  • 智能控制與強化學習先進值迭代評判設計-preview-1
  • 智能控制與強化學習先進值迭代評判設計-preview-2
智能控制與強化學習先進值迭代評判設計-preview-1

商品描述

在人工智能技術的大力驅動下,智能控制與強化學習發展迅猛,先進自動化設計與控制日新月異。本書針對復雜離散時間系統的優化調節、最優跟蹤、零和博弈等問題,以實現穩定學習、演化學習和快速學習為目標,建立一套先進的值迭代評判學習控制理論與設計方法。首先,對先進值迭代框架下迭代策略的穩定性進行全面深入的分析,建立一系列適用於不同場景的穩定性判據,從理論層面揭示值迭代算法能夠實現離線最優控制和在線演化控制。其次,基於迭代歷史信息,提出一種新穎的收斂速度可調節的值迭代算法,有助於加快學習速度、減少計算代價,更高效地獲得非線性系統的最優控制律。結合人工智能技術,對無模型值迭代評判學習控制的發展前景也進行了討論。 本書內容豐富、結構清晰、由淺入深、分析透徹,既可作為智能控制、強化學習、優化控制、計算智能、自適應與學習系統等領域研究人員和學生的參考書,又可供相關領域的技術人員使用。

作者簡介

王鼎,男,北京工業大學教授、博士生導師,現任計算智能與智能系統北京市重點實驗室副主任。北京市自然科學基金傑出青年項目獲得者、科睿唯安(Clarivate)全球高被引科學家、中國科協青年人才托舉工程入選者,主要研究方向為智能控制與智能優化、神經網絡與強化學習,涉及復雜智能控制優化、人工智能理論基礎。針對不確定系統優化控制中的共性難題進行了長期研究攻關,建立並逐步完善智能評判控制框架,並為工業復雜系統的智能優化控制提供了理論支撐。目前已在人工智能及相關領域的國際期刊和會議上發表學術論文120餘篇,其中82篇被SCI檢索(以第一作者發表在IEEE Transactions系列期刊和Automatica領域頂刊的論文共25篇),已出版專著4本,申請和已授權發明專利9項。先後榮獲吳文俊人工智能優秀青年獎、中國自動化學會自然科學獎一等獎、廣東省自然科學獎一等獎等。先後擔任人工智能及相關領域多個著名期刊的編委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自動化學報。

目錄大綱

第 一章 智能評判控制的先進值迭代方法概述

1.1 強化學習背景

1.2 自適應評判介紹

1.3 傳統值迭代

1.4 廣義值迭代

1.5 演化值迭代

1.6 加速值迭代

1.7 小結

第二章 基於廣義值迭代的線性最優調節與穩定性分析

2.1 引言

2.2 問題描述

2.3 面向線性系統的廣義值迭代

2.4 迭代策略穩定性分析

2.5 模擬實驗

2.6 小結

第三章 具有穩定保證的非線性系統優化控制設計

3.1 引言

3.2 問題描述

3.3 面向非線性系統的廣義值迭代

3.4 迭代策略穩定性和容許性分析

3.5 模擬實驗

3.6 小結

第四章 一種基於評判學習的非線性智能最優跟蹤

4.1 引言

4.2 問題描述

4.3 面向智能最優跟蹤的廣義值迭代

4.4 基於神經網絡的算法實現

4.5 模擬實驗

4.6 小結

第五章 一類非線性系統的事件觸發最優跟蹤控制

5.1 引言

5.2 問題描述

5.3 基於事件觸發的近似最優跟蹤

5.4 基於神經網絡的跟蹤控制器設計

5.5 模擬實驗

5.6 小結

第六章 基於演化值迭代的非線性最優軌跡跟蹤

6.1 引言

6.2 問題描述

6.3 基於新型效用函數的廣義值迭代

6.4 演化控制與穩定性分析

6.5 模擬實驗

6.6 小結

第七章 融合值迭代學習的非線性零和博弈性能分析

7.1 引言

7.2 零和博弈問題描述

7.3 面向零和博弈的廣義值迭代

7.4 零和博弈的演化控制設計

7.5 模擬實驗

7.6 小結

第八章 具有可調節收斂速度的新型值迭代機制

8.1 引言

8.2 問題描述

8.3 加速值迭代算法性能分析

8.4 加速值迭代應用設計

8.5 模擬實驗

8.6 小結

第九章 基於加速值迭代的非線性系統軌跡跟蹤

9.1 引言

9.2 問題描述

9.3 面向跟蹤控制的加速值迭代

9.4 基於加速值迭代的演化控制

9.5 模擬實驗

9.6 小結

第十章 面向非線性零和博弈的快速值迭代學習

10.1 引言

10.2 問題描述

10.3 面向零和博弈的增量迭代機制

10.4 面向零和博弈的自勵迭代機制

10.5 模擬實驗

10.6 小結與展望