阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著 賈慶山 李岩 譯

  • 出版商: 清華大學
  • 出版日期: 2024-06-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7302660360
  • ISBN-13: 9787302660361
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

  • 阿爾法零對最優模型預測自適應控制的啟示-preview-1
  • 阿爾法零對最優模型預測自適應控制的啟示-preview-2
  • 阿爾法零對最優模型預測自適應控制的啟示-preview-3
阿爾法零對最優模型預測自適應控制的啟示-preview-1

相關主題

商品描述

大致內容:第一章,從阿爾法零的卓越性能出發,深入解讀其背後著實不易的成長歷程,揭示其數學模型。第二章,從確定性和隨機動態規劃問題入手,介紹決策問題的數學模型。第三章,從抽象視角回顧紛繁復雜的強化學習算法,揭示值函數近似與滾動改進的重要作用。第四章,從經典的線性二次型**控制問題入手,分析從阿爾法零的成功中學到的經驗。第五章,分別從魯棒、自適應、模型預測控制等問題入手,分析值函數近似與滾動改進對算法性能的提升潛力。第六章,從離散優化的視角審視阿爾法零的成功經驗。第七章,總結全書。適合作為本領域研究者作為學術專著閱讀,也適合作為研究生和本科生作為參考書使用。

目錄大綱

目錄

第 1 章 阿爾法零、離線訓練和在線學習 1 

1.1 離線訓練和策略迭代 3 

1.2 在線學習與值空間近似——截斷滾動 4 

1.3 阿爾法零的經驗  6 

1.4 強化學習的一種新概念框架  8 

1.5 註釋與參考文獻  9 

第 2 章 確定性和隨機的動態規劃 13 

2.1 無限時段上的最優控制 14 

2.2 值空間近似 18 

2.3 註釋與參考文獻 . 21 

第 3 章 強化學習的抽象視角  22 

3.1 貝爾曼算子 23 

3.2 值空間近似和牛頓法  28 

3.3 穩定域 32 

3.4 策略迭代、滾動和牛頓法 36 

3.5 在線對弈對於離線訓練過程有多敏感? 41 

3.6 何不直接訓練策略網絡並在使用時摒棄在線對弈呢?  43 

3.7 多智能體問題和多智能體滾動  44 

3.8 在線簡化策略迭代  47 

3.9 例外情形 52 

3.10 註釋與參考文獻 57 

第 4 章 線性二次型情形——例證 59 

4.1 最優解 60 

4.2 穩定線性策略的費用函數 61 

4.3 值迭代 63 

4.4 單步和多步前瞻——牛頓步的解釋  64 

4.5 靈敏度問題 67 

4.6 滾動和策略迭代 . 69 

4.7 截斷滾動——前瞻長度問題 71

4.8 線性二次型問題中的例外行為  73 

4.9 註釋與參考文獻 . 74 

第 5 章 自適應和模型預測控制 75 

5.1 具有未知參數的系統——魯棒和 PID 控制  76 

5.2 值空間近似、滾動和自適應控制 . 78 

5.3 值空間近似、滾動和模型預測控制  81 

5.4 末端費用近似——穩定性問題  83 

5.5 註釋與參考文獻 . 87 

第 6 章 有限時段確定性問題——離散優化  88 

6.1 確定性離散空間有限時段問題  89 

6.2 一般離散優化問題  92 

6.3 值空間近似 95 

6.4 離散優化的滾動算法  98 

6.5 採用多步前瞻的滾動——截斷滾動 111 

6.6 約束形式的滾動算法  114 

6.7 使用部分可觀馬爾可夫決策問題模型滾動的自適應控制  124 

6.8 極小化極大控制的滾動 . 130 

6.9 小階段費用與長時段——連續時間滾動  136 

6.10 結語 142 

附錄 A 不動點問題的牛頓法  145 

A.1 可微不動點問題的牛頓法  145 

A.2 無須貝爾曼算子可微性的牛頓法 148 

參考文獻 152