阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯

預覽內頁

出版商: 清華大學
出版日期: 2024-06-01
售價: $414
貴賓價: 9.5 折 $393
語言: 簡體中文
ISBN: 7302660360
ISBN-13: 9787302660361
相關分類: Reinforcement

立即出貨

買這商品的人也買了...

~~$3,840~~ $3,648

Feedback Systems: An Introduction for Scientists and Engineers (Hardcover)
~~$520~~ $468

物聯網實作：工業4.0基礎篇, 2/e (附光碟)
~~$594~~ $564

卡爾曼濾波理論與實踐：MATLAB 版, 4/e
$267

神經·模糊·預測控制及其 MATLAB 實現, 4/e
~~$690~~ $538

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$300~~ $255

最新圖解馬達入門
$469

深度強化學習：學術前沿與實戰應用
$374

強化學習入門：從原理到實踐
$352

強化學習 (微課版)
~~$890~~ $703

NLP 大神 RNN 網路：Python 原始程式碼手把手帶你寫
$1,423

機器學習：貝葉斯和優化方法, 2/e (Machine Learning : A Bayesian and Optimization Perspective, 2/e)
~~$539~~ $512

動手學強化學習
~~$680~~ $537

一本精通 - OpenCV 與 AI 影像辨識
~~$474~~ $450

控制之美 (捲2) - 最優化控制 MPC 與卡爾曼濾波器
$407

深度學習理論與實踐
$704

蒙特卡羅方法與人工智能
$356

強化學習
$301

深度強化學習原理與實踐
$709

強化學習與最優控制
$266

智能量化：ChatGPT 在金融策略與算法交易中的實踐
$250

天線理論與工程設計
~~$880~~ $695

生成深度學習｜訓練機器繪畫、寫作、作曲與玩遊戲, 2/e (Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play, 2/e)
~~$1,080~~ $853

機器學習 : 最強入門邁向 AI 高手王者歸來
~~$768~~ $730

RBF神經網絡自適應控制及MATLAB模擬(第3版)
~~$474~~ $450

機器人模擬、控制與應用 (簡體書)

商品描述

大致內容：第一章，從阿爾法零的卓越性能出發，深入解讀其背後著實不易的成長歷程，揭示其數學模型。第二章，從確定性和隨機動態規劃問題入手，介紹決策問題的數學模型。第三章，從抽象視角回顧紛繁復雜的強化學習算法，揭示值函數近似與滾動改進的重要作用。第四章，從經典的線性二次型**控制問題入手，分析從阿爾法零的成功中學到的經驗。第五章，分別從魯棒、自適應、模型預測控制等問題入手，分析值函數近似與滾動改進對算法性能的提升潛力。第六章，從離散優化的視角審視阿爾法零的成功經驗。第七章，總結全書。適合作為本領域研究者作為學術專著閱讀，也適合作為研究生和本科生作為參考書使用。

作者簡介

賈慶山，清華大學長聘教授。主要研究信息物理融合能源系統的優化理論與方法。發表四十篇IEEE匯刊論文。獲得2009年國家自然科學獎二等獎、2018年國家自然科學獎二等獎、2020年自然科學獎二等獎，多次獲得國際期刊、國際會議最佳論文獎。擔任IEEE Internet of Things Activity Board委員、IEEE控制系統協會Board of Governors委員、IEEE控制系統協會北京分會主席、IEEE機器人與自動化協會智能建築專業委員會副主席、IFAC智慧城市控制專業委員會主席。曾任IEEE控制系統協會離散事件系統專業委員會主席。擔任中國自動化學會第十一屆控制理論專業委員會委員兼副秘書長，中國自動化學會第一屆工業控制系統信息安全專業委員會委員。

目錄大綱

第 1 章阿爾法零、離線訓練和在線學習 1

1.1 離線訓練和策略疊代 3

1.2 在線學習與值空間近似——截斷滾動 4

1.3 阿爾法零的經驗 6

1.4 強化學習的一種新概念框架 8

1.5 註釋與參考文獻 9

第 2 章確定性和隨機的動態規劃 13

2.1 無限時段上的最優控制 14

2.2 值空間近似 18

2.3 註釋與參考文獻 . 21

第 3 章強化學習的抽象視角 22

3.1 貝爾曼算子 23

3.2 值空間近似和牛頓法 28

3.3 穩定域 32

3.4 策略疊代、滾動和牛頓法 36

3.5 在線對弈對於離線訓練過程有多敏感？ 41

3.6 何不直接訓練策略網絡並在使用時摒棄在線對弈呢？ 43

3.7 多智能體問題和多智能體滾動 44

3.8 在線簡化策略疊代 47

3.9 例外情形 52

3.10 註釋與參考文獻 57

第 4 章線性二次型情形——例證 59

4.1 最優解 60

4.2 穩定線性策略的費用函數 61

4.3 值疊代 63

4.4 單步和多步前瞻——牛頓步的解釋 64

4.5 靈敏度問題 67

4.6 滾動和策略疊代 . 69

4.7 截斷滾動——前瞻長度問題 71

4.8 線性二次型問題中的例外行為 73

4.9 註釋與參考文獻 . 74

第 5 章自適應和模型預測控制 75

5.1 具有未知參數的系統——魯棒和 PID 控制 76

5.2 值空間近似、滾動和自適應控制 . 78

5.3 值空間近似、滾動和模型預測控制 81

5.4 末端費用近似——穩定性問題 83

5.5 註釋與參考文獻 . 87

第 6 章有限時段確定性問題——離散優化 88

6.1 確定性離散空間有限時段問題 89

6.2 一般離散優化問題 92

6.3 值空間近似 95

6.4 離散優化的滾動算法 98

6.5 採用多步前瞻的滾動——截斷滾動 111

6.6 約束形式的滾動算法 114

6.7 使用部分可觀馬爾可夫決策問題模型滾動的自適應控制 124

6.8 極小化極大控制的滾動 . 130

6.9 小階段費用與長時段——連續時間滾動 136

6.10 結語 142

附錄 A 不動點問題的牛頓法 145

A.1 可微不動點問題的牛頓法 145

A.2 無須貝爾曼算子可微性的牛頓法 148

參考文獻 152

阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas） 著 賈慶山 李巖 譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯