深度強化學習與交通信號控制優化

張尊棟

  • 出版商: 浙江大學
  • 出版日期: 2024-11-01
  • 定價: $528
  • 售價: 8.5$449
  • 語言: 簡體中文
  • 頁數: 256
  • ISBN: 7308251756
  • ISBN-13: 9787308251754
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書針對城市道路交通信號控制這一熱點問題,重點關注基於深度強化學習的城市道路交通信號優化控制。本書從深度強化學習的基礎原理入手,介紹了其在城市道路交通信號控制中的應用,並詳細分析了多Agent(智能體)協調、交通信號控制優化等實際問題。本書旨在幫助讀者更好地理解深度強化學習在交通信號控制中的應用,以及解決實際問題的方法。同時,本書也為交通領域的研究人員、工程師和學生提供了實用的工具與方法。 本書的內容涵蓋深度強化學習的基礎理論、城市道路交通信號控制的實際問題、基於深度強化學習的解決方案以及實驗驗證等方面。本書通過理論與實踐相結合的方式,詳細講解了深度強化學習在城市道路交通信號控制中的應用,同時也深入探討了這種方法的優點和不足之處。本書不僅適合交通領域的研究人員、工程師和學生閱讀,而且適合人工智慧領域的研究人員和學生閱讀。讀者可以通過本書學習到如何使用深度強化學習演算法解決城市道路交通信號控制問題,掌握相關的實用技術和方法,從而在實際應用中取得更好的效果。

目錄大綱

第1章 道路交通信號控制
1.1 智能交通系統簡介
1.2 交通擁堵與交通控制
1.3 新興技術面臨的挑戰
1.4 大規模城市交通控制
1.5 深度強化學習方法
1.6 研究所用方法小結
第2章 深度強化學習
2.1 深度強化學習簡介
2.1.1 監督學習、無監督學習與強化學習
2.1.2 馬爾可夫決策過程
2.1.3 時序差分學習
2.1.4 基於值的強化學習方法
2.1.5 基於策略的強化學習方法
2.2 強化學習模型
2.2.1 Q學習
2.2.2 SARSA
2.2.3 Max-plus
2.2.4 演員-評論家模型
2.2.5 其他演算法
2.3 動作選擇模型
2.3.1 E-greedy演算法
2.3.2 玻爾茲曼演算法
2.3.3 UCB演算法
2.4 深度學習
2.4.1 深度學習與強化學習的區別
2.4.2 激活函數
2.4.3 Dropout 則化問題
2.4.4 多層感知機
2.4.5 卷積神經網路
2.4.6 循環神經網路
2.4.7 長短時記憶網路
2.4.8 圖神經網路
2.4.9 Transformer模型
2.5 強化學習在交通信號控制中的應用
2.5.1 主要變數定義
2.5.2 單一Agent應用
2.5.3 多Agent應用
2.6 小結
第3章 深度多Agent強化學習
3.1 深度多Agent強化學習簡介
3.1.1 多Agent強化學習
3.1.2 MARL面臨的挑戰
3.1.3 MARL研究綜述
3.2 多Agent協調
3.2.1 面向多Agent合作的博弈論
3.2.2 多Agent強化學習方法分類
3.3 博弈論與深度強化學習
3.3.1 整和博弈中的學習方法
3.3.2 多Agent博弈中的學習方法
第4章 演化網路博弈與強化學習結合下的區域交通優化
4.1 網路演化博弈中的合作行為
4.2 演化博弈中的個體異質性研究
4.2.1 演化博弈模型
4.2.2 模擬實驗及結果分析
4.3 基於Q學習的個體決策機制研究
4.3.1 Q學習演化博弈模型
4.3.2 三種Q學習決策機制的對比
4.3.3 模擬結果及分析
4.4 基於QL-EG的區域交通優化實驗
4.4.1 模擬系統搭建
4.4.2 基於QL-EG的區域交通優化模擬實驗
4.4.3 小結
第5章 交通信號控制中的深度強化學習方法
5.1 深度強化學習在交通信號控制中的研究現狀
5.2 深度強化學習演算法
5.2.1 DQN
5.2.2 DDQN
5.2.3 A3C
5.2.4 DDPG
5.3 實驗驗證
5.3.1 模擬環境
5.3.2 深度強化學習參數設置
5.3.3 基於DQN的交通控制實驗
5.3.4 基於DDQN的交通控制優化實驗
5.3.5 基於A3C的交通控制優化實驗
5.3.6 基於DDPG的交通控制實驗
5.4 小結
第6章 多Agent強化學習分層博弈模型研究
6.1 混合任務型的MARL演算法在交通信號控制中的研究
6.2 基於Nash-Stackelberg分層博弈模型的區域交通信號控制
6.2.1 Nash-Stackelberg分層博弈模型
6.2.2 基於Nash-Stackelberg分層博弈模型的MARL演算法
6.2.3 基於Nash-Stackelberg分層博弈模型的MADRL演算法
6.3 實驗與結果
6.3.1 實驗設置
6.3.2 NSHG-QL演算法實驗結果
6.3.3 NSHG-DQN演算法實驗結果
第7章 基於平均場多智能體強化學習的區域交通信號協調控制方法
7.1 平均場多智能體強化學習
7.1.1 隨機博弈
7.1.2 Nash-Q學習
7.1.3 平均場近似
7.1.4 演算法設計
7.2 模擬實驗設置及結果分析
7.2.1 北京市石景山區城市道路區域模擬路網
7.2.2 實驗設置
7.2.3 模擬實驗結果分析
7.3 小結
第8章 總結與展望
8.1 協調
8.1.1 獨立學習
8.1.2 模型構建
8.1.3 分層方法
8.2 可計算性
8.2.1 知識復用
8.2.2 降低複雜性
8.2.3 魯棒性
8.3 未來的工作
8.3.1 發展趨勢
8.3.2 研究展望
參考文獻