游戲人工智能方法
趙冬斌等
相關主題
商品描述
本書嘗試總結近年來游戲人工智能方向的優秀研究工作,以及作者的一些探索成果。主要內容包括游戲人工智能的背景、經典的游戲人工智能方法、DeepMind針對棋牌和視頻類游戲的人工智能方法,以及作者團隊針對即時游戲的人工智能方法,如格鬥游戲、星際爭霸的宏觀生產和微觀操作等。從理論分析到算法設計到編程實現,旨在為讀者提供一個針對不同游戲人工智能問題的系統性論述。
目錄大綱
目錄
“新一代人工智能理論、技術及應用叢書”序
前言
第1章游戲人工智能介紹1
1.1引言1
1.1.1游戲人工智能背景和意義1
1.1.2游戲人工智能研究發展1
1.2回合制游戲人工智能3
1.2.1棋類游戲人工智能發展歷程3
1.2.2牌類游戲人工智能發展歷程4
1.2.3棋牌類游戲人工智能測試平臺5
1.3即時制游戲人工智能7
1.3.1即時制游戲平臺和競賽7
1.3.2雅達利游戲8
1.3.3第一人稱視角游戲9
1.3.4即時策略游戲10
1.4游戲人工智能的關鍵性挑戰與研究思路12
1.5游戲人工智能的未來發展趨勢與展望13
1.5.1基於深度強化學習方法的策略模型泛化性14
1.5.2構建高效魯棒合理的前向推理模型14
1.5.3增強模型的環境適應和學習優化性能14
1.5.4從虛擬環境到實際應用的遷移15
1.6本章小結15
參考文獻15
第2章基本游戲人工智能方法20
2.1引言20
2.2經典博弈樹模型20
2.2.1極小化極大算法20
2.2.2α-β剪枝算法21
2.3統計前向規劃22
2.3.1蒙特卡羅樹搜索算法23
2.3.2滾動時域演化算法26
2.4強化學習27
2.4.1蒙特卡羅算法29
2.4.2時間差分強化學習算法30
2.4.3策略梯度學習算法31
2.5深度強化學習33
2.5.1深度Q網絡及其擴展34
2.5.2異步優勢執行器-評價器算法及其擴展38
2.5.3策略梯度深度強化學習40
2.5.4面向對抗博弈的深度強化學習43
2.6本章小結45
參考文獻45
第3章DeepMind游戲人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2電腦圍棋的發展歷史與現狀52
3.2.3原理分析53
3.2.4性能分析56
3.2.5評價57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神經網絡結構61
3.3.3蒙特卡羅樹搜索61
3.3.4訓練流程64
3.3.5討論65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星際爭霸研究意義74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小結81
參考文獻82
第4章兩人零和馬爾可夫博弈的極小化極大Q網絡算法85
4.1引言85
4.2兩人零和馬爾可夫博弈的基本知識86
4.2.1兩人零和馬爾可夫博弈86
4.2.2納什均衡或極小化極大均衡86
4.2.3極小化極大價值和極小化極大方程86
4.2.4線性規劃求解極小化極大解87
4.3動態規劃求解貝爾曼極小化極大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3廣義策略迭代89
4.4極小化極大Q網絡算法90
4.4.1Q函數神經網絡90
4.4.2在線學習90
4.4.3M2QN算法在查表法下的收斂性92
4.5模擬實驗94
4.5.1足球博弈94
4.5.2守護領土96
4.5.3格鬥游戲98
4.6本章小結101
參考文獻101
第5章格鬥游戲的對手模型和滾動時域演化算法104
5.1引言104
5.2基於滾動時域演化的統計前向規劃建模105
5.2.1格鬥游戲問題定義105
5.2.2滾動時域演化算法105
5.3基於自適應對手模型的神經網絡建模107
5.3.1對手模型建模107
5.3.2監督學習式對手模型107
5.3.3強化學習式對手模型108
5.4實驗設計與測試結果110
5.4.1實驗設置與測試平臺110
5.4.2內部比較111
5.4.3對抗2018年格鬥游戲程序113
5.4.4兩種統計前向規劃與對手建模結合的性能比較114
5.4.52019年格鬥游戲競賽結果115
5.4.62020年格鬥游戲競賽結果115
5.4.7性能指標分析116
5.4.8討論121
5.5本章小結121
參考文獻122
第6章星際爭霸宏觀生產的深度強化學習算法124
6.1引言124
6.2星際爭霸宏觀生產決策分析與建模125
6.2.1問題定義125
6.2.2輸入狀態特徵126
6.2.3決策動作定義128
6.2.4決策神經網絡模型結構128
6.2.5基於策略和價值混合式網絡的決策系統優化方法129
6.3實驗設置與結果分析132
6.3.1星際爭霸宏觀決策對抗優化場景132
6.3.2對抗優化場景下的實驗結果133
6.3.3星際爭霸學生天梯賽136
6.4本章小結136
參考文獻136
第7章星際爭霸微操的強化學習和課程遷移學習算法138
7.1引言138
7.2星際爭霸微操任務分析與建模139
7.2.1問題定義139
7.2.2高維狀態表示140
7.2.3動作定義141
7.2.4網絡結構141
7.3基於強化學習的星際爭霸多單位控制142
7.3.1共享參數多智能體梯度下降Sarsa(λ)算法143
7.3.2獎賞函數144
7.3.3幀跳躍145
7.3.4課程遷移學習145
7.4實驗設置和結果分析146
7.4.1星際爭霸微操場景設置146
7.4.2結果討論147
7.4.3策略分析151
7.5本章小結154
參考文獻154
第8章星際爭霸微操的可變數量多智能體強化學習算法156
8.1引言156
8.2背景知識與相關工作156
8.2.1多智能體強化學習156
8.2.2聯合觀測動作價值函數分解158
8.2.3相關工作158
8.3可變數量多智能體強化學習162
8.3.1自加權混合網絡162
8.3.2適應動作空間變化的智能體網絡165
8.3.3可變網絡的訓練算法166
8.4星際爭霸II微操實驗169
8.4.1可變網絡在星際爭霸II微操環境的實驗設置169
8.4.2可變網絡實驗結果170
8.4.3消融實驗172
8.4.4可變網絡策略分析174
8.5本章小結175
參考文獻176
附錄A強化學習符號表178
附錄B主要詞匯中英文對照表179
“新一代人工智能理論、技術及應用叢書”序
前言
第1章游戲人工智能介紹1
1.1引言1
1.1.1游戲人工智能背景和意義1
1.1.2游戲人工智能研究發展1
1.2回合制游戲人工智能3
1.2.1棋類游戲人工智能發展歷程3
1.2.2牌類游戲人工智能發展歷程4
1.2.3棋牌類游戲人工智能測試平臺5
1.3即時制游戲人工智能7
1.3.1即時制游戲平臺和競賽7
1.3.2雅達利游戲8
1.3.3第一人稱視角游戲9
1.3.4即時策略游戲10
1.4游戲人工智能的關鍵性挑戰與研究思路12
1.5游戲人工智能的未來發展趨勢與展望13
1.5.1基於深度強化學習方法的策略模型泛化性14
1.5.2構建高效魯棒合理的前向推理模型14
1.5.3增強模型的環境適應和學習優化性能14
1.5.4從虛擬環境到實際應用的遷移15
1.6本章小結15
參考文獻15
第2章基本游戲人工智能方法20
2.1引言20
2.2經典博弈樹模型20
2.2.1極小化極大算法20
2.2.2α-β剪枝算法21
2.3統計前向規劃22
2.3.1蒙特卡羅樹搜索算法23
2.3.2滾動時域演化算法26
2.4強化學習27
2.4.1蒙特卡羅算法29
2.4.2時間差分強化學習算法30
2.4.3策略梯度學習算法31
2.5深度強化學習33
2.5.1深度Q網絡及其擴展34
2.5.2異步優勢執行器-評價器算法及其擴展38
2.5.3策略梯度深度強化學習40
2.5.4面向對抗博弈的深度強化學習43
2.6本章小結45
參考文獻45
第3章DeepMind游戲人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2電腦圍棋的發展歷史與現狀52
3.2.3原理分析53
3.2.4性能分析56
3.2.5評價57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神經網絡結構61
3.3.3蒙特卡羅樹搜索61
3.3.4訓練流程64
3.3.5討論65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星際爭霸研究意義74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小結81
參考文獻82
第4章兩人零和馬爾可夫博弈的極小化極大Q網絡算法85
4.1引言85
4.2兩人零和馬爾可夫博弈的基本知識86
4.2.1兩人零和馬爾可夫博弈86
4.2.2納什均衡或極小化極大均衡86
4.2.3極小化極大價值和極小化極大方程86
4.2.4線性規劃求解極小化極大解87
4.3動態規劃求解貝爾曼極小化極大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3廣義策略迭代89
4.4極小化極大Q網絡算法90
4.4.1Q函數神經網絡90
4.4.2在線學習90
4.4.3M2QN算法在查表法下的收斂性92
4.5模擬實驗94
4.5.1足球博弈94
4.5.2守護領土96
4.5.3格鬥游戲98
4.6本章小結101
參考文獻101
第5章格鬥游戲的對手模型和滾動時域演化算法104
5.1引言104
5.2基於滾動時域演化的統計前向規劃建模105
5.2.1格鬥游戲問題定義105
5.2.2滾動時域演化算法105
5.3基於自適應對手模型的神經網絡建模107
5.3.1對手模型建模107
5.3.2監督學習式對手模型107
5.3.3強化學習式對手模型108
5.4實驗設計與測試結果110
5.4.1實驗設置與測試平臺110
5.4.2內部比較111
5.4.3對抗2018年格鬥游戲程序113
5.4.4兩種統計前向規劃與對手建模結合的性能比較114
5.4.52019年格鬥游戲競賽結果115
5.4.62020年格鬥游戲競賽結果115
5.4.7性能指標分析116
5.4.8討論121
5.5本章小結121
參考文獻122
第6章星際爭霸宏觀生產的深度強化學習算法124
6.1引言124
6.2星際爭霸宏觀生產決策分析與建模125
6.2.1問題定義125
6.2.2輸入狀態特徵126
6.2.3決策動作定義128
6.2.4決策神經網絡模型結構128
6.2.5基於策略和價值混合式網絡的決策系統優化方法129
6.3實驗設置與結果分析132
6.3.1星際爭霸宏觀決策對抗優化場景132
6.3.2對抗優化場景下的實驗結果133
6.3.3星際爭霸學生天梯賽136
6.4本章小結136
參考文獻136
第7章星際爭霸微操的強化學習和課程遷移學習算法138
7.1引言138
7.2星際爭霸微操任務分析與建模139
7.2.1問題定義139
7.2.2高維狀態表示140
7.2.3動作定義141
7.2.4網絡結構141
7.3基於強化學習的星際爭霸多單位控制142
7.3.1共享參數多智能體梯度下降Sarsa(λ)算法143
7.3.2獎賞函數144
7.3.3幀跳躍145
7.3.4課程遷移學習145
7.4實驗設置和結果分析146
7.4.1星際爭霸微操場景設置146
7.4.2結果討論147
7.4.3策略分析151
7.5本章小結154
參考文獻154
第8章星際爭霸微操的可變數量多智能體強化學習算法156
8.1引言156
8.2背景知識與相關工作156
8.2.1多智能體強化學習156
8.2.2聯合觀測動作價值函數分解158
8.2.3相關工作158
8.3可變數量多智能體強化學習162
8.3.1自加權混合網絡162
8.3.2適應動作空間變化的智能體網絡165
8.3.3可變網絡的訓練算法166
8.4星際爭霸II微操實驗169
8.4.1可變網絡在星際爭霸II微操環境的實驗設置169
8.4.2可變網絡實驗結果170
8.4.3消融實驗172
8.4.4可變網絡策略分析174
8.5本章小結175
參考文獻176
附錄A強化學習符號表178
附錄B主要詞匯中英文對照表179