用 Python 動手學強化學習 (全彩印刷)
[日]久保隆宏
- 出版商: 人民郵電
- 出版日期: 2021-07-01
- 定價: $539
- 售價: 8.5 折 $458
- 語言: 簡體中文
- 頁數: 262
- 裝訂: 平裝
- ISBN: 7115564221
- ISBN-13: 9787115564221
-
相關分類:
Reinforcement、Python
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$352深度學習訓練營 21天實戰 TensorFlow+Keras+scikit-learn
-
$420$378 -
$403機器學習中的概率統計:Python 語言描述
-
$1,000$790 -
$454用 Python 動手學機器學習
-
$594$564 -
$680$530 -
$407圖解機器學習算法 (全彩印刷)
-
$505學 Python 不加班 -- 輕鬆實現辦公自動化
-
$407用 Python 動手學統計學
-
$474$450 -
$760人工智能:計算 Agent 基礎, 2/e (Artificial Intelligence: Foundations of Computational Agents, 2/e)
-
$465Python 編程:從數據分析到數據科學, 2/e
-
$611量子計算公開課:從德謨克利特、計算復雜性到自由意志
-
$620$490 -
$599$569 -
$980$774 -
$880$695 -
$473EasyRL強化學習教程
-
$534$507 -
$580$458 -
$499$394 -
$650$507 -
$450$405 -
$600$468
相關主題
商品描述
強化學習是機器學習的重要分支之一。《用Python動手學強化學習》結合實際可運行的Python代碼,通過簡明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容,包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網絡的組合,以及強化學習的弱點和剋服方法。讀者通過下載書中代碼並親自動手運行,可以快速入門強化學習並進行實踐。
作者簡介
[日]久保隆宏(作者) 任職於日本大型系統集成商TIS,具有豐富的機器學習研究和開發經驗。
論文共享網站站arXivTimes運營者,積極致力於技術普及,著有《TensorFlow應用指南》(合著)。
梁垿(譯者) 碩士畢業於日本早稻田大學,研究方向為機器學習。
目前在日本大型系統集成商TIS任自然語言處理工程師。
熱愛長跑與讀書,喜歡科幻、蒸汽朋克、克蘇魯等題材的作品。
程引(譯者) 工學博士學位,畢業於上海交通大學。
目前在日本BizReach公司(Visional Group)AI部門任算法工程師。
業務方向為推薦系統與自然語言處理,研究興趣包括強化學習與自動控制。
目錄大綱
第1章了解強化學習1
1.1強化學習與各關鍵詞之間的關係1
1.2強化學習的優點和弱點8
1.3強化學習的問題設定:馬爾可夫決策過程9
第2章強化學習的解法(1):根據環境制訂計劃21
2.1價值的定義和計算:貝爾曼方程22
2.2基於動態規劃法的價值近似的學習:價值迭代28
2.3基於動態規劃法的策略的學習:策略迭代32
2.4基於模型的方法和無模型的方法的區別36
第3章強化學習的解法(2):根據經驗制訂計劃39
3.1平衡經驗的積累與利用:Epsilon- Greedy算法41
3.2是根據實際獎勵還是預測來修正計劃:蒙特卡洛方法和時序差分學習46
3.3用經驗來更新價值近似還是策略:基於價值和基於策略62
第4章使用面向強化學習的神經網絡73
4.1將神經網絡應用於強化學習74
4.2通過含有參數的函數實現價值近似:價值函數近似100
4.3將深度學習應用於價值近似:DQN 109
4.4通過含有參數的函數實現策略:策略梯度121
4.5將深度學習應用於策略:A2C 133
4.6是價值近似還是策略呢153
第5章強化學習的弱點157
5.1獲取樣本的效率低157
5.2容易陷入局部*優行動和過擬合160
5.3復現性差163
5. 4以弱點為前提的對策164
第6章克服強化學習弱點的方法169
6.1應對採樣效率低的方法:與基於模型的方法一起使用、表徵學習170
6.2改善復現性的方法:進化策略198
6.3應對局部*優行動和過擬合的方法:模仿學習和逆強化學習206
第7章強化學習的應用領域237
7.1行動的*優化239
7.2學習的*優化248
參考文獻252