用 Python 動手學強化學習 (全彩印刷)

Name: 用 Python 動手學強化學習 (全彩印刷)
Price: 458 TWD
Availability: InStock
Author: [日]久保隆宏
ISBN: 7115564221

[日]久保隆宏

預覽內頁

出版商: 人民郵電
出版日期: 2021-07-01
定價: $539
售價: 8.5 折 $458
語言: 簡體中文
頁數: 262
裝訂: 平裝
ISBN: 7115564221
ISBN-13: 9787115564221
相關分類: Reinforcement、Python

立即出貨 (庫存 < 4)

買這商品的人也買了...

$352

深度學習訓練營 21天實戰 TensorFlow+Keras+scikit-learn
~~$420~~ $357

圖解量子電腦入門：8堂基礎課程+必懂關鍵詞解說，從計算原理到實務應用、通訊到演算，破解讓人類大躍進的科技新浪潮
$403

機器學習中的概率統計：Python 語言描述
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
$454

用 Python 動手學機器學習
$356

可解釋機器學習：黑盒模型可解釋性理解指南
~~$680~~ $530

編寫程式的邏輯：如何用物件導向實作複雜的業務需求
$407

圖解機器學習算法 (全彩印刷)
$505

學 Python 不加班 -- 輕鬆實現辦公自動化
$407

用 Python 動手學統計學
~~$474~~ $450

Vivado / Tcl 零基礎入門與案例實戰
$760

人工智能：計算 Agent 基礎, 2/e (Artificial Intelligence: Foundations of Computational Agents, 2/e)
$465

Python 編程：從數據分析到數據科學, 2/e
$611

量子計算公開課：從德謨克利特、計算復雜性到自由意志
~~$620~~ $527

深度學習的 16 堂課：CNN + RNN + GAN + DQN + DRL, 看得懂、學得會、做得出！ (Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence)
~~$599~~ $569

機器學習公式推導與代碼實現
~~$980~~ $718

新一代 AI 霸主：深度強化學習從基礎開始到專案開發
~~$880~~ $695

打好 AI 的基礎：一探機器學習底層數學運作
$509

Easy RL 強化學習教程
$454

Python 深度強化學習入門：強化學習和深度學習的搜索與控制
~~$580~~ $458

Python 資料科學自學聖經：不只是建模！用實戰帶你預測趨勢、找出問題與發現價值(附關鍵影音教學、範例檔)
~~$499~~ $394

人工智慧最後的祕密：權力、政治、人類的代價，科技產業和國家機器如何聯手打造AI神話？
~~$650~~ $507

Python 從初學到生活應用超實務 (電腦視覺與AI加強版)：讓 Python 幫你處理日常生活與工作中繁瑣重複的工作
~~$450~~ $405

零基礎入門的 Python 自動化投資：10年操盤手團隊量化通，教你從零開始學程式交易，讓你輕鬆選股、判斷買賣時機，精準獲利
~~$600~~ $468

演算法洞見：遞推與遞迴

商品描述

強化學習是機器學習的重要分支之一。《用Python動手學強化學習》結合實際可運行的Python代碼，通過簡明的文字、豐富的插圖和示例，通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容，包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網絡的組合，以及強化學習的弱點和剋服方法。讀者通過下載書中代碼並親自動手運行，可以快速入門強化學習並進行實踐。

作者簡介

[日]久保隆宏（作者）任職於日本大型系統集成商TIS，具有豐富的機器學習研究和開發經驗。
論文共享網站站arXivTimes運營者，積極致力於技術普及，著有《TensorFlow應用指南》（合著）。

梁垿（譯者）碩士畢業於日本早稻田大學，研究方向為機器學習。
目前在日本大型系統集成商TIS任自然語言處理工程師。
熱愛長跑與讀書，喜歡科幻、蒸汽朋克、克蘇魯等題材的作品。

程引（譯者）工學博士學位，畢業於上海交通大學。
目前在日本BizReach公司（Visional Group）AI部門任算法工程師。
業務方向為推薦系統與自然語言處理，研究興趣包括強化學習與自動控制。

目錄大綱

第1章瞭解強化學習1
1．1強化學習與各關鍵詞之間的關係1
1．2強化學習的優點和弱點8
1．3強化學習的問題設定：馬爾可夫決策過程9

第2章強化學習的解法(1)：根據環境制訂計劃21
2．1價值的定義和計算：貝爾曼方程22
2．2基於動態規劃法的價值近似的學習：價值迭代28
2．3基於動態規劃法的策略的學習：策略迭代32
2．4基於模型的方法和無模型的方法的區別36

第3章強化學習的解法(2)：根據經驗制訂計劃39
3．1平衡經驗的積累與利用：Epsilon- Greedy算法41
3．2是根據實際獎勵還是預測來修正計劃：蒙特卡洛方法和時序差分學習46
3．3用經驗來更新價值近似還是策略：基於價值和基於策略62

第4章使用面向強化學習的神經網絡73
4．1將神經網絡應用於強化學習74
4．2通過含有參數的函數實現價值近似：價值函數近似100
4．3將深度學習應用於價值近似：DQN 109
4．4通過含有參數的函數實現策略：策略梯度121
4．5將深度學習應用於策略：A2C 133
4．6是價值近似還是策略呢153

第5章強化學習的弱點157
5．1獲取樣本的效率低157
5．2容易陷入局部*優行動和過擬合160
5．3復現性差163
5． 4以弱點為前提的對策164

第6章剋服強化學習弱點的方法169
6．1應對採樣效率低的方法：與基於模型的方法一起使用、表徵學習170
6．2改善復現性的方法：進化策略198
6．3應對局部*優行動和過擬合的方法：模仿學習和逆強化學習206

第7章強化學習的應用領域237
7．1行動的*優化239
7．2學習的*優化248
參考文獻252