強化學習演算法入門

Name: 強化學習演算法入門
Price: 398 TWD
Availability: InStock
Author: 曾我部東馬
ISBN: 7522617618

曾我部東馬

出版商: 中國水利水電
出版日期: 2024-01-01
售價: $419
貴賓價: 9.5 折 $398
語言: 簡體中文
頁數: 184
裝訂: 平裝
ISBN: 7522617618
ISBN-13: 9787522617619
相關分類: Reinforcement、化學 Chemistry、Algorithms-data-structures

立即出貨

買這商品的人也買了...

~~$295~~ $280

向量自我迴歸模型 : 計量方法與R程式
$352

面向雲平臺的物聯網多源異構信息融合方法
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
~~$648~~ $616

深度學習推薦系統
$713

算法訓練營：海量圖解 + 競賽刷題 (進階篇)
$662

算法訓練營：海量圖解 + 競賽刷題 (入門篇)
~~$834~~ $792

深度強化學習圖解
~~$779~~ $740

深度強化學習
~~$528~~ $502

跨數據中心機器學習：賦能多雲智能數算融合
~~$954~~ $906

深入淺出 React 開發指南
~~$1,188~~ $1,129

工程與科學數值方法的 MATLAB 實現, 4/e (Applied Numerical Methods with MATLAB for Engineers and Scientists, 4/e)
~~$419~~ $398

搜尋演算法：人工智能如何尋找最優
$509

遞歸算法與項目實戰
$301

機器學習的算法分析和實踐
~~$588~~ $559

強化學習與機器人控制
~~$880~~ $695

AI 時代從基本功下手 - 深入電腦底層運作原理
$653

TypeScript + Vue.js 前端開發從入門到精通
$509

YOLO 目標檢測
~~$594~~ $564

內網滲透實戰攻略
$607

大語言模型：原理與工程實踐
$417

推薦系統：產品與算法解析
~~$414~~ $393

量子機器學習 — 基於 Python 的理論和實現
~~$1,800~~ $1,422

演算法導論, 4/e (Introduction to Algorithms, 4/e)
~~$419~~ $398

強化學習:人工智能如何知錯
~~$474~~ $450

量子金融：理論與實戰

商品描述

身為一個戰勝圍棋世界的人工智能機器人AlphaGo，我們知道其主要運作原理是深度學習。
隨著AlphaGo Zero和Alpha Zero的相繼發布，作為機器學習經典演算法之一的強化學習在人工智能領域受到了更多的關註。
《強化學習演算法入門》就用簡單易懂的語言，按照「原理-公式-程序」的方式對強化學習的基礎知識進行了詳細講解。
書中先讓大家從熟悉的「平均值計算」作為切入點學習強化學習的基本概念，然後結合實例學習了函數近似方法、
深度強化學習的原理和方法等，比較了各算法的特徵和應用，並以Python和MATLAB兩種語言進行了程式實作。
《強化學習演算法入門》內容豐富，實踐性強，
特別適合大學人工智能相關專業學生，機器學習、深度學習工程師學習強化學習演算法。

作者簡介

［日］曾我部東馬理學博士（物理學專業）。曾任馬克斯普朗克研究所（德國）博士研究員、劍橋大學（英國）研究員。 2009年回到日本，參與創立了Grid公司，擔任董事兼技術長。 2011年起先後擔任東京大學尖端科學技術研究中心特聘助理教授、特聘副教授。 2016年3月起擔任電氣通訊大學副教授，同時兼任Grid公司首席技術顧問、東京大學尖端科學技術研究中心客座研究員至今。他以開發具有「深度學習—深度強化學習—回歸預測—最佳化」功能的跨功能機器學習框架。 ReNom而聞名，目前在開發以量子機器學習為代表的最先進量子演算法∞ReNomQ的同時，也致力於使用深度強化學習「線上最佳化問題」的研究。

目錄大綱

第1章基於「平均」的強化學習的基本概念
1.0 簡介
1.1 平均值與期望值
1.1.1 平均值
1.1.2 期望值
1.1.3 期望值與平均值的關係
1.2 平均值與價值
總結
1.3 平均值與馬可夫性
1.3.1 平均值的計算公式及其變形
1.3.2 逐次平均值表達和MP
1.4 用平均值推導貝爾曼方程式
1.4.1 平均值表達和價值函數的引入
1.4.2 決策型貝爾曼方程式的推導
1.4.3 機率型貝爾曼方程式的推導
1.5 蒙特卡羅方法的平均值推導
1.5.1 總獎勵函數G(St)的引入
1.5.2 總獎勵函數G(St)與價值函數V(St)的比較
1.5.3 總獎勵函數G(St)平均值的價值函數v(St)
1.6 用平均值推導TD方法
1.6.1 TD(0) 方法的計算公式的推導
1.6.2 TD(n)方法的計算公式的推導
總結
第2章強化學習中演算法的特性與應用
2.0 簡介
2.1 強化學習中的策略(alS)
2.1.1 多臂老虎機問題
2.1.2 E-Greedy策略
2.1.3 UCB-1策略
2.1.4 Bayes sampling 策略
2.2 動態規劃法
2.2.1 E-Greedy (ε=1)策略迭代法
2.2.2 E-Greedy (ε=0)策略迭代法(On-Policy)
2.2.3 E -Greedy (ε=0 )價值迭代法(Off-Policy)
2.3 蒙特卡羅方法
2.4 TD(0)方法
2.4.1 從策略迭代法推導SARSA方法
2.4.2 TD(0)-SARSA方法
2.4.3 由價值迭代法推導TD( 0)-Q方法
2.4.4 完全Off-Policy的TD(0)-Q方法
2.4.5 局部Off-Policy的TD(0)-Q方法
2.4.6 TD(0)-0方法與TD(0) -SARSA方法的比較
總結
第3章函數近似方法
3.0 簡介
3.1 函數近似的基本概念
3.2 使用函數近似模型的V(St)表達方式
3.3 機器學習的價值函數回歸
3.3.1 從誤差函數得出的回歸和分類
3.3.2 誤差函數的設計與機率梯度下降法
3.3.3 強化學習中的迴歸分析機制
3.4 使用蒙特卡羅方法進行價值函數迴歸
3.5 使用TD(0)-SARSA方法進行行動狀態價值函數迴歸
3.6 使用TD(0)-Q方法進行行動狀態價值函數迴歸
總結
第4章深度強化學習的原理與方法
4.0 簡介
4.1 TD-Q方法中基於NN的行動價值函數迴歸
4.2 基於DQN方法的行動狀態價值函數的近似
4.3 機率策略梯度法
4.3.1 蒙特卡羅離散策略梯度法
4.3.2 基線蒙特卡羅離散策略梯度法
4.3.3 離散型Actor-Critic法
4.3.4 連續型Actor-Critic法
4.4 決策型策略梯度法
4.4.1 DDPG方法
4.4.2 混合DDPG方法
4.5 TRPO/PPO方法有Code
4.5.1 EM演算法
4.5.2 信賴域與自然梯度
4.5.3 信賴域策略梯度法
4.6 AlphaGo Zero學習法有Code
4.6.1 AlphaGo Zero的學習誤差函數
4.6.2 AlphaGo的學習策略π
4.7 總結與展望
總結
參考文獻