強化式學習：打造最強 AlphaZero 通用演算法

布留川英一著王心薇譯

預覽內頁

出版商: 旗標科技
出版日期: 2021-02-02
定價: $780
售價: 8.5 折 $663
語言: 繁體中文
頁數: 512
裝訂: 平裝
ISBN: 9863126519
ISBN-13: 9789863126515
相關分類: Reinforcement、Algorithms-data-structures

立即出貨(限量) (庫存=2)

買這商品的人也買了...

~~$650~~ $507

單元測試的藝術, 2/e (The Art of Unit Testing: with examples in C#, 2/e)
~~$500~~ $390

為你自己學 Git
~~$480~~ $408

簡潔的 Python｜重構你的舊程式 (Clean Code in Python: Refactor your legacy codebase)
~~$690~~ $455

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
~~$1,000~~ $850

tf.keras 技術者們必讀！深度學習攻略手冊
~~$580~~ $458

深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)
~~$690~~ $587

決心打底！Python 深度學習基礎養成
~~$750~~ $638

GAN 對抗式生成網路 (GANs in Action: Deep learning with Generative Adversarial Networks)
~~$450~~ $356

Python 機器學習超進化：AI影像辨識跨界應用實戰 (附100分鐘影像處理入門影音教學/範例程式)
~~$680~~ $537

機器學習：彩色圖解 + 基礎微積分 + Python 實作 -- 王者歸來 (全彩)
~~$620~~ $484

輕鬆學會 Google TensorFlow 2 人工智慧深度學習實作開發, 3/e
~~$680~~ $537

軟體架構原理｜工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)
~~$1,000~~ $850

Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法，掌握制勝的關鍵技術
~~$690~~ $538

Clean Code 學派的風格實踐：開發可靠、可維護又強健的 JavaScript (Clean Code in JavaScript)
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$780~~ $616

Deep Learning 3｜用 Python 進行深度學習框架的開發實作
~~$520~~ $468

白話演算法！培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$680~~ $578

必學！Python 資料科學‧機器學習最強套件－ NumPy、Pandas、Matplotlib、OpenCV、scikit-learn、tf.Keras
~~$480~~ $408

Python 刷題鍛鍊班：老手都刷過的 50 道程式題, 求職面試最給力 (Python Workout: 50 ten-minute exercises)
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
~~$599~~ $473

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$1,000~~ $790

核心開發者親授！PyTorch 深度學習攻略 (Deep Learning with Pytorch)
~~$1,200~~ $792

深度學習 -- 最佳入門邁向 AI 專題實戰
~~$690~~ $587

AutoML 自動化機器學習：用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)

商品描述

內容介紹:
人工智慧的發展就是要讓電腦具備獨立思考的能力，而強化式學習(Reinforcement Learning)就是訓練 AI 如何決策的一套方法，是最具產業發展潛力的熱門技術，可以有效解決生活中許多難以突破的問題，包括產業自動化、自動駕駛、電玩競技遊戲以及機器人等。

Deepmind 將強化式學習應用於開發圍棋 AI 上，打造出 AlphaGo，並連續擊敗李世乭、柯潔等世界第一流的圍棋高手，這段情節想必你並不陌生。而接續發展出來的 AlphaZero 不僅實力更強大，而且不侷限於單一棋類，可以從零開始訓練、不需要人類棋譜，被視為是 AGI 通用式人工智慧，震撼了整個 AI 產業界。

以強化式學習為主幹的 AlphaZero 雖然備受矚目，但對於多數讀者而言，要讀懂 AlphaZero 的論文並不容易，而且論文中並未公開程式碼，紙上談兵就要了解相關細節實在難如登天，本書將透過實作帶您揭開 AlphaZero 神秘的面紗。不用棋譜 (訓練資料) 怎麼進行訓練？強化式學習在 AlphaZero 扮演甚麼角色？為甚麼一套演算法可以適用不同規則的棋類或遊戲？論文沒有講清楚的都在這裡！

在這本書中，你將學到：

● 從深度學習開始，打下紮實基礎，包括 Artificial Neural Network、CNN、ResNet。
● 各類強化式學習演算法的精髓，包括：ϵ-Greedy、UCB1、Policy Gradient、Q-Learning、SARSA、Deep Q-Network (DQN)。
● 理解人工智慧中做出最優決策的方法 - 賽局樹演算法，包括 Minimax Algorithm、Alpha-beta Pruning、Monte Carlo method、Monte Carlo tree search。
● 用 Python 實作 AGI 通用演算法 - AlphaZero，只需修改規則就能稱霸井字遊戲、四子棋、黑白棋、動物棋等不同遊戲。
本書特色:

強化式學習有多強，用 Python 實作見真章！

AlphaZero 結合了深度學習、強化式學習和賽局樹演算法，背後涉及了許多相關技術，網路上雖然可以找到不少討論或教學文章，但內容多半只是原始論文的隻字片段，實作細節也交代不清楚，對於有心了解 AlphaZero 核心技術的讀者來說幫助很有限，往往只是越看越模糊，也不知道誰說得對。

本書以大量圖說、實例詳細說明 AlphaZero 各種相關的演算法，在實作的過程中，你可以親自與 AI 互動，實際體驗 AI 從零開始逐漸累積實力的過程，確實了解強化式學習跳脫人類思維所做的每一步決策，釐清演算法的每一個細節。全書內容經過施威銘研究室監修，只要遇到比較複雜的演算法或程式邏輯，小編都會額外補充，講不清楚就加上圖解，再不清楚就手算一遍，一頁一頁秀給你看，保證一定讓你看得懂、做得到。

● 以大量圖說、實例、示意圖帶你高效學習書中的演算法，程式碼都有詳細的註解說明
● 深度學習、強化式學習、賽局樹等各種相關演算法逐一解析、詳細說明
● 活用 Google 免費的 Colab 雲端開發環境，並提供線上更新操作手冊，包括連線時間限制的處理以及 GPU/TPU 的使用說明
● 從 AlphaGo、AlphaGo Zero 到 AlphaZero，原始演算法和模型架構剖析
● 一步一步解說如何將遊戲規則轉換為程式邏輯，學習賽局資料的預處理程序
● 提供預訓練好的現成模型，立即套用、馬上對戰，幫你節省動輒 20 小時以上的訓練時間

作者簡介

布留川英一（Furukawa Hidekazu）
1975年生於日本群馬縣，會津大學電腦理工學院電腦軟體學系畢業。自2000年起，於 DWANGO Co., Ltd. 從事行動應用程式之研發工作。2005年後，於 UEI Corporation 開發智慧型手機與雙足機器人之應用程式，2013年參與了強調手寫觸感的平板電腦「enchantMOON」的開發。2017年起，則於 GHELIA 從事人工智慧、VR 與 AR 之研發工作。

目錄大綱

前言
本書架構
第1章 AlphaZero 與機器學習概要
1-0 AlphaGo、AlphaGo Zero 與 AlphaZero
1-1 深度學習基礎
1-2 強化式學習基
1-3 賽局樹演算法基礎
第2章準備 Python 開發環境
2-0 Google Colab 之概要
2-1 Google Colab 的使用方法
2-2 建構本地端的 Python 開發環境
第3章深度學習
3-0 利用神經網路進行手寫數字辨識
3-1 利用神經網路預測住宅價格
3-2 利用卷積神經網路(CNN)進行影像辨識
3-3 利用殘差網路 (ResNet) 進行影像辨識
第4章強化式學習
4-0 多臂拉霸機範例
4-1 利用策略梯度法 (Policy Gradient) 進行迷宮遊戲
4-2 利用 Sarsa 與 Q - Learning 進行迷宮遊戲
4-3 利用 Deep Q-Network 遊玩木棒平衡台車
第5章賽局樹演算法
5-0 利用 Minimax 演算法進行井字遊戲
5-1 利用 Alpha-beta 剪枝進行井字遊戲
5-2 利用蒙地卡羅法進行井字遊戲
5-3 利用蒙地卡羅樹搜尋法進行井字遊戲
第6章 AlphaZero 的機制
6-0 利用 Tic-tac-toe 進行井字遊戲
6-1 對偶網路
6-2 策略價值蒙地卡羅樹搜尋法
6-3 自我對弈模組
6-4 訓練模組
6-5 評估模組
6-6 評估最佳玩家
6-7 執行訓練循環
第7章人類與 AI 的對戰
7-0 建立執行 UI 的本機端開發環境
7-1 利用 Tkinter 建立 GUI
7-2 人類與 AI 的對戰
第8章將 AlphaZero 演算法套用到不同遊戲上
8-0 四子棋
8-1 黑白棋
8-2 動物棋