AI 加速器架構設計與實現圖書

甄建勇//王路業著

出版商: 機械工業
出版日期: 2023-06-01
售價: $594
貴賓價: 9.5 折 $564
語言: 簡體中文
頁數: 232
裝訂: 平裝
ISBN: 711172951X
ISBN-13: 9787111729518
相關分類: AI Coding

立即出貨

買這商品的人也買了...

~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
~~$594~~ $564

芯片驗證漫遊指南 : 從系統理論到 UVM 的驗證全視界
~~$680~~ $646

Deep Learning - Hardware Design
$594

UVM 實戰
$505

AI 嵌入式系統：算法優化與實現
$210

深度神經網絡 FPGA 設計與實現
~~$650~~ $507

AI 證券投資分析：探索超額報酬 ─ 使用 Excel 實作【暢銷回饋版】
~~$648~~ $616

自動駕駛算法與芯片設計
~~$479~~ $455

SoC 設計方法與實現, 4/e
~~$414~~ $393

芯片驗證調試手冊 -- 驗證疑難點工作錦囊
~~$780~~ $616

不只是 CUDA，通用 GPU 程式模型及架構原理
~~$680~~ $537

Deep Learning 4｜用 Python 進行強化學習的開發實作
~~$1,280~~ $1,011

萬顆 GPU 的訓練 - 分散式機器學習 — 系統工程與實戰
$485

集成電路設計 — 模擬、版圖、綜合、驗證及實踐
~~$594~~ $564

數字電路設計與驗證快速入門 — Verilog + SystemVerilog
~~$588~~ $559

CPU 製作入門：基於 RISC-V 和 Chisel
~~$479~~ $455

SystemVerilog 數字集成電路功能驗證
$403

開源 RISC-V 處理器架構分析與驗證
$327

AI Agent：AI 的下一個風口
~~$1,188~~ $1,129

Xilinx FPGA 權威設計指南：基於 Vivado 2023 設計套件
$714

UVM 芯片驗證技術案例集
~~$780~~ $616

CPU 架構三雄鼎立 - RISC-V 處理器架構及驗證精練
~~$419~~ $398

Xilinx FPGA 工程師成長手記
~~$534~~ $507

人工智能硬件加速器設計
~~$774~~ $735

AI 處理器硬件架構設計

商品描述

本書內容主要分三部分：
神經網絡的分析、神經網絡加速器的設計及具體實現技術。
通過閱讀本書，讀者可以深入瞭解主流的神經網絡結構，掌握如何從零開始設計一個能用、好用的產品級加速器。
第1章介紹了目前主流圖像處理領域神經網絡的結構，
提取出各個網絡的基本塊、網絡算子及其參數量和運算量，闡述了加速器的編程模型和硬件架構分類。
第2、3章分別討論了加速器運算子系統和存儲子系統的設計，
並對NVDLA、TPU、GPU實現捲積運算的過程進行了詳細的推演，以便讀者對加速器架構設計有初步的瞭解。
第4～6章用大量篇幅討論了加速器設計中可能遇到的問題及解決方法。
第7章對加速器進行盤點，展望了神經網絡加速器的未來，希望對讀者有所啟發。

作者簡介

甄建勇，資深CPU、GPU、NPU三棲架構師，從事相關軟硬件架構與設計工作超過15年。現就職於地平線，擔任BPU首席架構師。曾就職於英偉達，擔任高級架構師，作為多款CPU、NPU、GPU的核心架構師，參與了Xburst、NVDLA、TensorCore的架構設計工作。熟悉SIMT/RayTracing等模塊的架構設計與實現。擅長的領域還包括經濟學、法學、心理學以及Linux內核、計算機圖形加速和全同態加密。

目錄大綱

前言
第1章捲積神經網絡1
1.1 神經網絡的結構2
1.2 GCN 4
1.3 網絡的基本塊7
1.4 網絡的算子17
1.5 網絡參數量與運算量29
1.6 加速器編程模型31
1.7 硬件加速器架構分類33
第2章運算子系統的設計35
2.1 數據流設計35
2.2 算力與帶寬38
2.2.1 算力與輸入帶寬38
2.2.2 算力與輸出帶寬41
2.3 捲積乘法陣列43
2.3.1 Conv算法詳解43
2.3.2 NVDLA的乘法陣列47
2.3.3 TPU的乘法陣列59
2.3.4 GPU的乘法陣列66
2.3.5 華為DaVinci的乘法陣列74
2.4 捲積運算順序的選擇80
2.5 池化模塊的設計81
第3章存儲子系統的設計86
3.1 存儲子系統概述86
3.1.1 存儲子系統的組成86
3.1.2 內部緩存的設計89
3.2 數據格式的定義97
3.2.1 特徵圖的格式98
3.2.2 權重的格式100
第4章架構優化技術106
4.1 運算精度的選擇106
4.1.1 dynamic fixed point類型109
4.1.2 bfloat16類型110
4.2 硬件資源的複用111
4.2.1 FC 112
4.2.2 de-Conv 115
4.2.3 dilate Conv 123
4.2.4 group Conv 123
4.2.5 3D Conv 127
4.2.6 TC Conv 130
4.2.7 3D Pool 132
4.2.8 Up Sample Pooling 136
4.2.9 多個加速器的級聯136
4.3 Winograd算法和FFT算法138
4.3.1 Winograd算法解析138
4.3.2 FFT算法解析148
4.4 除法變乘法150
4.5 LUT的使用150
4.6 宏塊並行技術155
4.7 減少軟件配置時間156
4.8 軟件優化技術157
4.9 一些激進的優化技術158
第5章安全與防護160
5.1 安全技術160
5.2 安全性評估162
5.3 防護163
第6章神經網絡加速器的實現165
6.1 乘法器的設計165
6.1.1 整型乘法器的設計166
6.1.2 浮點運算器的設計171
6.2 數字電路常見基本塊的設計184
6.3 時序優化203
6.4 低功耗設計207
第7章盤點與展望211
7.1 AI加速器盤點211
7.2 Training加速器211
7.3 展望218
後記220