人工智能硬件加速器設計

王立寧,薛志光,劉暉 等

  • 出版商: 電子工業
  • 出版日期: 2025-01-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 204
  • ISBN: 7121494752
  • ISBN-13: 9787121494758
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書聚焦人工智能處理器硬件設計的算力瓶頸問題,介紹了神經網絡處理內核電路與系統的設計目標、優化技術、評價方式,以及應用領域。全書共9章,以人工智能硬件芯片組織架構的核心處理單位“捲積神經網絡”在系統架構層面的算力性能提升為目標,在回顧了CPU、GPU和NPU等深度學習硬件處理器的基礎上,重點介紹主流的人工智能處理器的各種架構優化技術,包括並行計算、流圖理論、加速器設計、混合內存與存內計算、稀疏網絡管理,以及三維封裝處理技術,以業界公認的測試集與方法為依據,展現不同架構設計的處理器在功耗、性能及成本指標等方面不同程度的提升,深入探討優化整體硬件的各種方法。

目錄大綱

目 錄

第1章 人工智能技術簡介 1
1.1 發展簡史 2
1.2 神經網絡模型 3
1.3 神經網絡分類 4
1.3.1 監督學習 4
1.3.2 半監督學習 5
1.3.3 無監督學習 5
1.4 神經網絡框架 5
1.5 神經網絡的比較 7
思考題 9
原著參考文獻 9
第2章 深度學習加速器的設計 11
2.1 神經網絡的網絡層 13
2.1.1 捲積層 13
2.1.2 激活層 14
2.1.3 池化層 15
2.1.4 批量歸一化層 16
2.1.5 丟棄層 17
2.1.6 全連接層 17
2.2 設計深度學習加速器所面臨的挑戰 18
思考題 19
原著參考文獻 20
第3章 人工智能硬件加速器的並行結構 21
3.1 英特爾中央處理器(CPU) 21
3.1.1 天湖網狀架構 22
3.1.2 英特爾超路徑互連(UPI) 24
3.1.3 子非統一內存訪問集群(SNC) 25
3.1.4 緩存架構的調整 26
3.1.5 單/多插槽並行處理 27
3.1.6 高級矢量軟件擴展 27
3.1.7 深度神經網絡的數學內核庫(MKL-DNN) 29
3.2 英偉達圖形處理器(GPU) 33
3.2.1 張量計算核心架構 36
3.2.2 維諾格拉德變換 38
3.2.3 同步多線程(SMT) 40
3.2.4 第二代高帶寬內存(HBM2) 40
3.2.5 NVLink2配置 41
3.3 英偉達深度學習加速器(NVDLA) 43
3.3.1 捲積運算 43
3.3.2 單點數據運算 44
3.3.3 平面數據運算 44
3.3.4 多平面運算 44
3.3.5 數據存儲和重塑操作 44
3.3.6 系統配置 45
3.3.7 外部接口 45
3.3.8 軟件設計 46
3.4 谷歌張量處理器(TPU) 46
3.4.1 系統架構 47
3.4.2 乘法-累加(MAC)脈沖陣列 49
3.4.3 新的大腦浮點格式 50
3.4.4 性能比較 51
3.4.5 雲TPU配置 51
3.4.6 雲軟件架構 53
3.5 微軟彈射器結構加速器(NPU) 54
3.5.1 系統配置 57
3.5.2 彈射器架構 57
3.5.3 矩陣-向量乘法器 58
3.5.4 分層解碼與調度(硬盤) 60
3.5.5 稀疏矩陣-向量乘法 61
思考題 63
原著參考文獻 64
第4章 基於流圖理論的加速器設計 66
4.1 Blaize流圖處理器 66
4.1.1 流圖模型 66
4.1.2 深度優先調度方法 68
4.1.3 流圖處理器架構 69
4.2 Graphcore智能處理器 72
4.2.1 智能處理器(IPU)架構 72
4.2.2 累加矩陣積(AMP)單元 72
4.2.3 內存架構 74
4.2.4 互連架構 74
4.2.5 批量同步並行模型 75
思考題 76
原著參考文獻 76
第5章 加速器的捲積計算優化 78
5.1 深度學習加速器—以DCNN加速器為例 78
5.1.1 系統架構 78
5.1.2 濾波器分解 80
5.1.3 流處理架構 83
5.1.4 池化 85
5.1.5 捲積單元(CU)引擎 86
5.1.6 累加(ACCU)緩沖區 87
5.1.7 模型壓縮 87
5.1.8 系統性能 88
5.2 Eyeriss加速器 89
5.2.1 Eyeriss系統架構 89
5.2.2 二維捲積運算到一維乘法運算的轉換 90
5.2.3 數據流固定(SD) 92
5.2.4 行固定(RS)數據流 95
5.2.5 游程長度壓縮(RLC)算法 98
5.2.6 全局緩沖區(GLB) 99
5.2.7 Eyeriss PE架構 99
5.2.8 片上網絡(NoC) 100
5.2.9 Eyeriss v2系統架構 104
5.2.10 分層網狀網 106
5.2.11 壓縮稀疏列格式 111
5.2.12 行固定加(RS+)數據流 112
5.2.13 系統性能 112
思考題 114
原著參考文獻 114
第6章 存內計算 116
6.1 Neurocube加速器 116
6.1.1 混合內存立方體(HMC) 116
6.1.2 以內存為中心的神經計算 118
6.1.3 可編程神經序列發生器 119
6.1.4 系統性能 121
6.2 Tetris加速器 121
6.2.1 內存層次結構 121
6.2.2 存內累加 122
6.2.3 數據調度 123
6.2.4 神經網絡的vault分區 124
6.2.5 系統性能 125
6.3 NeuroStream加速器 126
6.3.1 系統架構 126
6.3.2 NeuroStream協處理器 127
6.3.3 四維分塊的機制 128
6.3.4 系統性能 130
思考題 131
原著參考文獻 131
第7章 近內存體系架構 132
7.1 DaDianNao超級電腦 132
7.1.1 內存配置 132
7.1.2 神經功能單元 133
7.1.3 系統性能 135
7.2 Cnvlutin加速器 137
7.2.1 基本捲積運算 137
7.2.2 系統架構 139
7.2.3 處理順序 140
7.2.4 無零神經元陣列格式(ZFNAf) 143
7.2.5 調度器 143
7.2.6 動態修剪 144
7.2.7 系統性能 144
7.2.8 原生或編碼(RoE)格式 145
7.2.9 矢量無效激活標識符(VIAI)格式 145
7.2.10 跳過無效激活 146
7.2.11 跳過無效權重 146
思考題 148
原著參考文獻 148
第8章 加速器的網絡稀疏性 149
8.1 能效推理引擎(EIE)加速器 149
8.1.1 前導非零檢測(LNZD)網絡 149
8.1.2 中央控制單元(CCU) 150
8.1.3 處理元件(PE) 150
8.1.4 深度壓縮 150
8.1.5 稀疏矩陣計算 153
8.1.6 系統性能 154
8.2 寒武紀X加速器 154
8.2.1 計算單元 156
8.2.2 緩沖區控制器 157
8.2.3 系統性能 159
8.3 稀疏捲積神經網絡(SCNN)加速器 160
8.3.1 SCNN加速器的PT-IS-CP-密集數據流 160
8.3.2 SCNN加速器的PT-IS-CP-稀疏數據流 162
8.3.3 SCNN加速器的分塊架構 162
8.3.4 SCNN加速器的PE架構 163
8.3.5 SCNN加速器的數據壓縮 164
8.3.6 SCNN加速器的系統性能 164
8.4 SeerNet加速器 166
8.4.1 低位量化 167
8.4.2 有效量化 167
8.4.3 量化捲積 168
8.4.4 推理加速器 170
8.4.5 稀疏性掩碼編碼 170
8.4.6 系統性能 170
思考題 171
原著參考文獻 171
第9章 加速器芯片的三維堆疊工藝 173
9.1 三維集成電路架構 173
9.2 配電網絡 174
9.3 三維網橋工藝 176
9.3.1 三維片上網絡 177
9.3.2 多通道高速鏈路 178
9.4 低功耗技術 178
9.4.1 電源選通 178
9.4.2 時鐘選通 180
思考題 180
原著參考文獻 181
附錄A 神經網絡拓撲 182
附錄B 中英文詞匯表 183