融合數字電路與存內計算的高能效神經網絡處理器(英文版)

岳金山

  • 出版商: 清華大學
  • 出版日期: 2024-08-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • ISBN: 7302656002
  • ISBN-13: 9787302656005
  • 相關分類: 英文 English
  • 下單後立即進貨 (約4週~6週)

  • 融合數字電路與存內計算的高能效神經網絡處理器(英文版)-preview-1
  • 融合數字電路與存內計算的高能效神經網絡處理器(英文版)-preview-2
  • 融合數字電路與存內計算的高能效神經網絡處理器(英文版)-preview-3
融合數字電路與存內計算的高能效神經網絡處理器(英文版)-preview-1

相關主題

商品描述

"《融合數字電路與存內計算的高能效神經網絡處理器(英文版)》從純數字電路和融合存內計算的高能效神經網絡處理器兩個角度開展了四項主要的研究工作。 在數字電路神經網絡處理器層面,一方面針對傳統架構數據復用優化不充分的問題,提出了針對特定捲積核優化的捲積神經網絡處理器 KOP3。另一方面,針對不規則稀疏網絡壓縮技術引起的顯著額外功耗面積開銷,採用結構化頻域壓縮算法 CirCNN,提出整體並行-比特串行的 FFT 電路、低功耗分塊轉置 TRAM 和頻域二維數據復用陣列,以規則的方式壓縮了存儲和計算量。設計並流片驗證的 STICKER-T芯片實現了面積效率和能量效率的提升。在融合數字電路與存內計算的神經網絡處理器層面,融合了數字電路的靈活性和存內計算 IP 的高能效特性,進一步提升能量效率。一方面通過分塊結構化權重稀疏與激活值動態稀疏、核心內/外高效數據復用與網絡映射策略、支持動態關斷 ADC 的存內計算 IP,設計流片了存內計算系統芯片 STICKER-IM,在存內計算芯片中實現了稀疏壓縮技術。另一方面,進一步針對現有工作與大模型實際應用之間的差距,指出了大模型權重更新引起的性能下降和稀疏利用不充分等問題,提出了組相聯分塊稀疏電路、乒乓存內計算電路和可調採樣精度 ADC 技術。設計並流片驗證的STICKER-IM2 芯片考慮了存內計算的權重更新代價,實現了 ImageNet 數據集上的高能效和較高準確率驗證。"

目錄大綱

Contents

1 Introduction 1

1.1 Research Background and Significance 1

1.1.1 Development Trends of Neural Network 1

1.1.2 Requirements of NN Processor 2

1.1.3 Energy-Efficient NN Processors 4

1.2 Summary of the Research Work 6

1.2.1 Overall Framework of the Research Work 6

1.2.2 Main Contributions of This Book 7

1.3 Overall Structure of This Book 8

References 9

2 Basics and Research Status of Neural Network Processors 13

2.1 Basics of Neural Network Algorithms 13

2.2 Basics of Neural Network Processors 16

2.3 Research Status of Digital-Circuits-Based NN Processors 18

2.3.1 Data Reuse 18

2.3.2 Low-Bit Quantization 20

2.3.3 NN Model Compression and Sparsity 21

2.3.4 Summary of Digital-Circuits-Based NN Processors 23

2.4 Research Status of CIM NN Processors 23

2.4.1 CIM Principle 24

2.4.2 CIM Devices 25

2.4.3 CIM Circuits 26

2.4.4 CIM Macro 27

2.4.5 Summary of CIM NN Processors 28

2.5 Summary of This Chapter 28

References 29

3 Energy-Efficient NN Processor by Optimizing Data Reuse for Specific Convolutional Kernels 33

3.1 Introduction 33

3.2 Previous Data Reuse Methods and the Constraints 33

3.3 The KOP3 Processor Optimized for Specific Convolutional Kernels 35

3.4 Processing Array Optimized for Specific Convolutional Kernels 36

3.5 Local Memory Cyclic Access Architecture and Scheduling Strategy 39

3.6 Module-Level Parallel Instruction Set and the Control Circuits 40

3.7 Experimental Results 41

3.8 Conclusion 44

References 45

4 Optimized Neural Network Processor Based on Frequency-Domain Compression Algorithm 47

4.1 Introduction 47

4.2 The Limitations of Irregular Sparse Optimization and CirCNN Frequency-Domain Compression Algorithm 47

4.3 Frequency-Domain NN Processor STICKER-T 50

4.4 Global-Parallel Bit-Serial FFT Circuits 52

4.5 Frequency-Domain 2D Data-Reuse MAC Array 55

4.6 Small-Area Low-Power Block-Wise TRAM 59

4.7 Chip Measurement Results and Comparison 62

4.8 Summary of This Chapter 69

References 69

5 Digital Circuits and CIM Integrated NN Processor 71

5.1 Introduction 71

5.2 The Advantage of CIM Over Pure Digital Circuits 71

5.3 Design Challenges for System-Level CIM Chips 74

5.4 Sparse CIM Processor STICKER-IM 78

5.5 Structural Block-Wise Weight Sparsity and Dynamic Activation Sparsity 79

5.6 Flexible Mapping and Scheduling and Intra/Inter-Macro Data Reuse 81

5.7 Energy-Efficient CIM Macro with Dynamic ADC Power-Off 85

5.8 Chip Measurement Results and Comparison 88

5.9 Summary of This Chapter 92

References 93

6 A “Digital+CIM” Processor Supporting Large-Scale NN Models 95

6.1 Introduction 95

6.2 The Challenges of System-Level CIM Chips to Support Large-Scale NN Models 95

6.3 “Digital+CIM” NN Processor STICKER-IM2 97

6.4 Set-Associate Block-Wise Sparse Zero-Skipping Circuits 98

6.5 Ping-Pong CIM and Weight Update Architecture 100

6.6 Ping-Pong CIM Macro with Dynamic ADC Precision 103

6.7 Chip Measurement Results and Comparison 104

6.8 Summary of This Chapter 112

References 112

7 Summary and Prospect 115

7.1 Summary of This Book 115

7.2 Prospect of This Book 117