CUDA並行編程實戰 Programming in Parallel with CUDA : A Practical Guide New

Ansorge, Richard 譯 顧海燕

  • 出版商: 機械工業
  • 出版日期: 2024-11-28
  • 定價: $834
  • 售價: 8.5$709
  • 語言: 簡體中文
  • 頁數: 422
  • 裝訂: 平裝
  • ISBN: 7111764633
  • ISBN-13: 9787111764632
  • 相關分類: CUDA
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書是一本深入淺出的CUDA編程實踐指南。由CUDA編程領域的資深專家撰寫,主要介紹使用C++對NVIDIA GPU進行編程,覆蓋了GPU內核與硬件、並行思維與編程、warp和協作組、並行模板、紋理、蒙特卡羅應用等內容,旨在幫助讀者快速掌握CUDA編程的核心技能。書中詳細介紹了CUDA的基本概念、架構和編程模型,並通過豐富的實戰案例和詳細解析,指導讀者如何編寫、優化和調試CUDA程序。本書注重理論與實踐相結合,旨在培養讀者解決實際問題的能力。無論讀者是初學者還是有一定經驗的開發者,都能從本書中獲益。掌握CUDA編程技能將為讀者的職業發展增添重要競爭力,助力讀者在科學研究、工程開發、數據分析等領域中脫穎而出。

目錄大綱

譯者序
前言
第1章 GPU核心與硬體介紹
1.1 背景
1.2 第一個CUDA範例
1.3 CPU架構
1.4 CPU的運算能力
1.5 CPU記憶體管理:利用快取隱藏延遲
1.6 CPU:平行指令集
1.7 GPU架構
1.7.1 回顧歷史
1.7.2 NVIDIA的GPU型號
1.8 Pascal架構
1.9 GPU記憶體類型
1.10 warp和wave
1.11 線程塊與網格
1.12 佔用率
第1章 尾註
第2章 平行思維與程式設計
2.1 Flynn分類法
2.2 內核函數呼叫語法
2.3 啟動三維內核函數
2.4 延遲隱藏和占用率
2.5 並行模式
2.6 並行歸約
2.7 共享內存
2.8 矩陣乘法
2.9 分塊矩陣乘法
2.10 BLAS
第2章 尾註
第3章 warp和協作組
3.1 協作組中的CUDA對象
3.2 分塊分區
3.3 向量加載
3.4 warp級內部函數和子warp
3.5 線程分歧和同步
3.6 避免死鎖
3.7 協同組
3.8 HPC特性
第3章 尾註
第4章 平行模板
4.1 二維模板
4.2 二維模板的級聯計算
4.3 三維模板
4.4 數位影像處理
4.5 Sobel濾波器
4.6 中值濾波器
第4章 尾註
第5章 紋理
5.1 影像插值
5.2 GPU紋理
5.3 影像旋轉
5.4 lerp函數
5.5 紋理硬體
5.6 彩色影像
5.7 影像查看
5.8 立體影像的仿射變換
5.9 三維影像配準
5.10 影像配準結果
第5章 尾註
第6章 蒙特卡羅應用
6.1 簡介
6.2 cuRAND庫
6.2.1 cuRAND的主機API
6.2.2 cuRAND的設備API
6.3 產生其他分佈
6.4 伊辛模型
第6章 尾註
第7章 使用CUDA流和事件的並發
7.1 並發內核函數執行
7.2 CUDA管道範例
7.3 thrust與cudaDeviceReset
7.4 管道範例的結果
7.5 CUDA事件
7.6 磁碟的開銷
7.7 CUDA圖
第7章 尾註
第8章 PET掃描儀的應用
8.1 PET簡介
8.2 資料儲存和掃描器的幾何結構的定義
8.3 模擬PET掃描儀
8.4 建立系統矩陣
8.5 PET重建
8.6 結果
8.7 OSEM的實現
8.8 交互作用的深度
8.9 使用交互作用的深度的PET結果
8.10 塊探測器
8.11 Richardson-Lucy影像去模糊
第8章 尾註
第9章 擴展
9.1 GPU的選型
9.2 CUDA統一虛擬尋址
9.3 CUDA的P2P訪問
9.4 CUDA零拷貝內存
9.5 統一內存
9.6 MPI的簡介
第9章 尾註
第10章 效能分析與調試工具
10.1 gpulog範例
10.2 使用nvprof進行分析
10.3 用NVIDIA Visual Profiler進行分析
10.4 Nsight Systems
10.5 Nsight Compute
10.6 Nsight Compute部分
10.6.1 GPU光速
10.6.2 計算工作負載分析
10.6.3 記憶體工作負載分析
10.6.4 調度器統計資訊
10.6.5 warp狀態統計
10.6.6 指令統計訊息
10.6.7 啟動統計訊息
10.6.8 佔用率
10.6.9 源計數器
10.7 使用printf進行調試
10.8 透過Microsoft Visual Studio進行偵錯
10.9 調試內核函數程式碼
10.10 內存檢查
10.10.1 cuda-memcheck
10.10.2 Linux工具
10.10.3 CUDA計算過濾器
第10章 尾註
第11章 張量核心
11.1 張量核心與FP
11.2 warp矩陣函數
11.3 支援的資料類型
11.4 張量核心的歸約演算法
11.5 結論
第11章 尾註
附錄
附錄 A CUDA簡史
附錄 B 原子操作
附錄 C NVCC編譯器
附錄 D AVX與Intel編譯器
附錄 E 數位格式
附錄 F CUDA文件和庫
附錄 G CX頭文件
附錄 H AI和Python
附錄 I C++的主題