大模型時代的基礎架構:大模型算力中心建設指南

方天戟

  • 出版商: 電子工業
  • 出版日期: 2024-07-01
  • 售價: $768
  • 貴賓價: 9.5$730
  • 語言: 簡體中文
  • 頁數: 240
  • ISBN: 7121481235
  • ISBN-13: 9787121481239
  • 相關分類: LangChain
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

相關主題

商品描述

大模型是近年來引人註目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解,並基於TOGAF方法論,剖析業界知名案例的設計方案。 全書總計13章。第1章講解AI與大模型時代對基礎架構的需求;第2章講解軟件程序與專用硬件的結合,涉及GPU並行運算庫、機器學習程序的開發框架和分佈式AI訓練;第3章剖析GPU的硬件架構,涉及GPU的總體設計、Nvidia GH100芯片架構和擁有其他Hopper架構的GPU;第4章講解GPU服務器的設計與實現;第5章講解機器學習所依托的I/O框架體系;第6章講解GPU集群的網絡設計與實現;第7章講解GPU板卡算力調度技術;第8章講解GPU虛擬化調度方案;第9章講解GPU集群的網絡虛擬化設計與實現;第10章講解GPU集群的存儲設計與實現;第11章講解如何基於雲原生技術為機器學習應用設計與實現更好的開發和運行平臺;第12章講解基於雲平臺的GPU集群的管理與運營,涉及雲運維平臺、雲運營平臺和雲審計平臺;第13章基於一個服務機器學習的GPU計算平臺落地案例,展示如何針對機器學習應用進行需求分析、設計與實現。 無論是高等院校電腦與人工智能等相關專業的本科生或研究生,還是對並行計算技術、雲計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員,都可以參考和閱讀本書。

目錄大綱

第1章 AI與大模型時代對基礎架構的需求
1.1 我們在談論AI時,到底在談論什麽
1.2 機器學習算法初窺
1.3 一元線性回歸算法剖析
1.4 機器學習算法對電腦硬件的特殊需求
1.4.1 機器學習算法的核心運算特徵
1.4.2 使用CPU實現機器學習算法和並行加速
1.4.3 機器學習算法的主力引擎——GPU
1.4.4 機器學習算法的新引擎——TPU和NPU
1.5 本章小結

第2章 軟件程序與專用硬件的結合
2.1 GPU並行運算庫
2.2 機器學習程序的開發框架
2.3 分佈式AI訓練
2.4 本章小結

第3章 GPU硬件架構剖析
3.1 GPU的總體設計
3.2 Nvidia GH100芯片架構剖析
3.3 其他Hopper架構的GPU
3.4 本章小結

第4章 GPU服務器的設計與實現
4.1 初識Nvidia DGX
4.2 Nvidia DGX A100的總體設計
4.3 Nvidia DGX A100 CPU與內存子系統的設計
4.4 Nvidia DGX A100 PCI-E子系統的設計
4.5 Nvidia DGX A100 NVLink子系統的設計
4.6 其他輔助子系統的設計
4.7 本章小結

第5章 機器學習所依托的I/O框架體系
5.1 Magnum IO的需求來源
5.2 Magnum IO的核心組件
5.3 服務器內部的GPU互通
5.4 跨服務器節點的GPU通信
5.5 RDMA的兩種實現
5.6 GPU對存儲的訪問
5.7 Magnum IO所依賴的其他支撐技術
5.7.1 DPDK( Data Plane Development Kit,數據平面開發套件)
5.7.2 DPU(Data Processing Unit,數據處理器)
5.7.3 MPI Tag Matching
5.8 本章小結

第6章 GPU集群的網絡設計與實現
6.1 GPU集群中RoCE計算網絡的設計與實現
6.2 GPU集群中存儲與業務網絡的設計與實現
6.3 GPU集群中帶外管理監控網絡的設計與實現
6.4 GPU集群中網絡邊界的設計與實現
6.5 本章小結

第7章 GPU板卡級算力調度技術
7.1 基於虛擬化技術的GPU調度
7.2 基於容器技術的GPU調度
7.3 本章小結

第8章 GPU虛擬化調度方案
8.1 Nvidia的GPU虛擬化調度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 雲廠商與開源社區基於容器的GPU虛擬化調度方案
8.3.1 TKE vCUDA+GPU Manager
8.3.2 阿裡雲的cGPU
8.3.3 騰訊雲的qGPU
8.4 本章小結

第9章 GPU集群的網絡虛擬化設計與實現
9.1 基於SDN的VPC技術:網絡虛擬化技術的基石
9.2 雲負載均衡:機器學習網絡的中流砥柱
9.3 專線接入、對等連接與VPC網關
9.4 SDN NFV網關的實現與部署
9.4.1 基於virtio-net/vhost的虛擬機部署NFV
9.4.2 基於SRIOV的虛擬機部署NFV
9.4.3 使用DPDK技術對NFV加速
9.5 本章小結

第10章 GPU集群的存儲設計與實現
10.1 程序與系統存儲——分佈式塊存儲
10.1.1 塊存儲的業務需求
10.1.2 集中式塊存儲與分佈式塊存儲
10.1.3 分佈式塊存儲的故障恢復
10.1.4 分佈式塊存儲的性能優化
10.1.5 分佈式塊存儲的快照與回滾
10.2 海量非結構化數據存儲——分佈式對象存儲
10.2.1 入門級對象存儲的首選:Ceph
10.2.2 開源海量對象存儲:Swift
10.2.3 商業化對象存儲:大型公有雲對象存儲私有化
10.2.4 未來之星:Minio
10.3 AI訓練素材存儲——分佈式並發高性能存儲
10.3.1 開源大數據存儲鼻祖:HDFS
10.3.2 業界對HDFS的改進
10.3.3 長青松柏:Lustre
10.4 本章小結

第11章 機器學習應用開發與運行平臺的設計與實現
11.1 微服務平臺
11.1.1 Kubernetes:微服務基礎能力平臺
11.1.2 Spring Cloud:Java系專屬微服務平臺
11.1.3 Istio:不挑開發語言,只挑部署架構
11.1.4 商業化微服務平臺:兼顧各類需求的選擇
11.2 中間件服務
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數據庫(數據中間件)
11.3 應用日誌服務
11.4 本章小結

第12章 基於雲平臺的GPU集群的管理與運營
12.1 雲運維平臺
12.1.1 硬件基礎設施管理
12.1.2 系統監控與告警平臺
12.1.3 CMDB
12.2 雲運營平臺
12.3 雲審計平臺
12.4 本章小結

第13章 服務機器學習的GPU計算平臺落地案例
13.1 需求來源:自動駕駛模型訓練
13.2 總體設計——基於雲原生的高性能計算
13.3 計算需求分析與設計實現
13.4 存儲需求分析與設計實現
13.5 網絡需求分析與設計實現
13.6 本章小結
後記