大模型垂直領域低算力遷移 微調、部署與優化

程戈

  • 出版商: 機械工業
  • 出版日期: 2025-01-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 210
  • ISBN: 7111767675
  • ISBN-13: 9787111767671
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書是一本深度探討大模型在低算力環境下實現遷移與微調的實踐指南,並深入講解了大模型的部署與優化策略。書中結合多個垂直領域的應用場景,從理論到技術實現,全程詳盡講解了如何應對大模型在行業落地中的技術挑戰,幫助讀者逐步掌握大模型的遷移與微調核心技術。 通過閱讀本書,你將能夠: (1)全面理解垂直領域遷移方式與技術選型 深入了解開源大模型向垂直領域遷移的核心方式,包括提示工程、檢索增強生成、參數高效微調與全參數微調等技術路徑,並靈活應對低算力場景下的遷移技術挑戰。 (2)快速獲取高質量領域數據的低成本方案 學習通過指令自舉、無監督標注、自我策展等方法構建高質量數據集,同時掌握數據清洗、去重和質量過濾等關鍵技術,顯著降低數據獲取成本。 (3)掌握低算力環境下的訓練與推理優化技術 全面掌握低算力訓練與微調方法(如LoRA和QLoRA),並結合推理優化技術(如量化、剪枝和模型編譯),高效實現低成本的大模型訓練與推理。 (4)精通大模型的生產環境部署與優化 系統學習生產環境中大模型的部署方案,涵蓋服務器推理加速、分布式集群架構和多平台適配技術,確保模型在實際應用中的高效、安全運行。 無論你是大模型開發者、人工智能研究人員,還是對垂直領域AI應用感興趣的行業專家,本書都將帶你深入大模型的核心領域,提供從構建、優化到部署的全流程指導,助你掌握這一前沿技術的實踐精髓

作者簡介

程戈,博士生導師,湘潭大學計算機學院·網絡空間安全學院教授,湘潭大學技術轉移中心副主任,湘潭市京東智能城市與大數據研究院副院長,智慧司法與數字治理湖南省重點實驗室副主任,CCF計算法學會執委。大模型領域技術專家和布道者,作為兩項科技部國家重點研發子課題的負責人,與成都數之聯等多家企業合作推動人工智能在司法領域的落地,帶領團隊開發了JusticeGPT司法大模型,不同於其他的以提升司法領域知識問答能力為核心的司法大模型,該大模型致力於提升司法文獻檢索增強生成以及司法文檔的多跳信息聚合能力,並通過特定的多任務表征與控制指令生成框架重構司法信息化系統的業務中台,實現司法業務編排以及工作流自動化。

目錄大綱

前言
第1章 垂直領域大模型的行業變革與機遇
1.1 大模型下的行業變革
1.1.1 大模型的iPhone時刻
1.1.2 大模型的全行業重塑
1.1.3 勞動力市場的變革
1.2 垂直領域大模型遷移的動機
1.2.1 商業價值
1.2.2 行業技術護城河
1.2.3 領域數據優勢
1.3 垂直領域大模型遷移的機遇
第2章 垂直領域遷移技術棧
2.1 垂直領域遷移的方式
2.1.1 提示工程
2.1.2 檢索增強生成
2.1.3 參數高效微調
2.1.4 全參數微調
2.1.5 從頭預訓練
2.1.6 垂直領域遷移低算力技術選型
2.2 低算力微調
2.3 推理優化
2.3.1 模型編譯
2.3.2 模型壓縮
2.3.3 模型分區
第3章 大模型的開源生態
3.1 大模型的開源社區
3.1.1 Meta
3.1.2 HuggingFace
3.1.3 微軟
3.1.4 英偉達
3.2 開源生態下基座模型選擇的關鍵指標
3.2.1 參數規模
3.2.2 訓練Token
3.2.3 上下文窗口
3.2.4 綜合評測
3.2.5 商業許可
3.3 開源基座模型LLaMA系列
3.3.1 LLaMA
3.3.2 LLaMA
3.3.3 商用限制
第4章 自舉領域數據的獲取
4.1 指令自舉標注
4.2 自舉無監督標注
4.2.1 指令生成階段
4.2.2 答案生成階段
4.2.3 過濾和修剪階段
4.3 自我策展
4.3.1 初始化階段
4.3.2 自我增強階段
4.3.3 自我策展階段
4.4 自我獎勵
4.4.1 種子數據
4.4.2 自我指令創建
4.4.3 指令遵循訓練
4.4.4 叠代訓練
第5章 數據處理
5.1 數據處理的挑戰
5.2 數據質量
5.2.1 文本提取
5.2.2 數據去重
5.2.3 質量過濾
5.2.4 內容毒性過濾
5.3 高效數據集訪問
5.3.1 數據集來源
5.3.2 列式內存格式
5.3.3 向量化計算
5.3.4 零覆制數據交換
5.3.5 虛擬內存
第6章 大模型抽象
6.1 計算圖
6.2 靜態計算圖
6.3 動態計算圖
6.4 算子優化與調度
6.4.1 計算圖與算子優化
6.4.2 計算圖與算子調度
6.4.3 串行調度與並行調度
6.5 大模型中的張量與算子
6.5.1 輸入層
6.5.2 自注意力層
6.5.3 前饋網絡層
6.5.4 輸出層
6.6 大模型的序列化
6.6.1 序列化文件的類型
6.6.2 TensorFlow模型序列化
6.6.3 PyTorch模型序列化
6.6.4 Safetensors序列化格式
第7章 LoRA低算力微調
7.1 LoRA的原理
7.2 LoRA的重參數化方法
7.3 秩的選擇
7.4 LoRA的多任務處理策略
7.5 LoRA量化版本QLoRA
7.6 LoRA微調類型
7.6.1 繼續預訓練
7.6.2 RLHF
7.6.3 DPO
第8章 大模型的分布式訓練
8.1 分布式訓練的挑戰
8.1.1 算力與內存瓶頸
8.1.2 分布式訓練系統的設計挑戰
8.2 分布式集群架構
8.2.1 GPU集群架構
8.2.2 集合通信算子
8.2.3 通信拓撲
8.3 分布式訓練的通信架構
8.3.1 基於參數服務器的架構
8.3.2 基於歸約的架構
8.4 並行模式
8.4.1 數據並行
8.4.2 張量並行
8.4.3 流水線並行
8.4.4 並行模式的對比
8.5 大模型的張量並行
8.5.1 輸入層
8.5.2 輸出層
8.5.3 多層感知機
8.5.4 自注意力
8.6 數據並行的內存優化
8.6.1 設備內存占用
8.6.2 ZeRO技術
8.6.3 ZeRO-Offload技術
第9章 推理優化技術
9.1 計算加速
9.1.1 算子融合
9.1.2 並行推理
9.2 內存優化
9.2.1 KV緩存
9.2.2 頁注意力
9.2.3 快速注意力
9.3 吞吐量優化
9.3.1 內存I/O瓶頸
9.3.2 靜態批處理
9.3.3 連續批處理
9.3.4 動態分割融合
9.4 量化
9.4.1 量化的動機
9.4.2 量化的原理
9.4.3 LLM.int8()
9.4.4 GPTQ
第10章 大模型的編譯優化
10.1 深度學習編譯與大模型編譯
10.1.1 深度學習編譯
10.1.2 多級漸進優化
10.1.3 硬件優化偏好
10.1.4 大模型的編譯特點
10.2 深度學習框架
10.2.1 深度學習框架
10.2.2 不同階段的編譯優化
10.3 訓練階段的編譯優化
10.3.1 訓練前優化
10.3.2 訓練優化庫
10.4 端側部署的編譯優化
10.4.1 深度學習框架的端側部署工具
10.4.2 第三方編譯工具
10.4.3 大模型的手動編譯優化
10.5 服務器端部署的編譯優化
第11章 大模型部署的非性能需求
11.1 內容安全
11.1.1 內容安全的分類
11.1.2 應對策略
11.2 水印
11.2.1 主要檢測技術的對比
11.2.2 大模型水印框架
11.2.3 水印攻擊技術
11.3 監控
1l.3.1 監控流程
11.3.2 大模