多模態大模型:算法、應用與微調

劉兆峰

  • 出版商: 機械工業
  • 出版日期: 2024-07-01
  • 定價: $714
  • 售價: 8.5$607 (限時優惠至 2024-12-05)
  • 語言: 簡體中文
  • 頁數: 404
  • 裝訂: 平裝
  • ISBN: 7111754883
  • ISBN-13: 9787111754886
  • 相關分類: LangChain
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

本書詳盡地涵蓋了多模態大模型的演算法原理與應用實戰,
提供了豐富的微調技術細節和實際案例,適合對多模態大模型有興趣的技術人員深入學習及應用。
本書分為兩篇:演算法原理篇 詳細介紹了 的深度學習模型,包括Transformer、GPT系列、深度生成模型,
從基本架構、訓練方法到特定應用,包括但不限於Seq2Seq結構、位置編碼、注意力機制、殘差連結、
變分自編碼器、GAN、ViT、CLIP、Stable Diffusion、各模型訓練實務的知識點。
此外,探討了預訓練模型的湧現能力、模型參數和通訊資料量的估算,
以及分散式訓練的各種技術,如資料並行、模型並行和混合精度訓練等。
應用實戰篇 聚焦於深度學習模型的實際應用,特別是文字和圖像生成,以及程式碼生成的應用實戰。
透過具體實戰項目,如利用Stable Diffusion進行影像生成和Code Llama進行程式碼生成,
提供了微調技術的詳細細節,介紹了LangChain等大型模型應用框架。

目錄大綱

目 錄
前言
篇 演算法原理
第1章 Transformer模型 2
1.1 Seq2Seq結構 2
1.1.1 分詞器 2
1.1.2 編碼器–解碼器結構 6
1.1.3 注意力機制 9
1.1.4 實戰:日期轉換 13
1.2 Transformer模型介紹 18
1.2.1 位置編碼 18
1.2.2 模型架構 24
1.2.3 標準化與殘差連結 32
1.2.4 線性層和softmax層 36
1.2.5 損失函數 36
1.2.6 實戰:日期轉換 37
1.2.7 小結 45
1.3 ViT模型介紹 46
1.3.1 注意力機制在影像上的應用 47
1.3.2 ViT模型架構 48
1.3.3 大數據預訓練 50
1.3.4 ViT模型訓練實務 52
1.4 本章總結 54
第2章 GPT系列模型 55
2.1 GPT-1 55
2.1.1 語言模型 56
2.1.2 訓練框架 56
2.1.3 模型效果分析 62
2.2 GPT-2 63
2.2.1 模型架構分析 64
2.2.2 構造訓練資料集 65
2.2.3 模型效果分析 65
2.3 GPT-3 66
2.3.1 上下文學習 67
2.3.2 構造訓練資料集 67
2.3.3 訓練停止判定 69
2.3.4 重要潛力 69
2.4 GPT-3.5 70
2.4.1 程式碼生成模型Codex 71
2.4.2 強化學習 76
2.4.3 ChatGPT的「孿生兄弟」:InstructGPT 85
2.4.4 RLAIF 96
2.5 GPT-4 97
2.5.1 GPT-4的非凡表現 98
2.5.2 基於規則的獎勵模型 99
2.5.3 多模態架構 101
2.5.4 訓練流程 103
2.5.5 局限性 104
2.6 語言模型的未來 104
2.6.1 自我學習與自我核實 105
2.6.2 稀疏專家模型 106
2.7 GPT系列的其他應用 107
2.7.1 MiniGPT-4 107
2.7.2 minGPT與nanoGPT 108
2.7.3 AutoGPT與AgentGPT 109
2.8 本章總結 109
第3章 深度生成模型 111
3.1 從自編碼器到變分自編碼器 111
3.1.1 自編碼器 111
3.1.2 變分自編碼器 116
3.2 生成對抗網 119
3.2.1 網路架構 119
3.2.2 演算法描述 120
3.2.3 實戰:手寫數位影像生成 122
3.2.4 衍生應用 125
3.3 文字與影像的橋樑:CLIP 129
3.3.1 介紹 129
3.3.2 訓練與推理 129
3.3.3 實戰:圖像文字匹配 132
3.3.4 CLIP的限制 134
3.4 穩定擴散模型:Stable Diffusion 135
3.4.1 基本組件 135
3.4.2 擴散原理 136
3.4.3 資料集建構 139
3.4.4 流程梳理 141
3.4.5 實戰:影像生成 144
3.4.6 Stable Diffusion升級 147
3.5 本章總結 148
第4章 預訓練模型 150
4.1 大模型的湧現能力 151
4.1.1 縮放法則 151
4.1.2 湧現能力 152
4.2 模型參數量估算 153
4.3 通訊資料量分析 155
4.3.1 點對點通訊 156
4.3.2 集群通訊 157
4.4 分散式訓練 161
4.4.1 基本概念 161
4.4.2 資料並行 163
4.4.3 模型並行 171
4.4.4 混合併行 177
4.4.5 混合精準度訓練 178
4.5 DeepSpeed 180
4.5.1 ZeRO 181
4.5.2 ZeRO-Offload 185
4.5.3 ZeRO-Infinity 189
4.6 模型即服務平台 190
4.6.1 ModelScope 191
4.6.2 Hugging Face 192
4.7 本章總結 196
第二篇 應用實戰
第5章 文本生成應用實戰:利用ChatPDF與文件對話 198
5.1 大模型的落地應用 198
5.1.1 外部增強:領域工具增強 200
5.1.2 提示詞工程 201
5.1.3 模型微調 207
5.2 GLM系列模型 207
5.2.1 GLM與GLM-130B 209
5.2.2 ChatGLM、ChatGLM-6B和ChatGLM2-6B 211
5.2.3 ChatGLM與ChatGPT的區別 212
5.3 參數高效率微調 213
5.3.1 Adapter Tuning 213
5.3.2 Prompt Tuning 214
5.3.3 Prefix-Tuning 215
5.3.4 P-Tuning 218
5.3.5 P-Tuning v2 219
5.3.6 ChatGLM2-6B的P-Tuning v2微調 220
5.4 大語言模型應用架構:LangChain 222
5.4.1 快速開始 223
5.4.2 基本概念 226
5.5 ChatGLM金融大模型挑戰賽 232
5.5.1 任務目標 232
5.5.2 環境準備:SQLite 234
5.5.3 問題分析 235
5.5.4 NL2SQL 245
5.5.5 DocTree 261
5.5.6 集成 271
5.6 本章總結 275
第6章 文本生成演算法實戰:DeepSpeed-Chat 276
6.1 ZeRO++ 276
6.1.1 權重量化 277
6.1.2 分層切片 278
6.1.3 梯度量化 278
6.1.4 ZeRO++與DeepSpeed-Chat結合 279
6.2 DeepSpeed-Chat快速開始 280
6.3 DeepSpeed-Chat的RLHF訓練 281
6.3.1 資料收集與整理 282
6.3.2 有監督微調 284
6.3.3 獎勵模型微調 287
6.3.4 RLHF微調 288
6.3.5 模型部署與測試 290
6.4 DeepSpeed混合引擎 290
6.5 本章總結 291
第7章 影像生成演算法實戰:Stable Diffusion微調 293
7.1 LoRA參數高效率微調技術 293
7.1.1 奇異值分解 294
7.1.2 LoRA詳解 295
7.2 用於Diffusers的LoRA微調 297
7.2.1 資料收集 297
7.2.2 訓練參數配置 300
7.2.3 模型訓練與測試 300
7.3 Stable Diffusion WebUI 302
7.3.1 安裝 304
7.3.2 模型介紹 304
7.3.3 參數介紹 307
7.3.4 其他應用 310
7.4 可控擴散模型:ControlNet 313
7.4.1 原理介紹 314
7.4.2 安裝插件並使用 316
7.5 本章總結 321
第8章 程式碼生成演算法實戰:Code Llama微調 322
8.1 任務介紹 322
8.1.1 程式碼生成模型的應用場景 323
8.1.2 相關模型介紹 327
8.1.3 常用程式碼資料集 331
8.2 Llama 2 336
8.2.1 模型介紹 336
8.2.2 預訓練 336
8.2.3 有監督微調 337
8.2.4 獎勵模型訓練 338
8.2.5 迭代微調 339
8.2.6 多輪對話一致性 339
8.3 演算法競賽大語言模型 340
8.3.1 資料取得 340
8.3.2 資料清洗 348
8.3.3 text-dedup 351
8.3.4 模型訓練 353
8.4 本章總結 358
第9章 綜合應用實戰:建構「漫畫家」生成多模態漫畫 360
9.1 應用介紹 361
9.1.1 需求分析 361
9.1.2 功能設計 363
9.2 功能實現選用 365
9.2.1 相關AI模型 365
9.2.2 後端技術棧 372
9.2.3 小結 377
9.3 相關模型部署 378
9.3.1 Stable Diffusion WebUI部署 378
9.3.2 語音辨識模型:Whisper 381
9.3.3 語音合成模型:Sambert-Hifigan 383
9.4 後端應用搭建 386
9.4.1 創建專案 387
9.4.2 配置應用 388
9.4.3 基本功能開發 390
9.5 本章總結 403