多模態大模型技術與開發實戰

薛棟

  • 出版商: 人民郵電
  • 出版日期: 2025-02-01
  • 定價: $659
  • 售價: 8.5$560
  • 語言: 簡體中文
  • 頁數: 359
  • ISBN: 7115655383
  • ISBN-13: 9787115655387
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • 多模態大模型技術與開發實戰-preview-1
  • 多模態大模型技術與開發實戰-preview-2
多模態大模型技術與開發實戰-preview-1

商品描述

本書循序漸進地闡述了多模態大模型的核心開發技術與應用實戰的知識。全書共10章,分別講解了多模態技術概述、多模態模型與框架、多模態數據處理、多模態表示學習、多模態嵌入表示、多模態大模型的訓練、多模態大模型的評估與驗證、基於多模態大模型的翻譯系統、基於多模態大模型的音視頻廣義零樣本學習系統、基於Diffusion Transformer的文生圖系統。全書簡潔而不失技術深度,內容豐富全面,案例翔實,以通俗易懂的文字介紹了復雜的知識體系,易於閱讀,是學習多模態大模型開發的實用教程。

本書適用於已經瞭解了Python語言基礎語法,想進一步學習大模型開發、自然語言處理、電腦視覺處理、機器學習、深度學習技術的讀者,還可以作為各類院校相關專業師生的學慣用書和培訓學校的教材。

作者簡介

薛棟,華東理工大學信息科學與技術學院副教授/碩士生導師,德國慕尼黑工業大學工學博士,“上海市高層次青年人才計劃”、“浦江人才計劃”、華理“青年英才培育計劃”獲得者。長期從事基於人工智能與大數據相關研究,其中包括自然語言處理與大語言模型、工業因特網與工業軟件、復雜網絡與多智能體系統等課題。主導多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉),以及通用多模態大模型KarmaVLM(相生),所主持的 GitHub 項目累計獲得超過 4000 次 Star。

目錄大綱

第 1 章 多模態技術概述 1

1.1 多模態技術簡介 1

1.1.1 什麽是多模態 1

1.1.2 多模態技術的發展歷史 2

1.1.3 多模態技術的應用場景 3

1.2 多模態數據類型 4

1.2.1 常見的多模態類型 4

1.2.2 圖像數據 4

1.2.3 文本數據 5

1.2.4 音頻數據 5

1.2.5 視頻數據 6

1.3 多模態技術的基本原理 6

1.3.1 數據融合與對齊 6

1.3.2 多模態表示學習 7

1.3.3 多模態推理 8

第 2 章 多模態模型與框架 10

2.1 常用的深度學習框架 10

2.1.1 Tensor Flow 10

2.1.2 PyTorch 11

2.1.3 Keras 11

2.1.4 Transformer 12

2.2 多模態模型技術 13

2.2.1 ViLBERT 模型 13

2.2.2 VisualBERT 模型 14

2.2.3 OpenAI CLIP 模型 15

2.2.4 UNITER 模型 16

2.2.5 LXMERT 模型 17

2.2.6 SigLIP 模型 18

2.2.7 LoRA 微調技術 18

2.2.8 LLaVA 模型 18

2.3 預訓練模型 19

2.3.1 預訓練模型簡介 19

2.3.2 使用預訓練模型 20

2.3.3 預訓練模型的微調 24

第 3 章 多模態數據處理 28

3.1 數據預處理 28

3.1.1 文本預處理 28

3.1.2 圖像預處理 39

3.1.3 音頻預處理 43

3.1.4 視頻預處理 50

3.2 數據增強 51

3.2.1 文本數據增強 51

3.2.2 圖像數據增強 54

3.2.3 音頻數據增強 55

3.2.4 視頻數據增強 57

3.3 特徵提取 59

3.3.1 特徵在大模型中的關鍵作用 60

3.3.2 文本特徵提取 60

3.3.3 圖像特徵提取 64

3.3.4 音頻特徵提取 67

3.3.5 視頻特徵提取 68

第 4 章 多模態表示學習 71

4.1 多模態表示學習介紹 71

4.1.1 多模態表示學習簡介 71

4.1.2 多模態表示學習的主要方法 71

4.2 多模態表示學習方法 72

4.2.1 表示融合 72

4.2.2 聯合學習 76

4.2.3 表示對齊 79

4.2.4 模態間關系建模 83

4.3 基於 S3D MIL-NCE 的多模態文本到視頻檢索 86

4.3.1 項目介紹 86

4.3.2 準備工作 87

4.3.3 視頻加載和可視化 87

4.3.4 加載視頻並定義文本查詢 89

4.3.5 預處理視頻和查詢 90

4.3.6 展示結果 90

第 5 章 多模態嵌入模式 92

5.1 多模態嵌入基礎 92

5.1.1 多模態嵌入介紹 92

5.1.2 多模態嵌入的應用 92

5.2 圖像嵌入 93

5.2.1 圖像嵌入介紹 93

5.2.2 圖像特徵提取 94

5.2.3 模態對齊 97

5.2.4 CLIP 模型 100

5.3 文本嵌入 101

5.3.1 多模態模型中的文本嵌入 101

5.3.2 基於 CLIP 模型的文本嵌入 103

5.4 音頻嵌入 105

5.4.1 音頻特徵提取 105

5.4.2 常用音頻嵌入模型 107

5.5 多模態圖像搜索引擎 109

5.5.1 項目介紹 109

5.5.2 CLIP 模型的配置參數 110

5.5.3 數據集處理 111

5.5.4 實現 Bangla CLIP 模型 115

5.5.5 基於文本的圖像搜索 117

5.5.6 基於 Streamlit 的 Web客戶端 118

第 6 章 多模態大模型的訓練 121

6.1 模型訓練的過程 121

6.2 訓練策略 122

6.2.1 預訓練與微調 122

6.2.2 多任務學習 125

6.2.3 全量微調 127

6.2.4 對比學習 129

6.2.5 參數高效微調 131

6.2.6 遷移學習 133

6.2.7 人類反饋強化學習 135

6.2.8 動態學習率調整 137

6.2.9 SFT 微調 138

6.3 CLIP 模型訓練與微調 141

6.3.1 項目介紹 141

6.3.2 創建文本和圖像配對數據集 142

6.3.3 構建多模態模型 145

6.3.4 訓練模型 161

6.3.5 模型微調 162

6.3.6 調試運 162

第 7 章 多模態大模型的評估與驗證 164

7.1 模型評估 164

7.1.1 模型評估的必要性 164

7.1.2 評估指標 165

7.1.3 單模態性能評估 168

7.1.4 多模態融合性能評估 170

7.1.5 效率與資源使用 171

7.1.6 定性評估和復雜場景評估 172

7.1.7 語音命令識別系統 173

7.2 模型驗證 183

7.2.1 模型驗證的必要性 183

7.2.2 數據準備和分割 184

7.2.3 交叉驗證 185

7.2.4 嵌套交叉驗證 188

7.2.5 模態間一致性驗證 189

7.2.6 模型魯棒性驗證 190

7.2.7 驗證指標 192

7.3 多模態大模型評估基準 195

7.3.1 MM-Vet 195

7.3.2 MMEvalPro 196

7.3.3 MMT-Bench 197

7.4 CLIP 模型的增強訓練與評估 197

7.4.1 項目介紹 197

7.4.2 定義數據集 198

7.4.3 創建模型 201

7.4.4 分詞器 207

7.4.5 損失函數 209

7.4.6 模型訓練 210

7.4.7 模型評估 218

7.4.8 文本重寫 221

第 8 章 基於多模態大模型的翻譯系統 225

8.1 背景介紹 225

8.2 系統分析 225

8.2.1 系統需求分析 225

8.2.2 技術架構分析 226

8.2.3 項目介紹 226

8.3 準備數據集 227

8.3.1 Multi30k 數據集介紹 227

8.3.2 下載 Multi30k 數據集 227

8.3.3 下載 WIT 數據集中的圖像數據 229

8.4 數據集處理 230

8.4.1 PyTorch 數據集類 230

8.4.2 數據處理和後處理 233

8.4.3 數據集填充 236

8.4.4 獲取 Multi30k 數據集的數據 237

8.4.5 獲取 WIT 數據集的數據 239

8.4.6 獲取 WMT 數據集的文本數據 241

8.5 多模態大模型 243

8.5.1 功能函數 243

8.5.2 適配器模型 244

8.5.3 獲取文本輸入的嵌入表示 245

8.5.4 多模態模型類 246

8.5.5 多模態文本生成任務模型 247

8.5.6 分佈式訓練 248

8.5.7 模型訓練和測試 250

8.5.8 主程序 253

第 9 章 基於多模態大模型的音視頻廣義零樣本學習系統 256

9.1 背景介紹 256

9.2 系統分析 256

9.2.1 系統需求分析 256

9.2.2 功能分析 257

9.3 系統配置 258

9.3.1 命令行接口 258

9.3.2 數據集處理 260

9.3.3 輔助函數 267

9.4 特徵提取 275

9.4.1 從 ActivityNet 數據集提取特徵 275

9.4.2 從 UCF101 數據集提取特徵 278

9.4.3 從 VGGSound 數據集提取特徵 280

9.5 多模態模型 283

9.5.1 多模態數據學習模型 283

9.5.2 性能評估指標 289

9.5.3 模型優化器 295

9.5.4 模型訓練和驗證 296

9.5.5 模型的評估 300

9.5.6 主文件 302

9.6 調試運行 307

第 10 章 基於 Diffusion Transformer 的文生圖系統 310

10.1 Diffusion Transformer 介紹 310

10.1.1 Diffusion Transformer 的特點 310

10.1.2 Stable Diffusion 和 DiffusionTransformer 的區別和聯系 310

10.2 項目介紹 311

10.3 準備預訓練模型 312

10.4 擴散模型核心模塊 313

10.4.1 計算高斯分佈概率 313

10.4.2 實現擴散模型 314

10.4.3 模型擴展 328

10.4.4 採樣器調度 330

10.5 訓練模型 333

10.5.1 定義不同配置的 DiT模型 333

10.5.2 最小訓練腳本 341

10.5.3 實現 DiT 模型 343

10.5.4 DiT 模型的標準訓練 344

10.5.5 DiT 模型的全精度訓練 347

10.5.6 DiT 模型的特徵預訓練 352

10.5.7 DiT 模型的特原始訓練 352

10.5.8 DiT 模型的禁用 TF32 模式訓練 352

10.6 生成圖像 353

10.6.1 預訓練生成 353

10.6.2 基於 DDP 的圖像生成 354

10.7 調試運行 357