DeepSeek大模型高性能核心技術與多模態融合開發

王曉華

  • 出版商: 清華大學
  • 出版日期: 2025-03-01
  • 定價: $714
  • 售價: 8.5$607
  • 語言: 簡體中文
  • ISBN: 7302684898
  • ISBN-13: 9787302684893
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • DeepSeek大模型高性能核心技術與多模態融合開發-preview-1
  • DeepSeek大模型高性能核心技術與多模態融合開發-preview-2
  • DeepSeek大模型高性能核心技術與多模態融合開發-preview-3
DeepSeek大模型高性能核心技術與多模態融合開發-preview-1

買這商品的人也買了...

商品描述

"《DeepSeek大模型高性能核心技術與多模態融合開發》深入剖析國產之光DeepSeek多模態大模型的核心技術,從高性能註意力機制切入,深入揭示DeepSeek的技術精髓與獨特優勢,詳細闡述其在人工智能領域成功的技術秘訣。《DeepSeek大模型高性能核心技術與多模態融合開發》循序漸進地講解深度學習註意力機制的演進,從經典的多頭註意力(MHA)逐步深入DeepSeek的核心技術—多頭潛在註意力(MLA)與混合專家模型(MoE)。此外,《DeepSeek大模型高性能核心技術與多模態融合開發》還將詳細探討DeepSeek中的多模態融合策略、技術及應用實例,為讀者提供全面的理論指導與應用實踐。《DeepSeek大模型高性能核心技術與多模態融合開發》配套所有示例源碼、PPT課件、配圖PDF文件與讀者微信技術交流群。 《DeepSeek大模型高性能核心技術與多模態融合開發》共分15章,內容涵蓋高性能註意力與多模態融合概述、PyTorch深度學習環境搭建、DeepSeek註意力機制詳解(包括基礎篇、進階篇、高級篇及調優篇)、在線與本地部署的DeepSeek實戰(如旅游特種兵迪士尼大作戰、廣告文案撰寫與微調、智能客服等),以及多模態融合技術與實戰應用(如Diffusion可控圖像生成、多模態圖文理解與問答、交叉註意力語音轉換、端到端視頻分類等)。 《DeepSeek大模型高性能核心技術與多模態融合開發》既適合DeepSeek核心技術初學者、註意力機制初學者、大模型應用開發人員、多模態融合開發人員、大模型研究人員,也適合高等院校及高職高專院校人工智能大模型方向的師生。"

目錄大綱

目    錄

 

第1章  高性能註意力與多模態融合 1

1.1  從涌現到飛躍:高性能大模型的崛起 1

1.1.1  大模型的“涌現” 2

1.1.2  大模型的發展歷程 3

1.1.3  高性能大模型的崛起 4

1.2  大模型的內功:高性能註意力機制的崛起 5

1.2.1  註意力機制的基本原理 5

1.2.2  註意力機制的變革與發展 6

1.2.3  高性能註意力機制崛起:GQA與MLA 6

1.3  大模型的外拓:多模態融合 7

1.3.1  多模態外拓及其挑戰 7

1.3.2  融合策略與技術概覽 7

1.3.3  深度學習在多模態融合中的應用場景 9

1.4  高性能註意力與多模態融合的未來展望 10

1.4.1  融合技術的創新方向 11

1.4.2  註意力機制的前沿探索 11

1.5  本章小結 12

第2章  PyTorch深度學習環境搭建 13

2.1  安裝Python開發環境 13

2.1.1  Miniconda的下載與安裝 13

2.1.2  PyCharm的下載與安裝 16

2.1.3  計算softmax函數練習 20

2.2  安裝PyTorch 2.0 21

2.2.1  NVIDIA 10/20/30/40系列顯卡選擇的GPU版本 21

2.2.2  PyTorch 2.0 GPU NVIDIA運行庫的安裝 21

2.2.3  Hello PyTorch 24

2.3  多模態大模型DeepSeek初探與使用 24

2.3.1  DeepSeek模型簡介 25

2.3.2  DeepSeek帶來的技術創新 26

2.3.3  DeepSeek的第三方服務與使用示例 27

2.4  本章小結 29

第3章  註意力機制詳解之基礎篇 30

3.1  註意力機制與模型詳解 30

3.1.1  註意力機制詳解 31

3.1.2  自註意力(Self-Attention)機制 32

3.1.3  自註意力的代碼實現 37

3.1.4  ticks和Layer Normalization 38

3.1.5  多頭自註意力 39

3.2  註意力機制的應用實踐:編碼器 42

3.2.1  自編碼器的總體架構 42

3.2.2  回到輸入層:初始詞向量層和位置編碼器層 43

3.2.3  前饋層的實現 46

3.2.4  將多層模塊融合的TransformerBlock層 47

3.2.5  編碼器的實現 48

3.3  基礎篇實戰:自編碼架構的拼音漢字生成模型 53

3.3.1  漢字拼音數據集處理 54

3.3.2  搭建文本與向量的橋梁—Embedding 56

3.3.3  自編碼模型的確定 58

3.3.4  模型訓練部分的編寫 59

3.4  本章小結 60

第4章  註意力機制詳解之進階篇 62

4.1  註意力機制的第二種形態:自回歸架構 62

4.1.1  自回歸架構重大突破:旋轉位置編碼 63

4.1.2  添加旋轉位置編碼的註意力機制與現有庫包的實現 64

4.1.3  新型的激活函數SwiGLU詳解 66

4.1.4  “因果掩碼”與“錯位”輸入輸出格式詳解 67

4.2  進階篇實戰1:無須位置表示的酒店評論情感判斷 69

4.2.1  數據集的準備與讀取 69

4.2.2  使用sentencepiece建立文本詞匯表 70

4.2.3  編碼情感分類數據集 71

4.2.4  基於新架構文本分類模型設計 72

4.2.5  情感分類模型的訓練與驗證 75

4.3  進階篇實戰2:基於自回歸模型的酒店評論生成 77

4.3.1  數據集的準備與讀取 77

4.3.2  基於自回歸文本生成模型的設計 78

4.3.3  評論生成模型的訓練 82

4.3.4  使用訓練好的模型生成評論 83

4.4  本章小結 83

第5章  註意力機制詳解之高級篇 85

5.1  替代前饋層的混合專家模型詳解 86

5.1.1  混合專家模型的基本結構 86

5.1.2  混合專家模型中的“專家”與“調控”代碼實現 87

5.2  高級篇實戰1:基於混合專家模型的情感分類實戰 91

5.2.1  基於混合專家模型的MoE評論情感分類實戰 91

5.2.2  混合專家模型中負載平衡的實現 94

5.2.3  修正後的MoE門控函數 96

5.3  帶有MoE的註意力模型 97

5.3.1  註意力機制中的前饋層不足 98

5.3.2  MoE天然可作為前饋層 101

5.3.3  結合MoE的註意力機制 104

5.4  高級篇實戰2:基於通道註意力的圖像分類 105

5.4.1  數據集的準備 105

5.4.2  圖像識別模型的設計 107

5.4.3  結合通道註意力圖像分類模型 108

5.4.4  圖像識別模型SENet的訓練與驗證 110

5.5  高級篇實戰3:基於MoE與自註意力的圖像分類 111

5.5.1  基於註意力機制的ViT模型 112

5.5.2  Patch和Position Embedding 114

5.5.3  可視化的V-MoE詳解 116

5.5.4  V-MoE模型的實現 118

5.5.5  基於圖像識別模型V-MoE的訓練與驗證 119

5.5.6  使用已有的庫包實現MoE 121

5.6  本章小結 122

第6章  註意力機制詳解之調優篇 124

6.1  註意力模型優化方案講解 124

6.1.1  註意力模型優化1:MQA模型 125

6.1.2  註意力模型優化2:MLA模型 127

6.1.3  註意力模型優化3:GQA模型 129

6.1.4  註意力模型優化4:差分註意力模型 134

6.2  調優篇實戰1:基於MLA的人類語音情感分類 140

6.2.1  情緒數據的獲取與標簽的說明 140

6.2.2  情緒數據集的讀取 141

6.2.3  語音情感分類模型的設計和訓練 143

6.3  本章小結 144

第7章  旅游特種兵迪士尼大作戰:DeepSeek API調用與高精準路徑優化 146

7.1  基於在線API的大模型調用 147

7.1.1  DeepSeek的註冊與API獲取 147

7.1.2  帶有特定格式的DeepSeek的API調用 149

7.1.3  帶有約束的DeepSeek的API調用 150

7.2  智能化DeepSeek工具調用詳解 153

7.2.1  Python使用工具的基本原理 154

7.2.2  在DeepSeek中智能地使用工具 154

7.2.3  在DeepSeek中選擇性地使用工具 157

7.2.4  DeepSeek工具調用判定依據 165

7.3  旅游特種兵迪士尼大作戰:DeepSeek高精準路徑優化 170

7.3.1  游樂場數據的準備 170

7.3.2  普通大模型的迪士尼游玩求解攻略 173

7.3.3  基於動態規劃算法的迪士尼游玩求解攻略 174

7.3.4  基於DeepSeek的旅游特種兵迪士尼大作戰 176

7.4  本章小結 178

第8章  廣告文案撰寫實戰:多模態DeepSeek本地化部署與微調 179

8.1  多模態DeepSeek-VL2本地化部署與使用 180

8.1.1  Linux版本DeepSeek-VL2代碼下載與圖像問答 180

8.1.2  Windows版本DeepSeek-VL2代碼下載 182

8.2  廣告文案撰寫實戰1:PEFT與LoRA詳解 183

8.2.1  微調的目的:讓生成的結果更聚焦於任務目標 183

8.2.2  微調經典方法LoRA詳解 185

8.2.3  適配DeepSeek微調的輔助庫PEFT詳解 187

8.3  廣告文案撰寫實戰2:本地化DeepSeek-VL2微調 190

8.3.1  數據的準備 190

8.3.2  微調模型的訓練 192

8.3.3  微調模型的使用與推斷 194

8.4  本章小結 196

第9章  註意力與特徵融合範式1:Diffusion可控圖像生成 197

9.1  Diffusion生成模型精講 197

9.1.1  Diffusion Model的精講 198

9.1.2  直接運行的經典DDPM的模型訓練實戰 199

9.1.3  DDPM的模型基本模塊說明 202

9.1.4  DDPM加噪與去噪詳解:結合成功運行的擴散模型代碼 205

9.1.5  DDPM的損失函數:結合成功運行的Diffusion Model代碼 210

9.2  可控圖像生成實戰:融合特徵的註意力機制 211

9.2.1  擴散模型可控生成的基礎:特徵融合 212

9.2.2  註意力MQA中的可控特徵融合 212

9.2.3  基於註意力的擴散模型的設計 214

9.2.4  圖像的加噪與模型訓練 217

9.2.5  基於註意力模型的可控圖像生成 220

9.3  本章小結 223

第10章  註意力與特徵融合範式2:多模態圖文理解與問答 224

10.1  多模態圖文問答實戰 224

10.1.1  一種新的多模態融合方案 225

10.1.2  數據集的設計與使用 228

10.1.3  多模態融合數據集的訓練 229

10.1.4  多模態圖文問答的預測 230

10.2  更多的多模態融合方案 231

10.2.1  一種截斷的多模態融合方案 231

10.2.2  截斷後多模態模型的訓練與預測 234

10.2.3  一種加法基礎的多模態融合方案 235

10.3  本章小結 237

第11章  註意力與特徵融合範式3:交叉註意力語音轉換 239

11.1  端到端語音識別任務簡介 239

11.1.1  端到端的語音識別 240

11.1.2  中文語音文本數據集說明 241

11.2  端到端音頻特徵提取庫librosa的使用 243

11.2.1  音頻信號的基本讀取方法 243

11.2.2  多特徵音頻抽取 246

11.3  端到端語音識別任務簡介 248

11.3.1  全中文音頻數據集的準備 248

11.3.2  音頻特徵的提取與融合 250

11.3.3  基於生成模型的端到端語音識別任務 253

11.3.4  端到端語音識別任務的訓練與預測 255

11.4  基於PyTorch的數據處理與音頻特徵融合 257

11.4.1  THCHS30數據集的處理 257

11.4.2  基於torchaudio的音頻預處理 258

11.4.3  基於不同角度的音頻特徵獲取和簡單融合 260

11.4.4  關於特徵融合的講解 261

11.5  用於特徵融合的交叉註意力 262

11.5.1  交叉註意力詳解 262

11.5.2  帶有掩碼的交叉註意力 265

11.5.3  完整的帶有掩碼的交叉註意力端到端語音識別 267

11.5.4  基於交叉註意力的端到端語音識別的訓練與預測 269

11.5.5  基於連接concat的端到端語音識別模型 269

11.6  本章小結 271

第12章  多模態特徵token壓縮 272

12.1  圖像特徵壓縮的多種實現 272

12.1.1  Pixel-Shuffle的token壓縮 272

12.1.2  Cross-layer Token Fusion壓縮 274

12.1.3  AvgPool的token壓縮 277

12.2  基於AvgPool與自編碼器的語音識別 278

12.2.1  修改後的AvgPool函數 278

12.2.2  自編碼器語音識別模型1:數據準備 279

12.2.3  自編碼器語音識別模型2:模型設計 280

12.2.4  自編碼器語音識別模型3:模型的訓練與預測 281

12.3  本章小結 282

第13章  從二維到一維:圖像編碼器詳解與圖形重建實戰 283

13.1  圖像編碼器 284

13.1.1  從自然語言處理講起 284

13.1.2  圖像的編碼與解碼VQ-VAE 285

13.1.3  為什麽VQ-VAE採用離散向量 285

13.1.4  VQ-VAE的核心實現 287

13.2  基於VQ-VAE的手寫體生成 289

13.2.1  圖像的準備與超參數設置 289

13.2.2  VQ-VAE的編碼器與解碼器 291

13.2.3  VQ-VAE的模型設計 295

13.2.4  VQ-VAE的訓練與預測 297

13.2.5  獲取編碼後的離散token 299

13.3  基於FSQ的人臉生成 300

13.3.1  FSQ算法簡介與實現 301

13.3.2  人臉數據集的準備 303

13.3.3  基於FSQ的人臉重建方案 304

13.3.4  基於FSQ的人臉輸出與離散token 306

13.4  基於FSQ算法的語音存儲 307

13.4.1  無監督條件下的語音存儲 307

13.4.2  可作為密碼機的離散條件下的語音識別 308

13.5  本章小結 309

第14章  基於PyTorch的端到端視頻分類實戰 310

14.1  視頻分類數據集的準備 310

14.1.1  HMDB51數據集的準備 311

14.1.2  視頻抽幀的處理 312

14.1.3  基於PyTorch的數據輸入 314

14.2  註意力視頻分類實戰 315

14.2.1  對於視頻的Embedding編碼器 316

14.2.2  視頻分類模型的設計 317

14.2.3  視頻分類模型的訓練與驗證 320

14.3  使用預訓練模型的視頻分類 321

14.3.1  torchvision簡介 321

14.3.2  基於torchvision的端到端視頻分類實戰 324

14.4  本章小結 326

第15章  基於DeepSeek的跨平臺智能客服開發實戰 328

15.1  智能客服的設計與基本實現 328

15.1.1  智能客服搭建思路 329

15.1.2  商品介紹數據的格式與說明 329

15.1.3  基於DeepSeek的智能客服設計 334

15.2  帶有跨平臺客戶端的智能客服開發實戰 337

15.2.1  跨平臺客戶端Gradio使用詳解 337

15.2.2  一個簡單的Gradio示例 343

15.2.3  基於DeepSeek的跨平臺智能客服實現 343

15.3  本章小結 346