基於DeepSeek大模型的深度應用實踐

韓曉晨

  • 出版商: 清華大學
  • 出版日期: 2025-04-01
  • 定價: $774
  • 售價: 8.5$658
  • 語言: 簡體中文
  • ISBN: 7302685991
  • ISBN-13: 9787302685999
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • 基於DeepSeek大模型的深度應用實踐-preview-1
  • 基於DeepSeek大模型的深度應用實踐-preview-2
  • 基於DeepSeek大模型的深度應用實踐-preview-3
基於DeepSeek大模型的深度應用實踐-preview-1

相關主題

商品描述

"《基於DeepSeek大模型的深度應用實踐》結合大模型的理論基礎,系統地闡述了DeepSeek大模型的技術架構、開發實踐與行業應用。全書分為3部分11章,第1~4章深入介紹大模型的理論基礎與核心技術,包括大模型的核心概念、Transformer與MoE機制,以及DeepSeek架構的關鍵設計思想、優化策略與開發基礎等。第5~7章聚焦於實際應用開發,詳細講解如何在DeepSeek平臺上構建智能開發工具,包括編程智能助手的技術實現、智能代碼生成、調試、多任務跨領域應用以及Prompt設計等。第8~10章深入探討了大模型在行業中的定製化應用,通過多個案例展示了大模型如何解決零售、製造等行業中的具體業務問題,幫助讀者掌握從需求分析到模型部署的全流程。第11章詳細介紹了DeepSeek-R1的關鍵技術。 《基於DeepSeek大模型的深度應用實踐》理論兼備實踐,涵蓋從DeepSeek-V3到R1的完整技術路徑,適合大模型和AI研發人員、高校師生以及企業工程師和行業從業者,也可作為培訓機構和高校相關課程的教材或參考書。"

目錄大綱

目    錄

第1部分  理論基礎與技術實現

第1章  大模型技術導論 3

1.1  深度學習與大模型的演進 3

1.1.1  深度學習的歷史背景 4

1.1.2  Transformer架構的崛起與影響 6

1.1.3  MoE模型簡介 6

1.2  大模型的核心概念 7

1.2.1  參數規模與計算復雜度 7

1.2.2  數據驅動的模型優化 8

1.2.3  架構創新的推動作用 9

1.3  生態系統與開源框架 11

1.3.1  開源模型的價值 11

1.3.2  DeepSeek系列模型生態概述 12

1.3.3  應用場景與案例 14

1.4  面向應用的智能模型構建 16

1.4.1  從理論到實踐的轉換 16

1.4.2  應用開發中的常見挑戰 18

1.4.3  DeepSeek在工業中的應用 20

1.5  本章小結 22

1.6  思考題 23

第2章  DeepSeek核心架構解析 24

2.1  Transformer與多頭註意力機制 25

2.1.1  基礎架構復盤 25

2.1.2  深度註意力優化 28

2.1.3  高效解碼策略 31

2.2  MoE模型的深入剖析 33

2.2.1  動態路由機制詳解 34

2.2.2  專家負載均衡策略 36

2.2.3  高效通信優化 39

2.3  FP8混合精度計算 41

2.3.1  精度與性能的平衡 41

2.3.2  FP8的實現與實踐 45

2.3.3  面向經濟成本的設計原則 48

2.4  深度優化技術 50

2.4.1  DualPipe雙管道並行算法 51

2.4.2  上下文窗口擴展技術 54

2.4.3  數據與模型並行的協同優化 56

2.5  跨節點通信技術詳解 59

2.5.1  跨節點通信機制:All-to-All 59

2.5.2  InfiniBand優化 62

2.5.3  NVLink帶寬優化 65

2.6  本章小結 70

2.7  思考題 70

第3章  基於DeepSeek的大模型開發基礎 73

3.1  開發環境與工具鏈 73

3.1.1  API配置與調用流程 73

3.1.2  開源工具與開發框架整合 76

3.1.3  工程化部署與優化 79

3.2  數據準備與預處理 81

3.2.1  數據清洗與標註 82

3.2.2  多語言處理與兼容性 85

3.3  模型訓練與調優 88

3.3.1  超參數選擇與調整 89

3.3.2  訓練過程的監控與調試 92

3.3.3  訓練瓶頸與解決方案 95

3.4  模型評估與上線 99

3.4.1  模型的性能測試與優化指標 99

3.4.2  部署前驗證流程 102

3.4.3  實時服務與持續改進 105

3.5  本章小結 108

3.6  思考題 108

第4章  對話生成與語義理解 110

4.1  對話模型的輸入與輸出設計 110

4.1.1  對話上下文管理 110

4.1.2  多輪對話生成優化 112

4.1.3  對話質量評估方法 117

4.2  DeepSeek在對話任務中的表現 120

4.2.1  問答系統的實現 120

4.2.2  情景模擬與角色扮演 126

4.2.3  個性化對話的實現 128

4.3  語義理解的技術路徑 136

4.3.1  基於深度學習的文本分析 136

4.3.2  深層語義建模 143

4.3.3  領域適配與語義特化 149

4.4  基於DeepSeek的對話模型創新 151

4.4.1  填空生成技術 151

4.4.2  前綴續寫與創意生成 157

4.4.3  特殊格式輸出 159

4.5  本章小結 161

4.6  思考題 161

第2部分  開發實踐與技術應用

第5章  智能開發:從文本到代碼 165

5.1  編程智能助手的核心技術 165

5.1.1  代碼生成的基礎邏輯 165

5.1.2  多語言編程支持 168

5.1.3  算法輔助與優化 171

5.2  DeepSeek在編程任務中的表現 179

5.2.1  自動補全與錯誤檢測 179

5.2.2  算法問題求解 182

5.2.3  項目開發的輔助能力 190

5.3  高效代碼生成與調試 206

5.3.1  生成過程的控制技巧 206

5.3.2  調試能力的技術實現 208

5.3.3  工程化項目集成 211

5.4  開發環境集成實戰 214

5.4.1  基於VS Code的插件開發 215

5.4.2  API與IDE的無縫銜接 218

5.5  本章小結 223

5.6  思考題 223

第6章  DeepSeek的多任務與跨領域應用 225

6.1  多任務學習的技術架構 225

6.1.1  多任務模型的基本原理 225

6.1.2  多任務學習的權重共享策略 227

6.1.3  DeepSeek在多任務場景下的優化 237

6.2  任務特化模型的開發與微調 238

6.2.1  模型微調的核心技術 238

6.2.2  基於少樣本學習的任務適配 245

6.3  跨領域任務的實際應用 253

6.3.1  文本生成與內容創作 253

6.3.2  代碼生成與算法優化 257

6.3.3  科學計算與公式推理 263

6.4  DeepSeek跨領域應用的案例分析 273

6.4.1  教育領域的智能問答系統 273

6.4.2  金融領域的文本挖掘與分析 276

6.4.3  工程領域的高效文檔生成 279

6.5  本章小結 285

6.6  思考題 285

第7章  Prompt設計 287

7.1  提示工程基礎 287

7.1.1  Prompt優化的基本原理 287

7.1.2  Prompt格式設計與控制 289

7.2  高級Prompt設計與應用 294

7.2.1  長上下文的提示優化 294

7.2.2  復雜指令的執行路徑 299

7.2.3  模型魯棒性提示 308

7.3  Prompt調優技術探索 313

7.3.1  Few-Shot與Zero-Shot優化 313

7.3.2  Soft Prompt與Embedding Tuning 319

7.4  本章小結 325

7.5  思考題 325

第3部分  行業應用與定製化開發

第8章  模型深度優化與部署 329

8.1  資源優化與成本控制 329

8.1.1  模型輕量化技術 329

8.1.2  顯存與內存優化 334

8.2  分佈式部署技術 341

8.2.1  數據並行與模型並行 341

8.2.2  混合並行 347

8.3  本章小結 355

8.4  思考題 355

第9章  數據構建與自監督學習 356

9.1  高質量訓練數據的構建:以醫院門診數據為例 356

9.1.1  醫療數據的採集與標註 356

9.1.2  數據特化:門診數據去重與清洗 359

9.2  自監督學習技術 361

9.2.1  自監督學習任務的設計與實現 361

9.2.2  模型的自適應學習能力 362

9.3  本章小結 366

9.4  思考題 366

第10章  面向工業的定製化模型開發 368

10.1  企業需求分析與場景識別 368

10.1.1  業務場景的智能化需求 368

10.1.2  不同行業的應用特點 370

10.2  定製化模型開發流程 371

10.2.1  數據模型設計 371

10.2.2  任務特化微調與訓練 375

10.2.3  模型集成與系統部署 378

10.3  定製化案例分析 381

10.3.1  零售行業的需求預測系統 381

10.3.2  製造行業的生產效率優化:服裝倉庫調度問題 384

10.4  本章小結 387

10.5  思考題 388

第11章  全新推理大模型DeepSeek-R1 389

11.1  DeepSeek-R1的推理能力與計算優化 389

11.1.1  自回歸推理的執行機制與緩存加速策略 389

11.1.2  長文本上下文跟蹤:窗口註意力與KV緩存 390

11.1.3  低功耗設備上的模型壓縮與輕量化推理 392

11.2  DeepSeek-R1的核心架構解析 393

11.2.1  計算圖優化與Transformer結構改進 394

11.2.2  MoE動態路由機制與負載均衡 395

11.2.3  高效訓練框架:流水線並行與分佈式計算 398

11.3  API調用與應用開發指南 399

11.3.1  API請求參數詳解 399

11.3.2  高級API能力:流式推理、多任務指令與函數調用 400

11.3.3  API吞吐率優化與並發調用管理 402

11.4  DeepSeek-R1在多任務推理中的表現 404

11.4.1  數學符號推理、代數計算與公式解析 404

11.4.2  事實性知識檢索:RAG增強與模型幻覺抑制 406

11.4.3  多輪對話與長程推理:上下文窗口裁剪與動態記憶 407

11.5  本章小結 409

11.6  思考題 409

最後瀏覽商品 (20)