基於DeepSeek大模型的深度應用實踐
韓曉晨
相關主題
商品描述
目錄大綱
目 錄
第1部分 理論基礎與技術實現
第1章 大模型技術導論 3
1.1 深度學習與大模型的演進 3
1.1.1 深度學習的歷史背景 4
1.1.2 Transformer架構的崛起與影響 6
1.1.3 MoE模型簡介 6
1.2 大模型的核心概念 7
1.2.1 參數規模與計算復雜度 7
1.2.2 數據驅動的模型優化 8
1.2.3 架構創新的推動作用 9
1.3 生態系統與開源框架 11
1.3.1 開源模型的價值 11
1.3.2 DeepSeek系列模型生態概述 12
1.3.3 應用場景與案例 14
1.4 面向應用的智能模型構建 16
1.4.1 從理論到實踐的轉換 16
1.4.2 應用開發中的常見挑戰 18
1.4.3 DeepSeek在工業中的應用 20
1.5 本章小結 22
1.6 思考題 23
第2章 DeepSeek核心架構解析 24
2.1 Transformer與多頭註意力機制 25
2.1.1 基礎架構復盤 25
2.1.2 深度註意力優化 28
2.1.3 高效解碼策略 31
2.2 MoE模型的深入剖析 33
2.2.1 動態路由機制詳解 34
2.2.2 專家負載均衡策略 36
2.2.3 高效通信優化 39
2.3 FP8混合精度計算 41
2.3.1 精度與性能的平衡 41
2.3.2 FP8的實現與實踐 45
2.3.3 面向經濟成本的設計原則 48
2.4 深度優化技術 50
2.4.1 DualPipe雙管道並行算法 51
2.4.2 上下文窗口擴展技術 54
2.4.3 數據與模型並行的協同優化 56
2.5 跨節點通信技術詳解 59
2.5.1 跨節點通信機制:All-to-All 59
2.5.2 InfiniBand優化 62
2.5.3 NVLink帶寬優化 65
2.6 本章小結 70
2.7 思考題 70
第3章 基於DeepSeek的大模型開發基礎 73
3.1 開發環境與工具鏈 73
3.1.1 API配置與調用流程 73
3.1.2 開源工具與開發框架整合 76
3.1.3 工程化部署與優化 79
3.2 數據準備與預處理 81
3.2.1 數據清洗與標註 82
3.2.2 多語言處理與兼容性 85
3.3 模型訓練與調優 88
3.3.1 超參數選擇與調整 89
3.3.2 訓練過程的監控與調試 92
3.3.3 訓練瓶頸與解決方案 95
3.4 模型評估與上線 99
3.4.1 模型的性能測試與優化指標 99
3.4.2 部署前驗證流程 102
3.4.3 實時服務與持續改進 105
3.5 本章小結 108
3.6 思考題 108
第4章 對話生成與語義理解 110
4.1 對話模型的輸入與輸出設計 110
4.1.1 對話上下文管理 110
4.1.2 多輪對話生成優化 112
4.1.3 對話質量評估方法 117
4.2 DeepSeek在對話任務中的表現 120
4.2.1 問答系統的實現 120
4.2.2 情景模擬與角色扮演 126
4.2.3 個性化對話的實現 128
4.3 語義理解的技術路徑 136
4.3.1 基於深度學習的文本分析 136
4.3.2 深層語義建模 143
4.3.3 領域適配與語義特化 149
4.4 基於DeepSeek的對話模型創新 151
4.4.1 填空生成技術 151
4.4.2 前綴續寫與創意生成 157
4.4.3 特殊格式輸出 159
4.5 本章小結 161
4.6 思考題 161
第2部分 開發實踐與技術應用
第5章 智能開發:從文本到代碼 165
5.1 編程智能助手的核心技術 165
5.1.1 代碼生成的基礎邏輯 165
5.1.2 多語言編程支持 168
5.1.3 算法輔助與優化 171
5.2 DeepSeek在編程任務中的表現 179
5.2.1 自動補全與錯誤檢測 179
5.2.2 算法問題求解 182
5.2.3 項目開發的輔助能力 190
5.3 高效代碼生成與調試 206
5.3.1 生成過程的控制技巧 206
5.3.2 調試能力的技術實現 208
5.3.3 工程化項目集成 211
5.4 開發環境集成實戰 214
5.4.1 基於VS Code的插件開發 215
5.4.2 API與IDE的無縫銜接 218
5.5 本章小結 223
5.6 思考題 223
第6章 DeepSeek的多任務與跨領域應用 225
6.1 多任務學習的技術架構 225
6.1.1 多任務模型的基本原理 225
6.1.2 多任務學習的權重共享策略 227
6.1.3 DeepSeek在多任務場景下的優化 237
6.2 任務特化模型的開發與微調 238
6.2.1 模型微調的核心技術 238
6.2.2 基於少樣本學習的任務適配 245
6.3 跨領域任務的實際應用 253
6.3.1 文本生成與內容創作 253
6.3.2 代碼生成與算法優化 257
6.3.3 科學計算與公式推理 263
6.4 DeepSeek跨領域應用的案例分析 273
6.4.1 教育領域的智能問答系統 273
6.4.2 金融領域的文本挖掘與分析 276
6.4.3 工程領域的高效文檔生成 279
6.5 本章小結 285
6.6 思考題 285
第7章 Prompt設計 287
7.1 提示工程基礎 287
7.1.1 Prompt優化的基本原理 287
7.1.2 Prompt格式設計與控制 289
7.2 高級Prompt設計與應用 294
7.2.1 長上下文的提示優化 294
7.2.2 復雜指令的執行路徑 299
7.2.3 模型魯棒性提示 308
7.3 Prompt調優技術探索 313
7.3.1 Few-Shot與Zero-Shot優化 313
7.3.2 Soft Prompt與Embedding Tuning 319
7.4 本章小結 325
7.5 思考題 325
第3部分 行業應用與定製化開發
第8章 模型深度優化與部署 329
8.1 資源優化與成本控制 329
8.1.1 模型輕量化技術 329
8.1.2 顯存與內存優化 334
8.2 分佈式部署技術 341
8.2.1 數據並行與模型並行 341
8.2.2 混合並行 347
8.3 本章小結 355
8.4 思考題 355
第9章 數據構建與自監督學習 356
9.1 高質量訓練數據的構建:以醫院門診數據為例 356
9.1.1 醫療數據的採集與標註 356
9.1.2 數據特化:門診數據去重與清洗 359
9.2 自監督學習技術 361
9.2.1 自監督學習任務的設計與實現 361
9.2.2 模型的自適應學習能力 362
9.3 本章小結 366
9.4 思考題 366
第10章 面向工業的定製化模型開發 368
10.1 企業需求分析與場景識別 368
10.1.1 業務場景的智能化需求 368
10.1.2 不同行業的應用特點 370
10.2 定製化模型開發流程 371
10.2.1 數據模型設計 371
10.2.2 任務特化微調與訓練 375
10.2.3 模型集成與系統部署 378
10.3 定製化案例分析 381
10.3.1 零售行業的需求預測系統 381
10.3.2 製造行業的生產效率優化:服裝倉庫調度問題 384
10.4 本章小結 387
10.5 思考題 388
第11章 全新推理大模型DeepSeek-R1 389
11.1 DeepSeek-R1的推理能力與計算優化 389
11.1.1 自回歸推理的執行機制與緩存加速策略 389
11.1.2 長文本上下文跟蹤:窗口註意力與KV緩存 390
11.1.3 低功耗設備上的模型壓縮與輕量化推理 392
11.2 DeepSeek-R1的核心架構解析 393
11.2.1 計算圖優化與Transformer結構改進 394
11.2.2 MoE動態路由機制與負載均衡 395
11.2.3 高效訓練框架:流水線並行與分佈式計算 398
11.3 API調用與應用開發指南 399
11.3.1 API請求參數詳解 399
11.3.2 高級API能力:流式推理、多任務指令與函數調用 400
11.3.3 API吞吐率優化與並發調用管理 402
11.4 DeepSeek-R1在多任務推理中的表現 404
11.4.1 數學符號推理、代數計算與公式解析 404
11.4.2 事實性知識檢索:RAG增強與模型幻覺抑制 406
11.4.3 多輪對話與長程推理:上下文窗口裁剪與動態記憶 407
11.5 本章小結 409
11.6 思考題 409