大模型RAG應用開發:構建智能生成系統

凌峰

  • 出版商: 清華大學
  • 出版日期: 2025-04-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • ISBN: 7302685983
  • ISBN-13: 9787302685982
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • 大模型RAG應用開發:構建智能生成系統-preview-1
  • 大模型RAG應用開發:構建智能生成系統-preview-2
  • 大模型RAG應用開發:構建智能生成系統-preview-3
大模型RAG應用開發:構建智能生成系統-preview-1

相關主題

商品描述

"《大模型RAG應用開發:構建智能生成系統》系統介紹檢索增強生成(RAG)技術的核心概念、開發流程和實際應用。《大模型RAG應用開發:構建智能生成系統》共分為11章,第1~3章詳細介紹RAG開發的基礎,包括環境搭建、常用工具和模塊,幫助讀者從零開始理解RAG系統的工作原理與開發技巧;第4~8章聚焦RAG系統的具體搭建,從向量數據庫的創建、文本的向量化,到如何構建高效的檢索增強模型,為開發RAG應用奠定基礎;第9~11章通過實際案例,包括企業文檔問答系統、醫療文獻檢索系統和法律法規查詢助手的實際開發,幫助讀者在特定領域深入理解和應用RAG技術。 《大模型RAG應用開發:構建智能生成系統》適合RAG技術初學者、大模型和AI研發人員、數據分析和挖掘工程師,以及高年級本科生和研究生閱讀,也可作為培訓機構和高校相關課程的教學用書或參考書。"

目錄大綱

目    錄

第 1 章  搭建RAG開發環境 1

1.1  Python開發環境搭建 1

1.1.1  虛擬環境的創建管理 1

1.1.2  IDE的選擇與工作流的搭建 5

1.1.3  依賴庫安裝與版本管理 8

1.2  RAG開發中常用的Python依賴庫 10

1.2.1  數據處理必備庫:Pandas與NumPy 10

1.2.2  自然語言處理工具:NLTK與spaCy 13

1.2.3  向量檢索與模型處理:FAISS與Transformers庫簡介 16

1.3  RAG開發中常用的外部模塊 20

1.3.1  數據採集與預處理:Requests與BeautifulSoup 20

1.3.2  並行與異步處理:Multiprocessing與Asyncio 24

1.4  RAG與智能體 28

1.4.1  智能體的基本定義與作用 28

1.4.2  智能體的類型:反應型、認知型與學習型 30

1.5  基於RAG的智能體開發基礎 31

1.5.1  開發環境與工具 32

1.5.2  智能體開發中的關鍵算法:搜索、優化與規劃 35

1.5.3  智能體的性能評估與調試方法 37

1.6  本章小結 40

1.7  思考題 41

第 2 章  傳統生成與檢索增強生成 42

2.1  生成式AI和RAG的基本概念 42

2.1.1  生成式AI的核心原理與工作機制 43

2.1.2  生成檢索結合 45

2.1.3  檢索增強與傳統生成模型的區別 48

2.2  為何需要對傳統大模型進行檢索增強 51

2.2.1  預訓練大模型的瓶頸 52

2.2.2  RAG在實時信息處理中的優勢 53

2.3  檢索增強核心:預訓練大模型 53

2.3.1  Transformer架構的崛起:語言模型背後的核心引擎 54

2.3.2  從BERT到GPT-4:大模型發展的重要里程碑 56

2.4  本章小結 57

2.5  思考題 57

第 3 章  RAG模型的工作原理 59

3.1  檢索模塊與生成模塊 59

3.1.1  檢索模塊的核心功能與數據流 59

3.1.2  生成模塊在內容創建中的作用 63

3.1.3  檢索與生成的協同工作機制 65

3.2  向量檢索:將文本轉換為向量 68

3.2.1  文本嵌入的基本原理與技術 69

3.2.2  高效向量檢索:從相似度到索引優化 72

3.2.3  向量檢索在RAG中的實際應用 76

3.3  RAG開發中常用的生成模型簡介 80

3.3.1  GPT家族:從GPT-2到GPT-4的演進 80

3.3.2  BERT與T5:理解與生成的跨模型應用 82

3.4  本章小結 83

3.5  思考題 84

第 4 章  搭建一個簡單的RAG系統 86

4.1  創建小型向量數據庫 86

4.1.1  數據準備與預處理:搭建數據庫的第一步 86

4.1.2  嵌入生成與存儲:從文本到向量的轉換 89

4.1.3  使用FAISS構建檢索索引:實現高效查詢 92

4.2  利用公開模型實現簡單的問答系統 96

4.2.1  加載預訓練模型:選擇合適的生成模型 96

4.2.2  檢索與生成模塊的集成:構建問答流程 100

4.2.3  測試與優化:提升回答的準確性和一致性 103

4.3  本章小結 107

4.4  思考題 107

第 5 章  數據向量化與FAISS開發 109

5.1  什麽是向量檢索:原理與常用算法 109

5.1.1  向量檢索的基本概念:從相似性到距離度量 109

5.1.2  常用的向量檢索算法:線性搜索與近似最近鄰 113

5.1.3  向量檢索在RAG中的應用:增強上下文匹配 116

5.2  使用FAISS構建高效的向量檢索系統 119

5.2.1  FAISS索引結構解析:平面索引、倒排索引與產品量化 119

5.2.2  構建和訓練FAISS索引:提高檢索速度和準確性 122

5.2.3  FAISS在大規模數據中的優化策略:多級索引與分片 125

5.3  數據的向量化:Embedding的生成 128

5.3.1  嵌入生成模型選擇:如何匹配檢索任務需求 129

5.3.2  文本嵌入的生成與存儲:從編碼到持久化 131

5.4  本章小結 134

5.5  思考題 135

第 6 章  文本檢索增強與上下文構建 136

6.1  如何讓生成模型“理解”檢索到的內容 136

6.1.1  檢索與生成的無縫銜接:內容重構與語義理解 136

6.1.2  語義相似度與匹配:提升生成的準確性 139

6.1.3  從檢索到生成的優化路徑:模型理解的增強 141

6.2  上下文的構建與傳遞 144

6.2.1  構建有效的上下文:信息篩選與組織策略 145

6.2.2  多步上下文傳遞:保持生成內容的連貫性 147

6.2.3  上下文優化技巧:減少冗餘與增加相關性 150

6.3  多輪對話與復雜生成任務的實現 154

6.3.1  多輪交互的構建:讓生成模型模擬人類對話 154

6.3.2  長對話與上下文管理:模型記憶的實現方法 157

6.3.3  復雜生成任務分解:如何逐步實現多步驟生成 160

6.4  本章小結 164

6.5  思考題 165

第 7 章  構建檢索向量數據庫 167

7.1  數據的準備與清洗 167

7.1.1  數據質量提升:數據清洗與規範化流程 167

7.1.2  數據標註與分類:構建高效檢索的基礎 171

7.2  如何創建和管理向量數據庫 175

7.2.1  向量數據庫的構建步驟:從嵌入到存儲 175

7.2.2  高效管理:向量索引與檢索優化 178

7.3  本章小結 182

7.4  思考題 182

第 8 章  針對延遲與緩存的模型性能調優 184

8.1  調整生成與檢索模塊的協同參數 184

8.1.1  生成與檢索的平衡:優化參數的核心原則 184

8.1.2  動態參數調節:提升響應質量與精度 187

8.2  縮短RAG系統的響應時間 190

8.2.1  延遲分析與瓶頸定位:加速響應的第一步 191

8.2.2  緩存與並行處理策略:實現高效RAG系統 194

8.3  本章小結 197

8.4  思考題 197

第 9 章  企業文檔問答系統的開發 199

9.1  需求分析與系統設計 199

9.1.1  確定問答系統的需求:識別用戶的主要查詢類型與目標 200

9.1.2  系統結構與模塊劃分:明確檢索與生成模塊的協作方式 201

9.2  搭建向量數據庫與檢索模塊 201

9.2.1  數據預處理與向量化:生成高效的嵌入向量 202

9.2.2  構建與優化索引:提升檢索模塊的查詢速度 204

9.3  生成模塊的集成與模型調優 206

9.3.1  加載與配置生成模型:選擇適合問答系統的生成模型 207

9.3.2  模型優化與提示詞調優:提高生成內容的準確性與相關性 209

9.4  系統測試、部署與優化 211

9.4.1  測試流程與性能監控:確保系統的穩定性與響應速度 211

9.4.2  企業環境的部署與上線:實現系統在實際業務中的應用 214

9.5  本章小結 222

9.6  思考題 222

第 10 章  醫療文獻檢索與分析系統的開發 224

10.1  需求分析與數據準備 224

10.1.1  確定醫學文獻檢索需求:識別用戶查詢重點 225

10.1.2  數據收集與清洗:構建高質量的醫學知識庫 226

10.2  構建高效的檢索模塊 232

10.2.1  設計向量檢索系統:提升檢索效率 232

10.2.2  優化索引結構:加速醫學文獻的精確匹配 235

10.3  生成模塊開發、集成和調優 239

10.3.1  生成模型與檢索的集成:精準回答用戶提問 239

10.3.2  生成內容的優化與提示詞調優:提升回答的質量與專業性 241

10.4  本章小結 249

10.5  思考題 250

第 11 章  法律法規查詢助手的開發 251

11.1  需求分析與數據收集 251

11.1.1  用戶需求解析:明確法律法規查詢的主要需求 252

11.1.2  法律法規數據源與收集方法:搭建全面的法規數據庫 253

11.1.3  數據清洗與標準化:提升查詢效率和準確性 253

11.2  法律法規檢索模塊的實現 257

11.2.1  向量化法律條款:構建檢索友好的嵌入 257

11.2.2  FAISS索引在法規查詢中的應用:提升檢索性能 259

11.2.3  優化檢索流程:提高法律條款的匹配精度 261

11.3  生成模塊開發與輸出優化 264

11.3.1  生成模型與檢索模塊的集成:構建準確的法規回答 265

11.3.2  輸出格式與內容優化:提供清晰的法律解釋 267

11.3.3  提示詞調優與模型配置:確保法律回答的專業性 268

11.4  本章小結 273

11.5  思考題 273