知識增強大模型

王文廣

  • 出版商: 電子工業
  • 出版日期: 2025-03-01
  • 定價: $708
  • 售價: 8.5$602
  • 語言: 簡體中文
  • 頁數: 416
  • ISBN: 7121499169
  • ISBN-13: 9787121499166
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

全書共分10 章,全面介紹知識增強大模型涉及的各類技術,涵蓋大模型、向量數據庫、圖數據庫、知識圖譜、檢索增強生成、GraphRAG 等內容,並輔以豐富的實例、精心繪制的插圖和深入淺出的技術解析,幫助讀者快速掌握知識增強大模型的理論,引導讀者逐步構建知識增強大模型應用。本書既可以作為人工智能相關的技術從業者、企業或機構管理者的工具書,指導實際工作;也適合作為人工智能、電腦等相關專業高年級本科生或研究生學習知識增強大模型應用開發的入門圖書和進階指南。

目錄大綱

第1章 緒論:迎接大模型紀元 0
1.1 大模型崛起 2
1.2 大模型的固有特性 4
1.2.1 幻覺 5
1.2.2 知識陳舊 6
1.3 知識增強大模型 6
1.4 迎接大模型紀元 8
第2章 大語言模型 10
2.1 大模型概述 12
2.2 語言模型簡史 14
2.3 大模型為何如此強大 20
2.3.1 語言模型與無監督學習 21
2.3.2 人類反饋強化學習 22
2.3.3 情境學習與思維鏈 24
2.4 如何使用大模型 29
2.4.1 翻譯 30
2.4.2 文本摘要 31
2.4.3 求解數學問題 31
2.4.4 語言學習和考試 32
2.4.5 高效撰寫文章 34
2.4.6 自動化編程和輔助編程 35
2.4.7 數據分析 38
2.5 垂直大模型 40
2.5.1 什麽是垂直大模型 41
2.5.2 垂直大模型的特點 41
2.6 思考題 42
2.7 本章小結 43
第3章 向量數據庫 44
3.1 向量表示與嵌入 46
3.1.1 語言的向量表示 47
3.1.2 圖像的向量表示 48
3.1.3 知識圖譜的向量表示 49
3.2 向量相似度 49
3.2.1 L2距離 50
3.2.2 餘弦相似度 51
3.2.3 內積相似度 52
3.2.4 L1距離 53
3.3 向量索引與檢索方法 54
3.3.1 最近鄰檢索和近似最近鄰檢索 55
3.3.2 局部敏感哈希算法 56
3.3.3 基於圖結構的HNSW算法 58
3.3.4 向量量化與乘積量化 63
3.4 Milvus向量數據庫 65
3.4.1 Milvus架構 66
3.4.2 向量索引方法 68
3.4.3 向量檢索方法 70
3.4.4 數據一致性 70
3.4.5 用戶認證與權限控制 72
3.5 Milvus向量數據庫實戰指南 73
3.5.1 安裝、配置和運行Milvus 73
3.5.2 連接服務器和創建數據庫 75
3.5.3 數據準備 76
3.5.4 創建集合 77
3.5.5 創建索引 80
3.5.6 插入數據 81
3.5.7 加載數據 82
3.5.8 標量查詢 83
3.5.9 單向量檢索 84
3.5.10 混合檢索 87
3.6 其他主流的向量數據庫系統與工具 91
3.6.1 原生向量數據庫 91
3.6.2 數據庫的向量處理擴展 92
3.6.3 向量索引和檢索庫 93
3.7 思考題 94
3.8 本章小結 94
第4章 檢索增強生成 96
4.1 檢索增強生成概述 98
4.2 為什麽需要RAG 99
4.2.1 RAG、SFT與LoRA 99
4.2.2 長上下文與RAG 102
4.2.3 鋰電池供應鏈管理案例 103
4.2.4 RAG的特點 105
4.3 通用的RAG流程 106
4.3.1 創建知識庫 107
4.3.2 知識檢索 107
4.3.3 大模型生成答案 108
4.3.4 質量評估與迭代優化 109
4.4 使用Dify構建RAG系統 110
4.4.1 Dify概述 110
4.4.2 安裝Dify 111
4.4.3 初始化Dify 115
4.4.4 創建知識庫 116
4.4.5 簡單的RAG應用 119
4.4.6 RAG效果優化 121
4.4.7 引入Elasticsearch 123
4.4.8 構建RAG系統 129
4.5 RAG系統的最佳實踐 135
4.5.1 文本分塊 135
4.5.2 分層檢索 136
4.5.3 查詢改寫 137
4.5.4 檢索路由 138
4.6 其他主流的RAG系統框架 138
4.6.1 LobeChat 138
4.6.2 Quivr 139
4.6.3 LlamaIndex 139
4.6.4 Open WebUI 139
4.7 思考題 140
4.8 本章小結 140
第5章 知識圖譜技術體系 142
5.1 什麽是知識圖譜 144
5.1.1 知識圖譜的相關概念及其定義 144
5.1.2 知識圖譜實例 146
5.1.3 大腦的聯想機制與知識圖譜的關系建模 147
5.2 DIKW模型與知識圖譜 149
5.2.1 DIKW模型 149
5.2.2 從DIKW模型到知識圖譜 150
5.2.3 知識圖譜的內涵與外延 151
5.2.4 知識的源流與知識圖譜 152
5.3 知識圖譜的技術體系 153
5.3.1 知識圖譜模式設計與管理 153
5.3.2 知識圖譜構建技術 154
5.3.3 知識圖譜存儲技術 156
5.3.4 知識圖譜應用技術 156
5.3.5 用戶接口與界面 158
5.4 知識圖譜模式設計的基本原則 159
5.4.1 賦予一類事物合適的名字 159
5.4.2 建立事物間清晰的聯系 160
5.4.3 明確且正式的語義表達 161
5.5 知識圖譜模式設計的六韜法 162
5.6 大模型結合六韜法設計知識圖譜模式 165
5.6.1 場景:對齊參與各方的認知 166
5.6.2 復用:站在巨人的肩膀上 168
5.6.3 事物:定義實體類型及屬性 169
5.6.4 聯系:場景需求之下的普遍聯系 173
5.6.5 約束:多層次的約束規範 176
5.6.6 評價:迭代優化的起點 182
5.7 知識圖譜模式設計的最佳實踐 182
5.7.1 熟知知識圖譜及其具體應用領域 183
5.7.2 明確邊界,切記貪多嚼不爛 183
5.7.3 高內聚、低耦合 184
5.7.4 充分利用可視化工具 185
5.8 思考題 186
5.9 本章小結 187
第6章 構建知識圖譜 188
6.1 知識圖譜構建技術概述 190
6.1.1 映射式構建技術 190
6.1.2 抽取式構建技術 192
6.2 抽取實體和實體屬性 193
6.2.1 實體、實體屬性及其抽取 193
6.2.2 用大模型抽取實體和實體屬性 196
6.3 抽取關系和關系屬性 205
6.3.1 實體間的關系和關系抽取 205
6.3.2 用大模型抽取關系和關系屬性 210
6.4 抽取事件 214
6.4.1 事件、事件要素和事件抽取 214
6.4.2 用大模型抽取事件 217
6.5 多語言和跨語言 222
6.6 知識抽取的評價指標 223
6.7 思考題 226
6.8 本章小結 227
第7章 圖數據庫與圖計算 228
7.1 圖數據庫概述 230
7.1.1 頂點、邊、屬性與標簽 230
7.1.2 圖數據庫的存儲與查詢 231
7.1.3 主流的圖數據庫 231
7.2 JanusGraph分佈式圖數據庫 232
7.2.1 JanusGraph系統架構 233
7.2.2 CAP理論與JanusGraph 234
7.2.3 與搜索引擎的集成 235
7.2.4 事務和故障修復 235
7.2.5 屬性圖模式的定義 236
7.2.6 圖查詢語言Gremlin 237
7.3 JanusGraph實戰指南 238
7.3.1 安裝、運行和配置JanusGraph 238
7.3.2 在JanusGraph中定義屬性圖模式 243
7.3.3 為圖創建索引 247
7.3.4 索引的狀態及動作 251
7.3.5 查看屬性圖模式 252
7.3.6 為圖插入頂點、邊和屬性 254
7.3.7 查詢的起始與終末 258
7.3.8 提取圖中元素的信息 259
7.3.9 過濾查詢條件 260
7.3.10 圖的游走 262
7.3.11 分組與聚合 263
7.3.12 分支與循環 265
7.3.13 match、map、filter和sideEffect 266
7.3.14 性能優化工具的使用 267
7.4 JanusGraph的可視化 269
7.4.1 JanusGraph-Visualizer 269
7.4.2 其他可視化工具 270
7.5 遍歷與最短路徑算法 271
7.5.1 廣度優先搜索 271
7.5.2 深度優先搜索 272
7.5.3 路徑和最短路徑 274
7.6 中心性 276
7.6.1 中心性的概念及應用 276
7.6.2 度中心性 277
7.6.3 親密中心性 279
7.6.4 中介中心性 280
7.6.5 特徵向量中心性 282
7.6.6 PageRank 283
7.7 社區檢測 285
7.7.1 社區檢測概述 285
7.7.2 社區檢測算法一覽 286
7.7.3 Leiden算法實戰 289
7.7.4 社區檢測算法的應用場景 292
7.8 思考題 294
7.9 本章小結 294
第8章 圖模互補應用範式 296
8.1 圖模互補概述 298
8.2 圖模互補中的知識圖譜 299
8.2.1 知識的確定性和一致性 299
8.2.2 知識來源可追溯 299
8.2.3 知識的實時與及時更新 300
8.2.4 可解釋與可追溯的演繹推理 301
8.2.5 糾錯機制與知識的持續維護 301
8.2.6 基於圖機器學習與圖神經網絡的概率推理 301
8.2.7 知識圖譜的全局視野 302
8.3 圖模互補中的大模型 302
8.3.1 從任務描述到任務需求的理解 302
8.3.2 利用知識圖譜檢索、整合和推理結果 303
8.3.3 高質量的自然語言生成 303
8.3.4 結合多源知識生成創新性內容 305
8.3.5 概率推理能力與通用性 306
8.3.6 知識抽取 306
8.3.7 知識補全 306
8.3.8 跨語言知識對齊 307
8.4 圖模互補應用範式的特點 307
8.5 大模型對知識圖譜的增強 308
8.5.1 增強知識圖譜的構建 308
8.5.2 增強知識圖譜的補全 310
8.5.3 增強對知識的描述 310
8.5.4 增強知識圖譜的推理 312
8.5.5 增強知識圖譜的查詢 312
8.6 知識圖譜對大模型的增強 313
8.6.1 減少大模型的幻覺 313
8.6.2 內嵌知識圖譜的大模型 314
8.6.3 提升大模型的推理能力 315
8.6.4 知識圖譜增強生成 316
8.6.5 提升大模型生成內容的可解釋性 316
8.6.6 應用案例 318
8.7 基於圖模互補應用範式的智能系統的典型流程 318
8.8 思考題 320
8.9 本章小結 321
第9章 知識圖譜增強生成與GraphRAG 322
9.1 知識圖譜增強生成的原理 324
9.1.1 深度推理和實時推理 324
9.1.2 全局視野與深度洞察 325
9.1.3 知識整合 326
9.2 知識圖譜增強生成的通用框架 327
9.3 為知識圖譜創建索引 327
9.3.1 圖索引 328
9.3.2 文本索引 328
9.3.3 向量索引 329
9.3.4 混合索引 329
9.4 從知識圖譜中檢索知識 329
9.4.1 檢索方法 330
9.4.2 檢索過程 331
9.4.3 知識粒度 334
9.5 知識表示形式 335
9.5.1 鄰接表和邊表 335
9.5.2 自然語言文本 336
9.5.3 編程語言 336
9.5.4 語法樹 341
9.5.5 頂點序列 341
9.6 GraphRAG概述 341
9.7 GraphRAG實戰 344
9.7.1 安裝GraphRAG和數據資源準備 344
9.7.2 轉換為實體的關系屬性的DataFrame 346
9.7.3 計算實體、關系的排序值 347
9.7.4 為實體生成描述文本及向量化 347
9.7.5 為關系生成描述文本及向量化 348
9.7.6 社區分類和社區描述文本 349
9.7.7 調用API生成GraphRAG可用數據 354
9.7.8 大模型的初始化 355
9.7.9 局部搜索與全局搜索 355
9.8 思考題 358
9.9 本章小結 358
第10章 知識增強大模型應用 360
10.1 應用框架 362
10.2 知識來源 363
10.2.1 非結構化知識 363
10.2.2 結構化數據庫 364
10.2.3 知識圖譜 365
10.3 知識運營 366
10.3.1 知識的質量 366
10.3.2 數據管理流程 367
10.3.3 法律合規、隱私與知識產權 368
10.3.4 可觀測性工具 368
10.4 應用指南 369
10.4.1 應用價值 370
10.4.2 面向進取者:全面推進的策略 371
10.4.3 面向保守者:試點驅動的策略 372
10.4.4 選型的“四三二一”原則 373
10.4.5 最佳實踐要點 374
10.5 行業應用案例 375
10.5.1 文檔助手 375
10.5.2 教育領域應用場景 377
10.5.3 智慧金融應用場景 378
10.5.4 智慧醫療應用場景 381
10.5.5 智能製造應用場景 383
10.6 思考題 386
10.7 本章小結 386
附錄A 388
附錄B 389
參考文獻 390