spaCy自然語言處理從入門到進階
王冠,孔曉泉
- 出版商: 電子工業
- 出版日期: 2025-01-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- 頁數: 260
- ISBN: 7121491281
- ISBN-13: 9787121491283
-
相關分類:
Text-mining
尚未上市,歡迎預購
相關主題
商品描述
本書是一本全面、實用、易懂的spaCy學習指南,專為對自然語言處理(NLP)感興趣的讀者設計。它以中文應用為核心,從基礎概念到高級應用,逐步深入講解spaCy這一高效的Python NLP庫。書中不僅涵蓋了分詞、詞性標註、命名實體識別等核心功能,還詳細介紹瞭如何利用這些功能來構建強大的NLP應用。通過豐富的案例和示例代碼,本書能夠幫助讀者快速掌握spaCy的使用方法,並將其應用於實際任務中,無論是文本分析、情感分析還是機器學習模型的構建。 對於自然語言處理的初學者來說,本書提供了一個結構化的學習方法,從最基礎的NLP概念開始,逐步引導讀者理解並應用spaCy庫。對於開發者和數據科學家,書中的高級應用和最佳實踐可以幫助他們提升現有技能,解決更復雜的NLP問題。無論是想系統學習NLP還是想針對性提升特定技能,本書都是理想的選擇。它不僅適合個人學習,也適合作為團隊或教育機構的教學資源。通過本書的學習,讀者將能夠更加自信地處理各種語言數據,開發出更加智能和高效的NLP解決方案。
目錄大綱
目 錄
第 1 章 spaCy 簡介 ............................................................................................ 1
1.1 自然語言處理的發展過程 ..................................................................... 1
1.2 自然語言處理的基礎任務 ..................................................................... 6
1.3 spaCy 的核心概念 ................................................................................. 7
1.3.1 nlp 對象 ....................................................................................... 9
1.3.2 Doc 對象 .................................................................................... 10
1.3.3 Token 對象 ................................................................................. 12
1.3.4 Span 對象 ................................................................................... 14
1.4 spaCy 的安裝方法 ............................................................................... 16
1.4.1 使用 pip 安裝 ............................................................................. 16
1.4.2 使用 Conda 安裝 ........................................................................ 16
1.5 spaCy 的基礎操作 ............................................................................... 17
1.5.1 訓練模型 ................................................................................... 17
1.5.2 預測模型 ................................................................................... 21
第 2 章 抽取語言學特徵 ................................................................................... 24
2.1 基本操作 .............................................................................................. 24
2.1.1 分詞 ........................................................................................... 24
2.1.2 截取詞符 ................................................................................... 26
2.1.3 獲取文本特徵 ............................................................................ 28
spaCy 自然語言處理:從入門到進階 VIII
2.1.4 詞性標註 ................................................................................... 31
2.1.5 依存關系解析 ............................................................................ 32
2.1.6 命名實體識別 ............................................................................ 33
2.2 用已有模型預測 .................................................................................. 35
2.2.1 預測文字、詞性標簽和依存關系標簽 ....................................... 37
2.2.2 預測命名實體識別的結果 .......................................................... 38
2.2.3 手動創建命名實體 ..................................................................... 39
2.3 基於規則的匹配器 .............................................................................. 42
2.3.1 Matcher 與正則表達式 ............................................................... 44
2.3.2 模板匹配 ................................................................................... 45
2.4 定義匹配規則 ...................................................................................... 53
2.4.1 運算符和量詞 ............................................................................ 53
2.4.2 文本匹配 ................................................................................... 57
2.4.3 詞性匹配 ................................................................................... 59
第 3 章 信息提取 .............................................................................................. 62
3.1 數據結構的基本概念 .......................................................................... 62
3.2 詞匯表、字符串庫和語素 ................................................................... 63
3.2.1 詞匯表和字符串庫 ..................................................................... 65
3.2.2 語素 ........................................................................................... 66
3.2.3 轉換 ........................................................................................... 68
3.3 文檔、截取和詞符 .............................................................................. 72
3.3.1 文檔及其創建 ............................................................................ 73
3.3.2 截取及其創建 ............................................................................ 76
3.3.3 詞符及其創建 ............................................................................ 80
3.4 綜合實踐——比對相似度 ................................................................... 84
3.4.1 訓練詞向量 ................................................................................ 85
3.4.2 處理文本 ................................................................................... 88
3.4.3 計算相似度 ................................................................................ 89
3.5 綜合實踐——文本匹配 ....................................................................... 96
3.5.1 基於規則的方法 ........................................................................ 98
3.5.2 匹配不成功時的調試方法 ......................................................... 102
3.5.3 直接精確匹配字符串 ................................................................ 105
第 4 章 流程 ..................................................................................................... 109
4.1 流程組件 ............................................................................................. 109
4.1.1 流程組件的概念 ....................................................................... 109
4.1.2 流程組件的運行 ....................................................................... 111
4.1.3 流程組件的屬性 ....................................................................... 112
4.1.4 流程組件的配置 ....................................................................... 113
4.1.5 流程組件的檢查 ....................................................................... 114
4.2 定製化流程組件 ................................................................................. 115
4.2.1 定製化流程組件的應用 ............................................................ 116
4.2.2 定製化流程組件的應用示例 ..................................................... 117
4.2.3 用定製化流程組件打印文檔的詞符長度 ................................... 119
4.2.4 定製化流程組件的綜合應用示例 .............................................. 121
4.3 定製化屬性 ......................................................................................... 123
4.3.1 添加定製化屬性 ....................................................................... 123
4.3.2 註冊定製化屬性 ....................................................................... 124
4.3.3 定製化屬性的類別 .................................................................... 125
4.3.4 設置定製化屬性 ....................................................................... 131
4.4 定製化模型組件 ................................................................................. 137
4.5 含有定製化屬性的定製化流程組件 .................................................. 140
4.6 流程的優化 ......................................................................................... 142
4.6.1 流模式 ...................................................................................... 142
4.6.2 傳入語境 .................................................................................. 143
4.6.3 僅使用分詞器 ........................................................................... 146
4.6.4 關閉流程組件 ........................................................................... 146
4.7 處理流 ................................................................................................. 147
4.7.1 從遍歷文本到遍歷處理流 ......................................................... 148
4.7.2 將處理流轉化為 Doc 列表 ........................................................ 149
4.7.3 處理流和模板匹配 .................................................................... 151
4.7.4 在語境中處理數據 .................................................................... 151
4.8 流程的控制 ......................................................................................... 154
4.8.1 nlp.make_doc()方法................................................................... 154
4.8.2 nlp.select_pipes()方法................................................................ 156
第 5 章 更新和訓練模型 .................................................................................. 158
5.1 更新模型 ............................................................................................. 159
5.2 訓練模型 ............................................................................................. 160
5.3 準備數據 ............................................................................................. 163
5.3.1 訓練數據 .................................................................................. 163
5.3.2 測試數據 .................................................................................. 172
5.3.3 評估數據 .................................................................................. 173
5.4 配置和訓練模型 ................................................................................. 173
5.4.1 配置文件 .................................................................................. 174
5.4.2 訓練流程 .................................................................................. 180
5.4.3 讀取流程 .................................................................................. 182
5.4.4 打包流程 .................................................................................. 183
5.4.5 使用流程 .................................................................................. 184
5.4.6 檢測模型 .................................................................................. 185
5.5 模型訓練中的問題 ............................................................................. 186
5.5.1 災難性遺忘問題 ....................................................................... 186
5.5.2 模型不能學會所有東西 ............................................................ 187
5.6 數據標註 ............................................................................................. 188
5.7 訓練多個標簽 ..................................................................................... 191
5.7.1 實體的位置參數 ....................................................................... 191
5.7.2 缺失標簽的訓練數據 ................................................................ 192
5.7.3 加入標簽的訓練數據 ................................................................ 193
第 6 章 實踐案例——構建對話機器人 ........................................................... 198
6.1 對話機器人 ......................................................................................... 199
6.1.1 對話機器人的概念 .................................................................... 199
6.1.2 對話機器人的功能 .................................................................... 199
6.1.3 對話機器人的工作流程 ............................................................ 200
6.1.4 對話機器人的分類 .................................................................... 201
6.1.5 對話機器人的架構方案 ............................................................ 202
6.2 對話機器人的設計 ............................................................................. 206
6.2.1 需求設計 .................................................................................. 207
6.2.2 工程設計 .................................................................................. 208
6.3 代碼實現 ............................................................................................. 210
6.3.1 自然語言理解模塊 .................................................................... 210
6.3.2 對話管理模塊 ........................................................................... 224
6.3.3 業務動作模塊 ........................................................................... 226
6.3.4 自然語言生成模塊 .................................................................... 228
6.3.5 代碼集成 .................................................................................. 229
第 7 章 使用大語言模型 .................................................................................. 233
7.1 大語言模型 ......................................................................................... 233
7.1.1 大語言模型的概念 .................................................................... 233
7.1.2 大語言模型的重要性 ................................................................ 234
7.2 大語言模型的工作原理 ..................................................................... 235
7.2.1 模型的訓練 ............................................................................... 235
7.2.2 模型的預測 ............................................................................... 236
7.3 提示 .................................................................................................... 236
7.3.1 提示的概念 ............................................................................... 236
7.3.2 提示工程 .................................................................................. 237
spaCy 自然語言處理:從入門到進階 XII
7.3.3 提示的實際應用 ....................................................................... 238
7.4 spaCy 和大語言模型 .......................................................................... 239
7.4.1 安裝 spaCy 大語言模型支持包 ................................................. 240
7.4.2 在 spaCy 中配置大語言模型 ..................................................... 240
7.5 實際應用 ............................................................................................. 241
7.5.1 文本分類 .................................................................................. 241
7.5.2 命名實體識別 ........................................................................... 243
7.6 大語言模型的優點和缺點 .................................................................. 244
7.6.1 大語言模型的優點 .................................................................... 244
7.6.2 大語言模型的缺點 .................................................................... 245
7.7 未來趨勢 ............................................................................................. 246
7.7.1 當前的研究趨勢 ....................................................................... 246
7.7.2 未來可能出現的影響 ................................................................ 247