自然語言結構計算 GPF結構分析框架
荀恩東
- 出版商: 人民郵電
- 出版日期: 2022-11-01
- 定價: $528
- 售價: 7.9 折 $417
- 語言: 簡體中文
- 頁數: 249
- ISBN: 711559693X
- ISBN-13: 9787115596932
-
相關分類:
Text-mining
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$520$510 -
$352機器學習算法實踐 — 推薦系統的協同過濾理論及其應用
-
$480$379 -
$560$476 -
$680$578 -
$580$435 -
$480$360 -
$708$673 -
$449自然語言結構計算——意合圖理論與技術
-
$479$455 -
$980$647 -
$680$537
相關主題
商品描述
自然語言在語法、語義和語用三個平面上的結構統稱為語言結構,通過計算得到語言結構是自然語言理解的核心任務。語言結構計算可以泛化為識別語言單元和建立語言單元之間的關系、為語言單元和關系賦予屬性的過程。本書利用網格結構分析語言單元和關系,通過鍵值方式對其屬性進行描述和計算,採用數據表解析不同類型的知識,借助有限狀態自動機剖析語言的具體應用場景。這種基於網格的自然語言結構分析框架(Grid based Parsing Framework,GPF)具有良好的包容性,通過可編程的腳本和數據交換標準接口,融合了深度學習的參數計算和基於符號的知識計算。GPF為自然語言處理研究和應用提供了新的研究思路和計算框架。
本書適合專業為自然語言處理、計算語言學以及與語言學本體研究有關的學生當作教材,也可以作為高等院校人工智能、信息科學研究、大數據分析等相關專業的參考書。同時,本書也適合對語料庫建設與應用感興趣的人員閱讀。
作者簡介
荀恩东
教授,博士生导师,博士毕业于哈尔滨工业大学,先后在微软亚洲研究院、香港科技大学工作,现任北京语言大学信息科学学院院长、语言智能研究院院长。
研究领域为自然语言处理和语言教育技术。近年来,主持多项“国家高技术研究发展计划”(简称863计划)、国家社会科学基金项目和国家自然科学基金项目,承担多项公司合作的项目,发表文章70余篇。主要研究内容为汉语语义计算和语言教育技术。
主持开发了北京语言大学语料库中心( BCC)语料库和国际中文智慧教学平台。提出了汉语语义分析的意合图理论和构建方法,带领团队揭榜工信部人工智能重大攻关任务,在包括专利等多个领域开展汉语语义理解落地应用工作。
目錄大綱
目錄
第 1章 自然語言處理概述
1.1 自然語言處理 002
1.1.1 自然語言處理是認知智能的核心 002
1.1.2 自然語言理解的本質是語言結構分析 003
1.1.3 自然語言理解的挑戰 005
1.2 語言結構 007
1.2.1 語言結構的基本單元 007
1.2.2 基本單元之間的關系 008
1.3 語言結構分析 011
1.3.1 語言結構的形式化 012
1.3.2 語言結構分析的內容 012
1.3.3 語言結構分析知識 014
1.3.4 語言結構分析策略 017
1.4 基於網格的自然語言結構分析框架——GPF 020
1.4.1 GPF的設計思想 020
1.4.2 GPF的主要應用 024
第 2章 GPF總體設計
2.1 GPF分析框架 028
2.1.1 GPF功能部件 029
2.1.2 GPF工作模式 034
2.1.3 GPF編程體系 035
2.2 GPF屬性計算 037
2.2.1 語言結構的屬性 037
2.2.2 屬性的形式化及計算 038
2.2.3 屬性的應用 043
第3章 GPF網格
3.1 概述 048
3.1.1 網格計算結構 048
3.1.2 主要功能 049
3.1.3 網格的形式結構 050
3.1.4 網格與屬性 051
3.2 網格單元 051
3.2.1 網格單元的類型 051
3.2.2 網格單元的屬性 052
3.3 網格單元之間的關系 060
3.3.1 網格單元之間關系的類型 061
3.3.2 網格單元之間關系的屬性 062
第4章 GPF網格計算
4.1 輸入輸出 064
4.1.1 輸入 064
4.1.2 輸出 066
4.2 網格單元計算 078
4.2.1 添加網格單元 078
4.2.2 獲取網格單元 089
4.3 網格單元屬性計算 095
4.3.1 添加網格單元屬性 095
4.3.2 獲取網格單元屬性 096
4.3.3 測試網格單元屬性 099
4.4 網格單元關系計算 101
4.4.1 增加網格單元關系 101
4.4.2 增加關系屬性 102
4.4.3 判斷關系屬性 103
第5章 GPF數據表
5.1 概述 109
5.1.1 格式定義 109
5.1.2 術語與定義 109
5.2 數據表類型 111
5.2.1 描述型數據表 111
5.2.2 關系型數據表 114
5.3 數據表相關的API函數 116
5.3.1 字符串操作(GetPrefix和GetSuffix) 116
5.3.2 創建單元(Segment) 119
5.3.3 構建關系(Relate) 122
5.3.4 提供屬性(SetLexicon) 131
5.3.5 數據表測試函數(IsTable) 133
5.3.6 數據項獲取函數(GetTableItems) 134
5.3.7 數據項屬性獲取函數(GetTableItemKVs) 135
5.4 數據表在屬性計算中的應用 137
5.4.1 數據表用於“鍵值對”中 137
5.4.2 數據表用於鍵值表達式中 139
第6章 GPF有限狀態自動機
6.1 概述 142
6.1.1 形式化定義 142
6.1.2 主要功能 144
6.2 FSA文法 144
6.2.1 FSA腳本 144
6.2.2 FSA文法規定 146
6.2.3 文法編譯 149
6.3 FSA 運行機制 150
6.3.1 配置 150
6.3.2 匹配入口節點 158
6.3.3 前後雙向匹配 160
6.3.4 執行操作 160
6.4 FSA應用 162
6.4.1 RunFSA算法過程 162
6.4.2 FSA應用示例 163
第7章 GPF數據接口
7.1 初始語言結構的數據源 168
7.1.1 離線形式的本地數據 168
7.1.2 在線形式的第三方服務 169
7.2 初始語言結構類型及數據接口 170
7.2.1 初始語言結構類型 170
7.2.2 初始語言結構數據接口 170
7.2.3 幾種典型結構的數據接口 172
7.3 初始語言結構在網格中的表示 178
7.3.1 分詞結構 178
7.3.2 組塊結構 182
7.3.3 短語結構樹 185
7.3.4 詞依存結構 191
7.3.5 組塊依存結構 196
7.3.6 帶有分詞的組塊依存結構 200
第8章 GPF應用
8.1 GPF的配置 206
8.2 GPF的索引 207
8.2.1 索引數據表 207
8.2.2 索引有限狀態自動機 208
8.3 GPF的運行 209
8.3.1 本地運行 211
8.3.2 網絡服務 213
8.3.3 GPF輸出 214
8.4 GPF的應用 214
8.4.1 短語識別 215
8.4.2 詞義消歧 217
8.4.3 離合詞識別 220
第9章 GPF的API函數
9.1 GPF功能操作類API函數 227
9.1.1 SetText 227
9.1.2 AddStructure (JSON) 227
9.1.3 CallService 229
9.1.4 Segment 229
9.1.5 SetLexicon 230
9.1.6 Relate 230
9.1.7 GetSuffix 230
9.1.8 GetPrefix 231
9.1.9 RunFSA 231
9.1.10 GetParam 231
9.1.11 GB2UTF8 232
9.1.12 UTF82GB 232
9.1.13 cjson.decode 232
9.1.14 cjson.encode 233
9.2 GPF獲取類API函數 233
9.2.1 GetGrid 233
9.2.2 GetText 233
9.2.3 GetGridKVs 234
9.2.4 GetLog 235
9.2.5 GetUnit 235
9.2.6 GetUnits 235
9.2.7 GetUnitKVs 236
9.2.8 GetRelations 237
9.2.9 GetRelationKVs 238
9.2.10 GetTableItems 239
9.2.11 GetTableItemKVs 239
9.2.12 GetFSANode 240
9.3 GPF添加類API函數 241
9.3.1 AddUnit 241
9.3.2 Reduce 242
9.3.3 AddUnitKV 242
9.3.4 AddGridKV 242
9.3.5 AddRelation 243
9.3.6 AddRelationKV 243
9.4 GPF測試類API函數 244
9.4.1 IsUnit 244
9.4.2 IsRelation 244
9.4.3 IsTable 244
參考文獻 247