智能文本處理實戰
達觀數據
買這商品的人也買了...
-
$599$473 -
$880$695 -
$650$507 -
$556大規模語言模型:從理論到實踐
-
$505LangChain 入門指南:構建高可復用、可擴展的 LLM 應用程序
-
$880$695 -
$407AI治理大家談韌性治理與未來科技
-
$607大語言模型:原理與工程實踐
-
$594$564 -
$690$545 -
$534$507 -
$650$507 -
$680$530
相關主題
商品描述
讓電腦自動處理文字一直以來都是我們工作中的重要訴求,而文字的表現形式是多樣的,目前,單純使用自然語言處理技術已無法滿足復雜的實際工作場景的需求。本書詳細介紹了達觀數據多年來在智能文本處理領域的實戰經驗,從核心技術、相關產品、行業場景案例等多角度出發,幫助讀者全面理解智能文本處理技術的意義和價值。全書分為三大部分:第一部分介紹智能文本處理的基礎知識、意義和相關核心技術;第二部分介紹智能文本處理項目實施經驗以及在不同場景和產品中的應用;第三部分總結達觀智能文本處理技術與不同行業場景的結合,供各行業有智能文本處理需求的讀者參考。
作者簡介
达观数据专注于智能文本处理技术,是行业内专精特新“小巨人”企业,也曾荣获中国人工智能领域奖项“吴文俊人工智能奖”。达观数据开发的“曹植”大语言模型基于该企业长期积累的技术和经验,能够为大型企业和机构提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐、办公流程自动化等服务。目前,达观数据在行业内市场占有率排名靠前,案例数量众多,已帮助数百家企业提高生成效率、降低成本、提升业务合规性,助力企业实现数字化转型,提升竞争力和创新能力。
目錄大綱
第 一部 基礎知識
第 1章 智能文本處理概覽 2
1.1 什麽是智能文本處理 2
1.1.1 智能文本處理概念 2
1.1.2 智能文本處理技術 5
1.1.3 智能文本處理的價值 7
1.2 NLP技術簡介 8
1.2.1 基本概念 9
1.2.2 文本自動處理層次劃分 11
1.2.3 研究現狀及主要方法 15
1.3 書面文本處理和短文本處理 17
1.3.1 不同處理類型 17
1.3.2 書面文本應用舉例 19
1.3.3 短文本應用舉例 22
1.3.4 處理差異比較 26
1.4 機器學習與NLP 28
1.4.1 機器學習的基本概念與歷史 28
1.4.2 常見的機器學習任務與方法 33
1.4.3 常見機器學習問題與NLP 34
1.4.4 實戰:如何使用機器學習方法檢測垃圾郵件 39
1.5 深度學習與NLP 44
1.5.1 深度學習和傳統機器學習的差別 44
1.5.2 深度學習對NLP的推進 51
1.5.3 深度學習研究在NLP中的局限性 54
第 2章 NLP技術概覽 59
2.1 語言模型 59
2.1.1 語言模型基本概念 59
2.1.2 N-gram語言模型 61
2.1.3 神經網絡語言模型 63
2.1.4 大規模預訓練語言模型 68
2.2 分詞與詞性標註 71
2.2.1 概述 71
2.2.2 分詞技術詳解 73
2.2.3 詞性識別詳解 76
2.3 NER 78
2.3.1 基本概念 78
2.3.2 基於規則的NER 81
2.3.3 基於序列標註的NER 83
2.3.4 數據增強方法 86
2.4 文本分類概述 88
2.4.1 文本分類任務的基本定義 88
2.4.2 基於機器學習的文本分類 89
2.4.3 基於深度學習的文本分類 92
2.4.4 文本分類算法評估 98
2.4.5 實踐經驗與技術進階 100
2.5 指代消解 102
2.5.1 基本概念 102
2.5.2 指代消解技術發展 104
2.5.3 基於二元分類的機器學習方法 107
2.5.4 基於端到端的神經網絡方法 108
2.5.5 基於自註意力機制的無監督方法 111
2.6 NLG 113
2.6.1 應用場景 113
2.6.2 文本摘要 114
2.6.3 機器翻譯 118
2.6.4 圖像生成文本 120
2.6.5 NLG評估方法 123
第3章 書面文本處理關鍵技術 124
3.1 文檔格式解析技術 124
3.1.1 Word格式解析 124
3.1.2 PDF格式解析 126
3.1.3 其他格式解析 131
3.2 文檔版面分析技術 132
3.2.1 版面分析簡介及發展歷程 133
3.2.2 基於啟發式規則的版面分析技術 134
3.2.3 基於機器學習的版面分析技術 136
3.2.4 基於深度學習的版面分析技術 136
3.2.5 版面分析最佳實踐 142
3.3 文檔表格解析技術 145
3.3.1 表格解析技術背景介紹 145
3.3.2 表格類型劃分 148
3.3.3 區域檢測技術 148
3.3.4 表格結構識別 150
3.3.5 表格解析最佳實踐分享 153
3.4 光學字符識別技術 155
3.4.1 OCR技術簡介及發展歷程 156
3.4.2 OCR核心技術 157
3.4.3 文檔處理中的應用和實踐 167
3.5 文檔多模態技術 171
3.5.1 多模態介紹 171
3.5.2 多模態的主要任務 173
3.5.3 文檔多模態的主要應用 178
第二部分 項目覆蓋場景
第4章 產品技術實踐落地 184
4.1 項目團隊搭建 184
4.2 AI項目技術實現路徑 187
4.2.1 歸一化處理 188
4.2.2 字段分析處理 188
4.2.3 序列標註抽取 188
4.2.4 深度學習抽取 189
4.2.5 表格抽取 189
4.2.6 策略合並 189
4.2.7 人工規則 189
4.3 AI項目模型交付步驟 190
4.3.1 數據準備 190
4.3.2 模型訓練與調試 193
4.4 項目實施管理 195
4.4.1 項目實施階段分解 195
4.4.2 項目規劃階段 196
4.4.3 項目執行階段 196
4.4.4 項目驗收階段 198
4.4.5 項目監控 199
第5章 聊天機器人場景 200
5.1 聊天機器人概述 200
5.1.1 聊天機器人基本概念 200
5.1.2 聊天機器人類型 201
5.2 核心技術詳解 201
5.2.1 常見系統架構 201
5.2.2 對話引擎 204
5.3 應用場景 206
5.3.1 知識助手 206
5.3.2 智能客服 209
第6章 智能文檔處理場景 211
6.1 智能文檔處理場景概覽 211
6.1.1 智能文檔處理的內容 211
6.1.2 智能文檔產品的類型 212
6.2 智能文檔抽取產品 212
6.2.1 文檔識別與解析 213
6.2.2 圖像結構化抽取 215
6.2.3 文檔結構化抽取 219
6.2.4 智能文檔抽取場景介紹 222
6.3 智能文檔審核產品 225
6.3.1 文檔風險審核 225
6.3.2 智能文檔比對 229
6.3.3 智能文檔審核場景 232
6.4 智能文檔寫作產品 234
6.4.1 智能文檔寫作產品介紹 235
6.4.2 智能文檔寫作場景介紹 238
第7章 知識圖譜場景 239
7.1 知識圖譜概念 239
7.1.1 知識圖譜介紹 239
7.1.2 知識圖譜類型 242
7.1.3 系統架構實踐 243
7.2 知識圖譜核心技術 246
7.2.1 知識圖譜表示 246
7.2.2 知識圖譜存儲與構建 248
7.2.3 知識融合和知識推理 251
7.3 知識圖譜應用 253
7.3.1 知識圖譜問答 253
7.3.2 故障分析 256
7.3.3 語義檢索和智能決策 258
第8章 用戶體驗管理場景 260
8.1 為什麽要做用戶體驗管理 260
8.1.1 為什麽要做好用戶體驗管理 260
8.1.2 用戶體驗管理亟須革新調研方式 261
8.2 什麽是用戶體驗管理 261
8.2.1 用戶體驗管理的概念 262
8.2.2 用戶體驗管理涉及的數據來源 263
8.2.3 用戶體驗管理涉及的關鍵技術 265
8.3 用戶體驗管理的典型應用場景 269
8.3.1 賦能產品企劃設計 269
8.3.2 促進客戶關系維系 273
8.3.3 助力品牌傳播 274
8.4 用戶體驗管理產業實踐——以某製造業客戶為例 279
8.4.1 案例項目背景 279
8.4.2 用戶體驗管理解決方案 279
8.4.3 用戶體驗管理關鍵能力 285
8.4.4 業務價值 286
第9章 搜索推薦場景 288
9.1 文本處理技術在智能搜索中的應用 288
9.1.1 智能搜索概述 288
9.1.2 智能搜索系統架構 290
9.1.3 智能搜索中的文本挖掘算法 293
9.2 文本處理技術在智能推薦中的應用 296
9.2.1 智能推薦概述 296
9.2.2 智能推薦系統架構 298
9.2.3 智能推薦中的文本挖掘算法 301
第 10章 辦公機器人場景 304
10.1 辦公機器人介紹 304
10.1.1 什麽是辦公機器人 304
10.1.2 辦公機器人的組成 305
10.2 智能文本處理技術與辦公機器人的結合 306
10.2.1 智能文本處理拓展了辦公機器人的能力邊界 306
10.2.2 辦公機器人中的智能文本處理技術 307
10.3 智能文本處理機器人應用場景示例 307
10.3.1 供應商準入管理場景 307
10.3.2 企業招聘場景 309
10.3.3 企業文檔管理場景 311
10.3.4 證券業文檔審核場景 313
10.3.5 文檔寫作場景 315
第 11章 AIGC與智能寫作場景 317
11.1 智能寫作任務 317
11.1.1 智能寫作應用場景 317
11.1.2 智能寫作技術發展脈絡 317
11.2 基於RNN Seq2Seq的文本生成 318
11.3 文本生成前沿技術 319
11.3.1 UniLM 319
11.3.2 T5 321
11.3.3 BART 322
11.3.4 GPT 324
11.3.5 GPT-2 325
11.3.6 GPT-3 325
11.3.7 InstructGPT和ChatGPT 325
11.4 智能寫作算法評估 327
11.4.1 基於詞匯 328
11.4.2 基於語義 328
11.4.3 公開數據集 329
11.5 技術挑戰與展望 329
第三部分 行業案例經驗
第 12章 銀行業與智能文本處理 332
12.1 銀行業務場景介紹 332
12.2 銀行業數字化轉型 333
12.2.1 銀行業數字化轉型現狀 333
12.2.2 銀行業數字化轉型思路 333
12.3 銀行業落地項目案例介紹 334
12.3.1 智慧信貸案例介紹 334
12.3.2 國際業務中的智能審單案例介紹 339
12.3.3 智能審貸案例介紹 342
12.3.4 RPA+IDP在銀行業中的應用案例介紹 344
第 13章 證券業與智能文本處理 347
13.1 證券業數字化轉型現狀 347
13.1.1 IT投入不足 347
13.1.2 人才支撐不足 349
13.1.3 業務與技術的融合不足 350
13.1.4 證券業數字化轉型思路 350
13.2 證券業的文本處理應用場景 350
13.2.1 經紀業務:智能資訊 350
13.2.2 資產托管業務:智能文檔處理 352
13.2.3 投資銀行業務:智能底稿系統 353
13.2.4 投資銀行業務:銀行流水智能核查 356
13.2.5 投資銀行業務:申報材料智能審核 358
13.2.6 投研業務:智能投研一體化管理平臺 360
第 14章 保險業與智能文本處理 366
14.1 行業背景與現狀 366
14.2 數字化建設思路 367
14.2.1 科技與保險深度融合 367
14.2.2 開展全域數字化建設 367
14.3 智能解決方案 369
14.3.1 智慧營銷 369
14.3.2 醫療票據識別 372
14.3.3 智慧運營管理 375
14.3.4 客服語義分析 376
14.3.5 智能知識管理 377
第 15章 大型企業創新應用實戰 383
15.1 大型企業科技創新前景與挑戰 383
15.1.1 創新應用背景 383
15.1.2 數字化轉型難點 384
15.1.3 如何做好人工智能項目 385
15.2 人工智能技術與業務融合場景 386
15.2.1 法務智能輔助審核 386
15.2.2 智能報關票據審核 391
15.2.3 商務智能詢報價 393
15.3 行業落地案例分享 394
15.3.1 某頭部安防企業智能文本審閱系統項目 394
15.3.2 某大型報關行智能數據處理系統 395
15.3.3 某大型工業品超市智能詢報價系統 397
第 16章 智能製造與智能文本處理 399
16.1 智能製造中的質量與可靠性工程 399
16.1.1 智能製造 399
16.1.2 質量與可靠性工程 400
16.1.3 FMEA 401
16.2 FMEA知識圖譜 404
16.2.1 FMEA知識圖譜的定義與價值 404
16.2.2 FMEA知識圖譜模式 405
16.2.3 構建FMEA知識圖譜 406
16.3 FMEA知識圖譜應用示範 407
16.3.1 FMEA應用功能介紹 407
16.3.2 具體應用案例分析 413
第 17章 建工行業與智能文本處理 417
17.1 數字化建設思路 417
17.1.1 從一線業務角度思考 417
17.1.2 從高層管理角度思考 418
17.2 智能解決方案 419
17.2.1 智慧建工項目管理 419
17.2.2 智慧工程圖紙應用 423
17.2.3 智慧建工標準圖譜 426
17.2.4 智慧建工城市背調 428
第 18章 因特網及傳媒與智能文本處理 431
18.1 行業現狀與背景 431
18.2 因特網及傳媒行業數字化轉型思路 431
18.2.1 充分挖掘信息,發揮數據價值 432
18.2.2 構建關系網絡,信息處理更智能 432
18.2.3 立足用戶需求,展現個性化內容 432
18.3 因特網及傳媒行業應用場景 434
18.3.1 基於廣電行業分析文本解析的應用價值 434
18.3.2 基於社交行業分析知識圖譜的應用價值 437
18.3.3 基於資訊行業分析智能推薦的應用價值 440
18.3.4 基於電商行業分析智能.搜索的應用價值 441