自然語言處理與應用

張華平、商建雲、湯澤陽、雷沛鈳

  • 出版商: 清華大學
  • 出版日期: 2023-09-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 352
  • 裝訂: 平裝
  • ISBN: 7302646260
  • ISBN-13: 9787302646266
  • 相關分類: Text-mining
  • 立即出貨

  • 自然語言處理與應用-preview-1
  • 自然語言處理與應用-preview-2
  • 自然語言處理與應用-preview-3
自然語言處理與應用-preview-1

買這商品的人也買了...

相關主題

商品描述

本書集學術前沿、教學成果與應用實踐於一體,系統講述自然語言處理理論與應用。全書分為5篇。基礎理論篇包括第1~4章,主要內容為自然語言處理與應用概述、面向自然語言處理的深度學習經典平臺與算法、面向自然語言處理的深度學習前沿進展、預訓練語言模型;信息處理篇包括第5~9章,主要內容為網絡爬蟲技術、多格式文檔解析與管理、語音文字識別、圖像語義表示與字符識別、中文分詞與詞性標註;語義分析篇包括第10~13章,主要內容為情感分析、新詞發現、命名實體識別與關鍵詞提取、知識圖譜的大數據自動構建與應用;文本挖掘篇包括第14~18章,主要內容為信息過濾、文本分類、文本聚類、文本校對、自動摘要;應用篇包括第19、20章,主要內容為自然語言處理應用項目和案例。 本書可作為高等學校自然語言處理方向研究生與高年級本科生的專業課教材,也可供自然語言處理方向的科研人員、工程技術人員和愛好者參考。

目錄大綱

目錄

 

 

第1篇基礎理論篇

第1章自然語言處理與應用概述3

1.1自然語言處理3

1.1.1自然語言處理的定義、難點及其發展歷程3

1.1.2自然語言處理的上下游任務4

1.2中文自然語言處理發展現狀7

1.2.1自然語言處理任務評測結果7

1.2.2中文數據集與評測現狀8

1.2.3中文預訓練語言模型現狀9

1.2.4中國影響力現狀9

1.3自然語言處理的發展趨勢11

1.3.1處理從人工到自動化11

1.3.2應用從通用到場景化13

1.3.3算法從單一到平臺化15

1.4中文互聯網自然語言處理面臨的挑戰16

1.4.1信息對抗16

1.4.2多語言交互16

1.4.3社會演化17

第2章面向自然語言處理的深度學習經典平臺與算法18

2.1深度學習經典平臺18

2.1.1TensorFlow18

2.1.2PyTorch20

2.1.3PaddlePaddle21

2.2深度學習經典算法22

2.2.1捲積神經網絡222.2.2循環神經網絡23

2.2.3生成對抗網絡26

第3章面向自然語言處理的深度學習前沿進展30

3.1傳統深度學習遇到的瓶頸30

3.1.1深度學習概述30

3.1.2傳統深度學習遇到的問題31

3.2面向數據的深度學習前沿進展33

3.2.1主動學習33

3.2.2自監督學習35

3.2.3提示學習37

3.2.4圖神經網絡39

3.2.5多模態學習41

3.3面向訓練的深度學習前沿進展43

3.3.1多任務學習43

3.3.2終身學習45

3.3.3範式遷移46

3.4面向應用的深度學習前沿進展47

3.4.1模型壓縮47

3.4.2可解釋學習48

3.4.3對抗與算法安全49

〖1〗〖2〗自然語言處理與應用目錄第4章預訓練語言模型51

4.1預訓練語言模型概述51

4.1.1預訓練語言模型定義51

4.1.2預訓練語言模型的發展歷程51

4.2常見預訓練語言模型介紹52

4.2.1BERT52

4.2.2GPT354

4.2.3ELMo54

4.2.4ERNIE55

4.3預訓練語言模型的使用56

4.3.1遷移學習56

4.3.2微調56

4.4預訓練語言模型發展趨勢58

4.4.1多語種58

4.4.2多模態58

4.4.3增大模型58

4.4.4替換預訓練任務59

4.4.5結合外部知識60

4.4.6預訓練語言模型壓縮61

4.5應用與分析61

4.5.1模型介紹61

4.5.2模型使用62

第2篇信息處理篇

第5章網絡爬蟲技術65

5.1概述65

5.1.1網絡爬蟲的概念內涵65

5.1.2網絡爬蟲的技術發展65

5.1.3網絡爬蟲的爬取過程66

5.2網絡爬蟲分類67

5.2.1通用網絡爬蟲67

5.2.2深層網絡爬蟲68

5.2.3聚焦網絡爬蟲68

5.2.4增量式網絡爬蟲70

5.3網絡爬蟲庫與框架71

5.3.1網絡爬蟲庫71

5.3.2網絡爬蟲框架72

5.4網絡爬蟲技術前沿75

5.4.1網絡爬蟲技術的最新進展75

5.4.2反爬的前沿技術75

5.5應用與分析76

第6章多格式文檔解析與管理80

6.1概述80

6.1.1文檔格式80

6.1.2文檔標準的發展歷程80

6.2多格式文檔解析81

6.2.1Word文檔解析81

6.2.2PDF文檔解析83

6.3多格式文檔管理85

6.3.1在線文檔管理85

6.3.2區塊鏈文檔管理87

6.4應用與分析88

6.4.1多格式文檔讀取算法88

6.4.2多格式文檔解析實例90

第7章語音文字識別95

7.1概述95

7.1.1發展歷程95

7.1.2基本原理96

7.2經典算法98

7.2.1經典語言模型98

7.2.2經典聲學模型99

7.3最新進展103

7.3.1DFCNN模型104

7.3.2混合網絡Conformer105

7.4應用與分析106

第8章圖像語義表示與字符識別108

8.1圖像字幕108

8.1.1問題背景108

8.1.2技術分析108

8.1.3建模方法112

8.1.4應用與分析114

8.2OCR及領域優化115

8.2.1問題背景115

8.2.2技術分析116

8.2.3應用與分析120

第9章中文分詞與詞性標註123

9.1中文分詞概述123

9.2中文分詞的困難124

9.3基於機械匹配的中文分詞算法127

9.3.1詞典匹配法127

9.3.2N最短路徑法130

9.4基於統計語言模型的中文分詞算法132

9.4.1N元語言模型132

9.4.2互信息模型133

9.4.3最大熵模型134

9.5NLPIRICTCLAS: 基於層次隱馬爾可夫模型的中文分詞算法135

9.5.1層次隱馬爾可夫模型136

9.5.2基於類的隱馬爾可夫分詞算法138

9.5.3N最短路徑的切分排歧策略139

9.6基於雙向循環神經網絡與條件隨機場的詞法分析140

9.6.1概述140

9.6.2基於雙向循環神經網絡的序列標註140

9.6.3融合條件隨機場的深度神經網絡模型141

9.7應用與分析142

9.7.1NLPIRICTCLAS應用演示142

9.7.2LTP143

9.7.3結巴分詞143

9.7.4PKUSeg143

第3篇語義分析篇

第10章情感分析147

10.1情感分析概述147

10.1.1研究任務148

10.1.2研究熱點148

10.2經典方法149

10.2.1基於情感詞典的情感分析方法149

10.2.2基於機器學習的情感分析方法150

10.2.3基於深度學習的情感分析方法152

10.2.4先進模型153

10.3應用與分析153

第11章新詞發現158

11.1新詞發現概述158

11.2多語種新詞發現前沿綜述159

11.3基於規則的新詞發現方法161

11.3.1規則抽取方法161

11.3.2規則過濾方法162

11.4基於統計模型的新詞發現方法162

11.4.1凝固度163

11.4.2信息熵163

11.4.3新詞IDF163

11.5基於深度學習的新詞發現方法164

11.6應用與分析165

11.6.1面向社會媒體的開放領域新詞發現165

11.6.2多語種新詞發現示例171

第12章命名實體識別與關鍵詞提取173

12.1命名實體識別與關鍵詞提取概述173

12.1.1命名實體識別173

12.1.2關鍵詞提取177

12.2經典算法177

12.2.1命名實體識別經典算法177

12.2.2關鍵詞提取經典算法185

12.2.3算法分類189

12.3應用與分析191

12.3.1命名實體識別示例191

12.3.2關鍵詞提取實驗194

第13章知識圖譜的大數據自動構建與應用198

13.1知識圖譜概述198

13.2知識圖譜的數據來源200

13.2.1大規模知識庫200

13.2.2互聯網鏈接數據200

13.2.3多數據源的知識融合202

13.3知識圖譜的構建203

13.3.1概念發現206

13.3.2關聯計算207

13.3.3關系抽取208

13.4應用與分析211

13.4.1智能搜索211

13.4.2機器人學習機212

13.4.3文檔表示212

第4篇文本挖掘篇

第14章信息過濾215

14.1信息過濾概述215

14.1.1信息過濾推薦最新進展217

14.1.2重點關註信息過濾最新進展219

14.2信息過濾推薦經典算法219

14.2.1內容過濾219

14.2.2協同過濾220

14.2.3混合過濾221

14.3重點關註信息過濾經典算法222

14.3.1黑白名單過濾222

14.3.2基於內容的文本過濾222

14.3.3基於內容的圖片過濾225

14.4應用與分析228

14.4.1信息過濾推薦示例228

14.4.2垃圾信息過濾示例229

14.4.3智能過濾系統展示232

第15章文本分類234

15.1文本分類概述234

15.1.1基於統計規則的文本分類234

15.1.2基於機器學習的文本分類234

15.1.3基於深度學習的文本分類235

15.2文本分類算法237

15.2.1稠密連接網絡237

15.2.2圖神經網絡239

15.2.3註意力模型242

15.3應用與分析245

15.3.1數據集245

15.3.2實驗245

第16章文本聚類246

16.1文本聚類概述246

16.2文本聚類算法體系246

16.3半監督文本聚類248

16.4基於關鍵特徵聚類的Top N熱點話題檢測方法研究250

16.4.1研究概述250

16.4.2基於文檔關鍵特徵的話題聚類251

16.4.3實驗結果展示254

第17章文本校對256

17.1文本校對概述256

17.2文本校對算法257

17.2.1基於統計機器學習的文本校對方法258

17.2.2基於深度學習的文本校對方法258

17.2.3基於預訓練語言模型的文本校對方法259

17.3KDN: 基於知識驅動的多類型文本校對融合算法264

17.3.1語法校對264

17.3.2語病校對265

17.3.3基於音形碼的相似度計算266

17.3.4校對融合算法266

17.4NLPIR文本自動校對系統設計與應用267

17.4.1自動校對模塊267

17.4.2前後端設計與實現267

17.4.3在線校對插件office268

17.4.4在線校對功能示例269

第18章自動摘要270

18.1自動摘要概述270

18.1.1基於抽取的自動文摘272

18.1.2基於理解的自動文摘274

18.2基於關鍵詞提取的自動摘要274

18.2.1文本預處理274

18.2.2停用詞表275

18.2.3雙數組Trie樹276

18.2.4關鍵詞提取277

18.2.5句子切分279

18.2.6句子相似度計算280

18.3面向主題的自動摘要280

18.3.1改進的最大邊緣相關度方法281

18.3.2面向主題的詞特徵統計282

18.3.3領域主題詞表282

18.3.4句子間的包含關系283

18.4基於主題模型與信息熵的中文文檔自動摘要技術研究284

18.4.1主題模型285

18.4.2信息熵286

18.4.3句子信息熵的計算方法286

18.4.4算法介紹287

18.4.5自動摘要應用示例288

第5篇應用篇

第19章自然語言處理應用項目293

19.1裁判文書閱讀理解293

19.1.1背景介紹293

19.1.2數據集簡介293

19.1.3評價標準293

19.1.4實驗過程及分析294

19.2PDF敏感信息發現與隱私保護295

19.2.1背景介紹295

19.2.2數據處理296

19.2.3個人信息識別297

19.2.4脫敏技術298

19.2.5結果展示300

19.3微博博主的特徵與行為大數據挖掘301

19.3.1背景介紹301

19.3.2宏觀特徵大數據挖掘302

19.3.3實驗與分析307

19.3.4微博博主的價值觀自動評估方法307

19.4用於中文影視劇台詞的語義消歧系統309

19.4.1背景介紹309

19.4.2語義消歧知識圖譜的構建310

19.4.3基於知識圖譜和語義特徵的語義消歧算法312

19.4.4實驗結果與分析314

19.4.5語義消歧系統315

19.5大數據考研分析316

19.5.1背景介紹316

19.5.2模塊設計317

19.5.3結果及分析318

19.6客服通話文本摘要提取319

19.6.1背景介紹319

19.6.2數據說明320

19.6.3評價指標320

19.6.4實驗方法320

第20章自然語言處理應用案例322

20.1《紅樓夢》前80回和後40回作者同一性分析322

20.1.1背景介紹322

20.1.2輸入數據322

20.1.3分析工具和方法322

20.1.4結果及分析323

20.2丁真走紅事件網絡輿情分析327

20.2.1背景介紹327

20.2.2系統結構及方法327

20.3個人語言特徵消除工具330

20.3.1背景介紹330

20.3.2技術概念330

20.3.3系統設計331

20.3.4總結分析332

20.4問藥小助手333

20.4.1應用概述333

20.4.2數據來源333

20.4.3數據標註333

20.4.4症狀識別334

20.4.5醫療槽填充335

20.5自動寫詩與古詩詞鑒賞翻譯系統336

20.5.1自動寫詩336

20.5.2古詩詞鑒賞與翻譯337