Python 自然語言處理入門與實戰

Name: Python 自然語言處理入門與實戰
Price: 305 TWD
Availability: InStock
Author: 戴程，張良均
ISBN: 7115592780

戴程，張良均

預覽內頁

出版商: 人民郵電
出版日期: 2022-10-01
定價: $359
售價: 8.5 折 $305
語言: 簡體中文
頁數: 214
ISBN: 7115592780
ISBN-13: 9787115592781
相關分類: Text-mining

立即出貨

買這商品的人也買了...

~~$580~~ $458

設計聊天機器人｜建立對話式體驗 (Designing Bots: Creating Conversational Experiences)
$352

Python 自然語言處理實戰：核心技術與算法
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
~~$690~~ $538

NLP 工程師養成術：自然語言處理入門
$709

遷移學習 -- TRANSFER LEARNING (楊強教授新作)
$403

會話式AI：自然語言處理與人機交互
$658

Python 文本分析, 2/e (Text Analytics with Python: A Practitioner's Guide to Natural Language Processing, 2/e)
~~$594~~ $564

深入淺出 Embedding：原理解析與應用實踐
~~$750~~ $593

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e
$454

自然語言處理 NLP 從入門到項目實戰：Python 語言實現
$305

Python 中文自然語言處理基礎與實戰
~~$407~~ $383

PyTorch 自然語言處理入門與實戰
$458

基於機器學習的工作流活動推薦
~~$659~~ $626

深度學習高手筆記捲1：基礎算法
~~$620~~ $465

實戰 Python Flask 開發｜基礎知識 x 物件偵測 x 機器學習應用
~~$594~~ $564

DataOps 實踐手冊 : 敏捷精益的數據運營
~~$414~~ $393

Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI
~~$474~~ $450

貝葉斯算法與機器學習
$407

網絡 DevOps 平台規劃、設計與實踐 — 基於企業架構（EA）和領域建模（DDD）的方法
~~$779~~ $740

深度強化學習
$388

軟件開發的 201個原則 (必讀經典簡裝本)
$388

代碼的藝術：用工程思維驅動軟件開發（必讀經典簡裝本）
~~$479~~ $455

Python 程序員面試筆試通關攻略
$602

因果推斷與機器學習
~~$620~~ $490

ChatGPT 完整解析：API 實測與企業應用實戰

商品描述

本書以自然語言處理常用技術與真實案例相結合的方式，深入淺出地介紹自然語言處理中的關鍵內容。全書共8章，內容包括自然語言處理概述、文本數據爬取、文本基礎處理、文本進階處理、天問一號事件中的B站網民情感分析、新聞文本分類、基於瀏覽記錄的個性化新聞推薦以及基於TipDM數據挖掘建模平臺實現新聞文本分類。本書大部分章節包含了課後習題，其中前4章設置了選擇題，後4章設置了操作題，希望通過練習和操作實踐，幫助讀者鞏固所學的內容。

本書可作為高校數據科學、人工智能和新聞傳播相關專業教材，也可作為自然語言處理愛好者的自學用書。

作者簡介

张良均，高级信息系统项目管理师，泰迪杯全国大学生数据挖掘竞赛（www.tipdm.org）的发起人。华南师范大学、广东工业大学兼职教授，广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历，主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格（水平）考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇，已取得国家发明专利12项，主编图书《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》等9本图书，主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书，具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

目錄大綱

第　1章導論　1

1.1　自然語言處理概述　1

1.1.1　發展歷程　1

1.1.2　研究任務　3

1.1.3　自然語言處理與新聞傳媒　5

1.2　自然語言處理工具　11

1.2.1　常見的自然語言處理工具　12

1.2.2　Python與自然語言處理　14

1.3　NLP的開發環境　14

1.3.1　Anaconda安裝　14

1.3.2　Anaconda應用介紹　15

小結　22

課後習題　22

第　2章文本數據爬取　24

2.1　HTTP通信基礎　24

2.1.1　熟悉HTTP請求方法與過程　24

2.1.2　熟悉常見HTTP狀態碼　27

2.1.3　熟悉HTTP頭部信息　28

2.1.4　熟悉Cookie　29

2.2　靜態網頁爬取　31

2.2.1　實現HTTP請求　32

2.2.2　網頁解析　35

2.2.3　數據存儲　42

2.3　動態網頁爬取　44

2.3.1　逆向分析爬取　45

2.3.2　使用Selenium庫爬取　50

小結　58

課後習題　59

第3章　文本基礎處理　61

3.1　語料庫　61

3.1.1　語料庫概述　61

3.1.2　語料庫種類與原則　63

3.1.3　NLTK庫　65

3.1.4　語料庫的獲取　68

3.1.5　語料庫的構建與應用　70

3.2　分詞與詞性標註　74

3.2.1　中文分詞簡介　74

3.2.2　基於規則的分詞　74

3.2.3　基於統計的分詞　76

3.2.4　中文分詞工具jieba庫　79

3.2.5　詞性標註簡介　80

3.2.6　詞性標註規範　81

3.2.7　jieba詞性標註　82

3.3　命名實體識別　85

3.3.1　命名實體識別簡介　86

3.3.2　CRF模型　87

3.3.3　命名實體識別流程　87

3.4　關鍵詞提取　91

3.4.1　關鍵詞提取技術簡介　91

3.4.2　關鍵詞提取算法　92

3.4.3　自動提取文本關鍵詞　93

小結　97

課後習題　97

第4章　文本進階處理　99

4.1　文本向量化　99

4.1.1　文本向量化簡介　99

4.1.2　文本離散表示　100

4.1.3　分佈式表示　102

4.1.4　Word2Vec詞向量的訓練　106

4.2　文本相似度計算　108

4.2.1　文本相似度的定義　108

4.2.2　文本的表示　108

4.2.3　常用文本相似度算法　111

4.3　文本分類與聚類　117

4.3.1　文本挖掘簡介　117

4.3.2　文本分類常用算法　118

4.3.3　文本聚類常用算法　120

4.3.4　文本分類與聚類的步驟　121

4.3.5　新聞文本分類　122

4.3.6　新聞文本聚類　130

小結　135

課後習題　136

第5章　天問一號事件中的網民評論情感分析　137

5.1　業務背景與項目目標　137

5.1.1　業務背景　138

5.1.2　數據說明　138

5.1.3　分析目標　139

5.2　分析方法與過程　140

5.2.1　數據探索　140

5.2.2　文本預處理　145

5.2.3　繪制詞雲圖　149

5.2.4　使用樸素貝葉斯構建情感分析模型　154

5.2.5　模型評估　160

5.2.6　模型優化　162

小結　167

課後習題　167

第6章　新聞文本分類　172

6.1　業務背景與項目目標　172

6.1.1　業務背景　172

6.1.2　數據說明　173

6.1.3　分析目標　173

6.2　分析方法與過程　174

6.2.1　數據採集　174

6.2.2　數據探索　175

6.2.3　文本預處理　181

6.2.4　SVM模型構建　185

6.2.5　模型評價　189

小結　191

課後習題　191

第7章　基於瀏覽記錄的個性化新聞推薦　193

7.1　業務背景與項目目標　193

7.1.1　業務背景　194

7.1.2　數據說明　194

7.1.3　分析目標　195

7.2　分析方法與過程　196

7.2.1　數據探索　196

7.2.2　數據預處理　201

7.2.3　模型構建　202

7.2.4　模型評估　209

小結　210

課後習題　211

第8章　基於TipDM數據挖掘建模平臺實現新聞文本分類　212

8.1　平臺簡介　212

8.1.1　實訓庫　213

8.1.2　數據連接　214

8.1.3　實訓數據　215

8.1.4　系統算法　217

8.1.5　個人算法　219

8.2　實現新聞文本分類　220

8.2.1　數據源配置　221

8.2.2　文本預處理　223

8.2.3　支持向量機模型　231

小結　233

課後習題　233