Python 自然語言處理 (微課版)
周元哲
- 出版商: 清華大學
- 出版日期: 2021-11-01
- 定價: $419
- 售價: 8.5 折 $356
- 語言: 簡體中文
- 頁數: 320
- 裝訂: 平裝
- ISBN: 7302590699
- ISBN-13: 9787302590699
-
相關分類:
Text-mining
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$1,362Fundamentals of Data Structures in C++, 2/e (Paperback)
-
$301自然語言處理 Python 進階
-
$658Python 文本分析, 2/e (Text Analytics with Python: A Practitioner's Guide to Natural Language Processing, 2/e)
-
$534$507 -
$280$252 -
$534$507 -
$359$341 -
$673自然語言處理:基於預訓練模型的方法
-
$403Python 深度強化學習 : 基於 Chainer 和 OpenAI Gym
-
$331機器學習算法入門與編程實踐 (基於 Python·微課視頻版)
-
$414$393 -
$768$730 -
$245Python 數據分析之道 (Thinking in Pandas: How to Use the Python Data Analysis Library the Right Way)
-
$454趣玩 Python:自動化辦公真簡單 (雙色+視頻版)
-
$556聯邦學習原理與應用
-
$764演化學習 理論與算法進展 精裝版
-
$779$740 -
$839$797 -
$750$593 -
$356集成學習入門與實戰:原理、算法與應用
-
$680$537 -
$650$514 -
$594$564 -
$658高級 Python 核心編程開啟精通 Python 編程世界之旅
-
$505python核心編程:從入門到實踐:學與練
相關主題
商品描述
本書內容包括自然語言處理概述、Python語言簡述、Python數據類型、Python流程控制、Python函數、Python數據科學、Sklearn和NLTK、語料清洗、特徵工程、中文分詞、文本分類、文本聚類、評價指標、信息提取和情感分析。附錄給出教學大綱。 本書採用基於Python語言的Sklearn平臺和NLTK實現,便於學生更快地掌握自然語言處理的基本思想。實踐是**的學習方法,本書的所有程序都在Anaconda下調試和運行。本書配有源代碼、教學課件、語料集、教學大綱、程序安裝包、每章的視頻講解等資料。 本書內容精練、文字簡潔、結構合理,實訓題目經典實用、綜合性強,面向初、中級讀者,由“入門”起步,側重“提高”。特別適合作為高等院校自然語言處理和機器學習入門的本科或研究生教材或參考書,也可以供從事人工智能等工作的技術人員應用參考。
作者簡介
周元哲,教師,1974年9月生,碩士。
西安郵電學院從事計算機專業科研和教學。
講授《C程序設計語言》、《數據庫原理》、《視覺基礎程序設計語言》、《軟件測試》《Python程序設計》《軟件工程》等課程。
目錄大綱
第1章自然語言處理概述1
1.1 人工智能發展歷程1
1.1.1 第一階段:20年黃金時代1
1.1.2第二階段:第一次寒冬1
1.1.3第三階段:青春期1
1.1.4第四階段:第二次寒冬2
1.5第五階段:時代12
1.2自然語言處理2
1.2.1 概述2
1.2.2 發展歷程3
1.2.3 處理流程4
1.2.4研究內容4
1.3 機器學習算法6
1.3.1 監督學習6
1.3.2無監督學習7
1.4自然語言處理相關庫8
1.4.1NumPy8
1.4.2Matplotlib8
1.4.3熊貓8
1.4.4SciPy9
1.4.5NLTK9
1.4.6SnowNLP11
1.4.7Sklearn12
1.5語料庫12
1.5.1認識語料庫12
1.5.2 分類13
1.5.3構建原則13
1.5.4常用語料庫13
1.5.5搜狗新聞語料庫15
第2章Python語言簡述19
2.1Python簡介19
2.1.1Python發展歷程19
2.1.2Python的特點19
2.1.3Python應用場景20
2.2Python解釋器21
2.2.1Ubuntu下安裝Python21
2.2.2Windows下安裝Python21
2.3Python編輯器22
2.3.1IDLE22
2.3.2VS Code23
2.3.3PyCharm23
2.3.4Anaconda24
2.3.5Jupyter 31
2.4 代碼寫入規則32
2.4.1縮進32
2.4.2多行語句33
2.4.3 註釋 33
2.4.4編碼習慣33
2.5 自學網站34
2.5.1菜鳥網站34
2.5.2廖雪峰學Python網站35
2.5.3Python官方網站35
2.5.4Python100天從新手到大師網站35
第 3 章 Python 數據類型37
3.1變量37
3.1.1 變量命名37
3.1.2 變量引用38
3.2偶38
3.2.1算術相似38
3.2.2 關係倒數39
3.2.3啟動40
3.2.4邏輯衝突41
3.2.5位對手41
3.2.6 成員相同43
3.2.7 身份平等43
3.3 表達式43
3.3.1 概念43
3.3.2 操作 44
3.4 數據類型44
3.5數字45
3.5.1 概念45
3.5.2 操作 45
3.6字符串46
3.6.1 概念46
3.6.2 操作 46
3.7列表48
3.7.1 概念48
3.7.2 操作 48
3.8元組53
3.8.1 概念53
3.8.2 操作 54
3.9 字典55
3.9.1字典的概念55
3.9.2 字典操作56
3.9.3字典舉例59
3.10集合59
3.10.1集合的概念59
3.10.2集合操作60
3.10.3集合舉例61
3.11 組合數據類型62
3.11.1彼此關係62
3.11.2數據類型轉換62
第4章Python流程控制63
4.1 流程結構63
4.2 順序結構63
4.2.1 輸入輸出64
4.2.2 舉例67
4.3 選擇結構67
4.3.1單分支67
4.3.2雙分支68
4.3.3 多分支69
4.3.3.44 分支70
4.4循環概述72
4.4.1循環結構72
4.4.2循環分類72
4.5while語句72
4.5.1 基本形態 72
4.5.2else語句73
4.5.3無限循環74
4.6for語句74
4.6.1 應用序列類型74
4.6.2 內置函數range()75
4.7 循環循環76
4.7.1 原理76
4.7.2實現76
4.8 輔助報警77
4.8.1break語句77
4.8.2繼續語句79
4.8.3pass語句79
第5章Python函數81
5.1 函數聲明與調用81
5.1.1 函數聲明81
5.1.2函數調用81
5.1.3函數返回值83
5.2 參數傳遞84
5.2.1 實參與形參84
5.2.2 傳對象引用84
5.3 參數分類85
5.3.1必備參數85
5.3.2 默認參數85
5.3.3 關鍵參數86
5.3.4 不定長參數86
5.4特殊功能87
5.4.1匿名函數87
5.4.2遞歸函數88
第6章Python數據科學93
6.1科學計算93
6.2NumPy94
6.2.1認識NumPy94
6.2.2創建數組95
6.2.3 查看數組97
6.2.4 索引和膝97
6.2.5矩陣運算98
6.3Matplotlib99
6.3.1認識Matplotlib99
6.3.2 線形圖100
6.3.3 散點圖101
6.3.4 餅狀圖102
6.3.5直方圖102
6.4Pandas103
6.4.1認識Pandas103
6.4.2系列104
6.4.3DataFrame108
6.4.4Index112
6.4.5Plot114
6.5SciPy115
6.5.1認識SciPy115
6.5.2 矩陣矩陣115
6.5.3線性代數116
6.6Seaborn117
6.6.1認識Seaborn117
6.6.2 圖表分類119
第7章Sklearn和NLTK120
7.1Sklearn簡介120
7.2 安裝sklearn121
7.3數據集122
7.3.1小數據集122
7.3.2 大數據集127
7.3.3 生成數據集128
7.4 機器學習流程132
7.4.1語料清洗132
7.4.2劃分數據集132
7.4.3特徵工程137
7.4.4 機器算法137
7.4.5 模型評估137
7.5NLTK簡介138
7.6NLTK語料庫139
7.6.1就職語料庫139
7.6.2古騰堡語料庫139
7.6.3movie_reviews語料庫140
7.7NLTK文本分類141
7.7.1分句分詞141
7.7.2停止詞142
7.7.3詞幹提取143
7.7.4詞形還原143
7.7.5WordNet144
7.7. 6 需求相關性145
第8章語料清洗146
8.1 認識語料清洗146
8.2定位策略147
8.2.1項目清單147
8.2.2格式內容檢查147
8.2.3 邏輯錯誤檢查147
8.3值第147
8.3.1 認識值147
8.3.2Pandas 處理148
8.3.3Sklearn處理150
8.4異常值清洗151
8.4.1散點圖方法151
8.4.2箱線圖方法151
8.4.33σ法則153
8.5重複值取消155
8.5.1NumPy 處理155
8.5.2Pandas 處理155
8.6數據轉換157
8.6.1數據值替換157
8.6.2 數據值映射158
8.6.3 數據值合併159
8.6.4 數據值補充160
8.7Missingno庫161
8.7.1認識Missingno庫161
8.7.2示例163
8.8詞云165
8.8.1認識詞云165
8.8.2示例166
第9章特徵工程168
9.1特徵結構168
9.1.1 歸一化168
9.1.22習慣169
9.1.3 魯棒化171
9.1.4正則化171
9.1.5示例172
9.2獨熱編碼176
9.2.1認識獨熱編碼176
9.2.2Pandas實現177
9.2.3Sklearn實現178
9.2.4DictVectorizer179
9.3CountVectorizer180
9.3.1認識CountVectorizer180
9.3.2Sklearn調用CountVectorizer180
9.4TFIDF181
9.4.1認識TFIDF181
9.4.2計算TFIDF181
9.4.3Sklearn調用TFIDF182
第10章中文分詞183
10.1概述183
10.1.1簡介183
10.1.2特點183
10.2常見中文分詞方法184
10.2.1 基於規則和詞表方法184
10.2.2基於統計方法184
10.2.3 基於理解方法185
10.3中文分詞困惑185
10.4jieba分詞庫186
10.4.1認識jieba186
10.4.2三個模式187
10.4.3自定義詞典188
1.4.4詞性心理1089
10.4.5斷詞位置190
10.4.6 關鍵詞 泡沫190
10.4.7停止詞表192
10.5HanLP分詞195
10.5.1認識HanLP195
10.5.2pyhanlp196
10.5.3中文分詞196
10.5.4依存分析使用197
10.5.5 關鍵詞 提取198
10.5.6 身份識別199
10.5.7自定義詞典199
10.5.8簡體繁體轉換200
10.5.9 摘要提取200
第11章文本分類202
11.1 歷史回顧202
11.2文本分類方法202
11.2.1樸素貝葉斯202
11.2.2支持軸機203
11.3貝葉斯定理203
11.4樸素貝葉斯204
11.4.1GaussianNB方法204
11.4.2多項式NB方法205
11.4.3伯努利NB方法207
11.5樸素貝葉斯進行新聞分類208
11.6支持軸機210
11.6.1線性核函數210
11.6.2要求式核函數211
11.6.3 高斯核函數212
11.7支持矢量機對鳶尾花分類213
11.8垃圾郵件分類216
11.8.1樸素貝葉斯預言實現217
11.8.2Sklearn樸素貝葉斯實現219
第12章文本播放222
12.1概述222
12.1.1算法原理222
12.1.2 流程223
12.2K-均值算法223
12.2.1算法原理223
12.2.2數學理論實現223
12.2.3Python實現225
12.3 主要成分分析228
12.3.1 算法原理228
12.3.2組件參數228
12.3.3對鳶尾花數據降維230
12.4KMeans評估指標232
12.4.1調整蘭德係數232
12.4.2 輪廓係數232
12.KMeans英文文本文本235
12.5.1構建DataFrame數據236
12.5.2進行分詞和停止詞去除236
12.5.3 向量化236
12.5.4TFIDF模型236
12.5.5計算餘弦度237
12.6KMeans5237
12.KMeans中文文本文本6237
12.6.1 程序流程237
12.6.2 程序文件238
12.6.3執行代碼238
第13章評價指標242
13.1Sklearn中的評價指標242
13.2重矩陣242
13.2.1認識再現矩陣242
13.2.2Pandas計算重構矩陣243
13.2.3Sklearn計算重構矩陣244
13.3 準確率244
13.3.1 認識準確率244
13.3.2Sklearn計算準確率245
13.4合格率245
13.4.1 認識合理率245
13.4.2Sklearn計算合理率245
13.5指數率246
13.5.1 認識冒率246
13.2Sklearn5.2計算量率246
13.6F1 Score247
13.6.1認識F1 Score247
13.6.2Sklearn計算F1 Score247
13.7綜合實例247
13.7.1 數學計算評價指標248
13.7.2Python計算評價指標248
13.8ROC曲線250
13.8.1認識ROC曲線250
13.8.2Sklearn計算ROC曲線251
13.9AUC面積252
13.9.1認識AUC面積252
13.9.2Sklearn計算AUC面積252
13.10 分類評估報告253
13.10.1 認識分類評估報告253
13.10.2Sklearn 計算分類評估報告253
13.11NLP評價指標254
13.11.1中文分詞合理率和代價率254
13.11.2未登錄詞和登錄詞率254
第14章信息提取258
14.1概述258
14.2 相關概念258
14.2.1信息258
14.2.2信息熵258
14.2.3信息熵與霍夫曼編碼259
14.2.4互信信息260
14.3正則表達式260
14.3.1基本語法261
14.3.2re模塊261
14.3.3提取電影信息264
14.4 國內實體識別266
14.4.1 認識身份266
14.4.2常見方法266
14.4.3NLTK本土實體識別267
14.4.4斯坦福NLP生物識別269
14.5馬爾可夫模型273
14.5.1認識馬爾可夫273
14.5.2隱馬爾可夫模型273
第15章情感分析275
15.1概述275
15.1.1認識情感分析275
15.1.2基於詞典方法275
15.2情緒傾向分析276
15.2.1 情感詞276
15.2.2 程度詞276
15.2.3感嘆號276
15.2.4否定詞276
15.3textblob276
15.3.1分句分詞278
1.3.2詞性心理278
15.3.3 情感分析279
15.3.4 單複數279
15.3.5 過去式279
1.3.6拼寫真實280
15.3.7詞頻統計280
15.4SnowNLP280
15.4.1分詞281
1.4.2詞性心理281
15.4.3斷句281
15.4.4情緒判斷282
15.4.5拼音282
15.4.6繁轉簡283
15.4.7關鍵字火花283
15.4.8 抽象宇宙283
15.4.9詞頻與逆文檔詞頻284
15.5Gensim284
15.5.1認識Gensim284
15.5.2認識LDA286
15.5.3Gensim實現LDA286
15.6小說人物情感分析288
15.6.1 流程288
15.6.2代碼288
15.7電影影評情感分析289
15.7.1 流程289
15.7.2代碼289
附錄A教學大綱292
一、課程簡介292
二、課程內容及要求292
三、教學安排及學時分配298
四、執行方式299
五、建議書及參考文獻299
參考文獻300