自然語言處理 : 原理與技術實現
羅剛, 張子憲
- 出版商: 電子工業
- 出版日期: 2016-05-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- 頁數: 443
- 裝訂: 平裝
- ISBN: 7121286203
- ISBN-13: 9787121286209
-
相關分類:
Chatbot、Text-mining
已絕版
買這商品的人也買了...
-
$560Python 自然語言處理 (Natural Language Processing with Python)
-
$880$695 -
$780$616 -
$360$284 -
$250大數據智能—因特網時代的機器學習和自然語言處理技術
-
$505多語自然語言處理:從原理到實踐 (Multilingual Natural Language Processing Applications: From Theory to Practice)
-
$474$450 -
$680$537 -
$403解析深度學習 : 語音識別實踐
-
$580$452 -
$580$458 -
$327大數據架構詳解:從數據獲取到深度學習
-
$590$502 -
$500$395 -
$360$180 -
$580$458 -
$500NLP 漢語自然語言處理原理與實踐
-
$590$460 -
$390$332 -
$301精通 Python 自然語言處理 (Mastering Natural Language Processing with Python)
-
$301自然語言處理技術入門與實戰
-
$690$587 -
$1,188$1,129 -
$580$452 -
$580$458
相關主題
商品描述
<內容簡介>
本書詳細介紹自然語言處理各主要領域的原理以Java 實現,包括中文分詞、詞性標註、依存句法分析等。其中詳細介紹了中文分詞和詞性標註的過程及相關算法,如隱馬爾可夫模型等。在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程,此外還有問答系統、語音識別等目前應用非常廣泛的領域。在問答系統的介紹中,本書特地介紹了聊天機器人的實現過程,從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。
<作者簡介>
羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先後開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現因特網信息的採集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲,聊城大學教師、中國礦業大學(北京)博士生,研究方向:自動句法分析、機器翻譯。
作者簡介
羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先後開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的採集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲,聊城大學教師、中國礦業大學(北京)博士生,研究方向:自動句法分析、機器翻譯。
目錄大綱
第1章應用自然語言處理技術1
1.1付出與回報2
1.1.1如何開始2
1.1.2招聘人員2
1.1.3學習3
1.2開發環境3
1.3技術基礎4
1.3.1Java4
1.3.2規則方法5
1.3. 3統計方法5
1.3.4計算框架5
1.3.5文本挖掘7
1.3.6語義庫7
1.4本章小結9
1.5專業術語9
第2章中文分詞原理與實現11
2.1接口12
2.1.1切分方案13
2.1 .2詞特徵13
2.2查找詞典算法13
2.2.1標準Trie樹14
2.2.2三叉Trie樹18
2.2.3詞典格式26
2.3最長匹配中文分詞27
2.3.1正向最大長度匹配法28
2.3.2逆向最大長度匹配法33
2.3.3處理未登錄串39
2.3.4開發分詞43
2.4概率語言模型的分詞方法45
2.4.1一元模型47
2.4.2整合基於規則的方法54
2.4.3表示切分詞圖55
2.4.4形成切分詞圖62
2.4.5數據基礎64
2.4.6改進一元模型75
2.4.7二元詞典79
2.4.8完全二叉樹組85
2.4.9三元詞典89
2.4.10N元模型90
2.4 .11N元分詞91
2.4.12生成語言模型99
2.4.13評估語言模型100
2.4.14概率分詞的流程與結構101
2.4.15可 長N元分詞102
2.4.16條件隨機場103
2.5新詞發現103
2.5.1成詞規則109
2.6詞性標註109
2.6.1數據基礎114
2.6.2隱馬爾可夫模型115
2.6.3存儲數據124
2.6 .4統計數據131
2.6.5整合切分與詞性標註133
2.6.6大詞表138
2.6.7詞性序列138
2.6.8基於轉換的錯誤學習方法138
2.6.9條件隨機場141
2.7詞類模型142
2.8未登錄詞識別144
2.8.1未登錄人名144
2.8.2提取候選人名145
2.8.3最長人名切分153
2.8.4一元概率人名切分153
2.8.5二元概率人名切分156
2.8.6未登錄地名159
2.8.7未登錄企業名160
2.9平滑算法160
2.10機器學習的方法164
2.10.1最大熵165
2.10.2條件隨機場170
2.11有限狀態機171
2.12地名切分178
2.12.1識別未登錄地名179
2.12.2整體流程185
2.13企業名切分187
2.13.1識別未登錄詞188
2.13.2整體流程190
2.14結果評測190
2.15本章小結191
2.16專業術語193
第3章英文分析194
3.1分詞194
3.1.1句子切分194
3.1.2識別未登錄串197
3.1.3切分邊界198
3.2詞性標註199
3.3重點詞彙202
3.4句子時態203
3.5本章小結204
第4章依存文法分析205
4.1句法分析樹205
4.2依存文法211
4.2.1中文依存文法211
4.2.2英文依存文法220
4.2.3生成依存樹232
4.2.4遍歷235
4.2.5機器學習的方法237
4.3小結237
4.4專業術語238
第5章文檔排重239
5.1相似度計算239
5.1.1夾角餘弦239
5.1.2最長公共子串242
5.1.3同義詞替換246
5.1.4地名相似度248
5.1.5企業名相似度251
5.2文檔排重251
5.2.1關鍵詞排重251
5.2.2SimHash254
5.2.3分佈式文檔排重268
5.2. 4使用文本排重269
5.3在搜索引擎中使用文本排重269
5.4本章小結270
5.5專業術語270
第6章信息提取271
6.1指代消解271
6.2中文關鍵詞提取273
6.2.1關鍵詞提取的基本方法273
6.2.2HITS算法應用於關鍵詞提取275
6.2.3從網頁中提取關鍵詞277
6.3信息提取278
6.3.1提取聯繫方式280
6.3.2從互聯網提取信息281
6.3.3提取地名282
6.4拼寫糾錯283
6.4.1模糊匹配問題285
6.4 .2正確詞表296
6.4.3英文拼寫檢查298
6.4.4中文拼寫檢查300
6.5輸入提示302
6.6本章小結303
6.7專業術語303
第7章自動摘要304
7.1自動摘要技術305
7.1.1英文文本摘要307
7.1.2中文文本摘要309
7.1.3基於篇章結構的自動摘要314
7.1.4句子壓縮314
7.2指代消解314
7.3Lucene中的動態摘要314
7.4本章小結317
7.5專業術語318
第8章文本分類319
8.1地名分類321
8.2錯誤類型分類321
8.3特徵提取322
8.4關鍵詞加權法326
8.5樸素貝葉斯330
8.6貝葉斯文本分類336
8.7支持向量機336
8.7.1多級分類345
8.7.2規則方法347
8.7 .3網頁分類350
8.8最大熵351
8.9信息審查352
8.10文本聚類353
8.10.1K均值聚類方法353
8.10.2K均值實現355
8.10.3深入理解DBScan算法359
8.10.4使用DBScan算法聚類實例361
8.11本章小結363
8.12專業術語363
第9章文本傾向性分析364
9.1確定詞語的褒貶傾向367
9.2實現情感識別368
9.3本章小結372
9.4專業術語373
第10章問答系統374
10 .1問答系統的結構375
10.1.1提取問答對376
10.1.2等價問題376
10.2問句分析377
10.2.1問題類型377
10.2.2句型381
10.2.3業務類型381
10.2.4依存樹381
10.2.5指代消解383
10.2.6二元關係383
10.2.7邏輯表示386
10.2.8問句模板386
10.2.9結構化問句模板389
10.2.10檢索方式390
10.2.11問題重寫395
10.2 .12提取事實395
10.2.13驗證答案398
10.2.14無答案的處理398
10.3知識庫398
10.4聊天機器人399
10.4.1交互式問答401
10.4.2垂直領域問答系統402
10.4.3語料庫405
10.4.4客戶端405
10.5自然語言生成405
10.6依存句法406
10.7提取同義詞410
10.7.1流程410
10.8本章小結411
10.9術語表412
第11章語音識別413
11.1總體結構414
11.1.1識別中文416
11.1.2自動問答417
11.2語音庫418
11.3語音合成419
11.3.1歸一化420
11.4語音420
11.4.1標註424
11.4.2相似度424
11.5Sphinx424
11.5.1中文訓練集426
11.6Julius429
11.7本章小結429
11.8術語表429
參考資源430
後記431