Python數據預處理技術與實踐

白寧超、唐聃、文俊

  • 出版商: 清華大學
  • 出版日期: 2019-12-01
  • 定價: $414
  • 售價: 7.9$327
  • 貴賓價: 7.5$311
  • 語言: 簡體中文
  • ISBN: 7302539715
  • ISBN-13: 9787302539711
  • 相關分類: Python
  • 立即出貨

  • Python數據預處理技術與實踐-preview-1
  • Python數據預處理技術與實踐-preview-2
  • Python數據預處理技術與實踐-preview-3
Python數據預處理技術與實踐-preview-1

買這商品的人也買了...

相關主題

商品描述

本書基礎理論和工程應用相結合,循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現代碼,最後,通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。 本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

目錄大綱

第1章概述    1
1.1Python數據預處理    1
1.1.1什么是數據預處理    1
1.1.2為什么要做數據預處理    2
1.1.3數據預處理的工作流程    2
1.1.4數據預處理的應用場景    3
1.2開發工具與環境    3
1.2.1Anaconda介紹與安裝    3
1.2.2SublimeText    7
1.3實戰案例:第一個中文分詞程序    12
1.3.1中文分詞    12
1.3.2實例介紹    14
1.3.3結巴實現中文分詞    14
1.4本章小結    15
第2章Python科學計算工具    16
2.1NumPy    16
2.1.1NumPy的安裝和特點    16
2.1.2NumPy數組    18
2.1.3Numpy的數學函數    20
2.1.4NumPy線性代數運算    22
2.1.5NumPyIO操作    22
2.2SciPy    23
2.2.1SciPy的安裝和特點    23
2.2.2SciPyLinalg    25
2.2.3SciPy文件操作    27
2.2.4SciPy插值    28
2.2.5SciPyNdimage    30
2.2.6SciPy優化算法    33
2.3Pandas    35
2.3.1Pandas的安裝和特點    36
2.3.2Pandas的數據結構    36
2.3.3Pandas的數據統計    39
2.3.4Pandas處理丟失值    41
2.3.5Pandas處理稀疏數據    45
2.3.6Pandas的文件操作    46
2.3.7Pandas可視化    48
2.4本章小結    54
第3章數據采集與存儲    55
3.1數據與數據采集    55
3.2數據類型與采集方法    56
3.2.1結構化數據    56
3.2.2半結構化數據    56
3.2.3非結構化數據    57
3.3網絡爬蟲技術    57
3.3.1前置條件    58
3.3.2Scrapy技術原理    58
3.3.3Scrapy新建爬蟲項目    59
3.3.4爬取網站內容    61
3.4爬取數據以JSON格式進行存儲    69
3.5爬取數據的MySQL存儲    71
3.5.1MySQL與Navicat部署    71
3.5.2MySQL存儲爬蟲數據    72
3.6網絡爬蟲技術擴展    75
3.7本章小結    76
第4章文本信息抽取    77
4.1文本抽取概述    77
4.2文本抽取問題    78
4.3Pywin32抽取文本信息    79
4.3.1Pywin32介紹    79
4.3.2抽取Word文檔文本信息    80
4.3.3抽取PDF文檔文本信息    83
4.3.4打造靈活的文本抽取工具    84
4.4文本批量編碼    86
4.5實戰案例:遍歷文件批量抽取新聞文本內容    86
4.5.1遞歸讀取文件    87
4.5.2遍歷抽取新聞文本    88
4.6本章小結    91
第5章文本數據清洗    92
5.1新聞語料的準備    92
5.2高效讀取文件    93
5.2.1遞歸遍歷讀取新聞    94
5.2.2yield生成器    95
5.2.3高效遍歷讀取新聞    97
5.3通過正則表達式來清洗文本數據    98
5.3.1正則表達式    98
5.3.2清洗文本數據    100
5.4清洗HTML網頁數據    102
5.5簡繁字體轉換    104
5.6實戰案例:批量新聞文本數據清洗    106
5.6.1高效讀取文件內容    106
5.6.2抽樣處理文件    107
5.6.3通過正則表達式批量清洗文件    108
5.7本章小結    109
第6章中文分詞技術    110
6.1中文分詞簡介    110
6.1.1中文分詞概述    110
6.1.2常見中文分詞方法    111
6.2結巴分詞精講    112
6.2.1結巴分詞的特點    112
6.2.2結巴分詞的安裝    112
6.2.3結巴分詞核心方法    112
6.2.4結巴中文分詞的基本操作    113
6.2.5自定義分詞詞典    114
6.2.6關鍵詞提取    115
6.2.7詞性標注    116
6.3HanLP分詞精講    117
6.3.1JPype1的安裝    117
6.3.2調用HanLP的Java包    117
6.3.3HanLP分詞    118
6.3.4HanLP實現自定義分詞    120
6.3.5命名實體識別與詞性標注    120
6.3.6HanLP實現關鍵詞抽取    121
6.3.7HanLP實現自動摘要    121
6.4自定義去除停用詞    122
6.4.1以正則表達式對文本信息進行清洗    122
6.4.2結巴中文分詞詞性解讀    124
6.4.3根據詞性規則構建自定義停用詞    126
6.5詞頻統計    126
6.5.1NLTK介紹與安裝    126
6.5.2統計新聞文本詞頻    128
6.5.3統計特定詞頻和次數    129
6.5.4特征詞的頻率分布表    129
6.5.5頻率分布圖與頻率累計分布圖    130
6.5.6基于Counter的詞頻統計    131
6.6自定義去高低詞頻    132
6.7自定義規則提取特征詞    133
6.8實戰案例:新聞文本分詞處理    134
6.9本章小結    135
第7章文本特征向量化    136
7.1解析數據文件    136
7.2處理缺失值    138
7.2.1什么是數據缺失值    138
7.2.2均值法處理數據缺失值    139
7.2.3Pandas處理缺失值    141
7.3數據的歸一化處理    143
7.3.1不均衡數據分析    143
7.3.2歸一化的原理    144
7.3.3歸一化的優點    145
7.4特征詞轉文本向量    146
7.5詞頻-逆詞頻(TF-IDF)    147
7.6詞集模型與詞袋模型    148
7.7實戰案例:新聞文本特征向量化    153
7.8本章小結    154
第8章Gensim文本向量化    155
8.1Gensim的特性和核心概念    155
8.2Gensim構建語料詞典    156
8.3Gensim統計詞頻特征    158
8.4Gensim計算TF-IDF    158
8.5Gensim實現主題模型    160
8.5.1主題模型    160
8.5.2潛在語義分析(LSA)    161
8.5.3隱含狄利克雷分布(LDA)    164
8.5.4LDA的模型實現    166
8.5.5隨機映射(RP)    167
8.6實戰