Python 數據分析與挖掘實戰
鄧立國
- 出版商: 清華大學
- 出版日期: 2021-05-01
- 定價: $474
- 售價: 8.0 折 $379
- 語言: 簡體中文
- 頁數: 297
- 裝訂: 平裝
- ISBN: 7302577870
- ISBN-13: 9787302577874
-
相關分類:
Python、Data Science
立即出貨
買這商品的人也買了...
-
$480$379 -
$250工業大數據實踐:工業4.0時代大數據分析技術與實踐案例(Fundamentals of Big Data Network Analysis for Research and Industry)
-
$301實用數據分析, 2/e (Practical Data Analysis, 2/e)
-
$301圖形數據可視化 : 技術、工具與案例 (Visualizing Graph Data)
-
$1,440$1,368 -
$474$450 -
$390$371 -
$580$452 -
$505狼書 (捲2):Node.js Web 應用開發
-
$880$748 -
$534$507 -
$474$450 -
$534$507 -
$454架構師的自我修煉:技術、架構和未來
-
$594$564 -
$2,250$2,138 -
$359$341 -
$750$593 -
$356集成學習入門與實戰:原理、算法與應用
-
$419$398 -
$774$735 -
$551狼書 (捲3) : Node.js 高級技術
-
$505知識圖譜實戰
-
$650$507 -
$305知識圖譜:方法、工具與案例
相關主題
商品描述
本書涵蓋數據分析與數據挖掘的基礎知識、必備工具和有效實踐方法,能讓讀者充分掌握數據分析與數據挖掘的基本技能。 本書共分為15章,主要內容包括大數據獲取、數據預處理、探索性數據分析、用Sklearn估計器分類、主流數據分析庫、大數據的數據庫類型、數據倉庫/商業智能、數據聚合與分組運算、數據挖掘工具、挖掘建模、模型評估、社會媒體挖掘、圖挖掘分類、基於深度學習的驗證碼識別、基於深度學習的文本分類挖掘實現。 本書採用理論與實踐相結合的方式,利用Python語言的強大功能,以最小的編程代價進行數據的提取、處理、分析和挖掘,既適合Python數據分析與數據挖掘初學者、大數據從業人員閱讀,也適合高等院校和培訓機構大數據與人工智能相關專業的師生教學參考。
作者簡介
鄧立國,東北大學計算機應用博士畢業。
□005年開始在瀋陽師範大學軟件學院、教育技術學院任□,□要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分佈式計算等。
以□□作者發表學術論文30多篇(□6篇EI),主編教材1 部,主持科研課題6項,經費10餘萬元,多次獲得校級科研優秀獎,作為九三社員提出的智慧城市提案被市政府採納,研究成果被教育廳等單位採用。
目錄大綱
目錄
第1章 大數據採集 1
1.1 大數據分類 1
1.2 大數據採集方法 2
1.3 Python爬蟲 3
1.3.1 審查元素 4
1.3.2 認識網頁結構 5
1.3.3 認識robots.txt的文檔 6
1.3.4 爬蟲的基本原理 11
1.3.5 Python爬蟲架構 11
1.3.6 用GET方式抓取數據 12
1.3.7 用POST方式抓取數據 15
1.3.8 用Beautiful Soup解析網頁 17
1.3.9 Python爬蟲案例 19
1.4 本章小結 25
第2章 數據預處理 26
2.1 數據清洗 26
2.1.1 缺失值處理 27
2.1.2 異常值處理 28
2.2 數據集成 30
2.3 數據轉換 32
2.4 數據規約 34
2.5 Python主要數據預處理函數 35
2.6 本章小結 37
第3章 探索性數據分析 38
3.1 異常值分析 38
3.2 缺失值分析 41
3.3 分佈分析 43
3.4 相關性分析 46
3.5 對比分析 48
3.6 統計量分析 48
3.7 周期性分析 51
3.8 貢獻度分析 51
3.9 Python主要數據探索函數 52
3.10 本章小結 53
第4章 Sklearn估計器 54
4.1 Sklearn概述 54
4.2 使用Sklearn估計器分類 58
4.2.1 k近鄰算法 59
4.2.2 管道機制 63
4.2.3 Sklearn比較分類器 65
4.3 本章小結 69
第5章 主流數據分析庫 70
5.1 NumPy 70
5.2 Pandas 75
5.2.1 Pandas系列 76
5.2.2 Pandas數據幀 78
5.2.3 Pandas面板 84
5.3 SciPy 86
5.4 Matplotlib 90
5.5 本章小結 93
第6章 大數據:數據庫類型 94
6.1 關系型數據庫 94
6.2 關系型數據庫與非關系型數據庫的關系 95
6.3 SQLite 96
6.3.1 SQLite安裝與配置 96
6.3.2 SQLite命令 97
6.3.3 SQLite語法 99
6.3.4 SQLite - Python 104
6.4 MySQL 111
6.4.1 MySQL安裝 111
6.4.2 MySQL管理 114
6.4.3 MySQL PHP語法 116
6.4.4 PHP腳本連接MySQL 116
6.4.5 Python操作MySQL數據庫 117
6.5 NoSQL數據庫 123
6.5.1 NoSQL概述 123
6.5.2 列存儲數據庫 125
6.5.3 文檔存儲數據庫 134
6.5.4 鍵值存儲數據庫 143
6.5.5 圖存儲數據庫 153
6.5.6 對象存儲數據庫 155
6.5.7 XML數據庫 155
6.6 本章小結 157
第7章 數據倉庫/商業智能 158
7.1 數據倉庫和商業智能簡介 158
7.2 數據倉庫架構 159
7.3 OLAP 160
7.4 數據集市 161
7.5 商業智能 162
7.6 本章小結 163
第8章 數據聚合與分組運算 164
8.1 GroupBy技術 164
8.1.1 通過函數進行分組 165
8.1.2 對分組進行迭代 167
8.1.3 選取一個或一組列 170
8.1.4 通過字典或Series進行分組 171
8.1.5 通過函數進行分組 172
8.1.6 根據索引級別分組 173
8.2 數據聚合 174
8.2.1 面向列的多函數應用 174
8.2.2 以無索引的方式返回聚合數據 177
8.2.3 分組級運算和轉換 178
8.3 透視表和交叉表 181
8.4 本章小結 183
第9章 數據挖掘工具 184
9.1 數據挖掘工具分類 184
9.2 數據挖掘經典算法 185
9.3 免費數據挖掘工具 186
9.4 Git和GitHub項目數據挖掘工具 188
9.5 Python數據挖掘工具 190
9.5.1 Gensim 190
9.5.2 TensorFlow 194
9.5.3 Keras 197
9.6 本章小結 197
第10章 挖掘建模 198
10.1 數據挖掘建模的一般過程 198
10.2 分類與預測 199
10.3 聚類分析 200
10.4 關聯分析 201
10.5 時序模式 202
10.6 離群點檢測 203
10.7 本章小結 204
第11章 模型評估 205
11.1 驗證 205
11.2 交叉驗證 206
11.3 自助法 206
11.4 回歸評估指標 207
11.5 分類評估指標 207
11.6 ROC曲線 208
11.7 本章小結 210
第12章 社會媒體挖掘 211
12.1 社會媒體與社會媒體數據 211
12.2 中國社會媒體核心用戶數據分析 212
12.3 社會媒體挖掘技術與研究熱點 213
12.4 社會媒體挖掘流程 214
12.5 Twitter情感分析 216
12.6 本章小結 221
第13章 圖挖掘分類 222
13.1 圖挖掘概述 222
13.2 圖挖掘技術基礎 224
13.3 網絡度量 226
13.4 網絡模型 229
13.5 圖挖掘與知識推理 230
13.6 圖挖掘算法簡介 231
13.7 社區檢測 232
13.7.1 模塊度 233
13.7.2 社區發現算法 234
13.8 頻繁子圖挖掘算法gSpan的實現 237
13.9 基於networkx進行社交網絡分析 239
13.10 本章小結 245
第14章 基於深度學習的驗證碼識別 246
14.1 獲取圖片驗證碼 246
14.2 驗證碼圖片預處理 248
14.3 依賴TensorFlow的深度學習驗證碼識別 255
14.4 本章小結 259
第15章 基於深度學習的文本分類挖掘實現 260
15.1 文本分類概念 260
15.2 文本分類挖掘算法概述 261
15.3 基於傳統機器學習的文本分類 262
15.4 基於深度學習的文本分類 263
15.4.1 FastText文本分類模型算法實現 264
15.4.2 TextCNN文本分類模型算法實現 268
15.4.3 Bert深度雙向Transformer構建語言理解預訓練模型 271
15.4.4 TextRNN文本分類 273
15.4.5 RCNN文本分類 275
15.4.6 Hierarchical Attention Network文本分類 278
15.4.7 seq2seq with attention文本分類 281
15.4.8 Transformer文本分類 283
15.4.9 Dynamic Memory Network文本分類 289
15.4.10 Recurrent Entity Network文本分類 292
15.4.11 Boosting文本分類 294
15.4.12 BiLstmTextRelation文本分析 294
15.4.13 twoCNNTextRelation文本分類 297
15.5 本章小結 297
參考文獻 298