Python數據分析、挖掘與可視化從入門到精通

熊熙; 張雪蓮

  • 廠商: 北京大學
  • 上市日期: 2024-06-01
  • 定價: $534
  • 售價: 8.5$454
  • 貨號: 9787301347690
  • 下單後立即進貨 (約5~7天)

相關主題

商品描述

筆者根據自己多年的數據分析與挖掘經驗,從零基礎讀者的角度,
詳盡地介紹了Python數據分析與挖掘的基礎知識及大量的實戰案例。
全書分為4篇,
第1篇是基礎入門篇,主要介紹數據分析與挖掘的基本概念及Python語言的數據分析基礎;
第2篇是數據分析篇,主要介紹常用的數據分析方法;
第3篇是數據挖掘篇,主要介紹常用的數據挖掘方法;
第4篇是實戰應用篇,介紹兩個完整的數據分析與挖掘案例,讓讀者瞭解如何系統地應用前面學到的各種方法解決實際問題。
對於書中的大部分章節,筆者還結合實際工作及面試經驗,
精心配備了大量高質量的練習題,供讀者邊學邊練,以便更好地掌握本書內容。
本書配備所有案例的源碼,適合有一定數學基礎的讀者使用,但不要求讀者具備編程基礎,
適合剛入行的數據分析人員或從事與數據相關工作、對數據感興趣的人員,
也適合從事其他崗位但想掌握一定的數據分析能力的職場人員,還可以作為大中專院校相關專業的教學參考用書。

目錄大綱

第1篇 基礎入門篇
第1章 從零開始:初識資料分析與挖掘
1.1 什麼是數據分析 3
1.1.1 與資料相關的概念 3
1.1.2 什麼是大數據 3
1.1.3 資料分析工具 4
1.1.4 資料分析技術的發展 7
1.2 什麼是資料探勘 8
1.2.1 資料探勘相關概念 8
1.2.2 資料探勘起源 9
1.2.3 資料探勘要解決的問題 10
1.2.4 資料探勘任務 10
1.3 資料分析與挖掘的應用領域 11
1.4 用Python進行資料分析與挖掘 12
1.4.1 Python語言概述 12
1.4.2 Python的優點 13
1.4.3 認識Python常用函式庫 14
1.5 本章小結 15
1.6 思考與練習 15
第2章 Python資料分析基礎
2.1 搭建Python開發環境 17
2.1.1 安裝Python 17
2.1.2 安裝PyCharm 18
2.1.3 安裝Anaconda 19
2.1.4 安裝與使用Jupyter 20
2.2 Python基礎 21
2.2.1 Python基礎語法 21
2.2.2 Python基本資料類型 24
2.2.3 Python控制流程與檔案操作 31
2.2.4 Python函數與模組 39
2.2.5 Python物件導向程式設計 44
2.3 本章小結 52
2.4 思考與練習 52
第3章 Python資料分析相關函式庫應用
3.1 NumPy 54
3.1.1 初識NumPy 54
3.1.2 建立數組 54
3.1.3 數組的基本運算 58
3.1.4 NumPy矩陣的基本運算 63
3.2 SciPy 66
3.2.1 初識SciPy 66
3.2.2 統計子模組scipy.stats 66
3.2.3 優化子模組scipy.optimize 68
3.2.4 插值子模組scipy.interpolate 69
3.3 Pandas 70
3.3.1 初識Pandas 70
3.3.2 Pandas的資料結構 70
3.3.3 Pandas物件的基本操作 73
3.3.4 基本統計分析 80
3.4 Scikit-learn 82
3.4.1 初識Scikit-learn 82
3.4.2 線性迴歸模型 83
3.4.3 支援向量機 85
3.4.4 聚類 87
3.5 其他常用模組 89
3.6 本章小結 90
3.7 思考與練習 91
第2篇 資料分析篇
第4章 資料的預處理
4.1 數據獲取 94
4.1.1 爬蟲概述 94
4.1.2 爬蟲常用庫和框架 95
4.1.3 資料取得實務 100
4.2 文件與資料儲存 104
4.2.1 概述 104
4.2.2 CSV檔 105
4.2.3 JSON文件 107
4.2.4 XLSL檔 108
4.2.5 SQL資料庫檔案 110
4.3 資料清洗 111
4.3.1 編碼 112
4.3.2 缺失值的檢測與處理 113
4.3.3 去除異常值 116
4.3.4 去除重複值和冗餘資訊 118
4.4 本章小結 120
4.5 思考與練習 120
第5章 資料的分析方法
5.1 分佈分析 123
5.1.1 分佈分析的概念 123
5.1.2 分佈分析的實現 123
5.2 比較分析 128
5.2.1 對比分析的概念 128
5.2.2 對比分析的比較標準 129
5.2.3 對比分析的實現 131
5.3 統計量分析 133
5.3.1 統計量分析的概念 133
5.3.2 統計量分析的實現 133
5.4 相關性分析 137
5.4.1 相關性分析的概念 137
5.4.2 相關性分析的作用 138
5.4.3 相關性分析的實現 138
5.5 帕累托分析 141
5.5.1 帕累托分析的概念 141
5.5.2 帕累托分析的實現 142
5.6 常態分佈分析 143
5.6.1 常態分佈分析的概念 144
5.6.2 常態分佈分析的實現 144
5.7 本章小結 150
5.8 思考與練習 150
第6章 資料視覺化工具的應用
6.1 資料視覺化工具-Matplotlib 153
6.1.1 安裝Matplotlib模組 153
6.1.2 繪製基礎圖形 154
6.1.3 圖形的設定 163
6.1.4 繪製多個子圖 168
6.2 資料視覺化工具-Seaborn 169
6.2.1 Seaborn庫簡介 170
6.2.2 Seaborn常用統計圖 170
6.3 本章小結 173
6.4 思考與練習 173
第3篇 資料探勘篇
第7章 資料探勘之線性迴歸
7.1 線性迴歸概述 177
7.2 一元線性迴歸 177
7.2.1 一元線性迴歸原理分析 178
7.2.2 一元線性迴歸程式碼實現 178
7.2.3 線性迴歸方法總結 183
7.3 多元線性迴歸 183
7.3.1 多元線性迴歸原理分析 183
7.3.2 多元線性迴歸代碼實現 184
7.4 線性迴歸模型的評估與檢定 187
7.4.1 適合度檢定(R2評估) 187
7.4.2 顯著性檢定(F檢定) 188
7.4.3 迴歸參數顯著性檢定(T檢定) 194
7.5 本章小結 196
7.6 思考與練習 196
第8章 資料探勘之分類模型
8.1 邏輯迴歸模型 199
8.1.1 邏輯迴歸模型的原理 199
8.1.2 分類模型評估 200
8.1.3 邏輯迴歸模型實現二分類 206
8.2 決策樹與隨機森林演算法 210
8.2.1 決策樹的工作原理 210
8.2.2 特徵選擇 211
8.2.3 決策樹的生成 213
8.2.4 決策樹的剪枝 217
8.2.5 隨機森林演算法 223
8.3 KNN演算法 225
8.3.1 KNN演算法的思想 225
8.3.2 相似性的度量方法 225
8.3.3 KNN演算法的效能 226
8.3.4 KNN演算法的實作 227
8.4 本章小結 230
8.5 思考與練習 231
第9章 資料探勘之關聯分析
9.1 關聯分析概述 235
9.1.1 關聯分析的基本概念 235
9.1.2 常見的關聯分析演算法 236
9.2 Apriori關聯分析演算法 237
9.2.1 Apriori演算法原理 237
9.2.2 Apriori演算法挖掘頻繁項集 238
9.2.3 從頻繁項集中挖掘關聯規則 238
9.2.4 基於Python實作Apriori演算法 239
9.2.5 Apriori演算法總結 243
9.3 FP-growth關聯分析演算法 244
9.3.1 建構FP樹 244
9.3.2 從一棵FP樹中挖掘頻繁項集 246
9.3.3 FP-growth演算法實例 248
9.3.4 FP-growth演算法總結 252
9.4 本章小結 253
9.5 思考與練習 253
第10章 資料探勘之聚類分析
10.1 聚類分析概論 255
10.1.1 聚類分析的概念 255
10.1.2 聚類分析的方法 255
10.1.3 聚類結果效能評估指標 256
10.2 質心聚類—K-Means演算法 257
10.2.1 K-Means演算法的原理 257
10.2.2 Python實作K-Means演算法 260
10.3 密度聚類—DBSCAN演算法 263
10.3.1 DBSCAN演算法的原理 263
10.3.2 Python實作DBSCAN演算法 265
10.4 層次聚類—AGNES演算法 267
10.4.1 AGNES演算法的原理 268
10.4.2 Python實現AGNES演算法 268
10.5 本章小結 270
10.6 思考與練習 270
第4篇 實戰應用篇
第11章 實戰案例:房價評估資料分析與挖掘
11.1 載入資料集 274
11.2 數據分析 274
11.3 資料視覺化 275
11.4 資料預處理 277
11.5 拆分資料集 279
11.6 建立線性迴歸模型 282
11.7 建立決策樹模型 291
11.8 比較分析所建構的線性迴歸與決策樹模型 294
11.9 本章小結 296
第12章 實戰案例:電信客戶流失資料分析與挖掘
12.1 案例背景 298
12.2 載入資料 298
12.3 資料準備 300
12.4 資料清洗 301
12.4.1 缺失值處理 301
12.4.2 重複值處理 301
12.4.3 數值型別轉換 301
12.5 資料處理 304
12.6 資料視覺化 305
12.7 特徵工程 313
12.8 資料建模 318
12.9 訓練模型 318
12.10 模型的評估 319
12.11 本章小結 320