零基礎入門Python數據分析與機器學習
王國平
- 出版商: 清華大學
- 出版日期: 2021-10-01
- 定價: $414
- 售價: 8.5 折 $352
- 語言: 簡體中文
- 頁數: 257
- 裝訂: 平裝
- ISBN: 7302589178
- ISBN-13: 9787302589174
-
相關分類:
Data Science、Machine Learning
立即出貨 (庫存=1)
買這商品的人也買了...
-
$229北斗伴咱走天下
-
$610$580 -
$450$356 -
$380$323 -
$420$357 -
$550$429 -
$420$328 -
$1,000$850 -
$580$458 -
$1,529Introduction to Machine Learning, 4/e (Hardcover)
-
$599$509 -
$446芯片設計 CMOS 模擬集成電路版圖設計與驗證 : 基於 Cadence IC 617
-
$500$390 -
$556CMOS 模擬集成電路版圖設計 : 基礎、方法與驗證
-
$540$486
相關主題
商品描述
本書由一線的資深數據分析師精寫,以新版Python 3.10作為數據分析與挖掘的編程語言,循序漸進地介紹了Python數據分析的方法與技巧以及機器學習算法及其應用案例。全書首先講解Python基礎語法,以便於從未接觸過編程的讀者能夠快速上手,然後介紹了當前流行的常用數據分析工具,如數值計算工具NumPy、數據處理工具Pandas、數據可視化工具Matplotlib和數據挖掘工具Sklearn等,最後介紹了10大常用機器學習算法及其在數據挖掘中的應用,針對每一個算法均給出了案例實現,以便於讀者能夠學有所用。 本書凝聚編者十餘年工作心得,以豐富實例介紹理論知識,並給出大量應用實踐,很適合初入數據分析職場的從業者提升技能,本書也可以作為統計學、數學、經濟學、金融學、管理學以及相關理工科專業的本科生、研究生的教學參考書。
作者簡介
王國平,畢業於上海海洋大學,碩士,從業十餘年,主要從事數據可視化、數據挖掘和大數據分析與研究等工作。
精通Tableau、SPSS、SPSS Modeler、Power BI等軟件,已出版《IBM SPSS Modeler數據與文本挖掘實戰》《Microsoft Power BI數據可視化與數據分析》《Tableau數據可視化從入門到精通》《SPSS統計分析與行業應用實戰》等專著 。
目錄大綱
目錄
1章 構建數據分析開發環境 1
1.1 數據分析概述 1
1.1.1 為什麼要進行數據分析 1
1.1.2 數據分析的流程與思維 2
1.2 開發環境的構建 4
1.2.1 安裝Anaconda 5
1.2.2 安裝Jupyter庫 6
1.2.3 安裝PyCharm社區版 8
1.2.4 包管理工具 11
1.2.5 環境測試 12
1.3 必會的Python數據分析包 12
1.3.1 NumPy數組作 13
1.3.2 Pandas數據清洗 13
1.3.3 Matplotlib數據可視化 14
1.3.4 Sklearn數據建模 16
1.4 一個簡單的數據分析案例 17
1.5 小結與課後練習 19
2章 Python核心基礎 20
2.1 Python數據類型 20
2.1.1 數值類型 20
2.1.2 字符串類型 21
2.1.3 列表類型 23
2.1.4 元組類型 24
2.1.5 集合類型 25
2.1.6 字典類型 27
2.2 Python基礎語法 28
2.2.1 代碼行與縮進 28
2.2.2 條件if及if嵌套 29
2.2.3 循環:while與for 30
2.2.4 格式化:format()與% 32
2.3 Python高階函數 34
2.3.1 map()函數 34
2.3.2 reduce()函數 35
2.3.3 filter()函數 36
2.3.4 sorted()函數 36
2.4 Python編程技巧 37
2.4.1 自動補全程序 37
2.4.2 變量值的互換 38
2.4.3 列表解析式 39
2.4.4 元素序列解包 40
2.5 小結與課後練習 41
3章 Python數據分析基礎 42
3.1 數據的讀取 42
3.1.1 本地離線數據 42
3.1.2 Web在線數據 44
3.1.3 常用數據庫數據 45
3.2 數據的索引 46
3.2.1 創建與查看索引 46
3.2.2 索引重構與恢復 48
3.2.3 索引調整與排序 49
3.3 數據的切片 49
3.3.1 提取多列數據 50
3.3.2 提取多行數據 51
3.3.3 提取區域數據 51
3.4 數據的聚合 52
3.4.1 指定列數據統計 52
3.4.2 多字段分組統計 53
3.4.3 自定義聚合指標 54
3.5 小結與課後練習 55
4章 NumPy數組作 56
4.1 NumPy索引與切片 56
4.1.1 數組的索引 56
4.1.2 布爾型索引 57
4.1.3 花式索引 59
4.1.4 數組的切片 60
4.1.5 設置切片步長 61
4.2 NumPy維數變換 62
4.2.1 reshape()函數 62
4.2.2 shape()函數 63
4.2.3 resize()函數 64
4.2.4 ravel()函數 65
4.2.5 flatten()函數 66
4.3 NumPy廣播機制 67
4.3.1 廣播 67
4.3.2 廣播機制 68
4.3.3 廣播機制變化過程 69
4.3.4 廣播不兼容 70
4.4 NumPy矩陣運算 72
4.4.1 矩陣概述 72
4.4.2 矩陣的乘法 74
4.4.3 矩陣的內積 74
4.4.4 矩陣的外積 75
4.5 小結與課後練習 77
5章 Pandas數據清洗 78
5.1 重複值檢測與處理 78
5.1.1 重複值的檢測 78
5.1.2 重複值的處理 79
5.2 缺失值檢測與處理 80
5.2.1 缺失值的檢測 81
5.2.2 缺失值的處理 81
5.3 異常值檢測與處理 84
5.3.1 異常值的檢測 85
5.3.2 異常值的處理 86
5.4 金融數據的處理實戰 87
5.4.1 讀取上證指數數據 87
5.4.2 提取特定日期數據 88
5.4.3 填充非交易日數據 89
5.5 小結與課後練習 90
6章 Matplotlib數據可視化 91
6.1 圖形參數設置 91
6.1.1 設置圖形線條 91
6.1.2 設置圖形坐標軸 94
6.1.3 設置圖形圖例 97
6.2 繪圖參數文件及主要函數 99
6.2.1 修改繪圖參數文件 99
6.2.2 主要繪圖函數簡介 100
6.2.3 繪圖函數應用案例——分析某企業2020年銷售額增長情況 101
6.3 Matplotlib圖形整合 102
6.3.1 subplot()函數 103
6.3.2 subplots()函數 104
6.3.3 圖形整合實戰——分析2020年某企業產品銷售的區域差異性 105
6.4 Matplotlib可視化案例 107
6.4.1 商品區域銷售額條形圖 107
6.4.2 商品每周利潤率折線圖 110
6.4.3 商品利潤貢獻率餅圖 112
6.5 小結與課後練習 114
7章 Scikit-Learn機器學習 116
7.1 機器學習及其類型 116
7.1.1 機器學習的特點 116
7.1.2 機器學習的分類 117
7.1.3 機器學習的應用 119
7.2 Sklearn機器學習概述 120
7.2.1 Sklearn的基本概念 120
7.2.2 Sklearn的主要算法 121
7.2.3 選擇合適的算法 124
7.3 Sklearn機器學習流程 125
7.3.1 獲取數據 126
7.3.2 預處理數據 126
7.3.3 訓練模型 127
7.3.4 評估模型 128
7.3.5 優化模型 128
7.3.6 應用模型 129
7.4 Sklearn自帶的數據集 129
7.4.1 鳶尾花數據集簡介 129
7.4.2 乳腺癌數據集簡介 131
7.4.3 波士頓房價數據集簡介 132
7.4.4 糖尿病數據集簡介 133
7.4.5 手寫數字數據集簡介 134
7.4.6 紅酒數據集簡介 135
7.5 小結與課後練習 136
8章 監督式機器學習 137
8.1 線性回歸及其案例 137
8.1.1 線性回歸簡介 137
8.1.2 線性回歸的建模 138
8.1.3 汽車價格的預測 141
8.2 邏輯回歸及其案例 145
8.2.1 邏輯回歸簡介 146
8.2.2 邏輯回歸的建模 146
8.2.3 客戶收入的預測 147
8.3 Lasso回歸與Ridge回歸 151
8.3.1 Lasso回歸及案例 151
8.3.2 Ridge回歸及案例 153
8.3.3 兩種回歸的比較 154
8.4 決策樹及其案例 155
8.4.1 決策樹簡介 155
8.4.2 決策樹的建模 158
8.4.3 蘑菇類型的預測 159
8.5 K近鄰算法及其案例 166
8.5.1 K近鄰算法簡介 166
8.5.2 K近鄰算法的建模 166
8.5.3 乳腺癌患者的分類 168
8.6 支持向量機及其案例 169
8.6.1 支持向量機簡介 169
8.6.2 支持向量機的建模 170
8.6.3 乳腺癌患者的分類 172
8.7 小結與課後練習 174
9章 無監督式機器學習 175
9.1 聚類分析及其案例 175
9.1.1 K均值聚類算法及案例 175
9.1.2 使用手肘法判斷聚類數 180
9.1.3 輪廓係數法判斷聚類數 181
9.2 因子分析及其案例 185
9.2.1 因子分析概述 185
9.2.2 因子分析的建模 186
9.2.3 地區競爭力的因子分析 187
9.3 主成分分析及其案例 193
9.3.1 主成分分析概述 193
9.3.2 主成分分析的建模 194
9.3.3 乳腺癌患者的主成分分析 195
9.4 關聯分析及其案例 198
9.4.1 關聯分析概述 198
9.4.2 關聯分析的建模 199
9.4.3 電商商品購物籃分析 200
9.5 離點檢測及其案例 203
9.5.1 離點檢測概述 203
9.5.2 橢圓模型擬合及案例 204
9.5.3 局部離因子及案例 207
9.6 雙聚類分析及其案例 211
9.6.1 雙聚類分析概述 211
9.6.2 聯合譜聚類及案例 211
9.6.3 譜雙聚類及案例 213
9.7 小結與課後練習 216
10章 模型評估與調優 217
10.1 機器學習的挑戰 217
10.1.1 訓練樣本的大小 217
10.1.2 數據的不平衡 218
10.1.3 異常值的處理 218
10.1.4 模型的過擬合 219
10.1.5 特徵的選擇 219
10.2 模型的評估方法 219
10.2.1 混淆矩陣及案例 220
10.2.2 模型評估指標及案例 221
10.2.3 ROC曲線及案例 223
10.2.4 AUC及案例 225
10.2.5 R平方及案例 227
10.2.6 殘差及案例 229
10.3 模型的調優方法 231
10.3.1 交驗證及案例 231
10.3.2 網格搜索及案例 233
10.3.3 隨機搜索及案例 235
10.4 小結與課後練習 236
11章 Python中文文本分析 237
11.1 中文結巴分詞 237
11.1.1 文本分詞模式 237
11.1.2 自定義停用詞 239
11.2 中文關鍵詞提取 240
11.2.1 TF-IDF算法 240
11.2.2 TetRank算法 241
11.3 中文詞向量生成 242
11.3.1 訓練詞向量模型 242
11.3.2 計算文本詞向量 244
11.4 中文情感分析 245
11.4.1 文本情感建模 246
11.4.2 文本情感預測 247
11.5 小結與課後練習 249
附錄A Python 3.10.0及三方庫安裝 250
附錄B Python常用三方工具包簡介 254
B.1 數據分析類包 254
B.2 數據可視化類包 255
B.3 機器學習類包 256