Python 數據分析項目全程實錄
明日科技
- 出版商: 清華大學
- 出版日期: 2024-10-01
- 定價: $539
- 售價: 8.5 折 $458
- 語言: 簡體中文
- ISBN: 7302670536
- ISBN-13: 9787302670537
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$520$406 -
$594$564 -
$648$616 -
$505人臉識別與美顏算法實戰:基於 Python、機器學習與深度學習
-
$305Python Web 項目開發實戰教程 (Flask版)(微課版)
-
$458特徵工程的藝術:通用技巧與實用案例
相關主題
商品描述
《Python數據分析項目全程實錄》精選不同行業、不同分析方法以及機器學習等方向的12個熱門Python數據分析項目。這些項目既可以作為練手項目,也可以應用於實際數據分析工作中,其中的機器學習還可作為參賽項目的參考。總體來說,這些項目的實用性都非常強。具體項目包含:熱銷產品銷售數據統計分析、籃壇薪酬揭秘:球員位置與薪資數據的深度分析、股海秘籍:股票行情數據分析之旅、京東某商家的銷售評價數據分析、商城註冊用戶數據探索分析、自媒體賬號內容數據分析、汽車數據可視化與相關性分析、抖音電商數據分析系統、會員數據化運營RFM分析實戰、商超購物Apriori關聯分析、基於K-Means算法實現鳶尾花聚類分析、電視節目數據分析系統。本書從數據分析、機器學習的角度出發,按照項目開發的順序,系統、全面地講解每一個項目的開發實現過程。體例上,每章一個項目,統一採用“開發背景→系統設計→技術準備→各功能模塊實現→項目運行→源碼下載”的形式完整呈現項目,給讀者明確的成就感,可以讓讀者快速積累實際數據分析經驗與技巧,早日實現就業目標。
作者簡介
明日科技,全名為吉林省明日科技有限公司,是一家專業從事軟體開發、教育培訓以及軟體開發教育資源整合的高科技公司,其編寫的教材非常注重選取軟體開發中的必需、常用內容,同時也很注重內容的易學、方便性以及相關知識的拓展性,深受讀者喜愛。其教材多次榮獲「全行業優秀暢銷品種」「全國高校出版社優秀暢銷書」等獎項,多個品種長期位居同類圖書銷售排行榜的前列。
目錄大綱
第1章 熱銷產品銷售數據統計分析 1
——pandas + numpy + matplotlib + ABC分類法
1.1 開發背景 1
1.2 系統設計 2
1.2.1 開發環境 2
1.2.2 分析流程 2
1.2.3 功能結構 2
1.3 技術準備 3
1.3.1 技術概覽 3
1.3.2 ABC分類法 3
1.4 前期工作 4
1.4.1 開發環境設置 4
1.4.2 安裝第三方模塊 5
1.4.3 新建項目目錄 5
1.4.4 數據準備 5
1.5 數據預處理 6
1.5.1 查看數據信息 6
1.5.2 缺失性分析 8
1.5.3 描述性統計分析 9
1.6 數據統計分析 10
1.6.1 月銷售趨勢分析 10
1.6.2 熱銷產品分析(ABC分類法) 12
1.6.3 熱銷單品環比增長情況分析 14
1.6.4 加購人數和購買數量分析 16
1.6.5 不同種類產品的銷量占比情況分析 17
1.6.6 工作日與周末銷量對比分析 19
1.7 項目運行 21
1.8 源碼下載 22
第2章 籃壇薪酬揭秘:球員位置與薪資數據的深度分析 23
——pandas + numpy + matplotlib + seaborn
2.1 開發背景 24
2.2 系統設計 24
2.2.1 開發環境 24
2.2.2 分析流程 24
2.2.3 功能結構 25
2.3 技術準備 25
2.3.1 技術概覽 25
2.3.2 詳解read_htlm()獲取網頁數據全過程 25
2.3.3 應用lambda函數快速處理數據 26
2.4 數據準備 27
2.4.1 數據集介紹 27
2.4.2 確定網頁數據的結構 28
2.4.3 獲取當前數據 29
2.5 數據預處理 30
2.5.1 查看數據 30
2.5.2 數據清洗 31
2.5.3 獲取並處理歷史數據 33
2.6 基本統計分析 34
2.6.1 2024賽季球員的薪資排行TOP10 34
2.6.2 統計分析各個球隊的薪資狀況 36
2.6.3 勇士隊球員的薪資狀況分析 37
2.6.4 箱形圖分析實力和戰績TOP5球隊的薪資狀況 39
2.6.5 對比分析2023—2024賽季各球隊薪資變化 41
2.7 深度分析 42
2.7.1 球員薪資分佈密度圖 42
2.7.2 分析不同位置球員的薪資狀況 43
2.7.3 分析球員位置和薪資的關系 45
2.8 項目運行 46
2.9 源碼下載 47
第3章 股海秘籍:股票行情數據分析之旅 48
——tushare + pandas + matplotlib + numpy + mplfinance
3.1 開發背景 49
3.2 系統設計 49
3.2.1 開發環境 49
3.2.2 分析流程 49
3.2.3 功能結構 50
3.3 技術準備 50
3.3.1 技術概覽 50
3.3.2 詳解tushare模塊獲取股票數據 50
3.3.3 mplfinance模塊的應用 53
3.4 前期準備 56
3.4.1 新建Jupyter Notebook文件 56
3.4.2 導入必要的庫 58
3.4.3 獲取股票行情數據 58
3.5 數據加載與預處理 59
3.5.1 數據加載與處理 59
3.5.2 數據查看與缺失性分析 59
3.5.3 描述性統計分析 60
3.5.4 抽取特徵數據 61
3.5.5 異常值分析 61
3.5.6 數據歸一化處理 61
3.6 數據統計分析 63
3.6.1 可視化股票走勢圖 63
3.6.2 股票成交量時間序列圖 63
3.6.3 股票收盤價與成交量分析 64
3.6.4 股票漲跌情況分析 65
3.6.5 股票k線走勢圖 66
3.7 股票指標相關性分析 67
3.7.1 散點圖矩陣分析 67
3.7.2 相關系數分析 68
3.8 項目運行 70
3.9 源碼下載 71
第4章 京東某商家的銷售評價數據分析 72
——pandas + numpy + jieba + matplotlib + pyecharts + snownlp
4.1 開發背景 72
4.2 系統設計 73
4.2.1 開發環境 73
4.2.2 分析流程 73
4.2.3 功能結構 73
4.3 技術準備 74
4.3.1 技術概覽 74
4.3.2 詳解jieba模塊 74
4.3.3 繪制詞雲圖 78
4.3.4 snownlp模塊的應用 80
4.4 前期準備 82
4.4.1 安裝第三方模塊 82
4.4.2 新建Jupyter Notebook文件 82
4.4.3 導入必要的庫 84
4.4.4 數據加載 84
4.5 數據預處理 84
4.5.1 查看數據 84
4.5.2 缺失性分析 85
4.5.3 數據處理 86
4.5.4 缺失值處理 87
4.5.5 數據類型轉換 87
4.6 用戶維度分析 88
4.6.1 總體評價狀況分析 88
4.6.2 詞雲圖分析差評用戶 89
4.6.3 正負面情感對比分析 90
4.6.4 評價數量和評價時間的關系分析 91
4.7 商品維度分析 93
4.7.1 差評商品分析 93
4.7.2 各評價級別商品件數分析 93
4.8 項目運行 94
4.9 源碼下載 95
第5章 商城註冊用戶數據探索分析 96
——MySQL + sqlalchemy + pandas + matplotlib
5.1 開發背景 97
5.2 系統設計 97
5.2.1 開發環境 97
5.2.2 分析流程 97
5.2.3 功能結構 97
5.3 技術準備 98
5.3.1 技術概覽 98
5.3.2 詳解sqlalchemy模塊 98
5.3.3 數據類型轉換兩個核心方法 102
5.3.4 fill_between()函數的應用 102
5.4 導入MySQL數據 103
5.5 數據預處理 105
5.5.1 數據準備 105
5.5.2 sqlalchemy連接MySQL數據庫 105
5.5.3 數據檢測與處理 106
5.6 用戶註冊情況分析 107
5.6.1 年度註冊用戶分析 107
5.6.2 月度註冊用戶分析 109
5.6.3 小時註冊用戶分析 110
5.6.4 新註冊用戶分析 112
5.7 用戶活躍情況分析 113
5.7.1 用戶登錄情況分析 113
5.7.2 用戶登錄周情況分析 114
5.7.3 用戶登錄時段分析(工作日) 116
5.7.4 用戶登錄時段分析(非工作日) 117
5.8 項目運行 118
5.9 源碼下載 119
第6章 自媒體賬號內容數據分析 120
——pandas + matplotlib + plotly
6.1 開發背景 120
6.2 系統設計 121
6.2.1 開發環境 121
6.2.2 分析流程 121
6.2.3 功能結構 121
6.3 技術準備 122
6.3.1 技術概覽 122
6.3.2 pandas查看數據類型 122
6.3.3 詳解to_datetime()函數轉換時間序列數據 123
6.4 前期準備 125
6.4.1 安裝第三方模塊 125
6.4.2 新建Jupyter Notebook文件 126
6.4.3 導入必要的庫 127
6.4.4 數據準備 127
6.4.5 數據預覽 128
6.5 數據預處理 129
6.5.1 數據合並 129
6.5.2 查看數據 130
6.5.3 數據類型轉換 130
6.5.4 描述性統計分析 131
6.6 數據統計分析 133
6.6.1 各類別內容閱讀人數的集中趨勢分析 133
6.6.2 各類別內容數量占比分析 134
6.6.3 箱形圖分析各類別內容的閱讀人數 135
6.6.4 水平柱形圖分析平均展現量 136
6.6.5 箱形圖分析內容展現量 137
6.6.6 內容展現量和閱讀量的相關性分析 138
6.7 項目運行 139
6.8 源碼下載 140
第7章 汽車數據可視化與相關性分析 141
——pandas + matplotlib + seaborn
7.1 開發背景 141
7.2 系統設計 142
7.2.1 開發環境 142
7.2.2 分析流程 142
7.2.3 功能結構 142
7.3 技術準備 143
7.3.1 技術概覽 143
7.3.2 盤點seaborn自帶的數據集 143
7.3.3 value_counts()方法的應用 147
7.3.4 詳解pairplot()函數 147
7.4 前期準備 153
7.4.1 新建項目目錄 153
7.4.2 數據準備 153
7.5 數據預處理 154
7.5.1 查看數據 154
7.5.2 缺失值查看與處理 155
7.5.3 描述性統計分析 156
7.6 數據統計分析 156
7.6.1 汽車產地占比情況分析 156
7.6.2 品牌旗下汽車差異情況分析 157
7.7 相關性分析 159
7.7.1 矩陣圖分析相關性 159
7.7.2 相關系數分析相關性 160
7.7.3 散點圖分析氣缸數和馬力之間的關系 160
7.7.4 折線圖分析氣缸數和油耗之間的關系 161
7.7.5 產地和油耗之間的關系 162
7.7.6 車型生產年份和油耗之間的關系 163
7.7.7 油耗、馬力和重量之間的關系 164
7.8 項目運行 165
7.9 源碼下載 166
第8章 抖音電商數據分析系統 167
——pandas + numpy + pyecharts
8.1 開發背景 168
8.2 系統設計 168
8.2.1 開發環境 168
8.2.2 分析流程 168
8.2.3 功能結構 169
8.3 技術準備 169
8.3.1 技術概覽 169
8.3.2 pandas數據美化樣式匯總 169
8.3.3 eq()方法詳解 172
8.4 前期準備 173
8.4.1 數據準備 173
8.4.2 新建Jupyter Notebook文件 173
8.4.3 導入必要的庫 175
8.5 數據預處理 176
8.5.1 查看數據 176
8.5.2 突出顯示數據 176
8.5.3 0值檢測與處理 177
8.5.4 數據類型轉換 177
8.5.5 描述性統計分析 178
8.6 成交數據分析 179
8.6.1 整體情況分析 179
8.6.2 自營/帶貨訂單量分析 179
8.6.3 不同載體訂單量分析 180
8.6.4 每日訂單量分析 181
8.6.5 商品成交金額分析 182
8.6.6 新老客戶成交額對比分析 183
8.7 主播數據分析 184
8.7.1 引流能力分析 184
8.7.2 互動能力分析 185
8.7.3 吸粉能力分析 186
8.7.4 UV價值分析 186
8.8 項目運行 187
8.9 源碼下載 188
第9章 會員數據化運營RFM分析實戰 189
——RFM模型+pandas+matplotlib+seaborn
9.1 開發背景 189
9.2 系統設計 190
9.2.1 開發環境 190
9.2.2 分析流程 190
9.2.3 功能結構 190
9.3 技術準備 191
9.3.1 技術概覽 191
9.3.2 RFM模型 191
9.3.3 隨機抽取數據的sample()方法 192
9.3.4 深度解讀直方圖(histplot()函數) 193
9.4 前期工作 200
9.4.1 新建項目目錄 200
9.4.2 數據準備 200
9.5 數據預處理 201
9.5.1 數據預覽 201
9.5.2 缺失性分析 202
9.5.3 描述性統計分析 202
9.5.4 數據處理 203
9.5.5 計算RFM值 204
9.6 數據統計分析 205
9.6.1 消費周期分析 205
9.6.2 消費頻次分析 206
9.6.3 消費金額分析 206
9.7 會員群體分析 208
9.7.1 RFM模型指標打分 208
9.7.2 會員群體劃分 209
9.8 項目運行 210
9.9 源碼下載 211
第10章 商超購物Apriori關聯分析 212
——pandas + matplotlib + Apriori關聯分析 + mlxtend
10.1 開發背景 212
10.2 系統設計 213
10.2.1 開發環境 213
10.2.2 分析流程 213
10.2.3 功能結構 213
10.3 技術準備 214
10.3.1 技術概覽 214
10.3.2 Apriori關聯分析 214
10.3.3 詳解mlxtend模塊 215
10.4 前期工作 220
10.4.1 新建項目目錄 220
10.4.2 數據準備 221
10.5 數據預處理 221
10.5.1 查看數據 221
10.5.2 轉換交易日期類型 222
10.5.3 重復值檢測與處理 223
10.6 數據統計分析 223
10.6.1 上半年成交金額分析 223
10.6.2 上半年客單價分析 225
10.6.3 顧客客單價占比分析 226
10.7 購物關聯分析 227
10.7.1 統計顧客所購買的商品 227
10.7.2 數據one-hot編碼 228
10.7.3 Apriori關聯分析 229
10.8 項目運行 230
10.9 源碼下載 231
第11章 基於K-Means算法實現鳶尾花聚類分析 232
——seaborn + pandas + matplotlib + numpy + scikit-learn 232
11.1 開發背景 233
11.2 系統設計 233
11.2.1 開發環境 233
11.2.2 分析流程 233
11.2.3 功能結構 234
11.3 技術準備 234
11.3.1 技術概覽 234
11.3.2 numpy模塊補充知識點 234
11.3.3 深入瞭解機器學習sklearn模塊 237
11.3.4 訓練集和測試集劃分函數train_test_split()的全面解讀 240
11.3.5 模型評估(calinski_harabasz_score()方法) 242
11.4 前期工作 242
11.4.1 安裝第三方庫 242
11.4.2 新建項目目錄 243
11.4.3 認識鳶尾花 243
11.4.4 瞭解鳶尾花數據集iris 244
11.5 數據預處理 244
11.5.1 加載數據 244
11.5.2 查看數據 245
11.5.3 查看鳶尾花種類 245
11.5.4 描述性統計分析 245
11.5.5 隨機抽樣 246
11.6 數據統計分析 247
11.6.1 鳶尾花花瓣長度TOP10 247
11.6.2 使用箱形圖分析鳶尾花花瓣的長度 248
11.6.3 最常見的鳶尾花花瓣長度 249
11.6.4 直方圖分析鳶尾花花瓣長度 250
11.7 相關性分析 251
11.7.1 相關系數分析 251
11.7.2 各特徵之間關系矩陣圖 252
11.7.3 散點圖分析鳶尾花花瓣長度和寬度的關系 253
11.7.4 散點圖分析鳶尾花花萼長度和寬度的關系 254
11.7.5 鳶尾花的線性關系分析 255
11.8 鳶尾花聚類分析 256
11.8.1 抽取特徵數據 256
11.8.2 劃分訓練集和測試集 256
11.8.3 基於K-Means算法創建聚類模型 256
11.8.4 聚類模型評估 258
11.8.5 預測鳶尾花種類 258
11.9 項目運行 258
11.10 源碼下載 259
第12章 電視節目數據分析系統 260
——Qt Designer + PyQt5 + pandas + pyecharts
12.1 開發背景 260
12.2 系統設計 261
12.2.1 開發環境 261
12.2.2 分析流程 261
12.2.3 功能結構 261
12.3 技術準備 262
12.3.1 技術概覽 262
12.3.2 可視化設計環境安裝與配置 262
12.3.3 Qt Designer入門 264
12.3.4 PyQt5入門知識點總結 267
12.4 前期工作 272
12.4.1 新建項目目錄 272
12.4.2 數據準備 273
12.5 主窗體界面 274
12.5.1 功能草圖 274
12.5.2 創建主窗體 274
12.5.3 工具欄 275
12.5.4 其他控件 277
12.5.5 將.ui文件轉換為.py文件 278
12.6 數據預處理 279
12.6.1 數據預覽 279
12.6.2 查看數據 280
12.6.3 描述性統計分析 280
12.7 數據統計分析 281
12.7.1 數據連接模塊 281
12.7.2 數據分析及可視化模塊 281
12.7.3 顯示主窗體模塊 284
12.8 項目運行 286
12.9 源碼下載 286