Python數據分析項目全程實錄

明日科技

  • 出版商: 清華大學
  • 出版日期: 2024-10-01
  • 定價: $539
  • 售價: 8.5$458
  • 語言: 簡體中文
  • ISBN: 7302670536
  • ISBN-13: 9787302670537
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • Python數據分析項目全程實錄-preview-1
  • Python數據分析項目全程實錄-preview-2
  • Python數據分析項目全程實錄-preview-3
Python數據分析項目全程實錄-preview-1

相關主題

商品描述

《Python數據分析項目全程實錄》精選不同行業、不同分析方法以及機器學習等方向的12個熱門Python數據分析項目。這些項目既可以作為練手項目,也可以應用於實際數據分析工作中,其中的機器學習還可作為參賽項目的參考。總體來說,這些項目的實用性都非常強。具體項目包含:熱銷產品銷售數據統計分析、籃壇薪酬揭秘:球員位置與薪資數據的深度分析、股海秘籍:股票行情數據分析之旅、京東某商家的銷售評價數據分析、商城註冊用戶數據探索分析、自媒體賬號內容數據分析、汽車數據可視化與相關性分析、抖音電商數據分析系統、會員數據化運營RFM分析實戰、商超購物Apriori關聯分析、基於K-Means算法實現鳶尾花聚類分析、電視節目數據分析系統。本書從數據分析、機器學習的角度出發,按照項目開發的順序,系統、全面地講解每一個項目的開發實現過程。體例上,每章一個項目,統一採用“開發背景→系統設計→技術準備→各功能模塊實現→項目運行→源碼下載”的形式完整呈現項目,給讀者明確的成就感,可以讓讀者快速積累實際數據分析經驗與技巧,早日實現就業目標。

目錄大綱

第1章 熱銷產品銷售數據統計分析 1

——pandas + numpy + matplotlib + ABC分類法

1.1 開發背景 1

1.2 系統設計 2

1.2.1 開發環境 2

1.2.2 分析流程 2

1.2.3 功能結構 2

1.3 技術準備 3

1.3.1 技術概覽 3

1.3.2 ABC分類法 3

1.4 前期工作 4

1.4.1 開發環境設置 4

1.4.2 安裝第三方模塊 5

1.4.3 新建項目目錄 5

1.4.4 數據準備 5

1.5 數據預處理 6

1.5.1 查看數據信息 6

1.5.2 缺失性分析 8

1.5.3 描述性統計分析 9

1.6 數據統計分析 10

1.6.1 月銷售趨勢分析 10

1.6.2 熱銷產品分析(ABC分類法) 12

1.6.3 熱銷單品環比增長情況分析 14

1.6.4 加購人數和購買數量分析 16

1.6.5 不同種類產品的銷量占比情況分析 17

1.6.6 工作日與周末銷量對比分析 19

1.7 項目運行 21

1.8 源碼下載 22

第2章 籃壇薪酬揭秘:球員位置與薪資數據的深度分析 23

——pandas + numpy + matplotlib + seaborn

2.1 開發背景 24

2.2 系統設計 24

2.2.1 開發環境 24

2.2.2 分析流程 24

2.2.3 功能結構 25

2.3 技術準備 25

2.3.1 技術概覽 25

2.3.2 詳解read_htlm()獲取網頁數據全過程 25

2.3.3 應用lambda函數快速處理數據 26

2.4 數據準備 27

2.4.1 數據集介紹 27

2.4.2 確定網頁數據的結構 28

2.4.3 獲取當前數據 29

2.5 數據預處理 30

2.5.1 查看數據 30

2.5.2 數據清洗 31

2.5.3 獲取並處理歷史數據 33

2.6 基本統計分析 34

2.6.1 2024賽季球員的薪資排行TOP10 34

2.6.2 統計分析各個球隊的薪資狀況 36

2.6.3 勇士隊球員的薪資狀況分析 37

2.6.4 箱形圖分析實力和戰績TOP5球隊的薪資狀況 39

2.6.5 對比分析2023—2024賽季各球隊薪資變化 41

2.7 深度分析 42

2.7.1 球員薪資分佈密度圖 42

2.7.2 分析不同位置球員的薪資狀況 43

2.7.3 分析球員位置和薪資的關系 45

2.8 項目運行 46

2.9 源碼下載 47

第3章 股海秘籍:股票行情數據分析之旅 48

——tushare + pandas + matplotlib + numpy + mplfinance

3.1 開發背景 49

3.2 系統設計 49

3.2.1 開發環境 49

3.2.2 分析流程 49

3.2.3 功能結構 50

3.3 技術準備 50

3.3.1 技術概覽 50

3.3.2 詳解tushare模塊獲取股票數據 50

3.3.3 mplfinance模塊的應用 53

3.4 前期準備 56

3.4.1 新建Jupyter Notebook文件 56

3.4.2 導入必要的庫 58

3.4.3 獲取股票行情數據 58

3.5 數據加載與預處理 59

3.5.1 數據加載與處理 59

3.5.2 數據查看與缺失性分析 59

3.5.3 描述性統計分析 60

3.5.4 抽取特徵數據 61

3.5.5 異常值分析 61

3.5.6 數據歸一化處理 61

3.6 數據統計分析 63

3.6.1 可視化股票走勢圖 63

3.6.2 股票成交量時間序列圖 63

3.6.3 股票收盤價與成交量分析 64

3.6.4 股票漲跌情況分析 65

3.6.5 股票k線走勢圖 66

3.7 股票指標相關性分析 67

3.7.1 散點圖矩陣分析 67

3.7.2 相關系數分析 68

3.8 項目運行 70

3.9 源碼下載 71

第4章 京東某商家的銷售評價數據分析 72

——pandas + numpy + jieba + matplotlib + pyecharts + snownlp

4.1 開發背景 72

4.2 系統設計 73

4.2.1 開發環境 73

4.2.2 分析流程 73

4.2.3 功能結構 73

4.3 技術準備 74

4.3.1 技術概覽 74

4.3.2 詳解jieba模塊 74

4.3.3 繪制詞雲圖 78

4.3.4 snownlp模塊的應用 80

4.4 前期準備 82

4.4.1 安裝第三方模塊 82

4.4.2 新建Jupyter Notebook文件 82

4.4.3 導入必要的庫 84

4.4.4 數據加載 84

4.5 數據預處理 84

4.5.1 查看數據 84

4.5.2 缺失性分析 85

4.5.3 數據處理 86

4.5.4 缺失值處理 87

4.5.5 數據類型轉換 87

4.6 用戶維度分析 88

4.6.1 總體評價狀況分析 88

4.6.2 詞雲圖分析差評用戶 89

4.6.3 正負面情感對比分析 90

4.6.4 評價數量和評價時間的關系分析 91

4.7 商品維度分析 93

4.7.1 差評商品分析 93

4.7.2 各評價級別商品件數分析 93

4.8 項目運行 94

4.9 源碼下載 95

第5章 商城註冊用戶數據探索分析 96

——MySQL + sqlalchemy + pandas + matplotlib

5.1 開發背景 97

5.2 系統設計 97

5.2.1 開發環境 97

5.2.2 分析流程 97

5.2.3 功能結構 97

5.3 技術準備 98

5.3.1 技術概覽 98

5.3.2 詳解sqlalchemy模塊 98

5.3.3 數據類型轉換兩個核心方法 102

5.3.4 fill_between()函數的應用 102

5.4 導入MySQL數據 103

5.5 數據預處理 105

5.5.1 數據準備 105

5.5.2 sqlalchemy連接MySQL數據庫 105

5.5.3 數據檢測與處理 106

5.6 用戶註冊情況分析 107

5.6.1 年度註冊用戶分析 107

5.6.2 月度註冊用戶分析 109

5.6.3 小時註冊用戶分析 110

5.6.4 新註冊用戶分析 112

5.7 用戶活躍情況分析 113

5.7.1 用戶登錄情況分析 113

5.7.2 用戶登錄周情況分析 114

5.7.3 用戶登錄時段分析(工作日) 116

5.7.4 用戶登錄時段分析(非工作日) 117

5.8 項目運行 118

5.9 源碼下載 119

第6章 自媒體賬號內容數據分析 120

——pandas + matplotlib + plotly

6.1 開發背景 120

6.2 系統設計 121

6.2.1 開發環境 121

6.2.2 分析流程 121

6.2.3 功能結構 121

6.3 技術準備 122

6.3.1 技術概覽 122

6.3.2 pandas查看數據類型 122

6.3.3 詳解to_datetime()函數轉換時間序列數據 123

6.4 前期準備 125

6.4.1 安裝第三方模塊 125

6.4.2 新建Jupyter Notebook文件 126

6.4.3 導入必要的庫 127

6.4.4 數據準備 127

6.4.5 數據預覽 128

6.5 數據預處理 129

6.5.1 數據合並 129

6.5.2 查看數據 130

6.5.3 數據類型轉換 130

6.5.4 描述性統計分析 131

6.6 數據統計分析 133

6.6.1 各類別內容閱讀人數的集中趨勢分析 133

6.6.2 各類別內容數量占比分析 134

6.6.3 箱形圖分析各類別內容的閱讀人數 135

6.6.4 水平柱形圖分析平均展現量 136

6.6.5 箱形圖分析內容展現量 137

6.6.6 內容展現量和閱讀量的相關性分析 138

6.7 項目運行 139

6.8 源碼下載 140

第7章 汽車數據可視化與相關性分析 141

——pandas + matplotlib + seaborn

7.1 開發背景 141

7.2 系統設計 142

7.2.1 開發環境 142

7.2.2 分析流程 142

7.2.3 功能結構 142

7.3 技術準備 143

7.3.1 技術概覽 143

7.3.2 盤點seaborn自帶的數據集 143

7.3.3 value_counts()方法的應用 147

7.3.4 詳解pairplot()函數 147

7.4 前期準備 153

7.4.1 新建項目目錄 153

7.4.2 數據準備 153

7.5 數據預處理 154

7.5.1 查看數據 154

7.5.2 缺失值查看與處理 155

7.5.3 描述性統計分析 156

7.6 數據統計分析 156

7.6.1 汽車產地占比情況分析 156

7.6.2 品牌旗下汽車差異情況分析 157

7.7 相關性分析 159

7.7.1 矩陣圖分析相關性 159

7.7.2 相關系數分析相關性 160

7.7.3 散點圖分析氣缸數和馬力之間的關系 160

7.7.4 折線圖分析氣缸數和油耗之間的關系 161

7.7.5 產地和油耗之間的關系 162

7.7.6 車型生產年份和油耗之間的關系 163

7.7.7 油耗、馬力和重量之間的關系 164

7.8 項目運行 165

7.9 源碼下載 166

第8章 抖音電商數據分析系統 167

——pandas + numpy + pyecharts

8.1 開發背景 168

8.2 系統設計 168

8.2.1 開發環境 168

8.2.2 分析流程 168

8.2.3 功能結構 169

8.3 技術準備 169

8.3.1 技術概覽 169

8.3.2 pandas數據美化樣式匯總 169

8.3.3 eq()方法詳解 172

8.4 前期準備 173

8.4.1 數據準備 173

8.4.2 新建Jupyter Notebook文件 173

8.4.3 導入必要的庫 175

8.5 數據預處理 176

8.5.1 查看數據 176

8.5.2 突出顯示數據 176

8.5.3 0值檢測與處理 177

8.5.4 數據類型轉換 177

8.5.5 描述性統計分析 178

8.6 成交數據分析 179

8.6.1 整體情況分析 179

8.6.2 自營/帶貨訂單量分析 179

8.6.3 不同載體訂單量分析 180

8.6.4 每日訂單量分析 181

8.6.5 商品成交金額分析 182

8.6.6 新老客戶成交額對比分析 183

8.7 主播數據分析 184

8.7.1 引流能力分析 184

8.7.2 互動能力分析 185

8.7.3 吸粉能力分析 186

8.7.4 UV價值分析 186

8.8 項目運行 187

8.9 源碼下載 188

第9章 會員數據化運營RFM分析實戰 189

——RFM模型+pandas+matplotlib+seaborn

9.1 開發背景 189

9.2 系統設計 190

9.2.1 開發環境 190

9.2.2 分析流程 190

9.2.3 功能結構 190

9.3 技術準備 191

9.3.1 技術概覽 191

9.3.2 RFM模型 191

9.3.3 隨機抽取數據的sample()方法 192

9.3.4 深度解讀直方圖(histplot()函數) 193

9.4 前期工作 200

9.4.1 新建項目目錄 200

9.4.2 數據準備 200

9.5 數據預處理 201

9.5.1 數據預覽 201

9.5.2 缺失性分析 202

9.5.3 描述性統計分析 202

9.5.4 數據處理 203

9.5.5 計算RFM值 204

9.6 數據統計分析 205

9.6.1 消費周期分析 205

9.6.2 消費頻次分析 206

9.6.3 消費金額分析 206

9.7 會員群體分析 208

9.7.1 RFM模型指標打分 208

9.7.2 會員群體劃分 209

9.8 項目運行 210

9.9 源碼下載 211

第10章 商超購物Apriori關聯分析 212

——pandas + matplotlib + Apriori關聯分析 + mlxtend

10.1 開發背景 212

10.2 系統設計 213

10.2.1 開發環境 213

10.2.2 分析流程 213

10.2.3 功能結構 213

10.3 技術準備 214

10.3.1 技術概覽 214

10.3.2 Apriori關聯分析 214

10.3.3 詳解mlxtend模塊 215

10.4 前期工作 220

10.4.1 新建項目目錄 220

10.4.2 數據準備 221

10.5 數據預處理 221

10.5.1 查看數據 221

10.5.2 轉換交易日期類型 222

10.5.3 重復值檢測與處理 223

10.6 數據統計分析 223

10.6.1 上半年成交金額分析 223

10.6.2 上半年客單價分析 225

10.6.3 顧客客單價占比分析 226

10.7 購物關聯分析 227

10.7.1 統計顧客所購買的商品 227

10.7.2 數據one-hot編碼 228

10.7.3 Apriori關聯分析 229

10.8 項目運行 230

10.9 源碼下載 231

第11章 基於K-Means算法實現鳶尾花聚類分析 232

——seaborn + pandas + matplotlib + numpy + scikit-learn 232

11.1 開發背景 233

11.2 系統設計 233

11.2.1 開發環境 233

11.2.2 分析流程 233

11.2.3 功能結構 234

11.3 技術準備 234

11.3.1 技術概覽 234

11.3.2 numpy模塊補充知識點 234

11.3.3 深入瞭解機器學習sklearn模塊 237

11.3.4 訓練集和測試集劃分函數train_test_split()的全面解讀 240

11.3.5 模型評估(calinski_harabasz_score()方法) 242

11.4 前期工作 242

11.4.1 安裝第三方庫 242

11.4.2 新建項目目錄 243

11.4.3 認識鳶尾花 243

11.4.4 瞭解鳶尾花數據集iris 244

11.5 數據預處理 244

11.5.1 加載數據 244

11.5.2 查看數據 245

11.5.3 查看鳶尾花種類 245

11.5.4 描述性統計分析 245

11.5.5 隨機抽樣 246

11.6 數據統計分析 247

11.6.1 鳶尾花花瓣長度TOP10 247

11.6.2 使用箱形圖分析鳶尾花花瓣的長度 248

11.6.3 最常見的鳶尾花花瓣長度 249

11.6.4 直方圖分析鳶尾花花瓣長度 250

11.7 相關性分析 251

11.7.1 相關系數分析 251

11.7.2 各特徵之間關系矩陣圖 252

11.7.3 散點圖分析鳶尾花花瓣長度和寬度的關系 253

11.7.4 散點圖分析鳶尾花花萼長度和寬度的關系 254

11.7.5 鳶尾花的線性關系分析 255

11.8 鳶尾花聚類分析 256

11.8.1 抽取特徵數據 256

11.8.2 劃分訓練集和測試集 256

11.8.3 基於K-Means算法創建聚類模型 256

11.8.4 聚類模型評估 258

11.8.5 預測鳶尾花種類 258

11.9 項目運行 258

11.10 源碼下載 259

第12章 電視節目數據分析系統 260

——Qt Designer + PyQt5 + pandas + pyecharts

12.1 開發背景 260

12.2 系統設計 261

12.2.1 開發環境 261

12.2.2 分析流程 261

12.2.3 功能結構 261

12.3 技術準備 262

12.3.1 技術概覽 262

12.3.2 可視化設計環境安裝與配置 262

12.3.3 Qt Designer入門 264

12.3.4 PyQt5入門知識點總結 267

12.4 前期工作 272

12.4.1 新建項目目錄 272

12.4.2 數據準備 273

12.5 主窗體界面 274

12.5.1 功能草圖 274

12.5.2 創建主窗體 274

12.5.3 工具欄 275

12.5.4 其他控件 277

12.5.5 將.ui文件轉換為.py文件 278

12.6 數據預處理 279

12.6.1 數據預覽 279

12.6.2 查看數據 280

12.6.3 描述性統計分析 280

12.7 數據統計分析 281

12.7.1 數據連接模塊 281

12.7.2 數據分析及可視化模塊 281

12.7.3 顯示主窗體模塊 284

12.8 項目運行 286

12.9 源碼下載 286