Python 數據挖掘技術及應用 (微課版)

曹潔鄧璐娟

預覽內頁

出版商: 清華大學
出版日期: 2021-07-01
定價: $414
售價: 7.5 折 $311
語言: 簡體中文
頁數: 297
裝訂: 平裝
ISBN: 7302578761
ISBN-13: 9787302578765
相關分類: Python、程式語言、Data Science、Data-mining

立即出貨 (庫存 < 3)

買這商品的人也買了...

$229

概率論與數理統計 — 基於 Excel
~~$534~~ $507

Python 科學計算及實踐
~~$479~~ $455

讓工作化繁為簡: 用 Python 實現辦公自動化
~~$534~~ $507

SaaS 商業實戰：好模式如何變成好生意
$305

機器學習入門與實戰 — 基於 scikit-learn 和 Keras
$500

模式識別, 4/e (修訂版)(Pattern Recognition, 4/e)
~~$534~~ $507

最優化導論, 4/e (An Introduction to Optimization, 4/e)
$236

Python 深度學習實戰 — 基於 Pytorch
$239

統計學習必學的十個問題 — 理論與實踐
$224

深度學習必學的十個問題 — 理論與實踐
$239

數據清洗 (微課視頻版)
$266

計算方法 — 數據分析與智能計算初探, 2/e
$556

深度強化學習落地指南
$458

Python 數據科學實戰 (Data Science with Python)
$765

Python 常用統計算法
$305

深度強化學習
$356

集成學習入門與實戰：原理、算法與應用
$439

從 ChatGPT 到 AIGC：智能創作與應用賦能
~~$779~~ $740

Amazon Web Services 雲計算實戰, 2/e
~~$594~~ $564

精通 Transformer : 從零開始構建最先進的 NLP 模型
$658

高級 Python 核心編程開啟精通 Python 編程世界之旅
$505

python核心編程：從入門到實踐：學與練
~~$659~~ $626

Python 開發實例大全上捲
~~$659~~ $626

Python 開發實例大全下捲
$607

前端工程化 : 基於 Vue.js 3.0 的設計與實踐

商品描述

本書是一本全面介紹數據挖掘技術的專業書籍，系統地闡述了數據挖掘的相關概念、原理、算法思想和算法的Python代碼實現。全書共分13章，各章相對獨立成篇，以利於讀者選擇性學習。13章內容分別為緒論、pandas數據處理、認識數據、數據預處理、決策樹分類、貝葉斯分類、支持向量機分類、感知器分類、回歸、聚類、關聯規則挖掘、推薦系統、電商評論網絡爬取與情感分析。本書可作為高等院校電腦科學與技術、數據科學與大數據及相關專業的數據挖掘、數據分析課程教材，亦可作為數據挖掘、數據分析人員的參考書。

作者簡介

曹潔男，博士，現為鄭州輕工業大學軟件學院校聘副教授。主講《Python語言程序設計》、《數據挖掘》。主編出版《Python語言程序設計》、《Python數據分析》、《大數據技術》等多本教材。

目錄大綱

第1章緒論1
1.1數據挖掘的相關概念1
1.2數據挖掘的步驟2
1.3數據挖掘的典型應用3
1.3.1數據挖掘在市場營銷中的應用3
1.3.2數據挖掘在企業危機管理中的應用3
1.4數據挖掘的主要挑戰3
1.4.1數據挖掘查詢語言3
1.4.2用戶交互4
1.4.3並行、分佈和增量挖掘算法4
1.4.4數據類型的多樣化4
1.5本章小結5

第2章pandas數據處理6
2.1Series對象6
2.1.1Series對象的創建6
2.1.2Series對象的屬性8
2.1.3Series對象的查看和修改8
2.2Series對象的基本運算9
2.2.1算術運算與函數運算9
2.2.2Series對象之間的運算10
2.3DataFrame對象10
2.3.1DataFrame對象的創建10
2.3.2DataFrame對象的屬性12
2.3.3查看和修改DataFrame對象的元素14
2.3.4判斷元素是否屬於DataFrame對象16
2.4DataFrame對象的基本運算17
2.4.1數據篩選17
2.4.2數據預處理19
2.4.3數據運算與排序33
2.4.4數學統計38
2.4.5數據分組與聚合44
2.5pandas數據可視化51
2.5.1繪製折線圖52
2.5.2繪製條形圖53
2.6pandas讀寫數據55
2.6.1讀寫csv文件56
2.6.2讀取txt文件59
2.6.3讀寫Excel文件60
2.7本章小結64

第3章認識數據65
3.1數據類型65
3.1.1屬性類型65
3.1.2數據集的類型66
3.2數據質量分析67
3.2.1缺失值分析68
3.2.2異常值分析69
3.2.3一致性分析72
3.3數據特徵分析72
3.3.1分佈特徵72
3.3.2統計量特徵73
3.3.3週期性特徵78
3.3.4相關性特徵80
3.4本章小結81

第4章數據處理82
4.1數據清洗82
4.1.1處理缺失值82
4.1.2噪聲數據處理89
4.2數據集成90
4.2.1實體識別問題90
4.2.2屬性冗餘問題91
4.2.3元組重複問題91
4.2.4屬性值衝突問題92
4.3數據規範化92
4.3.1最小最大規範化92
4.3.2z分數規範化94
4.3.3小數定標規範化94
4.4數據離散化94
4.4.1無監督離散化95
4.4.2監督離散化96
4.5數據歸約96
4.5.1過濾法97
4.5.2包裝法99
4.5.3嵌入法99
4.6數據降維100
4.6.1主成分分析法101
4.6.2線性判別分析法101
4.7學生考試成績預處理102
4.8本章小結106

第5章決策樹分類107
5.1相似性和相異性的度量107
5.1.1數據對象之間的相異度107
5.1.2數據對象之間的相似度109
5.2分類概述111
5.2.1分類的基本概念111
5.2.2分類的一般流程112
5.3決策樹分類概述113
5.3.1決策樹的工作原理113
5.3.2選擇最佳劃分屬性的度量117
5.3.3決策樹分類待測樣本的過程120
5.4ID3決策樹120
5.4.1ID3決策樹的工作原理120
5.4.2Python實現ID3決策樹122
5.4.3使用ID3決策樹預測貸款申請130
5.4.4ID3決策樹的缺點131
5.5C4.5決策樹的分類算法131
5.5.1C4.5決策樹的工作原理131
5.5.2Python實現C4.5決策樹133
5.5.3使用C4.5決策樹預測鳶尾花類別139
5.6CART決策樹139
5.6.1CART決策樹的工作原理139
5.6.2Python實現CART決策樹139
5.7本章小結143

第6章貝葉斯分類144
6.1貝葉斯定理144
6.1.1概率基礎144
6.1.2貝葉斯定理簡介146
6.1.3先驗概率與後驗概率147
6.2樸素貝葉斯分類的原理與分類流程147
6.2.1貝葉斯分類原理147
6.2.2樸素貝葉斯分類的流程147
6.3高斯樸素貝葉斯分類150
6.3.1scikitlearn實現高斯樸素貝葉斯分類150
6.3.2Python實現iris高斯樸素貝葉斯分類151
6.4多項式樸素貝葉斯分類156
6.5伯努利樸素貝葉斯分類157
6.6本章小結157

第7章支持向量機分類158
7.1支持向量機概述158
7.1.1支持向量機的分類原理158
7.1.2最大邊緣超平面158
7.2線性支持向量機159
7.2.1線性決策邊界159
7.2.2線性分類器邊緣160
7.2.3訓練線性支持向量機模型161
7.3Python實現支持向量機163
7.3.1SVC支持向量機分類模型164
7.3.2NuSVC支持向量機分類模型166
7.3.3LinearSVC支持向量機分類模型167
7.4本章小結168

第8章感知器分類169
8.1人工神經元169
8.1.1神經元概述169
8.1.2激活函數170
8.2感知器171
8.2.1感知器模型171
8.2.2感知器學習算法172
8.3Python實現感知器學習算法概述174
8.3.1Python實現感知器學習算法174
8.3.2使用感知器分類鳶尾花數據175
8.4本章小結177

第9章回歸178
9.1回歸概述178
9.1.1回歸的概念178
9.1.2回歸處理流程178
9.1.3回歸的分類178
9.2一元線性回歸178
9.2.1一元線性回歸模型178
9.2.2使用一元線性回歸預測房價182
9.3多元線性回歸185
9.3.1多元線性回歸模型185
9.3.2使用多元線性回歸分析廣告媒介與銷售額之間的關係187
9.3.3多元線性回歸模型預測電能輸出188
9.4非線性回歸191
9.4.1多項式回歸191
9.4.2非多項式的非線性回歸195
9.5邏輯回歸198
9.5.1邏輯回歸模型199
9.5.2對鳶尾花數據進行邏輯回歸分析201
9.6本章小結203

第10章聚類204
10.1聚類概述204
10.1.1聚類的概念204
10.1.2聚類方法類型205
10.1.3聚類應用領域206
10.2k均值聚類206
10.2.1k均值聚類的原理206
10.2.2Python實現對鳶尾花的k均值聚類208
10.3層次聚類方法211
10.3.1層次聚類的原理211
10.3.2Python實現凝聚層次聚類214
10.3.3BIRCH聚類的原理217
10.3.4Python實現BIRCH聚類220
10.4密度聚類221
10.4.1密度聚類的原理221
10.4.2Python實現DBSCAN密度聚類224
10.5本章小結227

第11章關聯規則挖掘228
11.1關聯規則挖掘概述228
11.1.1購物籃分析228
11.1.2關聯規則相關概念229
11.1.3關聯規則類型231
11.2頻繁項集的產生232
11.2.1先驗原理233
11.2.2Apriori算法產生頻繁項集233
11.2.3候選項集的產生與剪枝236
11.2.4頻繁項集及其支持度的Python實現237
11.3關聯規則的產生239
11.3.1關聯規則產生的原理239
11.3.2Apriori算法產生關聯規則的方式240
11.3.3頻繁項集的緊湊表示241
11.4FP增長算法242
11.4.1構建FP樹243
11.4.2FP樹的挖掘245
11.5本章小結247

第12章推薦系統248
12.1推薦系統的概念248
12.1.1基本概念248
12.1.2推薦系統的類型249
12.2基於內容的推薦250
12.2.1文本表示251
12.2.2文本相似度257
12.2.3Python實現基於內容的推薦258
12.3基於用戶的協同過濾推薦261
12.3.1收集用戶偏好262
12.3.2尋找相似的用戶262
12.3.3為相似的用戶推薦商品266
12.4基於物品的協同過濾推薦267
12.4.1獲取用戶對物品的評分267
12.4.2計算物品共同出現的次數和一個物品被多少個用戶購買268
12.4.3計算物品之間的相似度268
12.4.4給用戶推薦物品269
12.5本章小結270

第13章電商評論網絡爬取與情感分析271
13.1網絡爬蟲概述271
13.1.1網頁的概念271
13.1.2網絡爬蟲的工作流程271
13.2使用BeautifulSoup庫提取網頁信息272
13.2.1BeautifulSoup的安裝272
13.2.2BeautifulSoup庫的導入272
13.2.3BeautifulSoup類的基本元素273
13.2.4HTML內容搜索274
13.3使用urllib庫編寫簡單的網絡爬蟲277
13.3.1發送不帶參數的GET請求277
13.3.2模擬瀏覽器發送帶參數的GET請求278
13.3.3URL解析279
13.4爬取京東小米手機評論280
13.4.1京東網站頁面分析280
13.4.2編寫京東小米手機評論爬蟲代碼283
13.5對手機評論文本進行情感分析286
13.5.1文本情感傾向分析的層次286
13.5.2中文文本情感傾向分析287
13.5.3評論文本情感傾向分析288
13.5.4評論文本分詞290
13.5.5去除停用詞291
13.5.6評論文本的LDA主題分析292
13.6本章小結297