數據分析與挖掘技術

彭進香、張莉、劉鑫

  • 出版商: 清華大學
  • 出版日期: 2024-03-01
  • 定價: $288
  • 售價: 8.5$245
  • 語言: 簡體中文
  • ISBN: 7302651949
  • ISBN-13: 9787302651949
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • 數據分析與挖掘技術-preview-1
  • 數據分析與挖掘技術-preview-2
  • 數據分析與挖掘技術-preview-3
數據分析與挖掘技術-preview-1

相關主題

商品描述

《數據分析與挖掘技術》主要介紹數據分析與挖掘的相關理論和技術方法,重點介紹數據挖掘的相關技術,書中採取理論知識與具體實現任務相結合的方法,系統講解了數據分析與挖掘的實用技術。全書共分為9章,主要內容包括數據分析與數據挖掘概論、數據倉庫與聯機分析處理、數據預處理、關聯規則挖掘、聚類分析、回歸分析、決策樹分析、SPSS數據挖掘基礎、SPSS數據挖掘統計分析方法。為了使學習者能輕松掌握數據分析與挖掘相關的概念、算法和應用,《數據分析與挖掘技術》通過典型的應用實例以任務驅動的方式讓學習者理解數據挖掘有關算法的實踐思路並體驗實現過程。 《數據分析與挖掘技術》可作為電腦、大數據、智能科學等專業的課程的教材使用,也可以作為從事大數據分析與數據挖掘等相關工作技術人員的參考書。

目錄大綱

目    錄

第1章  數據分析與數據挖掘概論 1

1.1  數據分析 2

1.1.1  數據分析的定義 2

1.1.2  數據分析的工具 2

1.1.3  數據分析的方法與案例 7

1.2  數據挖掘 9

1.2.1  數據挖掘的定義 9

1.2.2  數據挖掘的目的 9

1.2.3  數據挖掘的工具 10

1.2.4  數據挖掘的方法和經典算法 11

小結 15

思考題 15

第2章  數據倉庫與聯機分析處理 17

2.1  數據倉庫 18

2.1.1  數據倉庫的定義和特點 18

2.1.2  數據倉庫與數據庫的區別 19

2.1.3  數據倉庫的系統結構 20

2.1.4  數據倉庫的數據模型 22

2.2  數據倉庫的設計步驟 23

2.2.1  概念模型設計 24

2.2.2  邏輯模型設計 27

2.2.3  物理模型設計 28

2.2.4  數據倉庫的生成 31

2.2.5  數據倉庫的運行與維護 33

2.3  聯機分析處理 34

2.3.1  聯機分析處理的定義 34

2.3.2  聯機分析處理的多維數據

存儲 35

2.3.3  聯機分析處理的分類 36

小結 39

思考題 39

第3章  數據預處理 41

3.1  數據預處理概述 42

3.1.1  數據預處理的目的 42

3.1.2  數據預處理的方法 42

3.2  數據清洗 44

3.2.1  數據清洗的方法和步驟 44

3.2.2  缺失值的識別與處理技巧 47

3.2.3  異常值的判斷、檢驗與處理 49

3.3  數據集成 52

3.3.1  數據集成常見方法 53

3.3.2  數據沖突的檢測和解決 55

3.3.3  處理數據集成中的冗餘數據 56

3.3.4  相關分析 59

3.4  數據變換 62

3.4.1  數據變換過程中的離散化 62

3.4.2  數據變換的規範化方法 64

3.5  數據規約 65

3.5.1  數據規約的定義與目的 65

3.5.2  常用的數據規約策略 66

小結 70

思考題 70

第4章  關聯規則挖掘 71

4.1  關聯規則挖掘概述 72

4.1.1  關聯規則的分類及應用 72

4.1.2  關聯規則挖掘示例 74

4.2  Apriori算法 75

4.2.1  Apriori算法的定義與特點 76

4.2.2  Apriori算法的應用 79

4.2.3  Apriori算法分析與改進 82

4.3  FP-Growth算法 85

4.3.1  FP-Growth算法的基本思想 86

4.3.2  FP-Growth算法的特點及

改進 87

小結 92

思考題 92

第5章  聚類分析 93

5.1  聚類分析概述 94

5.1.1  什麽是聚類分析 94

5.1.2  聚類中的相異度計算 96

5.2  基於劃分的聚類 98

5.2.1  K-means算法 99

5.2.2  K-medoids算法 103

5.2.3  K-medoids算法中的PAM

算法示例 104

5.3  基於層次的聚類 106

5.3.1  層次聚類的基本思想 106

5.3.2  AGNES算法 107

5.3.3  DIANA算法 109

5.3.4  Birch層次聚類算法 111

5.4  基於密度的聚類 114

5.4.1  DBSCAN算法的流程 114

5.4.2  DBSCAN算法的性能分析 115

5.4.3  OPTICS密度聚類算法 116

5.5  基於模型的聚類算法 119

5.5.1  高斯混合模型的原理 119

5.5.2  EM算法的應用 119

小結 123

思考題 124

第6章  回歸分析 125

6.1  回歸分析概述 126

6.2  簡單線性回歸分析 127

6.2.1  簡單線性回歸分析的定義 127

6.2.2  簡單線性回歸分析的應用 129

6.3  多元回歸分析 130

6.3.1  多元回歸分析的定義 130

6.3.2  多元回歸分析的步驟 131

6.3.3  多元回歸分析的應用 132

6.4  嶺回歸分析 133

6.4.1  嶺回歸分析的原理 133

6.4.2  嶺回歸分析在數據挖掘領域的

應用 134

6.5  邏輯回歸分析 135

6.5.1  邏輯回歸分析的原理 135

6.5.2  邏輯回歸模型的建立與參數

估計 136

6.5.3  邏輯回歸分析的優化和

改進 137

6.5.4  邏輯回歸分析在數據挖掘

領域的發展趨勢 138

小結 139

思考題 139

第7章  決策樹分析 141

7.1  決策樹分析的有關概念 142

7.1.1  信息論的基本原理 142

7.1.2  決策樹分析流程 144

7.1.3  決策樹分類算法 145

7.2  ID3算法 147

7.2.1  ID3算法介紹 147

7.2.2  ID3算法的實例分析 149

7.2.3  ID3算法的特點及應用 152

7.3  C4.5算法 153

7.3.1  C4.5算法介紹 153

7.3.2  C4.5算法的特點及應用 155

7.4  CART算法 156

7.4.1  CART算法的原理與特點 156

7.4.2  CART算法的應用 158

小結 160

思考題 161

第8章  SPSS數據挖掘基礎 163

8.1  SPSS的發展 164

8.2  SPSS應用入門 164

8.3  SPSS界面介紹 165

8.3.1  SPSS的窗口 165

8.3.2  SPSS的菜單 166

8.4  建立SPSS文件 167

8.4.1  SPSS文件類型 167

8.4.2  數據錄入 167

8.4.3  文件的保存與導出 168

8.5  SPSS數據的變量屬性定義 168

8.5.1  變量名稱和類型 169

8.5.2  變量寬度和小數 170

8.5.3  標簽和值 170

8.5.4  變量缺失值 170

8.5.5  變量顯示列、對齊方式 171

8.5.6  變量測量方式和變量角色 171

8.6  SPSS數據管理 172

8.6.1  插入或刪除個案 172

8.6.2  插入或刪除變量 172

8.6.3  數據排序 173

8.6.4  數據的行列轉置 174

8.6.5  選取個案 175

8.6.6  數據合並 175

8.6.7  拆分數據文件 177

8.7  SPSS數據轉換 178

8.7.1  計算產生變量 178

8.7.2  對個案內的值計數 179

8.7.3  重新編碼 180

小結 182

思考題 182

第9章  SPSS數據挖掘統計分析

方法 183

9.1  基本描述統計 184

9.1.1  頻數分析 184

9.1.2  描述分析 187

9.1.3  探索分析 188

9.1.4  交叉表分析 192

9.2  T檢驗 197

9.2.1  單樣本T檢驗 197

9.2.2  獨立樣本T檢驗 199

9.2.3  配對樣本T檢驗 201

9.3  方差分析 202

9.3.1  單因素方差分析 203

9.3.2  多因素方差分析 207

9.3.3  重復測量方差分析 213

9.4  在SPSS中應用多元回歸分析 217

9.4.1  多元線性回歸分析的應用 217

9.4.2  Logistic回歸的應用 223

9.5  在SPSS中應用聚類分析 228

9.5.1  兩步聚類分析 228

9.5.2  K-平均值聚類分析 232

9.5.3  系統聚類分析 235

9.6  在SPSS中應用相關分析 240

9.6.1  線性相關分析 240

9.6.2  偏相關分析 242

9.7  因子分析 244

小結 249

思考題 250

參考文獻 251