數據分析與挖掘技術
彭進香、張莉、劉鑫
- 出版商: 清華大學
- 出版日期: 2024-03-01
- 定價: $288
- 售價: 8.5 折 $245
- 語言: 簡體中文
- ISBN: 7302651949
- ISBN-13: 9787302651949
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目 錄
第1章 數據分析與數據挖掘概論 1
1.1 數據分析 2
1.1.1 數據分析的定義 2
1.1.2 數據分析的工具 2
1.1.3 數據分析的方法與案例 7
1.2 數據挖掘 9
1.2.1 數據挖掘的定義 9
1.2.2 數據挖掘的目的 9
1.2.3 數據挖掘的工具 10
1.2.4 數據挖掘的方法和經典算法 11
小結 15
思考題 15
第2章 數據倉庫與聯機分析處理 17
2.1 數據倉庫 18
2.1.1 數據倉庫的定義和特點 18
2.1.2 數據倉庫與數據庫的區別 19
2.1.3 數據倉庫的系統結構 20
2.1.4 數據倉庫的數據模型 22
2.2 數據倉庫的設計步驟 23
2.2.1 概念模型設計 24
2.2.2 邏輯模型設計 27
2.2.3 物理模型設計 28
2.2.4 數據倉庫的生成 31
2.2.5 數據倉庫的運行與維護 33
2.3 聯機分析處理 34
2.3.1 聯機分析處理的定義 34
2.3.2 聯機分析處理的多維數據
存儲 35
2.3.3 聯機分析處理的分類 36
小結 39
思考題 39
第3章 數據預處理 41
3.1 數據預處理概述 42
3.1.1 數據預處理的目的 42
3.1.2 數據預處理的方法 42
3.2 數據清洗 44
3.2.1 數據清洗的方法和步驟 44
3.2.2 缺失值的識別與處理技巧 47
3.2.3 異常值的判斷、檢驗與處理 49
3.3 數據集成 52
3.3.1 數據集成常見方法 53
3.3.2 數據沖突的檢測和解決 55
3.3.3 處理數據集成中的冗餘數據 56
3.3.4 相關分析 59
3.4 數據變換 62
3.4.1 數據變換過程中的離散化 62
3.4.2 數據變換的規範化方法 64
3.5 數據規約 65
3.5.1 數據規約的定義與目的 65
3.5.2 常用的數據規約策略 66
小結 70
思考題 70
第4章 關聯規則挖掘 71
4.1 關聯規則挖掘概述 72
4.1.1 關聯規則的分類及應用 72
4.1.2 關聯規則挖掘示例 74
4.2 Apriori算法 75
4.2.1 Apriori算法的定義與特點 76
4.2.2 Apriori算法的應用 79
4.2.3 Apriori算法分析與改進 82
4.3 FP-Growth算法 85
4.3.1 FP-Growth算法的基本思想 86
4.3.2 FP-Growth算法的特點及
改進 87
小結 92
思考題 92
第5章 聚類分析 93
5.1 聚類分析概述 94
5.1.1 什麽是聚類分析 94
5.1.2 聚類中的相異度計算 96
5.2 基於劃分的聚類 98
5.2.1 K-means算法 99
5.2.2 K-medoids算法 103
5.2.3 K-medoids算法中的PAM
算法示例 104
5.3 基於層次的聚類 106
5.3.1 層次聚類的基本思想 106
5.3.2 AGNES算法 107
5.3.3 DIANA算法 109
5.3.4 Birch層次聚類算法 111
5.4 基於密度的聚類 114
5.4.1 DBSCAN算法的流程 114
5.4.2 DBSCAN算法的性能分析 115
5.4.3 OPTICS密度聚類算法 116
5.5 基於模型的聚類算法 119
5.5.1 高斯混合模型的原理 119
5.5.2 EM算法的應用 119
小結 123
思考題 124
第6章 回歸分析 125
6.1 回歸分析概述 126
6.2 簡單線性回歸分析 127
6.2.1 簡單線性回歸分析的定義 127
6.2.2 簡單線性回歸分析的應用 129
6.3 多元回歸分析 130
6.3.1 多元回歸分析的定義 130
6.3.2 多元回歸分析的步驟 131
6.3.3 多元回歸分析的應用 132
6.4 嶺回歸分析 133
6.4.1 嶺回歸分析的原理 133
6.4.2 嶺回歸分析在數據挖掘領域的
應用 134
6.5 邏輯回歸分析 135
6.5.1 邏輯回歸分析的原理 135
6.5.2 邏輯回歸模型的建立與參數
估計 136
6.5.3 邏輯回歸分析的優化和
改進 137
6.5.4 邏輯回歸分析在數據挖掘
領域的發展趨勢 138
小結 139
思考題 139
第7章 決策樹分析 141
7.1 決策樹分析的有關概念 142
7.1.1 信息論的基本原理 142
7.1.2 決策樹分析流程 144
7.1.3 決策樹分類算法 145
7.2 ID3算法 147
7.2.1 ID3算法介紹 147
7.2.2 ID3算法的實例分析 149
7.2.3 ID3算法的特點及應用 152
7.3 C4.5算法 153
7.3.1 C4.5算法介紹 153
7.3.2 C4.5算法的特點及應用 155
7.4 CART算法 156
7.4.1 CART算法的原理與特點 156
7.4.2 CART算法的應用 158
小結 160
思考題 161
第8章 SPSS數據挖掘基礎 163
8.1 SPSS的發展 164
8.2 SPSS應用入門 164
8.3 SPSS界面介紹 165
8.3.1 SPSS的窗口 165
8.3.2 SPSS的菜單 166
8.4 建立SPSS文件 167
8.4.1 SPSS文件類型 167
8.4.2 數據錄入 167
8.4.3 文件的保存與導出 168
8.5 SPSS數據的變量屬性定義 168
8.5.1 變量名稱和類型 169
8.5.2 變量寬度和小數 170
8.5.3 標簽和值 170
8.5.4 變量缺失值 170
8.5.5 變量顯示列、對齊方式 171
8.5.6 變量測量方式和變量角色 171
8.6 SPSS數據管理 172
8.6.1 插入或刪除個案 172
8.6.2 插入或刪除變量 172
8.6.3 數據排序 173
8.6.4 數據的行列轉置 174
8.6.5 選取個案 175
8.6.6 數據合並 175
8.6.7 拆分數據文件 177
8.7 SPSS數據轉換 178
8.7.1 計算產生變量 178
8.7.2 對個案內的值計數 179
8.7.3 重新編碼 180
小結 182
思考題 182
第9章 SPSS數據挖掘統計分析
方法 183
9.1 基本描述統計 184
9.1.1 頻數分析 184
9.1.2 描述分析 187
9.1.3 探索分析 188
9.1.4 交叉表分析 192
9.2 T檢驗 197
9.2.1 單樣本T檢驗 197
9.2.2 獨立樣本T檢驗 199
9.2.3 配對樣本T檢驗 201
9.3 方差分析 202
9.3.1 單因素方差分析 203
9.3.2 多因素方差分析 207
9.3.3 重復測量方差分析 213
9.4 在SPSS中應用多元回歸分析 217
9.4.1 多元線性回歸分析的應用 217
9.4.2 Logistic回歸的應用 223
9.5 在SPSS中應用聚類分析 228
9.5.1 兩步聚類分析 228
9.5.2 K-平均值聚類分析 232
9.5.3 系統聚類分析 235
9.6 在SPSS中應用相關分析 240
9.6.1 線性相關分析 240
9.6.2 偏相關分析 242
9.7 因子分析 244
小結 249
思考題 250
參考文獻 251