數據挖掘原理, 4/e (Principles of Data Mining, 4/e)
Max Bramer 李曉峰 逄金輝 譯
- 出版商: 清華大學
- 出版日期: 2022-01-01
- 定價: $708
- 售價: 8.5 折 $602
- 語言: 簡體中文
- 頁數: 476
- 裝訂: 平裝
- ISBN: 7302596492
- ISBN-13: 9787302596493
-
相關分類:
人工智慧、生物資訊 Bioinformatics
- 此書翻譯自: Principles of Data Mining, 4/e (Paperback)
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$281雲計算基礎教程(第2版)
-
$480$379 -
$474$450 -
$534$507 -
$534$507 -
$359$341 -
$708$673 -
$500雲安全 CCSP 認證官方指南, 2/e
-
$407超簡單:用 Python 讓 Excel 飛起來 實戰150例
-
$599$569 -
$407深度學習處理結構化數據實戰
-
$305Python 數據分析 — 從獲取到可視化
-
$469機器學習導論
-
$458Python 深度學習, 2/e
-
$450$428 -
$454圖像識別技術與實戰 (OpenCV + dlib + Keras + Sklearn + TensorFlow)
-
$356集成學習入門與實戰:原理、算法與應用
-
$607自然語言理解與行業知識圖譜:概念、方法與工程落地
-
$408$388 -
$403左手Python,右手Excel:帶飛Excel的Python絕技
-
$450$428 -
$1,674$1,590 -
$479$455 -
$980$774 -
$680$537
相關主題
商品描述
《數據挖掘原理(第4版)》解釋、探索了數據挖掘的主要技術,可以從數據中自動提取隱式和潛在有用的信息。數據挖掘越來越多地用於商業、科學和其他應用領域,它側重於分類、關聯規則挖掘和聚類。 書中對每個主題都進行了清晰的解釋,重點是算法而不是數學公式,並通過詳細的有效示例加以說明。本書是為沒有強數學或統計學背景的讀者寫的,並詳細解釋了使用的所有公式。 《數據挖掘原理(第4版)》適合作為本科生或研究生層次的教材,適用專業包括電腦科學、商業研究、市場營銷、人工智能、生物信息學和法醫學。 為了幫助讀者自學,本書旨在幫助普通讀者理解什麽是“黑盒”,這樣他們就可以有差別地使用商業數據挖掘包,高級讀者或學術研究者可以對未來該領域的技術進步做出貢獻。 書中每一章都有實踐練習,讓讀者檢查自己的進度。附錄還包括所使用的技術術語的完整術語表。 數據挖掘原理包括對流數據分類算法的介紹,包括平穩數據(底層模型是固定的)和依賴時間的數據(底層模型不時變化)——這種現象稱為概念漂移。 《數據挖掘原理(第4版)》提供了前饋神經網絡與反向傳播的詳細描述,並顯示它如何可以用於分類。
作者簡介
麥克斯·布拉默(Ma Bramer),樸次茅斯大學信息技術系榮休教授、國際信息處理聯合會(IFIP)副、英國計算機學會AI專家組。
自20世紀80年代以來,麥克斯教授一直積極參與“數據挖掘”領域的研究,該領域後來也被稱為“數據庫知識發現”和“大數據和預測分析”。麥克斯教授完成了多個數據挖掘項目,特別是關於數據自動分類的項目,並在技術文獻中發表了大量文章。麥克斯教授擁有多年為本科生和研究生講授“數據挖掘”這門課程的經驗。
目錄大綱
1章 數據挖掘簡介 1
1.1 數據爆炸 1
1.2 知識發現 2
1.3 數據挖掘的應用 3
1.4 標籤數據和無標籤數據 4
1.5 監督學習:分類 4
1.6 監督學習:數值預測 6
1.7 無監督學習:關聯規則 6
1.8 無監督學習:聚類 7
2章 用於挖掘的數據 9
2.1 標準制定 9
2.2 變量的類型 10
2.3 數據準備 11
2.4 缺失值 13
2.4.1 丟棄實例 14
2.4.2 用頻繁值/平均值替換 14
2.5 減少屬性個數 14
2.6 數據集的UCI存儲庫 15
2.7 本章小結 16
2.8 自我評估練習 16
3章 分類簡介:樸素貝葉斯和近鄰算法 17
3.1 什麼是分類 17
3.2 樸素貝葉斯分類器 18
3.3 近鄰分類 24
3.3.1 距離測量 26
3.3.2 標準化 28
3.3.3 處理分類屬性 29
3.4 急切式和懶惰式學習 30
3.5 本章小結 30
3.6 自我評估練習 30
4章 使用決策樹進行分類 33
4.1 決策規則和決策樹 33
4.1.1 決策樹:高爾夫示例 33
4.1.2 術語 35
4.1.3 degrees數據集 35
4.2 TDIDT算法 38
4.3 推理的類型 40
4.4 本章小結 41
4.5 自我評估練習 41
5章 決策樹歸納:使用熵進行屬性選擇 43
5.1 屬性選擇:一個實驗 43
5.2 替代決策樹 44
5.2.1 足球/無板籃球示例 44
5.2.2 匿名數據集 46
5.3 選擇要分裂的屬性:使用熵 48
5.3.1 lens24數據集 48
5.3.2 熵 49
5.3.3 使用熵進行屬性選擇 50
5.3.4 信息增益大化 52
5.4 本章小結 53
5.5 自我評估練習 53
6章 決策樹歸納:使用頻率表進行屬性選擇 55
6.1 實踐中的熵計算 55
6.1.1 等效性證明 57
6.1.2 關於零值的說明 58
6.2 其他屬性選擇標準:多樣性基尼指數 58
6.3 χ2屬性選擇準則 59
6.4 歸納偏好 62
6.5 使用增益比進行屬性選擇 63
6.5.1 分裂信息的屬性 64
6.5.2 總結 65
6.6 不同屬性選擇標準生成的規則數 65
6.7 缺失分支 66
6.8 本章小結 67
6.9 自我評估練習 67
7章 估計分類器的預測精度 69
7.1 簡介 69
7.2 方法1:將數據劃分為訓練集和集 70
7.2.1 標準誤差 70
7.2.2 重複訓練和 71
7.3 方法2:k折交驗證 72
7.4 方法3:N折交驗證 72
7.5 實驗結果I 73
7.6 實驗結果II:包含缺失值的數據集 75
7.6.1 策略1:丟棄實例 75
7.6.2 策略2:用頻繁值/平均值替換 76
7.6.3 類別缺失 77
7.7 混淆矩陣 77
7.8 本章小結 79
7.9 自我評估練習 79
8章 連續屬性 81
8.1 簡介 81
8.2 局部與全局離散化 83
8.3 向TDIDT添加局部離散化 83
8.3.1 計算一組偽屬性的信息增益 84
8.3.2 計算效率 88
8.4 使用ChiMerge算法進行全局離散化 90
8.4.1 計算期望值和χ2 92
8.4.2 查找閾值 96
8.4.3 設置minIntervals和maIntervals 97
8.4.4 ChiMerge算法:總結 98
8.4.5 對ChiMerge算法的評述 98
8.5 比較樹歸納法的全局離散化和局部離散化 99
8.6 本章小結 100
8.7 自我評估練習 100
9章 避免決策樹的過度擬合 101
9.1 處理訓練集中的衝突 101
9.2 關於過度擬合數據的更多規則 105
9.3 預剪枝決策樹 106
9.4 後剪枝決策樹 108
9.5 本章小結 113
9.6 自我評估練習 113
10章 關於熵的更多信息 115
10.1 簡介 115
10.2 使用位的編碼信息 118
10.3 區分M個值(M不是2的冪) 119
10.4 對“非等可能”的值進行編碼 121
10.5 訓練集的熵 123
10.6 信息增益必須為正數或0 124
10.7 使用信息增益簡化分類任務的特徵 125
10.7.1 示例1:genetics數據集 126
10.7.2 示例2:bcst96數據集 128
10.8 本章小結 130
10.9 自我評估練習 130
11章 歸納分類的模塊化規則 131
11.1 規則後剪枝 131
11.2 衝突解決 132
11.3 決策樹的問題 135
11.4 Prism算法 137
11.4.1 基本Prism算法的變化 143
11.4.2 將Prism算法與TDIDT算法進行比較 144
11.5 本章小結 145
11.6 自我評估練習 145
12章 度量分類器的性能 147
12.1 真假正例和真假負例 148
12.2 性能度量 149
12.3 真假正例率與預測精度 152
12.4 ROC圖 153
12.5 ROC曲線 155
12.6 尋找佳分類器 155
12.7 本章小結 157
12.8 自我評估練習 157
13章 處理大量數據 159
13.1 簡介 159
13.2 將數據分發到多個處理器 161
13.3 案例研究:PMCRI 163
13.4 評估分佈式系統PMCRI的有效性 165
13.5 逐步修改分類器 169
13.6 本章小結 173
13.7 自我評估練習 173
14章 集成分類 175
14.1 簡介 175
14.2 估計分類器的性能 177
14.3 為每個分類器選擇不同的訓練集 178
14.4 為每個分類器選擇一組不同的屬性 179
14.5 組合分類:替代投票系統 179
14.6 並行集成分類器 183
14.7 本章小結 183
14.8 自我評估練習 183
15章 比較分類器 185
15.1 簡介 185
15.2 配對t檢驗 186
15.3 為比較評估選擇數據集 191
15.4 抽樣 193
15.5 “無顯著差異”的結果有多糟糕 195
15.6 本章小結 196
15.7 自我評估練習 196
16章 關聯規則挖掘I 199
16.1 簡介 199
16.2 規則興趣度的衡量標準 200
16.2.1 Piatetsky-Shapiro標準和RI度量 202
16.2.2 規則興趣度度量應用於chess數據集 204
16.2.3 使用規則興趣度度量解決衝突 206
16.3 關聯規則挖掘任務 206
16.4 找到佳N條規則 207
16.4.1 J-Measure:度量規則的信息內容 207
16.4.2 搜索策略 209
16.5 本章小結 211
16.6 自我評估練習 211
17章 關聯規則挖掘II 213
17.1 簡介 213
17.2 事務和項目集 213
17.3 對項目集的支持 215
17.4 關聯規則 215
17.5 生成關聯規則 217
17.6 Apriori 218
17.7 生成支持的項目集:一個示例 221
17.8 為支持項目集生成規則 223
17.9 規則興趣度度量:提升度和槓桿率 224
17.10 本章小結 226
17.11 自我評估練習 227
18章 關聯規則挖掘III:頻繁模式樹 229
18.1 簡介:FP-growth 229
18.2 構造FP-tree 231
18.2.1 預處理事務數據庫 231
18.2.2 初始化 233
18.2.3 處理事務1:f, c, a, m, p 234
18.2.4 處理事務2:f, c, a, b, m 235
18.2.5 處理事務3:f, b 239
18.2.6 處理事務4:c, b, p 240
18.2.7 處理事務5:f, c, a,m, p 240
18.3 從FP-tree中查找頻繁項目集 242
18.3.1 以項目p結尾的項目集 244
18.3.2 以項目m結尾的項目集 252
18.4 本章小結 258
18.5 自我評估練習 258
19章 聚類 259
19.1 簡介 259
19.2 k-means聚類 261
19.2.1 示例 262
19.2.2 找到佳簇集 266
19.3 凝聚式層次聚類 267
19.3.1 記錄簇間距離 269
19.3.2 終止聚類過程 272
19.4 本章小結 272
19.5 自我評估練習 272
20章 文本挖掘 273
20.1 多重分類 273
20.2 表示數據挖掘的文本文檔 274
20.3 停用詞和詞幹 275
20.4 使用信息增益減少特徵 276
20.5 表示文本文檔:構建向量空間模型 276
20.6 規範權重 277
20.7 測量兩個向量之間的距離 278
20.8 度量文本分類器的性能 279
20.9 文本分類 280
20.9.1 對網頁進行分類 280
20.9.2 文本分類與文本分類 281
20.10 本章小結 284
20.11 自我評估練習 284
21章 分類流數據 285
21.1 簡介 285
21.2 構建H-Tree:更新數組 287
21.2.1 currentAtts數組 287
21.2.2 splitAtt數組 288
21.2.3 將記錄排序到適當的葉節點 288
21.2.4 hitcount數組 289
21.2.5 classtotals數組 289
21.2.6 acvCounts陣列 289
21.2.7 branch數組 290
21.3 構建H-Tree:詳細示例 291
21.3.1 步驟1:初始化根節點0 291
21.3.2 步驟2:開始讀取記錄 291
21.3.3 步驟3:考慮在節點0處分裂 292
21.3.4 步驟4:在根節點上拆分並初始化新的葉節點 293
21.3.5 步驟5:處理下一組記錄 295
21.3.6 步驟6:考慮在節點2處分裂 296
21.3.7 步驟7:處理下一組記錄 296
21.3.8 H-Tree算法概述 297
21.4 分裂屬性:使用信息增益 299
21.5 分裂屬性:使用Hoeffding邊界 301
21.6 H-Tree算法:終版本 304
21.7 使用不斷進化的H-Tree進行預測 306
21.8 實驗:H-Tree與TDIDT 308
21.8.1 lens24數據集 308
21.8.2 vote數據集 310
21.9 本章小結 311
21.10 自我評估練習 311
22章 分類流數據II:時間相關數據 313
22.1 平穩數據與時間相關數據 313
22.2 H-Tree算法總結 315
22.2.1 currentAtts數組 316