大數據挖掘導論與案例
米紅娟 楊鵬斐 易紀海 宋帥 閆曉珊
- 出版商: 機械工業
- 出版日期: 2024-09-23
- 定價: $480
- 售價: 8.5 折 $408
- 語言: 簡體中文
- ISBN: 7111755944
- ISBN-13: 9787111755944
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書旨在提供一個比較全面且實用的關於大數據挖掘基本概念、方法、工具、技術及應用的指南。本書共9章,包含3部分內容。第1部分介紹大數據挖掘的基礎知識、概念和方法,包括大數據的概念、發展階段和特征,大數據挖掘的概念、標準過程模型、主要任務等內容。第2部分重點介紹具體工具與技術,包括Python的基本語法、NumPy工具包、Pandas工具包、ScikitLearn工具包和Matplotlib繪圖,以及Hadoop中的MapReduce框架和Spark大數據處理技術,目的是幫助讀者將數據挖掘的方法和算法落到實處,同時訓練讀者解決大數據挖掘實際問題的能力。第3部分為數據挖掘案例,包括關於分類、聚類、關聯規則挖掘等應用主題的案例,每個案例都展示了一個數據挖掘項目的具體過程和細節,個別案例還給出了Python的實現方法與代碼,目的是為讀者模仿、修改、拓展、延伸、創新以及運用所學數據挖掘技術解決實際應用問題提供原型。 本書的主要特色是在重點關注數據挖掘理論、方法與算法的同時,也適當兼顧數據挖掘的實現工具以及應用,並將它們融合,讀者通過學習能夠具備一定解決實際應用問題的能力。 本書可作為高年級本科生的數據挖掘等課程的教材,也可作為研究生相關課程的教材,還可作為對大數據挖掘與分析感興趣的學習者和在企業從事業務數據分析的人士的參考書
目錄大綱
前言
第1章緒論
1.1數據科學和數據科學家
1.1.1數據科學的產生和數據科學家的
興起
1.1.2從事數據科學活動的重要基礎和
技能
1.2大數據的概念、發展階段和特征
1.2.1大數據的概念
1.2.2大數據的發展階段
1.2.3大數據的“5V”特征
1.3大數據的主要來源
1.4大數據挖掘的概念和流程
1.4.1大數據挖掘的概念
1.4.2大數據挖掘的標準過程模型
1.5大數據挖掘的主要任務
1.5.1分類與回歸
1.5.2聚類分析
1.5.3關聯分析
1.5.4異常檢測
1.6大數據挖掘的工具與技術
1.6.1Python
1.6.2Hadoop
1.6.3Spark
1.7大數據挖掘的應用
1.7.1在金融行業的應用
1.7.2在電信行業的應用
1.7.3在醫療行業的應用
1.7.4社會網絡分析
1.7.5推薦系統
習題
參考文獻
第2章數據分析與可視化技術
2.1Python簡介
2.1.1Python環境搭建
2.1.2Python基本語法
2.2NumPy工具包
2.2.1創建數組
2.2.2數組的屬性和方法
2.2.3數組的基本操作和運算
2.2.4數組的常用方法
2.3Pandas工具包
2.3.1Series
2.3.2DataFrame概述
2.3.3DataFrame屬性和操作
2.4ScikitLearn工具包
2.4.1數據集
2.4.2K最近鄰分類器
2.4.3決策樹
2.4.4樸素貝葉斯分類器
2.4.5多層感知器
2.4.6支持向量機
2.4.7隨機森林與AdaBoost
2.4.8K均值聚類
2.4.9基於密度的聚類
2.4.10主成分分析
2.5Matplotlib繪圖
2.5.1Figure和Subplot
2.5.2基本繪圖方法
2.5.3顏色、線型和標記
2.5.4軸標簽、刻度和網格
2.5.5添加標題、圖例和注釋
習題
實驗
參考文獻
第3章認識數據
3.1數據類型
3.1.1屬性與度量
3.1.2數據集類型
3.2數據質量
3.2.1測量和數據收集
3.2.2數據應用
3.3探索數據
3.3.1中心趨勢度量
3.3.2離散趨勢度量
3.3.3數據基本統計描述的圖形
顯示
3.4數據可視化
3.4.1一般方法和技術
3.4.2少量屬性的可視化
3.4.3可視化時間空間數據
3.4.4可視化高維數據
3.5數據對象相似性與相異性度量
3.5.1數據矩陣與鄰近度矩陣
3.5.2標稱屬性的鄰近度
3.5.3二元屬性的鄰近度
3.5.4數值屬性的鄰近度
3.5.5序數屬性的鄰近度
3.5.6混合類型屬性的鄰近度
3.5.7余弦相似度
習題
實驗
參考文獻
大數據挖掘導論與案例目錄第4章數據預處理
4.1數據預處理任務
4.2數據清洗
4.2.1缺失值
4.2.2噪聲數據
4.3數據歸約
4.3.1聚集
4.3.2抽樣
4.3.3維歸約
4.3.4特征子集選擇
4.3.5特征創建
4.4離散化與二元化
4.4.1離散化
4.4.2二元化
4.5數據規範化和數據泛化
4.5.1數據規範化
4.5.2數據泛化
習題
實驗
參考文獻
第5章分類概念與方法
5.1基本概念
5.2分類的一般方法
5.3決策樹歸納
5.3.1決策樹歸納的基本原理
5.3.2屬性劃分的度量
5.3.3樹剪枝
5.3.4決策樹歸納算法
5.3.5決策樹歸納的一般特點
5.4模型的評估與選擇
5.4.1模型的過擬合
5.4.2模型的性能度量
5.4.3模型評估方法
5.4.4模型選擇
5.5基於規則的分類
5.5.1使用IFTHEN規則分類
5.5.2規則分類器的性質
5.5.3由決策樹提取規則
5.5.4使用順序覆蓋算法歸納規則
5.6最近鄰分類器
5.6.1K最近鄰分類
5.6.2最近鄰分類器的特點
5.7貝葉斯分類器
5.7.1貝葉斯定理
5.7.2樸素貝葉斯分類器
5.7.3樸素貝葉斯分類器的特征
5.8後向傳播分類
5.8.1多層前饋神經網絡
5.8.2誤差的後向傳播算法
5.8.3人工神經網絡的特點
5.9支持向量機
5.9.1線性可分支持向量機與硬間隔
最大化
5.9.2線性支持向量機與軟間隔
最大化
5.9.3非線性可分支持向量機與
核函數
5.9.4支持向量機的優缺點
5.10集成學習方法
5.10.1基本原理
5.10.2隨機森林
5.10.3AdaBoost算法
5.10.4類別不平衡數據的分類
5.11多類問題
5.11.1多類別分類
5.11.2多標簽分類
習題
實驗
參考文獻
第6章關聯分析概念與方法
6.1基本概念
6.1.1購物籃分析
6.1.2頻繁項集和關聯規則
6.2關聯分析的方法
6.2.1先驗原理
6.2.2Apriori算法產生頻繁項集
6.2.3Apriori算法生成關聯規則
6.2.4提高Apriori算法效率
6.2.5挖掘頻繁項集的模式增長
算法
6.2.6使用垂直數據格式挖掘頻繁
項集
6.2.7頻繁項集的緊湊表示
6.3關聯模式評估
6.3.1模式興趣度度量
6.3.2關聯模式評估度量比較
習題
實驗
參考文獻
第7章聚類分析概念與方法
7.1基本概念
7.1.1什麽是聚類分析
7.1.2聚類分析方法
7.2k均值聚類
7.2.1基本k均值算法
7.2.2基本k均值的附加問題
7.2.3k均值的優點和缺點
7.2.4k均值的改進算法
7.2.5Iris數據集上的k均值聚類
7.3凝聚層次聚類
7.3.1簇間鄰近度度量
7.3.2基本凝聚層次聚類算法
7.3.3凝聚層次聚類實例
7.3.4時間和空間覆雜度
7.3.5層次聚類的優點和主要問題
7.3.6凝聚層次聚類的Python實現
7.4DBSCAN聚類
7.4.1DBSCAN算法的有關概念
7.4.2DBSCAN算法及實現
7.4.3DBSCAN時間和空間覆雜度
7.4.4DBSCAN參數選擇
7.4.5DBSCAN優點與缺點
7.5期望最大化算法
7.5.1模糊簇
7.5.2基於概率模型的聚類
7.5.3使用最大似然估計模型參數
7.5.4期望最大化算法的具體步驟
7.5.5使用期望最大化算法的混合模型
聚類的優缺點
7.5.6高斯混合模型的代碼實現
7.6聚類評估
7.6.1概述
7.6.2無監督簇評估:凝聚度和
分離度
7.6.3無監督簇評估:鄰近度矩陣
7.6.4層次聚類的無監督評估
7.6.5確定簇的數目
7.6.6聚類趨勢
7.6.7簇有效性的監督度量
7.6.8簇度量的代碼實現
習題
實驗
參考文獻
第8章大數據挖掘關鍵技術
8.1大規模並行處理
8.1.1Hadoop安裝
8.1.2HDFS
8.1.3MapReduce計算模型
8.2Spark內存計算
8.2.1Spark安裝
8.2.2Spark運行原理
8.2.3RDD編程
8.2.4Spark SQL
8.2.5Spark流式計算
8.2.6Spark ML
習題
實驗
參考文獻
第9章案例分析
9.1機票航班延誤預測
9.1.1應用背景與目標
9.1.2數據探索與理解
9.1.3數據預處理
9.1.4分類模型構建與評估
9.1.5模型的作用
9.2零售行業購物籃分析
9.2.1應用背景與目標
9.2.2數據探索與理解
9.2.3數據預處理
9.2.4關聯規則挖掘與評估
9.2.5規則解釋
9.3航空公司客戶價值分析
9.3.1應用背景與目標
9.3.2數據探索與理解
9.3.3數據預處理
9.3.4聚類模型構建與評估
9.3.5模型解釋與應用