大數據挖掘與應用
王振武
- 出版商: 清華大學
- 出版日期: 2017-06-01
- 定價: $357
- 售價: 7.5 折 $268
- 語言: 簡體中文
- 頁數: 368
- 裝訂: 平裝
- ISBN: 7302460434
- ISBN-13: 9787302460435
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 3)
相關主題
商品描述
本書對大數據挖掘與應用的基本算法進行了系統的介紹,每種算法不僅包括對算法基本原理的介紹,而且配有大量的例題以及基於阿裡雲數加平臺的演示,這種理論與實踐相結合的方式極大地方便了讀者對抽象的數據挖掘算法的理解和掌握。 本書共17章,內容覆蓋了數據預處理、關聯規則挖掘算法、分類算法和聚類算法及常見的數據挖掘應用,具體章節包括大數據簡介、數據預處理技術、關聯規則挖掘、邏輯回歸方法、KNN算法、樸素貝葉斯分類算法、隨機森林分類算法、支持向量機、人工神經網絡算法、決策樹分類算法、Kmeans聚類算法、K中心點聚類算法、自組織神經網絡聚類算法、DBSCAN聚類算法以及社交網絡分析方法及應用、文本分析方法及應用和推薦系統方法及應用等內容。 本書可作為高等院校數據挖掘課程的教材,也可作為從事數據挖掘工作及其他相關工程技術工作的人員的參考書。
目錄大綱
第一篇 基礎篇
第1章 大數據簡介
1.1 大數據
1.1.1 大數據的定義
1.1.2 大數據的特點
1.1.3 大數據處理的挑戰
1.2 大數據挖掘
1.2.1 大數據挖掘的定義
1.2.2 大數據挖掘的特點
1.3 大數據挖掘的相關方法
1.3.1 數據預處理技術
1.3.2 關聯規則挖掘
1.3.3 分類
1.3.4 聚類
1.3.5 孤立點挖掘
1.3.6 演變分析
1.3.7 特異群組分析
1.4 大數據挖掘類型
1.4.1 Web數據挖掘
1.4.2 空間數據挖掘
1.4.3 流數據挖掘
1.5 大數據挖掘的常見應用
1.5.1 社交網絡分析
1.5.2 文本分析
1.5.3 推薦系統
1.6 常用的大數據統計分析方法
1.6.1 百分位
1.6.2 皮爾森相關係數
1.6.3 直方圖
1.6.4 T檢驗
1.6.5 卡方檢驗
1.7 常用的大數據挖掘評估方法
1.8 大數據平台相關技術
1.8.1 分佈式存儲技術
1.8.2 分佈式任務調度技術
1.8.3 並行計算技術
1.8.4 其他技術
1.9 大數據平台實例——阿里雲數加平台
1.9.1 數加平台簡介
1.9.2 數加平台產品簡介
1.9.3 數加平台優勢特色
1.9.4 機器學習平台簡介
1.9.5 機器學習平台功能
1.9.6 機器學習平台操作流程
1.10 小結
思考題
第二篇 技術篇
第2章 數據預處理技術
2.1 數據預處理的目的
2.2 數據採樣
2.2.1 加權採樣
2.2.2 隨機採樣
2.2.3 分層採樣
2.3 數據清理
2.3.1 填充缺失值
2.3.2 光滑噪聲數據
2.3.3 數據清理過程
2.4 數據集成
2.4.1 數據集成簡介
2.4.2 常用數據集成方法
2.5 數據變換
2.5.1 數據變換簡介
2.5.2 數據規範化
2.6 數據歸約
2.6.1 數據立方體聚集
2.6.2 維歸約
2.6.3數據壓縮
2.6.4數值歸約
2.6.5數據離散化與概念分層
2.7特徵選擇
2.7.1特徵選擇簡介
2.7.2Relief算法
2.7.3Fisher判別法
2.7.4基於GBDT的過濾式特徵選擇
2.8特徵提取
2.8.1特徵提取簡介
2.8.2DKLT特徵提取方法
2.8.3主成分分析法
2.9基於阿裡雲數加平臺的數據採樣與特徵選擇實例
2.10小結
思考題
第3章關聯規則挖掘
3.1基本概念
3.2關聯規則挖掘算法——Apriori算法原理
3.2.1Apriori算法原理解析
3.2.2Apriori算法應用舉例
3.3Apriori算法源代碼結果分析
3.4Apriori算法的特點及應用
3.4.1Apriori算法的特點
3.4.2Apriori算法的應用
3.5小結
思考題
第4章邏輯回歸方法
4.1基本概念
4.1.1回歸概述
4.1.2線性回歸簡介
4.2邏輯回歸
4.2.1二分類邏輯回歸
4.2.2多分類邏輯回歸
4.2.3邏輯回歸應用舉例
4.2.4邏輯回歸方法的特點
4.2.5邏輯回歸方法的應用
4.3邏輯回歸源代碼結果分析
4.3.1線性回歸
4.3.2多分類邏輯回歸
4.4基於阿裡雲數加平臺的邏輯回歸實例
4.4.1二分類邏輯回歸應用實例
4.4.2多分類邏輯回歸應用實例
4.5小結
思考題
第5章KNN算法
5.1KNN算法簡介
5.1.1KNN算法原理
5.1.2KNN算法應用舉例
5.2KNN算法的特點及改進
5.2.1KNN算法的特點
5.2.2KNN算法的改進策略
5.3KNN源代碼結果分析
5.4基於阿裡雲數加平臺的KNN算法應用實例
5.5小結
思考題
第6章樸素貝葉斯分類算法
6.1基本概念
6.1.1主觀概率
6.1.2貝葉斯定理
6.1.3樸素貝葉斯分類模型
6.1.4樸素貝葉斯分類器實例分析
6.2樸素貝葉斯算法的特點及應用
6.2.1樸素貝葉斯算法的特點
6.2.2樸素貝葉斯算法的應用場景
6.3樸素貝葉斯源代碼結果分析
6.4基於阿裡雲數加平臺的樸素貝葉斯實例
6.5小結
思考題
第7章隨機森林分類算法
7.1隨機森林算法簡介
7.1.1隨機森林算法原理
7.1.2隨機森林算法應用舉例
7.2隨機森林算法的特點及應用
7.2.1隨機森林算法的特點
7.2.2隨機森林算法的應用
7.3隨機森林算法源程序結果分析
7.4基於阿裡雲數加平臺的隨機森林分類實例
7.5小結
思考題
第8章支持向量機
8.1基本概念
8.1.1支持向量機理論基礎
8.1.2統計學習核心理論
8.1.3學習過程的一致性條件
8.1.4函數集的VC維
8.1.5泛化誤差界
8.1.6結構風險最小化歸納原理
8.2支持向量機原理
8.2.1支持向量機核心理論
8.2.2最大間隔分類超平面
8.2.3支持向量機
8.2.4核函數分類
8.3支持向量機的特點及應用
8.3.1支持向量機的特點
8.3.2支持向量機的應用
8.4支持向量機分類實例分析
8.5基於阿裡雲數加平臺的支持向量機分類實例
8.6小結
思考題
第9章人工神經網絡算法
9.1基本概念
9.1.1生物神經元模型
9.1.2人工神經元模型
9.1.3主要的神經網絡模型
9.2BP算法的原理
9.2.1Delta學習規則的基本原理
9.2.2BP神經網絡的結構
9.2.3BP神經網絡的算法描述
9.2.4標準BP神經網絡的工作過程
9.3BP神經網絡實例分析
9.4BP神經網絡的特點及應用
9.4.1BP神經網絡的特點
9.4.2BP神經網絡的應用
9.5BP神經網絡算法源代碼結果分析
9.6小結
思考題
第10章決策樹分類算法
10.1基本概念
10.1.1決策樹分類算法簡介
10.1.2決策樹基本算法概述
10.2決策樹分類算法——ID3算法原理
10.2.1ID3算法原理
10.2.2熵和信息增益
10.2.3ID3算法
10.3ID3算法實例分析
10.4ID3算法的特點及應用
10.4.1ID3算法的特點
10.4.2ID3算法的應用
10.5ID3算法源程序結果分析
10.6決策樹分類算法——C4.5算法原理
10.6.1C4.5算法
10.6.2C4.5算法的偽代碼
10.7C4.5算法實例分析
10.8C4.5算法的特點及應用
10.8.1C4.5算法的特點
10.8.2C4.5算法的應用
10.9C4.5源程序結果分析
10.10小結
思考題
第11章Kmeans聚類算法
11.1Kmeans聚類算法原理
11.1.1Kmeans聚類算法原理解析
11.1.2Kmeans聚類算法應用舉例
11.2Kmeans聚類算法的特點及應用
11.2.1Kmeans聚類算法的特點
11.2.2Kmeans聚類算法的應用
11.3K均值聚類算法源程序結果分析
11.4基於阿裡雲數加平臺的K均值聚類算法實例
11.5基於MaxCompute Graph模型的Kmeans算法源程序分析
11.6小結
思考題
第12章K中心點聚類算法
12.1K中心點聚類算法原理
12.1.1K中心點聚類算法原理解析
12.1.2K中心點聚類算法實例分析
12.2K中心點聚類算法的特點及應用
12.2.1K中心點聚類算法的特點
12.2.2K中心點聚類算法的應用
12.3K中心點算法源程序結果分析
12.4小結
思考題
第13章自組織神經網絡聚類算法
13.1SOM網絡簡介
13.2競爭學習算法基礎
13.2.1SOM網絡結構
13.2.2SOM網絡概述
13.3SOM網絡原理
13.3.1SOM網絡的拓撲結構
13.3.2SOM權值調整域
13.3.3SOM網絡運行原理
13.3.4SOM網絡學習方法
13.4SOM網絡應用舉例
13.4.1問題描述
13.4.2網絡設計及學習結果
13.4.3輸出結果分析
13.5SOM網絡的特點及應用
13.5.1SOM網絡的特點
13.5.2SOM網絡的應用
13.6SOM神經網絡源程序結果分析
13.7小結
思考題
第14章DBSCAN聚類算法
14.1DBSCAN算法的原理
14.1.1DBSCAN算法原理解析
14.1.2DBSCAN算法應用舉例
14.2DBSCAN算法的特點與應用
14.2.1DBSCAN算法的特點
14.2.2DBSCAN算法的應用
14.3DBSCAN源程序結果分析
14.4小結
思考題
第三篇綜合應用篇
第15章社交網絡分析方法及應用
15.1社交網絡簡介
15.2K核方法
15.2.1K核方法原理
15.2.2基於阿裡雲數加平臺的K核方法實例
15.3單源最短路徑方法
15.3.1單源最短路徑方法原理
15.3.2基於阿裡雲數加平臺的單源最短路徑方法實例
15.4PageRank算法
15.4.1PageRank算法原理
15.4.2PageRank算法的特點及應用
15.4.3基於阿裡雲數加平臺的PageRank算法實例
15.5標簽傳播算法
15.5.1標簽傳播算法原理
15.5.2基於阿裡雲數加平臺的標簽傳播聚類應用實例
15.6最大聯通子圖算法
15.7聚類系數算法
15.7.1聚類系數算法原理
15.7.2基於阿裡雲數加平臺的聚類系數算法應用實例
15.8基於阿裡雲數加平臺的社交網絡分析實例
15.9小結
思考題
第16章文本分析方法及應用
16.1文本分析簡介
16.2TFIDF方法
16.3中文分詞方法
16.3.1基於字典或詞庫匹配的分詞方法
16.3.2基於詞的頻度統計的分詞方法
16.3.3其他中文分詞方法
16.4PLDA方法
16.4.1主題模型
16.4.2PLDA方法原理
16.5Word2Vec基本原理
16.5.1詞向量的表示方式
16.5.2統計語言模型
16.5.3霍夫曼編碼
16.5.4Word2Vec原理簡介
16.6基於阿裡雲數加平臺的文本分析實例
16.7小結
思考題
第17章推薦系統方法及應用
17.1推薦系統簡介
17.2基於內容的推薦算法
17.2.1基於內容的推薦算法原理
17.2.2基於內容的推薦算法的特點
17.3協同過濾推薦算法
17.3.1協同過濾推薦算法簡介
17.3.2協同過濾推薦算法的特點
17.4混合推薦算法
17.5基於阿裡雲數加平臺的推薦算法實例
17.6小結
思考題
參考文獻367