大數據技術與應用
孔華鋒 沈青 龍雪玲
- 出版商: 人民郵電
- 出版日期: 2024-10-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 216
- ISBN: 7115651582
- ISBN-13: 9787115651587
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書以大數據的全生命周期中涉及技術為線索,比較全面地介紹了大數據技術架構、基礎設施、大數據採集與預處理、數據存儲與文件系統、NoSQL數據庫、數據分析與開發、數據可視化及應用、大數據安全等方面內容,同時針對Hadoop框架、HDFS、HBASE、Spark等技術為例進行了部署展示,並針對大數據有關的雲計算、人工智能等與大數據息息相關的內容進行較為詳細的介紹與說明。
本書針對相關知識點都進行較為細致的講述,並配有與理論學習相結合的電子資源,包括教學大綱、課程PPT與實驗案例等,可作為高校電腦、信息技術類大數據相關通識課程教材,也可以作為大數據相關專業的專業課程教材。
作者簡介
孔华锋,武汉商学院信息工程学院,副院长,研究员,博士。曾参与科技部重大科技专项信息安全领域“十二五”规划和公安部“十二五”国家科技支撑计划社会公共安全领域规划的起草。在信息网络安全、电子数据取证鉴定、云计算大数据、多媒体技术应用与网络存储等方面均有深入研究。先后主持和参与过“十一五”、“十二五”、“十三五”国家科技支撑计划项目、国家863项目、国家自然科学基金、发改委信息安全专项和科技基础性专项项目等多项国家科技支撑计划和省部级科研课题;作为项目负责人主持开发完成多个安全产品的研究与开发,相关成果已投入实际应用;曾任《网络事件预警与防控技术国家工程实验室》和《大数据协同安全国家工程实验室》的高级研究员。在国内外核心期刊和重要会议上发表学术论文10多篇,获得10余项专利和著作权。
目錄大綱
第 1章 大數據的概述 1
本章導讀 1
1.1 什麽是大數據 1
1.2 大數據的來源 3
1.3 大數據的分類 5
1.4 大數據的特徵 7
1.5 大數據的新思維和新理念 8
1.6 大數據系統的基礎架構 13
1.6.1 基礎支撐服務 14
1.6.2 數據採集及預處理服務 14
1.6.3 數據存儲服務 15
1.6.4 數據引擎服務 16
1.6.5 綜合應用服務 16
1.6.6 數據治理體系 16
1.6.7 支撐體系 18
1.7 大數據的技術體系 18
1.8 本章小結 19
拓展閱讀 19
本章習題 20
第 2章 大數據基礎設施 22
本章導讀 22
2.1 虛擬化技術 23
2.1.1 虛擬化的定義 23
2.1.2 虛擬化的特徵 24
2.1.3 虛擬化技術的分類 26
2.2 雲計算技術 30
2.2.1 雲計算的定義 30
2.2.2 雲計算的特點 31
2.2.3 雲計算的技術架構 32
2.2.4 雲計算的部署模式 34
2.2.5 雲計算平臺的功能 36
2.3 Hadoop分佈式系統 37
2.3.1 Hadoop簡介 37
2.3.2 Hadoop發展歷史 38
2.3.3 Hadoop的特點 39
2.3.4 Hadoop的版本演進 40
2.3.5 Hadoop生態組件 41
2.4 本章小結 45
拓展閱讀 45
本章習題 47
第3章 大數據採集與預處理 48
本章導讀 48
3.1 大數據採集 49
3.1.1 大數據採集概述 49
3.1.2 日誌數據採集 52
3.1.3 網絡數據採集 56
3.1.4 網絡旁路的數據採集 69
3.2 大數據預處理 70
3.2.1 數據預處理概述 70
3.2.2 數據特徵 71
3.2.3 數據規範化 73
3.2.4 數據抽取 73
3.2.5 數據清洗 75
3.2.6 數據集成 81
3.2.7 數據轉換 82
3.2.8 數據加載 83
3.2.9 數據消減 84
3.3 本章小結 85
拓展閱讀 86
Kettle 86
Sqoop 88
本章習題 90
第4章 大數據存儲與分佈式文件系統 91
本章導讀 91
4.1 傳統的存儲設備 92
4.1.1 機械硬盤 92
4.1.2 固態硬盤 94
4.1.3 移動存儲介質 94
4.1.4 傳統存儲系統 95
4.2 獨立磁盤冗餘陣列(RAID) 96
4.2.1 RAID概述 96
4.2.2 RAID架構 97
4.2.3 RAID 0 99
4.2.4 RAID 1 102
4.2.5 RAID 5 102
4.3 HDFS分佈式文件系統 102
4.3.1 HDFS的簡介 103
4.3.2 HDFS的體系架構 106
4.3.3 名稱節點與數據節點 109
4.3.4 映像文件與事務日誌的歸並 111
4.3.5 HDFS的數據存儲特性 113
4.3.6 HDFS的容錯機制 114
4.3.7 HDFS的高可用機制 115
4.3.8 HDFS的聯邦機制 116
4.4 本章小結 118
拓展閱讀 118
本章習題 120
第5章 大數據的數據庫系統 121
5.1 非關系NoSQL數據庫 123
5.1.1 NoSQL的特點 123
5.1.2 NoSQL的理論基礎 124
5.1.3 NoSQL的類型 130
5.2.4. NoSQL的發展趨勢及挑戰 136
5.3 HBase數據庫 137
5.3.1 HBase的概述 137
5.3.2 HBase數據模型 138
5.3.3 Hbase體系架構 141
5.3.4 HBase運行機制 145
5.3 數據倉庫 147
5.4.1 數據倉庫的發展 147
5.4.2 Hive 148
5.4.3 Impala 151
5.7 本章小結 154
拓展閱讀 154
數據湖的概念 154
數據湖的特點 155
本章習題 157
第6章 大數據的計算模式 158
本章導讀 158
6.1 大數據計算模式的特徵和分類 159
6.2 MapReduce批處理計算框架 161
6.2.1 MapReduce的思想 162
6.2.2 MapReduce的功能函數 164
6.2.3 MapReduce的體系架構 166
6.2.4 MapReduce的工作原理 170
6.2.5 MapReduce的實例 175
6.3 YARN資源管理 176
6.3.1 YARN資源管理的概述 176
6.3.2 資源管理器 178
6.3.3 節點管理器 178
6.3.4 應用程序管理器 178
6.3.5 YARN資源管理的工作流程 179
6.3.6 YARN資源管理的優勢 180
6.4 Spark內存並行計算框架 181
6.4.1 Spark內存並行計算框架的概述 181
6.4.2 Spark內存並行計算框架的思想 183
6.4.3 Spark內存並行計算框架的體系架構 186
6.4.4 Spark內存並行計算框架的運行流程 188
6.4.5 Spark內存並行計算框架的RDD 190
6.4.6 Spark交互查詢引擎 200
6.6 本章小結 202
拓展閱讀 202
本章習題 205
第7章 大數據分析挖掘與可視化 207
本章導讀 207
7.1 大數據分析挖掘 207
7.1.1 大數據挖掘概述 207
7.1.2 數據挖掘與數據分析 210
7.1.3 大數據挖掘的特點與挑戰 211
7.2 數據相似性 214
7.2.1 數值屬性的相似性度量 215
7.2.2 標稱屬性的相似性度量 216
7.2.3 文本相似性度量 217
7.3 數據挖掘方法 218
7.4 大數據挖掘工具 219
7.4.1 weka 219
7.4.2 Spark MLlib 221
7.5 數據可視化概述 223
7.5.1 大數據可視化的主要進展 224
7.5.2 大數據可視化的發展趨勢 226
7.6 數據可視化流程 228
7.7 數據可視化原則 230
7.8 數據可視化工具 230
7.9 時空數據可視化 239
7.9.1 時變量據可視化 239
7.9.2 空間數據可視化 242
7.10 非時空數據可視化 242
7.10.1 文本數據可視化 242
7.10.2 復雜高維數據可視化 242
7.11 數據可視化交互 246
7.11.1 交互延時 247
7.11.2 交互分類 247
7.11.3 交互技術 248
7.12 本章小結 248
拓展閱讀 248
本章習題 250
第8章 大數據應用 251
8.1 大數據的行業應用 251
8.2 智慧城市 253
8.2.1 智慧城市概述及建設內容 253
8.2.2 智能交通與大數據 254
8.2.3 環保監測與大數據 255
8.2.4 城市規劃與大數據 256
8.2.5 公共安全與大數據 257
8.3 自動駕駛汽車 258
8.3.1 自動駕駛汽車的發展階段 259
8.3.2 軟件定義汽車 260
8.3.3 車聯網與大數據 262
8.3.4 無人駕駛汽車與大數據 265
8.4 本章小結 267
拓展閱讀: 267
本章習題: 270
第9章 大數據安全 271
9.1 物理安全 272
9.2.1 物理安全管理 273
9.2.2 物理安全技術 274
9.2 數據安全 275
9.3.1 面臨的問題 276
9.3.2 安全機制和解決方案 278
9.3 虛擬化安全 281
9.4 安全監管 282
9.5 應用安全 283
9.6 業務安全 283
9.7 大數據保護 284
9.8 本章小結 285
拓展閱讀: 285
本章習題: 288