大數據技術基礎

張成文

  • 出版商: 人民郵電
  • 出版日期: 2024-08-01
  • 定價: $299
  • 售價: 8.5$254
  • 語言: 簡體中文
  • 頁數: 236
  • ISBN: 7115636494
  • ISBN-13: 9787115636492
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約2週~3週)

  • 大數據技術基礎-preview-1
  • 大數據技術基礎-preview-2
大數據技術基礎-preview-1

相關主題

商品描述

大數據技術作為處理海量數據的關鍵工具,在數據分析、數據計算、資源管理等領域得到廣泛應用。本書從初學者的角度出發,全面系統地介紹了Python大數據分析、數據存儲、離線計算與實時計算等基本概念與方法,並以大量案例幫助讀者理解大數據技術的方方面面。此外,本書還介紹了Kafka、圖數據處理、OLAP數據分析、分佈式資源管理和大數據處理架構等知識,以幫助讀者快速熟悉大數據技術,並應用大數據技術解決現實生活中的問題。

本書內容新穎,案例豐富,既可作為高等院校電腦、數據分析等相關專業的教學用書,也可供對大數據技術感興趣的初學者,以及從事數據科學、大數據技術研究和應用開發的人員參考。

作者簡介

张成文,北京邮电大学计算机学院副教授,中国人工智能学会高级会员,在国际SCI期刊、电子学报英文版等国内外期刊上发表了几十篇高水平SCI论文,在计算机学报等国内top级学报上以及国际会议上发表了几十篇高水平EI论文。以项目负责人及骨干的身份参加了多个国家和部级科研项目,主要包括国家科技重大专项项目、国家973计划项目、国家863计划重大项目、国家自然科学基金项目、教育部新世纪优秀人才计划项目等。在研项目:智能感知网络及其在智慧城市中应用研究,“智慧系统”基础理论及体系架构研究,物联网服务边缘适配与集成协同模式挖掘研究等。

目錄大綱

第 1章 大數據概述 1

1.1 基本概念 1

1.1.1 5V特徵 1

1.1.2 數據類型 2

1.1.3 大數據平臺 3

1.1.4 大數據的處理流程 4

1.2 相關技術 5

1.2.1 數據採集 5

1.2.2 數據預處理 6

1.2.3 數據存儲 6

1.2.4 數據挖掘與數據分析 6

1.2.5 數據可視化 8

1.3 應用領域 9

1.4 課後習題 9

第 2章 Python大數據分析 10

2.1 Python介紹 10

2.1.1 Python的應用場景 10

2.1.2 Python的優點與缺點 10

2.2 NumPy介紹 11

2.2.1 NumPy的應用場景 11

2.2.2 NumPy的數組對象與用法 11

2.3 pandas介紹 15

2.3.1 pandas的應用場景 15

2.3.2 pandas的數據結構與用法 15

2.4 Matplotlib介紹 20

2.4.1 Matplotlib庫的應用場景 20

2.4.2 圖表繪制 20

2.5 實踐操作 28

2.6 小結 33

2.7 課後習題 33

第3章 Kafka 34

3.1 Kafka介紹 34

3.1.1 Kafka的基本架構 34

3.1.2 Kafka的作用 36

3.2 Kafka的重要特性 37

3.2.1 高吞吐 37

3.2.2 高可用 38

3.3 安裝與配置 39

3.3.1 ZooKeeper的安裝與配置 39

3.3.2 Kafka的安裝與配置 40

3.4 實踐操作 41

3.5 小結 44

3.6 課後習題 44

第4章 數據存儲 45

4.1 HDFS 45

4.1.1 Hadoop介紹 45

4.1.2 HDFS介紹 46

4.1.3 安裝與配置 51

4.1.4 實踐操作 61

4.1.5 小結 66

4.1.6 課後習題 66

4.2 HBase 66

4.2.1 HBase介紹 66

4.2.2 技術對比 70

4.2.3 安裝與配置 71

4.2.4 實踐操作 73

4.2.5 小結 75

4.2.6 課後習題 76

4.3 Redis 76

4.3.1 Redis介紹 76

4.3.2 安裝與配置 80

4.3.3 實踐操作 82

4.3.4 小結 85

4.3.5 課後習題 85

第5章 圖數據處理 86

5.1 Neo4j 86

5.1.1 Neo4j介紹 86

5.1.2 安裝與配置 89

5.1.3 實踐操作 90

5.1.4 小結 96

5.1.5 課後習題 97

5.2 Spark GraphX 97

5.2.1 圖計算基礎知識 97

5.2.2 Spark GraphX介紹 99

5.2.3 實踐操作 101

5.2.4 小結 106

5.2.5 課後習題 106

第6章 離線計算 107

6.1 MapReduce 107

6.1.1 MapReduce介紹 108

6.1.2 安裝與配置 110

6.1.3 實踐操作 112

6.1.4 小結 133

6.1.5 課後習題 134

6.2 Spark 134

6.2.1 Spark介紹 134

6.2.2 RDD 138

6.2.3 安裝與配置 143

6.2.4 實踐操作 145

6.2.5 小結 151

6.2.6 課後習題 151

第7章 實時計算 152

7.1 Storm 152

7.1.1 流計算介紹 152

7.1.2 Storm介紹 153

7.1.3 實踐操作 156

7.1.4 小結 164

7.1.5 課後習題 164

7.2 Spark Streaming 165

7.2.1 Spark Streaming介紹 165

7.2.2 DStream操作 168

7.2.3 實踐操作 172

7.2.4 小結 174

7.2.5 課後習題 175

7.3 Flink 175

7.3.1 Flink介紹 175

7.3.2 技術對比 179

7.3.3 實踐操作 180

7.3.4 小結 186

7.3.5 課後習題 186

第8章 OLAP數據分析 187

8.1 Pig 187

8.1.1 Pig介紹 187

8.1.2 Pig Latin語言介紹 189

8.1.3 Pig的安裝與配置 191

8.1.4 實踐操作 192

8.1.5 小結 195

8.1.6 課後習題 196

8.2 Hive 196

8.2.1 數據倉庫介紹 196

8.2.2 Hive介紹 197

8.2.3 技術對比 201

8.2.4 安裝與配置 202

8.2.5 實踐操作 205

8.2.6 小結 211

8.2.7 課後習題 211

8.3 Spark SQL 211

8.3.1 Spark SQL介紹 211

8.3.2 實踐操作 214

8.3.3 小結 218

8.3.4 課後習題 218

第9章 分佈式資源管理 219

9.1 YARN介紹 219

9.1.1 YARN的基本架構 220

9.1.2 YARN組件功能 221

9.1.3 YARN的執行過程 223

9.2 實踐操作 224

9.3 小結 230

9.4 課後習題 230

第 10章 大數據處理架構 231

10.1 Lambda架構介紹 231

10.1.1 Lambda的基本結構 231

10.1.2 優勢與不足 232

10.2 Kappa架構介紹 233

10.2.1 Kappa的基本結構 233

10.2.2 優勢與不足 234

10.3 架構對比 234

10.4 小結 235

10.5 課後習題 235

參考文獻 236