HCIA-Big Data學習指南

華為技術有限公司

  • 出版商: 人民郵電
  • 出版日期: 2024-10-01
  • 定價: $539
  • 售價: 8.5$458
  • 語言: 簡體中文
  • 頁數: 202
  • ISBN: 7115649359
  • ISBN-13: 9787115649355
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • HCIA-Big Data學習指南-preview-1
  • HCIA-Big Data學習指南-preview-2
HCIA-Big Data學習指南-preview-1

相關主題

商品描述

本書以大數據為中心,對大數據及其相關技術、產品和實踐案例進行了詳細的講解。全書共分9章,從大數據概述、華為大數據產品入手,詳細介紹了開源的分佈式計算框架——Hadoop,以及Hadoop生態圈的多個組件:Flume、Kafka、HDFS、Zookeeper、MapReduce、YARN、HBase、Hive、Spark以及Flink;除上述組件外,還介紹了ElasticSearch和ClickHouse。

  本書適合正在準備考取華為HCIA-Big Data認證的人員、從事大數據工作的專業人員閱讀,也可作為高等院校相關專業師生的參考書。

作者簡介

华为技术有限公司 华为技术有限公司,成立于1987年,总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术(ICT)解决方案供应商,专注于ICT领域,坚持稳健经营、持续创新、开放合作,在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势,为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务,并致力于实现未来信息社会、构建更美好的全联接世界。

目錄大綱

第 1章 大數據概述 2

  1.1 什麽是大數據 4

1.1.1 大數據的來源 4

1.1.2 大數據的發展歷程 6

  1.2 大數據的數據特徵及數據類型 7

  1.3 華為鯤鵬大數據 12

  1.4 大數據的發展趨勢 14

  1.5 華為DataArts Studio 15

1.5.1 什麽是DataArts Studio 16

1.5.2 DataArts Studio產品功能 16

1.5.3 DataArts Studio應用場景 18

  1.6 華為雲大數據服務——MRS 21

  習題 24

第 2章 大數據採集與分佈式流處理平臺 26

  2.1 大數據採集技術 28

  2.2 Flume 29

2.2.1 Flume簡介及框架 29

2.2.2 Flume的關鍵特性 32

2.2.3 Flume應用舉例 33

  2.3 Kafka 33

2.3.1 Kafka簡介 34

2.3.2 Kafka的架構與功能 36

2.3.3 Kafka數據管理 40

  習題 42

第3章 大數據分佈式處理概述 44

  3.1 大數據開發與分佈式技術簡介 46

3.1.1 大數據開發 47

3.1.2 分佈式管理技術 49

  3.2 Hadoop——分佈式大數據系統 50

3.2.1 Hadoop簡介 50

3.2.2 Hadoop 3.x 53

  3.3 Hadoop的體系架構 55

  3.4 Hadoop與分佈式開發 58

  3.5 Hadoop的生態系統 60

  習題 68

第4章 HDFS分佈式文件系統和ZooKeeper 70

  4.1 分佈式文件系統 72

4.1.1 分佈式文件系統的設計思路 72

4.1.2 最早的分佈式文件系統 73

4.1.3 大數據環境下分佈式文件系統的優化思路 75

  4.2 HDFS的體系架構及特點 76

4.2.1 HDFS的體系架構 76

4.2.2 HDFS的特點 78

  4.3 HDFS的完整性 79

4.3.1 校驗和 79

4.3.2 運行後台進程來檢測數據塊 79

  4.4 HDFS數據的讀/寫流程 80

  4.5 HDFS的常用工具 83

4.5.1 FsShell實現 83

4.5.2 DFSAdmin實現 84

  4.6 ZooKeeper分佈式協調服務 86

4.6.1 ZooKeeper概述 86

4.6.2 ZooKeeper的體系結構 87

4.6.3 ZooKeeper奇數節點和偶數節點 89

  習題 90

第5章 分佈式計算——MapReduce和YARN 92

  5.1 什麽是MapReduce 94

  5.2 MapReduce編程模型 95

5.2.1 MapReduce簡單模型 96

5.2.2 MapReduce復雜模型 97

5.2.3 WordCount案例 98

  5.3 MapReduce數據流及任務流 101

5.3.1 MapReduce數據流 101

5.3.2 MapReduce任務流 104

  5.4 YARN概述 106

  5.5 YARN的基本框架 107

  5.6 YARN的工作流程 110

  習題 112

第6章 分佈式數據庫技術——HBase 114

  6.1 海量數據與NoSQL 116

6.1.1 關系數據庫的局限 116

6.1.2 CAP理論 116

6.1.3 NoSQL 118

  6.2 HBase簡介 119

  6.3 HBase表視圖 122

6.3.1 HBase邏輯視圖 122

6.3.2 HBase物理視圖 123

  6.4 HBase物理存儲模型 126

  6.5 HBase的基本操作 127

6.5.1 HBase Shell的命令 127

6.5.2 general操作 128

6.5.3 DDL(數據定義語言)操作 129

  習題 131

第7章 分佈式數據倉庫技術——Hive 134

  7.1 什麽是Hive 136

7.1.1 Hive的本質 136

7.1.2 Hive的基礎架構 137

  7.2 Hive的安全性 140

7.2.1 默認授權模式 140

7.2.2 基於存儲的授權模式 140

7.2.3 基於SQL標準的授權模式 141

  7.3 Hive Shell 141

  7.4 Hive的性能調優 145

7.4.1 分區表 146

7.4.2 存儲優化 147

7.4.3 矢量化查詢優化 148

  7.5 HQL簡介 149

7.5.1 認識HQL 149

7.5.2 Hive管理數據的方式 150

  習題 151

第8章 ClickHouse與ElasticSearch分佈式搜索 152

  8.1 ClickHouse概述 154

  8.2 ClickHouse的架構及其基本特性 155

8.2.1 ClickHouse的架構 155

8.2.2 ClickHouse的基本特性 157

  8.3 ClickHouse的使用案例 159

  8.4 ElasticSearch簡介 166

  8.5 ElasticSearch的架構及其基本特性 170

8.5.1 ElasticSearch的架構 170

8.5.2 ElasticSearch的基本特性 172

  8.6 ElasticSearch的使用案例 173

  習題 179

第9章 大數據實時處理技術 182

  9.1 Spark——分佈式技術 184

9.1.1 Spark概述與架構 184

9.1.2 彈性分佈式數據集 186

9.1.3 Spark的擴展功能 188

9.1.4 Spark的應用舉例 190

  9.2 Flink——分佈式實時處理引擎 192

9.2.1 Flink的原理與架構 193

9.2.2 Flink的運行架構 195

9.2.3 Flink應用舉例 197

  習題 202