Hadoop 3.x 大數據開發實戰 (視頻教學版)
張偉洋
- 出版商: 清華大學
- 出版日期: 2022-10-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- ISBN: 7302618003
- ISBN-13: 9787302618003
-
相關分類:
Hadoop、大數據 Big-data
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$680$612 -
$880$695 -
$910$865 -
$403Python 大數據處理庫 PySpark 實戰
-
$594$564 -
$880$695 -
$254大數據技術入門 — Hadoop + Spark
-
$534$507 -
$454大數據平臺架構
-
$620$527 -
$419$398 -
$284大數據技術基礎及應用教程(Linux+Hadoop+Spark)
-
$680$530 -
$534$507 -
$359$341 -
$880$695 -
$311Hadoop大數據技術基礎與應用
-
$620$490 -
$407實戰大數據分佈式大數據分析處理系統開發與應用
-
$780$608 -
$534$507 -
$714Python 大數據架構全棧開發與應用
-
$780$616 -
$720$562 -
$980$735
相關主題
商品描述
本書以Hadoop 3.x及其周邊框架為主線,介紹了整個Hadoop生態系統主流的大數據開發技術。全書共16章,第1章講解VMware中CentOS 7操作系統的安裝;第2章講解操作系統集群環境的配置;第3~16章講解Hadoop生態系統各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數據實時處理系統Flume、Kafka、Storm、Spark以及分佈式搜索系統Elasticsearch等的基礎知識、架構原理、集群環境搭建,同時包括常用的Shell命令、API操作、源碼剖析,並通過案例演示了各個框架的實際應用。讀者即使沒有任何大數據基礎,通過閱讀本書,也可以對照書中的步驟成功搭建屬於自己的大數據集群並獨立完成項目開發。 本書通俗易懂,內容豐富,適合大數據開發初學者、大數據運維人員以及大數據分析與挖掘的從業者閱讀,也可作為培訓機構和大專院校大數據專業課程的教學用書。
目錄大綱
目 錄
第1章 VMware中安裝CentOS 1
1.1 下載CentOS 7鏡像文件 1
1.2 新建虛擬機 4
1.3 安裝操作系統 6
1.4 動手練習 11
第2章 CentOS 7集群環境配置 12
2.1 系統環境配置 12
2.1.1 新建用戶 12
2.1.2 修改用戶權限 13
2.1.3 關閉防火牆 13
2.1.4 設置固定IP 13
2.1.5 修改主機名 16
2.1.6 新建資源目錄 17
2.2 安裝JDK 17
2.3 克隆虛擬機 18
2.4 配置主機IP映射 20
2.5 動手練習 21
第3章 Hadoop 22
3.1 Hadoop簡介 22
3.1.1 Hadoop生態系統架構 22
3.1.2 Hadoop不同版本架構對比 24
3.2 YARN基本架構及組件 25
3.3 YARN工作流程 27
3.4 配置集群各節點SSH無密鑰登錄 28
3.4.1 無密鑰登錄原理 28
3.4.2 無密鑰登錄操作步驟 29
3.5 搭建Hadoop 3.x分佈式集群 31
3.6 動手練習 37
第4章 HDFS 38
4.1 HDFS簡介 38
4.1.1 設計目標 38
4.1.2 總體架構 39
4.1.3 主要組件 40
4.1.4 文件讀寫 42
4.2 HDFS命令行操作 43
4.3 HDFS Web界面操作 46
4.4 HDFS Java API操作 48
4.4.1 讀取數據 48
4.4.2 創建目錄 50
4.4.3 創建文件 50
4.4.4 刪除文件 52
4.4.5 遍歷文件和目錄 52
4.4.6 獲取文件或目錄的元數據 53
4.4.7 上傳本地文件 54
4.4.8 下載文件到本地 55
4.5 動手練習 55
第5章 MapReduce 56
5.1 MapReduce簡介 56
5.1.1 設計思想 56
5.1.2 任務流程 58
5.1.3 工作原理 59
5.2 MapReduce程序編寫步驟 61
5.3 案例分析:單詞計數 63
5.4 案例分析:數據去重 69
5.5 案例分析:求平均分 72
5.6 案例分析:二次排序 75
5.7 使用MRUnit測試MapReduce程序 82
5.8 動手練習 84
第6章 ZooKeeper 85
6.1 ZooKeeper簡介 85
6.1.1 應用場景 85
6.1.2 架構原理 86
6.1.3 數據模型 86
6.1.4 節點類型 87
6.1.5 Watcher機制 88
6.1.6 分佈式鎖 89
6.2 ZooKeeper安裝配置 90
6.2.1 單機模式 90
6.2.2 偽分佈模式 91
6.2.3 集群模式 92
6.3 ZooKeeper命令行操作 95
6.4 ZooKeeper Java API操作 97
6.4.1 創建Java工程 98
6.4.2 創建節點 98
6.4.3 修改數據 100
6.4.4 獲取數據 101
6.4.5 刪除節點 105
6.5 案例分析:監聽服務器動態上下線 106
6.6 動手練習 110
第7章 HDFS與YARN HA 111
7.1 HDFS HA搭建 111
7.1.1 架構原理 111
7.1.2 搭建步驟 112
7.1.3 結合ZooKeeper進行HDFS自動
故障轉移 118
7.2 YARN HA搭建 121
7.2.1 架構原理 122
7.2.2 搭建步驟 122
7.3 動手練習 126
第8章 HBase 127
8.1 什麽是HBase 127
8.2 HBase基本結構 128
8.3 HBase數據模型 129
8.4 HBase集群架構 130
8.5 HBase安裝配置 132
8.5.1 單機模式 132
8.5.2 偽分佈模式 134
8.5.3 集群模式 135
8.6 HBase Shell命令操作 139
8.7 HBase Java API操作 142
8.7.1 創建Java工程 142
8.7.2 創建表 143
8.7.3 添加數據 145
8.7.4 查詢數據 147
8.7.5 刪除數據 148
8.8 HBase過濾器 149
8.9 案例分析:HBase MapReduce數據
轉移 153
8.9.1 HBase不同表間數據轉移 153
8.9.2 HDFS數據轉移至HBase 158
8.10 案例分析:HBase數據備份與
恢復 161
8.11 動手練習 162
第9章 Hive 164
9.1 什麽是Hive 164
9.1.1 數據單元 164
9.1.2 數據類型 165
9.2 Hive架構體系 167
9.3 Hive三種運行模式 168
9.4 Hive安裝配置 169
9.4.1 內嵌模式 170
9.4.2 本地模式 172
9.4.3 遠程模式 175
9.5 Hive常見屬性配置 176
9.6 Beeline CLI的使用 177
9.7 Hive數據庫操作 181
9.8 Hive表操作 184
9.8.1 內部表 185
9.8.2 外部表 188
9.8.3 分區表 191
9.8.4 分桶表 194
9.9 Hive查詢 198
9.9.1 SELECT子句查詢 198
9.9.2 JOIN連接查詢 204
9.10 其他Hive命令 206
9.11 Hive元數據表結構分析 208
9.12 Hive自定義函數 210
9.13 Hive JDBC操作 212
9.14 案例分析:Hive與HBase整合 214
9.15 案例分析:Hive分析搜狗用戶搜索
日誌 218
9.16 動手練習 222
第10章 Sqoop 224
10.1 什麽是Sqoop 224
10.1.1 Sqoop基本架構 224
10.1.2 Sqoop開發流程 225
10.2 使用Sqoop 225
10.3 數據導入工具 226
10.4 數據導出工具 231
10.5 Sqoop安裝與配置 233
10.6 案例分析:將MySQL表數據導入
到HDFS中 234
10.7 案例分析:將HDFS中的數據導出
到MySQL中 236
10.8 案例分析:將MySQL表數據導入
到HBase中 237
10.9 動手練習 238
第11章 Kafka 239
11.1 什麽是Kafka 239
11.2 Kafka架構 240
11.3 主題與分區 241
11.4 分區副本 242
11.5 消費者組 244
11.6 數據存儲機制 245
11.7 Kafka集群環境搭建 247
11.8 命令行操作 249
11.8.1 創建主題 249
11.8.2 查詢主題 250
11.8.3 創建生產者 250
11.8.4 創建消費者 251
11.9 Java API操作 251
11.9.1 創建Java工程 252
11.9.2 創建生產者 252
11.9.3 創建消費者 254
11.9.4 運行程序 255
11.10 案例分析:Kafka生產者攔截器 257
11.11 動手練習 262
第12章 Flume 263
12.1 什麽是Flume 263
12.2 Flume的架構原理 263
12.2.1 單節點架構 263
12.2.2 組件介紹 264
12.2.3 多節點架構 265
12.3 安裝與簡單使用 267
12.4 案例分析:日誌監控(一) 269
12.5 案例分析:日誌監控(二) 272
12.6 攔截器 273
12.6.1 內置攔截器 274
12.6.2 自定義攔截器 277
12.7 選擇器 280
12.8 案例分析:攔截器和選擇器的
應用 281
12.9 案例分析:Flume與Kafka
整合 285
12.10 動手練習 287
第13章 Storm 288
13.1 什麽是Storm 288
13.2 Storm Topology 288
13.3 Storm集群架構 289
13.4 Storm流分組 291
13.5 Storm集群環境搭建 292
13.6 案例分析:單詞計數 296
13.6.1 設計思路 296
13.6.2 代碼編寫 297
13.6.3 程序運行 302
13.7 案例分析:Storm與Kafka整合 305
13.7.1 設計思路 305
13.7.2 代碼編寫 306
13.7.3 程序運行 309
13.8 動手練習 310
第14章 Elasticsearch 311
14.1 什麽是Elasticsearch 311
14.2 基本概念 311
14.2.1 索引、類型和文檔 311
14.2.2 分片和副本 312
14.2.3 路由 313
14.3 集群架構 313
14.4 集群環境搭建 315
14.5 安裝Kibana 321
14.6 REST API 324
14.6.1 集群狀態API 325
14.6.2 索引API 325
14.6.3 文檔API 327
14.6.4 搜索API 330
14.6.5 Query DSL 332
14.7 Head插件安裝 336
14.8 Java API操作:員工信息 340
14.9 動手練習 344
第15章 Scala 345
15.1 什麽是Scala 345
15.2 安裝Scala 345
15.2.1 Windows中安裝Scala 346
15.2.2 CentOS 7中安裝Scala 347
15.3 Scala基礎 347
15.3.1 變量聲明 348
15.3.2 數據類型 349
15.3.3 表達式 350
15.3.4 循環 351
15.3.5 方法與函數 353
15.4 集合 356
15.4.1 數組 356
15.4.2 List 358
15.4.3 Map映射 359
15.4.4 元組 360
15.4.5 Set 361
15.5 類和對象 362
15.5.1 類的定義 362
15.5.2 單例對象 363
15.5.3 伴生對象 363
15.5.4 get和set方法 364
15.5.5 構造器 366
15.6 抽象類和特質 368
15.6.1 抽象類 368
15.6.2 特質 369
15.7 使用Eclipse創建Scala項目 371
15.7.1 安裝Scala for Eclipse IDE 371
15.7.2 創建Scala項目 372
15.8 使用IntelliJ IDEA創建Scala項目 372
15.8.1 IDEA中安裝Scala插件 372
15.8.2 創建Scala項目 374
15.9 動手練習 375
第16章 Spark 376
16.1 Spark概述 376
16.2 Spark主要組件 377
16.3 Spark運行時架構 378
16.3.1 Spark Standalone模式 379
16.3.2 Spark On YARN模式 380
16.4 Spark集群環境搭建 382
16.4.1 Spark Standalone模式 382
16.4.2 Spark On YARN模式 384
16.5 Spark HA搭建 385
16.6 Spark應用程序的提交 389
16.7 Spark Shell的使用 391
16.8 Spark RDD 393
16.8.1 創建RDD 393
16.8.2 RDD算子 394
16.9 案例分析:使用Spark RDD實現
單詞計數 398
16.10 Spark SQL 403
16.10.1 DataFrame和Dataset 404
16.10.2 Spark SQL基本使用 404
16.11 案例分析:使用Spark SQL實現
單詞計數 406
16.12 案例分析:Spark SQL與
Hive整合 408
16.13 案例分析:Spark SQL讀寫
MySQL 410
16.14 動手練習 414