Hadoop 3.x 大數據開發實戰 (視頻教學版)

張偉洋

  • 出版商: 清華大學
  • 出版日期: 2022-10-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • ISBN: 7302618003
  • ISBN-13: 9787302618003
  • 相關分類: Hadoop大數據 Big-data
  • 立即出貨 (庫存 < 4)

  • Hadoop 3.x 大數據開發實戰 (視頻教學版)-preview-1
  • Hadoop 3.x 大數據開發實戰 (視頻教學版)-preview-2
  • Hadoop 3.x 大數據開發實戰 (視頻教學版)-preview-3
Hadoop 3.x 大數據開發實戰 (視頻教學版)-preview-1

買這商品的人也買了...

相關主題

商品描述

本書以Hadoop 3.x及其周邊框架為主線,介紹了整個Hadoop生態系統主流的大數據開發技術。全書共16章,第1章講解VMware中CentOS 7操作系統的安裝;第2章講解操作系統集群環境的配置;第3~16章講解Hadoop生態系統各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數據實時處理系統Flume、Kafka、Storm、Spark以及分佈式搜索系統Elasticsearch等的基礎知識、架構原理、集群環境搭建,同時包括常用的Shell命令、API操作、源碼剖析,並通過案例演示了各個框架的實際應用。讀者即使沒有任何大數據基礎,通過閱讀本書,也可以對照書中的步驟成功搭建屬於自己的大數據集群並獨立完成項目開發。 本書通俗易懂,內容豐富,適合大數據開發初學者、大數據運維人員以及大數據分析與挖掘的從業者閱讀,也可作為培訓機構和大專院校大數據專業課程的教學用書。

目錄大綱

目    錄

 

第1章  VMware中安裝CentOS 1

1.1  下載CentOS 7鏡像文件 1

1.2  新建虛擬機 4

1.3  安裝操作系統 6

1.4  動手練習 11

第2章  CentOS 7集群環境配置 12

2.1  系統環境配置 12

2.1.1  新建用戶 12

2.1.2  修改用戶權限 13

2.1.3  關閉防火牆 13

2.1.4  設置固定IP 13

2.1.5  修改主機名 16

2.1.6  新建資源目錄 17

2.2  安裝JDK 17

2.3  克隆虛擬機 18

2.4  配置主機IP映射 20

2.5  動手練習 21

第3章  Hadoop 22

3.1  Hadoop簡介 22

3.1.1  Hadoop生態系統架構 22

3.1.2  Hadoop不同版本架構對比 24

3.2  YARN基本架構及組件 25

3.3  YARN工作流程 27

3.4  配置集群各節點SSH無密鑰登錄 28

3.4.1  無密鑰登錄原理 28

3.4.2  無密鑰登錄操作步驟 29

3.5  搭建Hadoop 3.x分佈式集群 31

3.6  動手練習 37

第4章  HDFS 38

4.1  HDFS簡介 38

4.1.1  設計目標 38

4.1.2  總體架構 39

4.1.3  主要組件 40

4.1.4  文件讀寫 42

4.2  HDFS命令行操作 43

4.3  HDFS Web界面操作 46

4.4  HDFS Java API操作 48

4.4.1  讀取數據 48

4.4.2  創建目錄 50

4.4.3  創建文件 50

4.4.4  刪除文件 52

4.4.5  遍歷文件和目錄 52

4.4.6  獲取文件或目錄的元數據 53

4.4.7  上傳本地文件 54

4.4.8  下載文件到本地 55

4.5  動手練習 55

第5章  MapReduce 56

5.1  MapReduce簡介 56

5.1.1  設計思想 56

5.1.2  任務流程 58

5.1.3  工作原理 59

5.2  MapReduce程序編寫步驟 61

5.3  案例分析:單詞計數 63

5.4  案例分析:數據去重 69

5.5  案例分析:求平均分 72

5.6  案例分析:二次排序 75

5.7  使用MRUnit測試MapReduce程序 82

5.8  動手練習 84

第6章  ZooKeeper 85

6.1  ZooKeeper簡介 85

6.1.1  應用場景 85

6.1.2  架構原理 86

6.1.3  數據模型 86

6.1.4  節點類型 87

6.1.5  Watcher機制 88

6.1.6  分佈式鎖 89

6.2  ZooKeeper安裝配置 90

6.2.1  單機模式 90

6.2.2  偽分佈模式 91

6.2.3  集群模式 92

6.3  ZooKeeper命令行操作 95

6.4  ZooKeeper Java API操作 97

6.4.1  創建Java工程 98

6.4.2  創建節點 98

6.4.3  修改數據 100

6.4.4  獲取數據 101

6.4.5  刪除節點 105

6.5  案例分析:監聽服務器動態上下線 106

6.6  動手練習 110

第7章  HDFS與YARN HA 111

7.1  HDFS HA搭建 111

7.1.1  架構原理 111

7.1.2  搭建步驟 112

7.1.3  結合ZooKeeper進行HDFS自動

故障轉移 118

7.2  YARN HA搭建 121

7.2.1  架構原理 122

7.2.2  搭建步驟 122

7.3  動手練習 126

第8章  HBase 127

8.1  什麽是HBase 127

8.2  HBase基本結構 128

8.3  HBase數據模型 129

8.4  HBase集群架構 130

8.5  HBase安裝配置 132

8.5.1  單機模式 132

8.5.2  偽分佈模式 134

8.5.3  集群模式 135

8.6  HBase Shell命令操作 139

8.7  HBase Java API操作 142

8.7.1  創建Java工程 142

8.7.2  創建表 143

8.7.3  添加數據 145

8.7.4  查詢數據 147

8.7.5  刪除數據 148

8.8  HBase過濾器 149

8.9  案例分析:HBase MapReduce數據

轉移 153

8.9.1  HBase不同表間數據轉移 153

8.9.2  HDFS數據轉移至HBase 158

8.10  案例分析:HBase數據備份與

恢復 161

8.11  動手練習 162

第9章  Hive 164

9.1  什麽是Hive 164

9.1.1  數據單元 164

9.1.2  數據類型 165

9.2  Hive架構體系 167

9.3  Hive三種運行模式 168

9.4  Hive安裝配置 169

9.4.1  內嵌模式 170

9.4.2  本地模式 172

9.4.3  遠程模式 175

9.5  Hive常見屬性配置 176

9.6  Beeline CLI的使用 177

9.7  Hive數據庫操作 181

9.8  Hive表操作 184

9.8.1  內部表 185

9.8.2  外部表 188

9.8.3  分區表 191

9.8.4  分桶表 194

9.9  Hive查詢 198

9.9.1  SELECT子句查詢 198

9.9.2  JOIN連接查詢 204

9.10  其他Hive命令 206

9.11  Hive元數據表結構分析 208

9.12  Hive自定義函數 210

9.13  Hive JDBC操作 212

9.14  案例分析:Hive與HBase整合 214

9.15  案例分析:Hive分析搜狗用戶搜索

日誌 218

9.16  動手練習 222

第10章  Sqoop 224

10.1  什麽是Sqoop 224

10.1.1  Sqoop基本架構 224

10.1.2  Sqoop開發流程 225

10.2  使用Sqoop 225

10.3  數據導入工具 226

10.4  數據導出工具 231

10.5  Sqoop安裝與配置 233

10.6  案例分析:將MySQL表數據導入

到HDFS中 234

10.7  案例分析:將HDFS中的數據導出

到MySQL中 236

10.8  案例分析:將MySQL表數據導入

到HBase中 237

10.9  動手練習 238

第11章  Kafka 239

11.1  什麽是Kafka 239

11.2  Kafka架構 240

11.3  主題與分區 241

11.4  分區副本 242

11.5  消費者組 244

11.6  數據存儲機制 245

11.7  Kafka集群環境搭建 247

11.8  命令行操作 249

11.8.1  創建主題 249

11.8.2  查詢主題 250

11.8.3  創建生產者 250

11.8.4  創建消費者 251

11.9  Java API操作 251

11.9.1  創建Java工程 252

11.9.2  創建生產者 252

11.9.3  創建消費者 254

11.9.4  運行程序 255

11.10  案例分析:Kafka生產者攔截器 257

11.11  動手練習 262

第12章  Flume 263

12.1  什麽是Flume 263

12.2  Flume的架構原理 263

12.2.1  單節點架構 263

12.2.2  組件介紹 264

12.2.3  多節點架構 265

12.3  安裝與簡單使用 267

12.4  案例分析:日誌監控(一) 269

12.5  案例分析:日誌監控(二) 272

12.6  攔截器 273

12.6.1  內置攔截器 274

12.6.2  自定義攔截器 277

12.7  選擇器 280

12.8  案例分析:攔截器和選擇器的

應用 281

12.9  案例分析:Flume與Kafka

整合 285

12.10  動手練習 287

第13章  Storm 288

13.1  什麽是Storm 288

13.2  Storm Topology 288

13.3  Storm集群架構 289

13.4  Storm流分組 291

13.5  Storm集群環境搭建 292

13.6  案例分析:單詞計數 296

13.6.1  設計思路 296

13.6.2  代碼編寫 297

13.6.3  程序運行 302

13.7  案例分析:Storm與Kafka整合 305

13.7.1  設計思路 305

13.7.2  代碼編寫 306

13.7.3  程序運行 309

13.8  動手練習 310

第14章  Elasticsearch 311

14.1  什麽是Elasticsearch 311

14.2  基本概念 311

14.2.1  索引、類型和文檔 311

14.2.2  分片和副本 312

14.2.3  路由 313

14.3  集群架構 313

14.4  集群環境搭建 315

14.5  安裝Kibana 321

14.6  REST API 324

14.6.1  集群狀態API 325

14.6.2  索引API 325

14.6.3  文檔API 327

14.6.4  搜索API 330

14.6.5  Query DSL 332

14.7  Head插件安裝 336

14.8  Java API操作:員工信息 340

14.9  動手練習 344

第15章  Scala 345

15.1  什麽是Scala 345

15.2  安裝Scala 345

15.2.1  Windows中安裝Scala 346

15.2.2  CentOS 7中安裝Scala 347

15.3  Scala基礎 347

15.3.1  變量聲明 348

15.3.2  數據類型 349

15.3.3  表達式 350

15.3.4  循環 351

15.3.5  方法與函數 353

15.4  集合 356

15.4.1  數組 356

15.4.2  List 358

15.4.3  Map映射 359

15.4.4  元組 360

15.4.5  Set 361

15.5  類和對象 362

15.5.1  類的定義 362

15.5.2  單例對象 363

15.5.3  伴生對象 363

15.5.4  get和set方法 364

15.5.5  構造器 366

15.6  抽象類和特質 368

15.6.1  抽象類 368

15.6.2  特質 369

15.7  使用Eclipse創建Scala項目 371

15.7.1  安裝Scala for Eclipse IDE 371

15.7.2  創建Scala項目 372

15.8  使用IntelliJ IDEA創建Scala項目 372

15.8.1  IDEA中安裝Scala插件 372

15.8.2  創建Scala項目 374

15.9  動手練習 375

第16章  Spark 376

16.1  Spark概述 376

16.2  Spark主要組件 377

16.3  Spark運行時架構 378

16.3.1  Spark Standalone模式 379

16.3.2  Spark On YARN模式 380

16.4  Spark集群環境搭建 382

16.4.1  Spark Standalone模式 382

16.4.2  Spark On YARN模式 384

16.5  Spark HA搭建 385

16.6  Spark應用程序的提交 389

16.7  Spark Shell的使用 391

 

16.8  Spark RDD 393

16.8.1  創建RDD 393

16.8.2  RDD算子 394

16.9  案例分析:使用Spark RDD實現

單詞計數 398

16.10  Spark SQL 403

16.10.1  DataFrame和Dataset 404

16.10.2  Spark SQL基本使用 404

16.11  案例分析:使用Spark SQL實現

單詞計數 406

16.12  案例分析:Spark SQL與

Hive整合 408

16.13  案例分析:Spark SQL讀寫

MySQL 410

16.14  動手練習 414