Hadoop核心技術及其在防災減災中的應用

陳新房

  • 出版商: 清華大學
  • 出版日期: 2024-01-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7512151535
  • ISBN-13: 9787512151536
  • 相關分類: Hadoop
  • 下單後立即進貨 (約4週~6週)

  • Hadoop核心技術及其在防災減災中的應用-preview-1
  • Hadoop核心技術及其在防災減災中的應用-preview-2
  • Hadoop核心技術及其在防災減災中的應用-preview-3
Hadoop核心技術及其在防災減災中的應用-preview-1

相關主題

商品描述

本書系統介紹了 Hadoop 生態系統主要組件的基本概念、特點、主要組成、運行機制及存在的問題等內 容。全書共 11 章,內容包含大數據基本概念、大數據處理平臺 Hadoop、分佈式文件系統 HDFS、HDFS 2.0 新特性、分佈式計算框架 MapReduce、數據倉庫 Hive、分佈式數據庫 HBase、數據遷移工具 Sqoop、日誌採 集系統 Flume、NoSQL 數據庫及數據可視化等內容。每一部分都有相應的實驗指導,以便讀者更好地學習和 掌握 Hadoop 核心技術,進一步提高實踐操作能力。 本書可作為高等院校大數據、電腦類、信息管理等專業大數據課程教材,也可作為相關技術人員參考 用書。

目錄大綱

目    錄

第1章 大數據概述 1

1.1 大數據的產生背景和發展歷史 1

1.1.1 大數據產生的背景 2

1.1.2 大數據的發展歷程 3

1.2  大數據的特徵 4

1.2.1 數據量大 4

1.2.2 數據類型繁多 5

1.2.3 處理速度快 6

1.2.4 價值密度低 6

1.2.5 真實性 6

1.3  大數據的影響 7

1.3.1 大數據對科學研究的影響 7

1.3.2 大數據對思維方式的影響 8

1.3.3 大數據對社會發展的影響 9

1.3.4 大數據對就業市場的影響 10

1.3.5 大數據對人才培養的影響 10

1.4  大數據關鍵技術 11

1.5  大數據計算模式 13

1.6  大數據的應用 13

1.7  人工智能、大數據、物聯網、雲計算之間的關系 14

本章小結 15

習題 16

實驗1.1  VMware虛擬機中安裝CentOS系統 16

第2章  Hadoop概述及生態系統 26

2.1  Hadoop概述 26

2.1.1 Hadoop起源 26

2.1.2 Hadoop的發展簡史 27

2.1.3 Hadoop的特性 29

2.1.4 Hadoop的應用現狀 29

2.1.5 Hadoop的版本 30

2.2  Hadoop生態系統 31

2.2.1 HDFS 31

2.2.2 HBase 31

2.2.3 MapReduce 32

2.2.4 Hive 32

2.2.5 Pig 32

2.2.6 Mahout 32

2.2.7 ZooKeeper 32

2.2.8 Flume 33

2.2.9 Sqoop 33

2.2.10 Ambari 33

本章小結 33

習題 34

實驗2.1  CentOS 7集群環境配置 34

第3章  分佈式文件系統HDFS 51

3.1  分佈式文件系統介紹 51

3.1.1 什麽是DFS 51

3.1.2 DFS集群架構 52

3.1.3 分佈式文件系統的結構 52

3.2  HDFS簡介 53

3.2.1 HDFS概念 53

3.2.2 HDFS體系結構 53

3.2.3 HDFS命名空間 54

3.2.4 HDFS通信協議 54

3.2.5 HDFS客戶端 54

3.2.6 HDFS特點 54

3.2.7 HDFS的局限性 55

3.3  HDFS主要組件 56

3.3.1 數據塊 56

3.3.2 名稱節點 58

3.3.3 數據節點 58

3.3.4 第二名稱節點 58

3.3.5 數據錯誤與恢復 60

3.4  HDFS的數據讀寫過程 61

3.4.1 HDFS讀數據的過程 61

3.4.2 HDFS寫數據的過程 62

本章小結 63

習題 63

實驗3.1  完全分佈式文件系統搭建 63

實驗3.2  HDFS基本訪問操作 71

第4章  HDFS 2.0新特性 93

4.1  Hadoop的優化與發展 93

4.1.1 Hadoop 1.0的局限性與不足 93

4.1.2 針對Hadoop的改進與提升 94

4.2  HDFS 2.0的新特性 94

4.2.1 HDFS HA 95

4.2.2 HDFS聯邦 96

本章小結 97

習題 98

實驗4.1  HDFS HA配置與API訪問 98

第5章  分佈式計算框架MapReduce 118

5.1  MapReduce概述 118

5.1.1 MapReduce核心思想 119

5.1.2 MapReduce編程模型 120

5.1.3 MapReduce的特點 121

5.1.4 MapReduce的應用場景 121

5.2  MapReduce的工作原理 122

5.2.1 MapReduce的執行過程 122

5.2.2 Map階段工作原理 123

5.2.3 Shuffle過程詳解 123

5.2.4 Reduce階段工作原理 126

5.3  典型實例:WordCount 126

5.3.1 WordCount的程序任務 126

5.3.2 WordCount的設計思路 126

5.3.3 一個WordCount執行過程實例 127

5.4  資源管理系統YARN 128

5.4.1 YARN設計思想 128

5.4.2 YARN體系結構 129

5.4.3 YARN工作流程 130

5.4.4 YARN的發展目標 131

本章小結 132

習題 132

實驗5.1  MapReduce並行編程基礎 133

實驗5.2  MapReduce應用實例 139

第6章  數據倉庫Hive 157

6.1  數據倉庫簡介 157

6.1.1 什麽是數據倉庫 157

6.1.2 數據倉庫的結構 158

6.2  Hive基礎 159

6.2.1 什麽是Hive 159

6.2.2 Hive與傳統數據庫的區別 160

6.2.3 Hive與其他組件的關系 160

6.2.4 Hive的特點 161

6.2.5 Hive系統架構 161

6.3  Hive工作原理 162

6.3.1 Hive的數據類型 162

6.3.2 Hive的數據模型 163

6.3.3 SQL語句轉換成MapReduce 165

6.3.4 Hive工作過程 166

本章小結 167

習題 167

實驗6.1  數據倉庫工具Hive環境搭建 168

實驗6.2  數據倉庫工具Hive操作 183

第7章  分佈式數據庫HBase 200

7.1  HBase簡介 200

7.1.1 什麽是HBase 200

7.1.2 HBase與傳統關系型數據庫的區別 201

7.1.3 HBase訪問接口 202

7.2  HBase數據模型 202

7.2.1 HBase基本結構 203

7.2.2 概念視圖 204

7.2.3 物理視圖 205

7.2.4 面向列的存儲 205

7.2.5 HBase數據模型 206

7.3  HBase 的運行機制 207

7.3.1 HBase系統架構 207

7.3.2 表和Region 209

7.3.3 Region的定位 210

7.3.4 Region服務器的工作原理 211

7.3.5 Store的工作原理 212

7.3.6 HLog的工作原理 212

本章小結 213

習題 213

實驗7.1  分佈式數據庫HBase的安裝與操作 214

第8章  數據遷移工具Sqoop 231

8.1  Sqoop簡介 231

8.1.1 什麽是Sqoop 231

8.1.2 Sqoop特點 232

8.1.3 數據導入的方式 232

8.2  Sqoop工作機制 232

8.2.1 Sqoop基本架構 232

8.2.2 Sqoop import 233

8.2.3 Sqoop export 234

本章小結 235

習題 235

實驗8.1  Sqoop的安裝與操作 235

第9章  日誌採集系統Flume 251

9.1  Flume簡介 251

9.1.1 什麽是Flume 252

9.1.2 Flume的特點 252

9.2  Flume架構 252

9.2.1 Flume基本架構 252

9.2.2 Flume的主要組件 253

9.2.3 復雜結構 254

9.3  Flume的數據傳輸 255

9.3.1 Source——Event獲取 255

9.3.2 Channel——Event傳輸 256

9.3.3 Sink——Event發送 257

9.3.4 其他組件 258

本章小結 258

習題 259

實驗9.1  日誌採集工具Flume 259

第10章  NoSQL數據庫 280

10.1  NoSQL數據庫簡介 280

10.1.1 什麽是NoSQL數據庫 280

10.1.2 為什麽用NoSQL數據庫 281

10.1.3 NoSQL與關系型數據庫的比較 282

10.2  NoSQL數據庫分類 283

10.2.1 鍵值對存儲數據庫 283

10.2.2 列式存儲數據庫 284

10.2.3 文檔存儲數據庫 284

10.2.4 圖形存儲數據庫 285

10.2.5 各類NoSQL數據庫的比較 286

10.3  NoSQL理論基石 287

10.3.1 CAP 287

10.3.2 BASE 289

10.3.3 最終一致性 289

本章小結 290

習題 290

實驗10.1  MongoDB的安裝與操作 291

第11章  數據可視化 299

11.1  數據可視化簡介 299

11.1.1 數據可視化的發展 299

11.1.2 什麽是數據可視化 302

11.1.3 視覺感知和數據可視化 302

11.1.4 數據可視化的作用 303

11.2  數據可視化工具 303

11.2.1 入門級工具 303

11.2.2 信息圖表工具 304

11.2.3 地圖工具 305

11.2.4 時間線工具 305

11.2.5 高級分析工具 306

本章小結 307

習題 307

實驗11.1  地震數據可視化 307

參考文獻 329