Hadoop核心技術及其在防災減災中的應用
陳新房
相關主題
商品描述
目錄大綱
目 錄
第1章 大數據概述 1
1.1 大數據的產生背景和發展歷史 1
1.1.1 大數據產生的背景 2
1.1.2 大數據的發展歷程 3
1.2 大數據的特徵 4
1.2.1 數據量大 4
1.2.2 數據類型繁多 5
1.2.3 處理速度快 6
1.2.4 價值密度低 6
1.2.5 真實性 6
1.3 大數據的影響 7
1.3.1 大數據對科學研究的影響 7
1.3.2 大數據對思維方式的影響 8
1.3.3 大數據對社會發展的影響 9
1.3.4 大數據對就業市場的影響 10
1.3.5 大數據對人才培養的影響 10
1.4 大數據關鍵技術 11
1.5 大數據計算模式 13
1.6 大數據的應用 13
1.7 人工智能、大數據、物聯網、雲計算之間的關系 14
本章小結 15
習題 16
實驗1.1 VMware虛擬機中安裝CentOS系統 16
第2章 Hadoop概述及生態系統 26
2.1 Hadoop概述 26
2.1.1 Hadoop起源 26
2.1.2 Hadoop的發展簡史 27
2.1.3 Hadoop的特性 29
2.1.4 Hadoop的應用現狀 29
2.1.5 Hadoop的版本 30
2.2 Hadoop生態系統 31
2.2.1 HDFS 31
2.2.2 HBase 31
2.2.3 MapReduce 32
2.2.4 Hive 32
2.2.5 Pig 32
2.2.6 Mahout 32
2.2.7 ZooKeeper 32
2.2.8 Flume 33
2.2.9 Sqoop 33
2.2.10 Ambari 33
本章小結 33
習題 34
實驗2.1 CentOS 7集群環境配置 34
第3章 分佈式文件系統HDFS 51
3.1 分佈式文件系統介紹 51
3.1.1 什麽是DFS 51
3.1.2 DFS集群架構 52
3.1.3 分佈式文件系統的結構 52
3.2 HDFS簡介 53
3.2.1 HDFS概念 53
3.2.2 HDFS體系結構 53
3.2.3 HDFS命名空間 54
3.2.4 HDFS通信協議 54
3.2.5 HDFS客戶端 54
3.2.6 HDFS特點 54
3.2.7 HDFS的局限性 55
3.3 HDFS主要組件 56
3.3.1 數據塊 56
3.3.2 名稱節點 58
3.3.3 數據節點 58
3.3.4 第二名稱節點 58
3.3.5 數據錯誤與恢復 60
3.4 HDFS的數據讀寫過程 61
3.4.1 HDFS讀數據的過程 61
3.4.2 HDFS寫數據的過程 62
本章小結 63
習題 63
實驗3.1 完全分佈式文件系統搭建 63
實驗3.2 HDFS基本訪問操作 71
第4章 HDFS 2.0新特性 93
4.1 Hadoop的優化與發展 93
4.1.1 Hadoop 1.0的局限性與不足 93
4.1.2 針對Hadoop的改進與提升 94
4.2 HDFS 2.0的新特性 94
4.2.1 HDFS HA 95
4.2.2 HDFS聯邦 96
本章小結 97
習題 98
實驗4.1 HDFS HA配置與API訪問 98
第5章 分佈式計算框架MapReduce 118
5.1 MapReduce概述 118
5.1.1 MapReduce核心思想 119
5.1.2 MapReduce編程模型 120
5.1.3 MapReduce的特點 121
5.1.4 MapReduce的應用場景 121
5.2 MapReduce的工作原理 122
5.2.1 MapReduce的執行過程 122
5.2.2 Map階段工作原理 123
5.2.3 Shuffle過程詳解 123
5.2.4 Reduce階段工作原理 126
5.3 典型實例:WordCount 126
5.3.1 WordCount的程序任務 126
5.3.2 WordCount的設計思路 126
5.3.3 一個WordCount執行過程實例 127
5.4 資源管理系統YARN 128
5.4.1 YARN設計思想 128
5.4.2 YARN體系結構 129
5.4.3 YARN工作流程 130
5.4.4 YARN的發展目標 131
本章小結 132
習題 132
實驗5.1 MapReduce並行編程基礎 133
實驗5.2 MapReduce應用實例 139
第6章 數據倉庫Hive 157
6.1 數據倉庫簡介 157
6.1.1 什麽是數據倉庫 157
6.1.2 數據倉庫的結構 158
6.2 Hive基礎 159
6.2.1 什麽是Hive 159
6.2.2 Hive與傳統數據庫的區別 160
6.2.3 Hive與其他組件的關系 160
6.2.4 Hive的特點 161
6.2.5 Hive系統架構 161
6.3 Hive工作原理 162
6.3.1 Hive的數據類型 162
6.3.2 Hive的數據模型 163
6.3.3 SQL語句轉換成MapReduce 165
6.3.4 Hive工作過程 166
本章小結 167
習題 167
實驗6.1 數據倉庫工具Hive環境搭建 168
實驗6.2 數據倉庫工具Hive操作 183
第7章 分佈式數據庫HBase 200
7.1 HBase簡介 200
7.1.1 什麽是HBase 200
7.1.2 HBase與傳統關系型數據庫的區別 201
7.1.3 HBase訪問接口 202
7.2 HBase數據模型 202
7.2.1 HBase基本結構 203
7.2.2 概念視圖 204
7.2.3 物理視圖 205
7.2.4 面向列的存儲 205
7.2.5 HBase數據模型 206
7.3 HBase 的運行機制 207
7.3.1 HBase系統架構 207
7.3.2 表和Region 209
7.3.3 Region的定位 210
7.3.4 Region服務器的工作原理 211
7.3.5 Store的工作原理 212
7.3.6 HLog的工作原理 212
本章小結 213
習題 213
實驗7.1 分佈式數據庫HBase的安裝與操作 214
第8章 數據遷移工具Sqoop 231
8.1 Sqoop簡介 231
8.1.1 什麽是Sqoop 231
8.1.2 Sqoop特點 232
8.1.3 數據導入的方式 232
8.2 Sqoop工作機制 232
8.2.1 Sqoop基本架構 232
8.2.2 Sqoop import 233
8.2.3 Sqoop export 234
本章小結 235
習題 235
實驗8.1 Sqoop的安裝與操作 235
第9章 日誌採集系統Flume 251
9.1 Flume簡介 251
9.1.1 什麽是Flume 252
9.1.2 Flume的特點 252
9.2 Flume架構 252
9.2.1 Flume基本架構 252
9.2.2 Flume的主要組件 253
9.2.3 復雜結構 254
9.3 Flume的數據傳輸 255
9.3.1 Source——Event獲取 255
9.3.2 Channel——Event傳輸 256
9.3.3 Sink——Event發送 257
9.3.4 其他組件 258
本章小結 258
習題 259
實驗9.1 日誌採集工具Flume 259
第10章 NoSQL數據庫 280
10.1 NoSQL數據庫簡介 280
10.1.1 什麽是NoSQL數據庫 280
10.1.2 為什麽用NoSQL數據庫 281
10.1.3 NoSQL與關系型數據庫的比較 282
10.2 NoSQL數據庫分類 283
10.2.1 鍵值對存儲數據庫 283
10.2.2 列式存儲數據庫 284
10.2.3 文檔存儲數據庫 284
10.2.4 圖形存儲數據庫 285
10.2.5 各類NoSQL數據庫的比較 286
10.3 NoSQL理論基石 287
10.3.1 CAP 287
10.3.2 BASE 289
10.3.3 最終一致性 289
本章小結 290
習題 290
實驗10.1 MongoDB的安裝與操作 291
第11章 數據可視化 299
11.1 數據可視化簡介 299
11.1.1 數據可視化的發展 299
11.1.2 什麽是數據可視化 302
11.1.3 視覺感知和數據可視化 302
11.1.4 數據可視化的作用 303
11.2 數據可視化工具 303
11.2.1 入門級工具 303
11.2.2 信息圖表工具 304
11.2.3 地圖工具 305
11.2.4 時間線工具 305
11.2.5 高級分析工具 306
本章小結 307
習題 307
實驗11.1 地震數據可視化 307
參考文獻 329