Hadoop大數據集群部署及數據存儲項目化教程

張立輝

  • 出版商: 化學工業
  • 出版日期: 2024-04-01
  • 定價: $288
  • 售價: 8.5$245
  • 語言: 簡體中文
  • 頁數: 212
  • ISBN: 7122448584
  • ISBN-13: 9787122448583
  • 相關分類: Hadoop大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書從實用角度出發,圍繞Linux 操作系統和Hadoop 集群部署,從虛擬機安裝入手,結合典型項目和案例,較為全面地介紹了大數據開發技術平台Hadoop 及其生態系統的相關知識。主要內容包括大數據技術中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全書所有知識點都結合具體的編程示例講解,重要知識點配有視頻講解。

本書可作為高等職業院校大數據技術、軟件技術、計算機網絡技術、人工智能技術等專業的教材,也可作為大數據愛好者的參考書,同時也可作為企業培訓教材。

目錄大綱

第1章 Hadoop概述
1.1 大數據認知
1.1.1 大數據的定義
1.1.2 大數據的應用領域
1.1.3 大數據的特征
1.1.4 大數據的技術架構
1.2 Hadoop認知
1.2.1 Hadoop的發展史
1.2.2 Hadoop的特點
1.2.3 Hadoop的生態系統
1.2.4 Hadoop的核心架構
1.3 Hadoop的安裝和配置
1.3.1 VMWare的安裝
1.3.2 Ubuntu系統的安裝
1.3.3 Linux常用命令
1.3.4 JDK安裝和配置
1.3.5 Hadoop的安裝
課後練習
第2章 Hadoop集群部署
2.1 Linux環境設置
2.1.1 創建用戶(組)
2.1.2 Windo和Linux系統間文件傳輸
2.1.3 更新apt
2.1.4 vim編輯器的應用
2.1.5 網絡配置
2.2 Hadoop偽分布式搭建
2.2.1 環境變量的配置
2.2.2 SSH安裝
2.2.3 core-site.xml配置文件
2.2.4 hdfs-site.xml配置文件
2.2.5 Hadoop偽分布式運行實例
2.3 Yarn認知
2.3.1 初識Yarn
2.3.2 Yarn基本服務組件
2.3.3 Yarn執行過程
2.4 Hadoop分布式搭建
2.4.1 部署前準備
2.4.2 網絡配置
2.4.3 配置文件的設置
2.4.4 分布式部署
課後練習
第3章 分布式文件系統HDFS
3.1 HDFS認知
3.1.1 HDFS的了解
3.1.2 HDFS的特性
3.1.3 HDFS的設計思想
3.1.4 HDFS的核心概念
3.2 HDFS常用shell命令
3.2.1 HDFS查看命令
3.2.2 HDFS目錄操作命令
3.2.3 文件操作
3.3 HDFS基礎編程
3.3.1 用HDFSAPI上傳本地文件
3.3.2 用HDFSAPI創建HDFS文件
3.3.3 用HDFSAPI讀取和寫入文件
3.3.4 用HDFSAPI創建HDFS目錄
3.3.5 用HDFSAPI查找文件所在位置
3.4 HDFS工作機制
3.4.1 HDFS寫數據流程
3.4.2 HDFS讀數據流程
3.4.3 NameNode工作機制
3.4.4 DataNode工作機制
3.5 HDFS客戶信息管理
3.5.1 環境搭建
3.5.2 寫入客戶信息
3.5.3 讀取客戶信息
課後練習
第4章 MapReduce編程
4.1 MapReduce的工作原理
4.1.1 MapReduce的由來和特點
4.1.2 MapReduce執行過程
4.1.3 MapTask執行過程
4.1.4 Reduce執行過程
4.1.5 Shuffle執行過程
4.2 MapReduce程序編寫
4.2.1 開發工具IDEA的安裝
4.2.2 MapReduce輸入/輸出類型
4.2.3 MapReduce輸入處理類
4.2.4 MapReduce輸出處理類
4.2.5 入門案例—WordCount
4.3 統計網站大訪問次數
4.3.1 實體類
4.3.2 Mapper類
4.3.3 Reducer類
4.3.4 項目驅動類
課後練習
第5章 MapReduce高級編程
5.1 MapReduce高級開發一
5.1.1 Combiner編程
5.1.2 Partitioner編程
5.1.3 RecordReader編程
5.2 MapReduce高級開發二
5.2.1 MapReduce連接操作
5.2.2 MapReduce排序操作
5.2.3 MapReduce多文件聯合查詢
5.3 實現課程名稱和成績的二次排序
5.3.1 實體類
5.3.2 Mapper類
5.3.3 Reducer類
5.3.4 項目驅動類編寫
課後練習
第6章 Hive數據倉庫
6.1 什麽是Hive
6.1.1 Hive簡介
6.1.2 為什麽使用Hive
6.1.3 Hive的優缺點
6.1.4 Hive體系結構
6.1.5 Hive設計特征
6.2 Hive安裝
6.2.1 偽分布式安裝與配置Hive
6.2.2 安裝與配置MySQL
6.3 Hive基本操作
6.3.1 Hive數據類型
6.3.2 數據庫操作
6.3.3 內部表操作
6.3.4 外部表操作
6.3.5 分區表操作
6.3.6 分桶表操作
6.3.7 Hive數據操作
6.4 實現購物用戶數據清洗項目
6.4.1 導入數據
6.4.2 數據分析
6.4.3 數據導出
課後練習
第7章 HBase數據庫
7.1 HBase認知
7.1.1 HBase簡介
7.1.2 HBase體系結構
7.1.3 HBase寫數據流程
7.1.4 HBase讀數據流程
7.2 HBase安裝
7.2.1 下載軟件
7.2.2 偽分布式安裝與配置
7.3 HBaseshell操作命令
7.3.1 HBase數據模型
7.3.2 數據表空間操作
7.3.3 數據表操作
7.3.4 數據操作
7.4 HBaseAPI操作
7.4.1 HBase常用的API
7.4.2 Configuration對象
7.4.3 HTable句柄創建
7.4.4 HBase數據的CRUD操作
7.5 學生成績管理
7.5.1 學生成績表數據準備
7.5.2 學生成績表設計分析
7.5.3 學生成績表代碼實現
課後練習
第8章 Sqoop導入和導出
8.1 概述
8.1.1 Sqoop產生背景
8.1.2 Sqoop是什麽
8.1.3 為什麽選擇Sqoop
8.2 工作原理
8.2.1 導入機制
8.2.2 導出機制
8.3 安裝
8.3.1 前提準備
8.3.2 下載Sqoop
8.3.3 安裝Sqo