大數據開發實戰

猿媛之家

  • 出版商: 機械工業
  • 出版日期: 2024-11-29
  • 定價: $714
  • 售價: 8.5$607
  • 語言: 簡體中文
  • 頁數: 301
  • 裝訂: 平裝
  • ISBN: 7111756932
  • ISBN-13: 9787111756934
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書深入探討了大數據技術的核心概念和實際應用。
從大數據的基礎架構Hadoop開始,逐步解析了分散式協調服務Zookeeper、資料倉儲Hive、面向列的資料庫HBase等關鍵技術。
此外,也介紹了資料遷移工具Sqoop、資料擷取工具Flume、發布訂閱訊息系統Kafka等實用工具。
本書也深入解說了資料處理分析引擎Spark、全文搜尋引擎Elasticsearch及分散式處理引擎Flink的工作原理與應用實例。
最後,透過電商推薦系統實戰和Flink實現電商用戶行為分析兩個案例,展示了大數據技術在實際業務中的應用。
本書附帶全書實例源代碼、電子版本教程(下載方式見封底),以及可掃碼觀看的長達13個小時的部分實例操作視頻,
幫助讀者更深入了解大數據技術的具體內容,非常適合對大數據技術有興趣的讀者,
尤其是想要深入了解大數據技術原理和應用的開發者和管理者閱讀。

目錄大綱

前言
環境搭建影片教學二維碼清單
第1章大數據簡介
1.1大數據的概述
1.2大數據的特點
1.3大數據的應用領域
1.4目前企業應用的主流大數據技術
1.5大數據開發流程
第2章大數據基礎架構Hadoop
2.1Hadoop簡介
2.2Hadoop架構詳解
2.2.1分散式儲存系統HDFS
2.2.2分散式資源管理框架YARN
2.2.3離線計算框架MapReduce
2.3HDFS讀取、寫入檔案流程
2.3.1HDFS寫文件流程
2.3.2HDFS讀取文件流程
2.4HDFS的實戰操作
2.4.1HDFS上傳文件
2.4.2HDFS建立文件
2.4.3HDFS建立目錄
2.4.4HDFS重新命名文件
2.4.5HDFS刪除文件
2.5YARN原理
2.6YARN調度器詳解
2.7MapReduce工作原理
2.8MapReduce核心的原理Shuffle
2.8.1Map端
2.8.2Reduce端
2.9MapReduce常用三大組件
2.9.1MapReduce中的Partitioner
2.9.2MapReduce中的Sort
2.9.3MapReduce中的Combiner
2.10MapReduce計畫實戰
2.10.1清洗日誌
2.10.2統計電影最高評分
第3章分散式協調服務Zookeeper
3.1ZooKeeper簡介
3.2ZooKeeper結構與工作原理
3.2.1ZooKeeper集群角色
3.2.2ZooKeeper的資料結構
3.2.3ZooKeeper的工作流程
3.2.4ZooKeeper的監聽器
3.3ZooKeeper實戰
3.3.1ZooKeeper建立持久節點
3.3.2ZooKeeper建立臨時節點
3.3.3ZooKeeper遞歸創建節點
3.3.4ZooKeeper讀取數據
3.3.5ZooKeeper更新數據
3.3.6ZooKeeper監聽節點
3.3.7ZooKeeper監聽子節點
3.3.8ZooKeeper實現服務註冊與發現
第4章資料倉儲Hive
4.1Hive簡介和特點
4.2Hive結構與原理
4.2.1Hive結構
4.2.2Hive運行的流程
4.2.3Hive的HQL轉換過程
4.3電商用戶行為分析
4.3.1項目背景及目的
4.3.2數據導入
4.3.3資料清洗
4.3.4數據分析
第5章面向列的資料庫HBase
5.1HBase簡介
5.2HBase架構
5.2.1HBase的組件
5.2.2HBase工作機制
5.3HBase資料模型
5.4HBase讀寫流程
5.4.1HBase寫入操作流程
5.4.2HBase讀取操作流程
5.5HBase的API範例
5.5.1HBase建立表
5.5.2HBase保持數據
5.5.3HBase更新數據
5.5.4HBase獲取數據
5.5.5HBase刪除數據
5.5.6使用HBase取得某一行數據
5.6HBase儲存訂單案例
第6章大數據開發實戰資料遷移工具Sqoop
6.1Sqoop架構和工作原理
6.1.1Sqoop導入原理
6.1.2Sqoop導出原理
6.2Sqoop將HDFS資料導入MySQL
6.3Sqoop將MySQL資料導入HDFS
第7章資料擷取工具Flume
7.1Flume簡介
7.2Flume構成和工作原理
7.2.1Flume構成
7.2.2Flume工作原理
7.3Flume實戰
7.3.1Flume監聽目錄實戰
7.3.2Flume一對多實戰
7.3.3Flume攔截器實戰
7.3.4Flume採集資料到HDFS
7.3.5Kafka對接Flume實戰
第8章發布訂閱訊息系統Kafka
8.1Kafka 簡介
8.2Kafka的訊息生產者
8.2.1Kafka生產者的運作流程
8.2.2Kafka生產者分區
8.2.3副本的同步複製和非同步複製
8.2.4Kafka訊息發送確認機制
8.3Kafka的Broker保存訊息
8.3.1儲存方式與策略
8.3.2Topic建立與刪除
8.4Kafka的訊息消費者
8.4.1消費機制
8.4.2消費者組
8.5Kafka 的儲存機制
8.5.1Kafka主題Topic
8.5.2Kafka分片Partition
8.5.3Kafka日誌Segment File
8.6Kafka 實戰
8.6.1Kafka發送訊息
8.6.2Kafka自訂分區發送訊息
8.6.3Spring Boot整合Kafka發送訊息
第9章資料處理分析引擎Spark
9.1Spark 簡介
9.2Spark 運行原理
9.2.1Spark的基本概念
9.2.2Spark運行的原理
9.2.3Driver運行在Client
9.2.4Driver運行在Worker節點
9.3Spark算子RDD
9.3.1RDD的屬性
9.3.2RDD的依賴關係
9.3.3RDD的shuffle過程
9.3.4RDD的快取和檢查機制
9.4Spark SQL
9.4.1Spark SQL概念
9.4.2Spark SQL的架構
9.4.3DataSets和DataFrames
9.4.4Spark SQL範例
9.5Spark Streaming
9.5.1Spark Streaming介紹/9.5.2DStream轉換操作
9.5.3Spark Streaming視窗操作
9.5.4DStream輸入
9.5.5DStream 輸出
9.5.6DSFrame和SQL操作
9.5.7Spark Streaming檢查點
9.6Spark Streaming接收Flume資料實戰
9.7Spark Streaming接收Kafka資料實戰
第10章全文搜尋引擎Elasticsearch
10.1Elasticsearch簡介
10.2Elasticsearch架構和原理
10.2.1Elasticsearch核心概念
10.2.2Elasticsearch工作原理
10.2.3Elasticsearch倒排索引
10.3Elasticsearch實戰
10.3.1Elasticsearch索引創建
10.3.2Elasticsearch索引更新
10.3.3Elasticsearch索引查詢
10.3.4Elasticsearch索引刪除
10.3.5Elasticsearch保存文檔
10.3.6Elasticsearch更新文檔
10.3.7Elasticsearch精確查詢
10.3.8Elasticsearch模糊查詢
10.3.9Elasticsearch範圍查詢
10.3.10Elasticsearch布林查詢
10.3.11Elasticsearch聚合查詢
10.3.12Elasticsearch高亮查詢
10.4Elasticsearch實現搜尋系統
10.4.1搜尋系統項目環境準備
10.4.2Elasticsearch實現搜尋功能
第11章分散式處理引擎Flink
11.1Flink 概述
11.2Flink基本元件與運行時架構
11.2.1Flink運行時架構
11.2.2Flink的分層
11.3Flink流程處理流程
11.3.1Flink環境設定(Environment)
11.3.2Flink源算子(Source)
11.3.3Flink支援的資料類型
11.3.4