大數據基礎應用

劉黎志 劉瑋 張明

  • 出版商: 機械工業
  • 出版日期: 2024-10-16
  • 定價: $360
  • 售價: 8.5$306
  • 語言: 簡體中文
  • ISBN: 7111763866
  • ISBN-13: 9787111763864
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本书首先介绍了大数据基础应用:重点讲解了如何搭建Hadoop分布式集群平台,使用Java语言进行MapReduce分布式编程;HBase及Hive数据库环境的安装和数据的增、删、改、查操作;Spark平台的搭建、RDD操作及Spark SQL查询;Flink平台的搭建,Kafka消息中间件的使用及流批一体计算。其次对数据预处理的常用方法及如何使用Matplotlib实现数据可视化进行了讨论。最后讲解了大数据与机器学习、深度学习。本书将机器学习算法划分为分类及回归两个问题进行了讨论,并结合scikit-learn进行了实例讲解。在深度学习部分,对深度神经网络及卷积神经网络进行了介绍,就如何使用Keras框架实现图像分类进行了实例讲解,此外介绍了循环神经网络LSTM的原理及应用。 本书适用于计算机类及信息技术类相关专业在读本科生及研究生,也可供大数据及人工智能相关领域的技术人员参考。 

目錄大綱

前言
第1章 Hadoop分布式集群 1
1.1 什麽是大數據 1
1.1.1 大數據的基本概念 1
1.1.2 大數據的產生和應用 2
1.2 大數據關鍵技術 2
1.2.1 文件系統 2
1.2.2 數據庫系統 3
1.2.3 索引與查詢技術 4
1.2.4 大數據分析技術 5
1.2.5 大數據處理工具 6
1.2.6 機器學習與深度學習 7
1.3 Hadoop生態圈 8
1.4 Hadoop分布式集群環境搭建 11
1.4.1 實驗環境安裝及配置 11
1.4.2 Hadoop集群平台的搭建 16
1.4.3 MapReduce測試 21
第2章 分布式計算框架
MapReduce 23
2.1 MapReduce分布式框架 23
2.1.1 MapReduce原理 23
2.1.2 合並函數(Combiner) 26
2.2 WordCount的處理過程 27
2.2.1 WordCount示例代碼運行 27
2.2.2 WordCount源碼分析 28
2.2.3 WordCount詳細處理過程 32
2.2.4 MapReduce新舊版區別 33
2.3 MapReduce編程示例 33
2.3.1 Eclipse開發環境搭建 33
2.3.2 數據去重 38
2.3.3 數據排序 41
2.3.4 平均成績 43
2.3.5 單表關聯 45
2.3.6 多表關聯 51
2.3.7 倒排索引 54
第3章 NoSQL數據庫 60
3.1 NoSQL數據庫概述 60
3.1.1 NoSQL數據庫的特點 60
3.1.2 NoSQL數據庫與關系數據庫的
比較 61
3.1.3 NoSQL數據庫的分類 61
3.2 HBase列式數據庫 62
3.2.1 HBase的基本概念 62
3.2.2 HBase的安裝及基本操作 64
3.2.3 HBase客戶端編程 69
3.3 Hive數據倉庫工具 82
3.3.1 Hive的安裝及環境配置 82
3.3.2 Hive的基本使用 86
第4章 分布式計算框架Spark 93
4.1 Spark分布式計算引擎 93
4.1.1 Spark的基本概念 93
4.1.2 Spark的核心技術 95
4.1.3 Spark生態系統 96
4.1.4 Spark技術分析 96
4.1.5 Spark的應用場景 97
4.2 Spark分布式集群環境搭建 98
4.2.1 環境搭建 98
4.2.2 環境測試 100
4.3 RDD分布式編程技術 102
4.3.1 RDD的基本使用 102
4.3.2 RDD操作 104
4.3.3 共享變量 115
4.4 Spark SQL查詢分析技術 118
4.4.1 DataSet(DataFrame)和RDD 119
4.4.2 Spark SQL操作 121
4.4.3 Spark SQL與數據源的交互 125
4.4.4 Spark SQL與Hive交互 126
4.4.5 Spark SQL的分區及分桶 127
第5章 流式計算 130
5.1 Flink的基本概念 130
5.1.1 Flink框架 130
5.1.2 Flink的應用 131
5.2 Flink的安裝和開發環境設置 133
5.2.1 Flink本地安裝 133
5.2.2 Flink開發環境設置 134
5.3 數據流接口 137
5.3.1 DataStream概述 137
5.3.2 數據流接口的基本應用 144
5.3.3 Kafka消息中間件 148
5.4 水位線和窗口 161
5.4.1 水位線(WaterMark) 161
5.4.2 窗口(Window) 165
5.4.3 應用舉例 169
5.5 表接口和表查詢 175
5.5.1 動態表 176
5.5.2 表接口和表查詢的應用 179
第6章 數據可視化分析與預處理 184
6.1 數據可視化分析 184
6.1.1 分位數與箱線圖 184
6.1.2 數據的相關性與散點圖 186
6.1.3 數據的分布與直方圖 189
6.1.4 Matplotlib繪圖 191
6.2 數據預處理 203
6.2.1 連續型輸入特征的
處理(歸一化) 204
6.2.2 類別(離散)型輸入特征的
處理 206
6.2.3 分類標簽的處理 209
6.2.4 主成因分析(PCA-Principal Component Analysis) 209
第7章 大數據與機器學習 214
7.1 使用scikit-learn進行機器學習 214
7.1.1 scikit-learn簡介 214
7.1.2 使用scikit-learn進行
機器學習 215
7.2 分類問題 218
7.2.1 邏輯回歸 219
7.2.2 混淆矩陣 222
7.2.3 多分類 224
7.2.4 不平衡分類 226
7.2.5 交叉驗證和參數尋優 235
7.3 回歸問題 237
7.3.1 一元線性回歸 237
7.3.2 多元線性回歸 246
第8章 大數據與深度學習 254
8.1 深度學習概述 254
8.1.1 從神經網絡到深度學習 255
8.1.2 深度學習框架Keras 262
8.2 深度神經網絡 263
8.2.1 深度神經網絡示例 263
8.2.2 模型的保存和讀取 266
8.2.3 模型訓練的歷史過程 267
8.3 卷積神經網絡 268
8.3.1 卷積神經網絡的層 270
8.3.2 使用CNN進行圖像分類 278
8.3.3 使用VGG16網絡模型 285
8.4 循環神經網絡 287
8.4.1 RNN 287
8.4.2 LSTM 289
參考文獻 296