大數據基礎應用
劉黎志 劉瑋 張明
- 出版商: 機械工業
- 出版日期: 2024-10-16
- 定價: $360
- 售價: 8.5 折 $306
- 語言: 簡體中文
- 頁數: 298
- ISBN: 7111763866
- ISBN-13: 9787111763864
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書首先介紹了大數據基礎應用:重點講解瞭如何搭建Hadoop分佈式集群平臺,使用Java語言進行MapReduce分佈式編程;HBase及Hive數據庫環境的安裝和數據的增、刪、改、查操作;Spark平臺的搭建、RDD操作及Spark SQL查詢;Flink平臺的搭建,Kafka消息中間件的使用及流批一體計算。其次對數據預處理的常用方法及如何使用Matplotlib實現數據可視化進行了討論。最後講解了大數據與機器學習、深度學習。本書將機器學習算法劃分為分類及回歸兩個問題進行了討論,並結合scikit-learn進行了實例講解。在深度學習部分,對深度神經網絡及捲積神經網絡進行了介紹,就如何使用Keras框架實現圖像分類進行了實例講解,此外介紹了循環神經網絡LSTM的原理及應用。 本書適用於電腦類及信息技術類相關專業在讀本科生及研究生,也可供大數據及人工智能相關領域的技術人員參考。
目錄大綱
前言
第1章 Hadoop分佈式集群 1
1.1 什麽是大數據 1
1.1.1 大數據的基本概念 1
1.1.2 大數據的產生和應用 2
1.2 大數據關鍵技術 2
1.2.1 文件系統 2
1.2.2 數據庫系統 3
1.2.3 索引與查詢技術 4
1.2.4 大數據分析技術 5
1.2.5 大數據處理工具 6
1.2.6 機器學習與深度學習 7
1.3 Hadoop生態圈 8
1.4 Hadoop分佈式集群環境搭建 11
1.4.1 實驗環境安裝及配置 11
1.4.2 Hadoop集群平臺的搭建 16
1.4.3 MapReduce測試 21
第2章 分佈式計算框架
MapReduce 23
2.1 MapReduce分佈式框架 23
2.1.1 MapReduce原理 23
2.1.2 合並函數(Combiner) 26
2.2 WordCount的處理過程 27
2.2.1 WordCount示例代碼運行 27
2.2.2 WordCount源碼分析 28
2.2.3 WordCount詳細處理過程 32
2.2.4 MapReduce新舊版區別 33
2.3 MapReduce編程示例 33
2.3.1 Eclipse開發環境搭建 33
2.3.2 數據去重 38
2.3.3 數據排序 41
2.3.4 平均成績 43
2.3.5 單表關聯 45
2.3.6 多表關聯 51
2.3.7 倒排索引 54
第3章 NoSQL數據庫 60
3.1 NoSQL數據庫概述 60
3.1.1 NoSQL數據庫的特點 60
3.1.2 NoSQL數據庫與關系數據庫的
比較 61
3.1.3 NoSQL數據庫的分類 61
3.2 HBase列式數據庫 62
3.2.1 HBase的基本概念 62
3.2.2 HBase的安裝及基本操作 64
3.2.3 HBase客戶端編程 69
3.3 Hive數據倉庫工具 82
3.3.1 Hive的安裝及環境配置 82
3.3.2 Hive的基本使用 86
第4章 分佈式計算框架Spark 93
4.1 Spark分佈式計算引擎 93
4.1.1 Spark的基本概念 93
4.1.2 Spark的核心技術 95
4.1.3 Spark生態系統 96
4.1.4 Spark技術分析 96
4.1.5 Spark的應用場景 97
4.2 Spark分佈式集群環境搭建 98
4.2.1 環境搭建 98
4.2.2 環境測試 100
4.3 RDD分佈式編程技術 102
4.3.1 RDD的基本使用 102
4.3.2 RDD操作 104
4.3.3 共享變量 115
4.4 Spark SQL查詢分析技術 118
4.4.1 DataSet(DataFrame)和RDD 119
4.4.2 Spark SQL操作 121
4.4.3 Spark SQL與數據源的交互 125
4.4.4 Spark SQL與Hive交互 126
4.4.5 Spark SQL的分區及分桶 127
第5章 流式計算 130
5.1 Flink的基本概念 130
5.1.1 Flink框架 130
5.1.2 Flink的應用 131
5.2 Flink的安裝和開發環境設置 133
5.2.1 Flink本地安裝 133
5.2.2 Flink開發環境設置 134
5.3 數據流接口 137
5.3.1 DataStream概述 137
5.3.2 數據流接口的基本應用 144
5.3.3 Kafka消息中間件 148
5.4 水位線和窗口 161
5.4.1 水位線(WaterMark) 161
5.4.2 窗口(Window) 165
5.4.3 應用舉例 169
5.5 表接口和表查詢 175
5.5.1 動態表 176
5.5.2 表接口和表查詢的應用 179
第6章 數據可視化分析與預處理 184
6.1 數據可視化分析 184
6.1.1 分位數與箱線圖 184
6.1.2 數據的相關性與散點圖 186
6.1.3 數據的分佈與直方圖 189
6.1.4 Matplotlib繪圖 191
6.2 數據預處理 203
6.2.1 連續型輸入特徵的
處理(歸一化) 204
6.2.2 類別(離散)型輸入特徵的
處理 206
6.2.3 分類標簽的處理 209
6.2.4 主成因分析(PCA-Principal Component Analysis) 209
第7章 大數據與機器學習 214
7.1 使用scikit-learn進行機器學習 214
7.1.1 scikit-learn簡介 214
7.1.2 使用scikit-learn進行
機器學習 215
7.2 分類問題 218
7.2.1 邏輯回歸 219
7.2.2 混淆矩陣 222
7.2.3 多分類 224
7.2.4 不平衡分類 226
7.2.5 交叉驗證和參數尋優 235
7.3 回歸問題 237
7.3.1 一元線性回歸 237
7.3.2 多元線性回歸 246
第8章 大數據與深度學習 254
8.1 深度學習概述 254
8.1.1 從神經網絡到深度學習 255
8.1.2 深度學習框架Keras 262
8.2 深度神經網絡 263
8.2.1 深度神經網絡示例 263
8.2.2 模型的保存和讀取 266
8.2.3 模型訓練的歷史過程 267
8.3 捲積神經網絡 268
8.3.1 捲積神經網絡的層 270
8.3.2 使用CNN進行圖像分類 278
8.3.3 使用VGG16網絡模型 285
8.4 循環神經網絡 287
8.4.1 RNN 287
8.4.2 LSTM 289
參考文獻 296