Spark SQL大數據分析快速上手
遲殿委 王澤慧 黃茵茵
- 出版商: 清華大學
- 出版日期: 2024-11-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- ISBN: 7302674868
- ISBN-13: 9787302674863
-
相關分類:
Spark、SQL、大數據 Big-data、Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目 錄
第 1 章 Spark SQL概述 1
1.1 Spark SQL簡介 1
1.1.1 什麽是Spark SQL 1
1.1.2 Spark SQL的特點 2
1.2 Spark數據容器 4
1.2.1 什麽是DataFrame 4
1.2.2 什麽是DataSet 5
1.2.3 Spark SQL與DataFrame 6
1.2.4 DataFrame與RDD的差異 6
第 2 章 Spark概述及環境搭建 8
2.1 Spark概述 8
2.1.1 關於Spark 8
2.1.2 Spark的基本概念 9
2.1.3 Spark集群相關知識 11
2.2 Linux環境搭建 16
2.2.1 VirtualBox虛擬機的安裝 16
2.2.2 安裝Linux操作系統 18
2.2.3 SSH工具與使用 24
2.2.4 Linux的統一設置 26
2.3 Hadoop完全分佈式環境搭建 28
2.4 Spark的安裝與配置 33
2.4.1 本地模式安裝 34
2.4.2 偽分佈模式安裝 36
2.4.3 完全分佈模式安裝 39
2.4.4 Spark on YARN 41
2.5 Spark的任務提交 45
2.5.1 使用spark-submit提交 45
2.5.2 spark-submit參數說明 46
第 3 章 Spark的典型數據結構RDD 49
3.1 什麽是RDD 49
3.2 RDD的主要屬性 50
3.3 RDD的特點 51
3.4 RDD的創建與處理過程 54
3.4.1 RDD的創建 55
3.4.2 RDD的處理過程 55
3.4.3 RDD的算子 56
第 4 章 Spark SQL入門實戰 65
4.1 DataFrame和DataSet實戰體驗 65
4.1.1 SparkSession 65
4.1.2 DataFrame應用 66
4.1.3 DataSet應用 72
4.1.4 DataFrame和DataSet之間的交互 74
4.2 Scala開發環境搭建及其基礎編程 74
4.2.1 開發環境搭建 75
4.2.2 Scala基礎編程 78
4.3 Spark SQL實戰入門體驗 94
第 5 章 Spark SQL語法基礎及應用 101
5.1 Hive安裝與元數據存儲配置 101
5.1.1 安裝Hive 101
5.1.2 配置MySQL存儲元數據 104
5.2 Spark SQL DML語句 107
5.2.1 插入數據 107
5.2.2 加載數據 110
5.3 Spark SQL查詢語句 111
5.4 Spark SQL函數操作 115
5.4.1 內置函數及使用 115
5.4.2 自定義函數 126
第 6 章 Spark SQL數據源 131
6.1 Spark SQL數據加載、存儲概述 131
6.1.1 通用load/save函數 131
6.1.2 手動指定選項 133
6.1.3 在文件上直接進行SQL查詢 133
6.1.4 存儲模式 133
6.1.5 持久化到表 134
6.1.6 桶、排序、分區操作 135
6.2 Spark SQL常見結構化數據源 135
6.2.1 Parquet文件 135
6.2.2 JSON 數據集 140
6.2.3 Hive表 141
6.2.4 其他關系數據庫中的數據表 144
第 7 章 Spark SQL性能調優 148
7.1 Spark執行流程 148
7.2 Spark內存管理 149
7.3 Spark的一些概念 150
7.4 Spark開發原則 151
7.5 Spark調優方法 157
7.6 數據傾斜調優 168
7.7 Spark執行引擎Tungsten簡介 172
7.8 Spark SQL解析引擎Catalyst簡介 173
第 8 章 Spark SQL影評大數據分析項目實戰 177
8.1 項目介紹 177
8.2 項目實現 179
8.2.1 引入依賴 179
8.2.2 公共類開發 184
8.2.3 需求1的實現 187
8.2.4 需求2的實現 191
8.2.5 需求3的實現 194
第 9 章 Spark SQL商品統計分析項目實戰 198
9.1 項目介紹 198
9.2 項目實現 201
9.2.1 引入依賴 201
9.2.2 環境測試 202
9.2.3 Spark SQL初始化數據 203
9.2.4 Spark SQL商品數據分析 206
第 10 章 Spark SQL咖啡銷售數據分析項目實戰 211
10.1 項目介紹 211
10.2 數據預處理與數據分析 212
10.2.1 查看咖啡銷售量排名 213
10.2.2 觀察咖啡銷售量的分佈情況 214
10.3 數據可視化 218