Spark SQL大數據分析快速上手
遲殿委 王澤慧 黃茵茵
- 出版商: 清華大學
- 出版日期: 2024-11-01
- 售價: $534
- 貴賓價: 9.5 折 $507
- 語言: 簡體中文
- ISBN: 7302674868
- ISBN-13: 9787302674863
-
相關分類:
Spark、SQL、大數據 Big-data、Data Science
立即出貨 (庫存=1)
相關主題
商品描述
"《Spark SQL大數據分析快速上手》內容基於Spark新版本展開,符合企業目前開發需要。《Spark SQL大數據分析快速上手》全面講解Spark SQL相關知識和實戰應用,各章均提供較為豐富的案例及其詳細的操作步驟,並配套示例源碼、數據集、PPT課件和教學大綱。 《Spark SQL大數據分析快速上手》共10章。第1~3章為Spark SQL的基礎準備部分,內容包括Spark SQL的發展和簡介、Spark的典型數據容器及關系、Spark概述與環境搭建、Spark典型數據結構RDD;第4~7章為Spark SQL的基礎應用部分,內容包括Spark SQL入門實戰(包括Scala編程基礎)、SQL基礎語法、操作多數據源、Spark SQL性能調優等;第8~10章分別通過影評數據分析、商品統計數據分析、咖啡銷售數據分析等3個實戰項目進行鞏固提升。 《Spark SQL大數據分析快速上手》內容翔實、示例豐富,既可作為Spark初學者、大數據分析人員、大數據應用開發人員的自學手冊,也可作為高等院校或高職高專院校電腦、軟件工程、數據科學與大數據技術、智能科學與技術、人工智能等專業大數據課程的教材。"
目錄大綱
目 錄
第 1 章 Spark SQL概述 1
1.1 Spark SQL簡介 1
1.1.1 什麽是Spark SQL 1
1.1.2 Spark SQL的特點 2
1.2 Spark數據容器 4
1.2.1 什麽是DataFrame 4
1.2.2 什麽是DataSet 5
1.2.3 Spark SQL與DataFrame 6
1.2.4 DataFrame與RDD的差異 6
第 2 章 Spark概述及環境搭建 8
2.1 Spark概述 8
2.1.1 關於Spark 8
2.1.2 Spark的基本概念 9
2.1.3 Spark集群相關知識 11
2.2 Linux環境搭建 16
2.2.1 VirtualBox虛擬機的安裝 16
2.2.2 安裝Linux操作系統 18
2.2.3 SSH工具與使用 24
2.2.4 Linux的統一設置 26
2.3 Hadoop完全分佈式環境搭建 28
2.4 Spark的安裝與配置 33
2.4.1 本地模式安裝 34
2.4.2 偽分佈模式安裝 36
2.4.3 完全分佈模式安裝 39
2.4.4 Spark on YARN 41
2.5 Spark的任務提交 45
2.5.1 使用spark-submit提交 45
2.5.2 spark-submit參數說明 46
第 3 章 Spark的典型數據結構RDD 49
3.1 什麽是RDD 49
3.2 RDD的主要屬性 50
3.3 RDD的特點 51
3.4 RDD的創建與處理過程 54
3.4.1 RDD的創建 55
3.4.2 RDD的處理過程 55
3.4.3 RDD的算子 56
第 4 章 Spark SQL入門實戰 65
4.1 DataFrame和DataSet實戰體驗 65
4.1.1 SparkSession 65
4.1.2 DataFrame應用 66
4.1.3 DataSet應用 72
4.1.4 DataFrame和DataSet之間的交互 74
4.2 Scala開發環境搭建及其基礎編程 74
4.2.1 開發環境搭建 75
4.2.2 Scala基礎編程 78
4.3 Spark SQL實戰入門體驗 94
第 5 章 Spark SQL語法基礎及應用 101
5.1 Hive安裝與元數據存儲配置 101
5.1.1 安裝Hive 101
5.1.2 配置MySQL存儲元數據 104
5.2 Spark SQL DML語句 107
5.2.1 插入數據 107
5.2.2 加載數據 110
5.3 Spark SQL查詢語句 111
5.4 Spark SQL函數操作 115
5.4.1 內置函數及使用 115
5.4.2 自定義函數 126
第 6 章 Spark SQL數據源 131
6.1 Spark SQL數據加載、存儲概述 131
6.1.1 通用load/save函數 131
6.1.2 手動指定選項 133
6.1.3 在文件上直接進行SQL查詢 133
6.1.4 存儲模式 133
6.1.5 持久化到表 134
6.1.6 桶、排序、分區操作 135
6.2 Spark SQL常見結構化數據源 135
6.2.1 Parquet文件 135
6.2.2 JSON 數據集 140
6.2.3 Hive表 141
6.2.4 其他關系數據庫中的數據表 144
第 7 章 Spark SQL性能調優 148
7.1 Spark執行流程 148
7.2 Spark內存管理 149
7.3 Spark的一些概念 150
7.4 Spark開發原則 151
7.5 Spark調優方法 157
7.6 數據傾斜調優 168
7.7 Spark執行引擎Tungsten簡介 172
7.8 Spark SQL解析引擎Catalyst簡介 173
第 8 章 Spark SQL影評大數據分析項目實戰 177
8.1 項目介紹 177
8.2 項目實現 179
8.2.1 引入依賴 179
8.2.2 公共類開發 184
8.2.3 需求1的實現 187
8.2.4 需求2的實現 191
8.2.5 需求3的實現 194
第 9 章 Spark SQL商品統計分析項目實戰 198
9.1 項目介紹 198
9.2 項目實現 201
9.2.1 引入依賴 201
9.2.2 環境測試 202
9.2.3 Spark SQL初始化數據 203
9.2.4 Spark SQL商品數據分析 206
第 10 章 Spark SQL咖啡銷售數據分析項目實戰 211
10.1 項目介紹 211
10.2 數據預處理與數據分析 212
10.2.1 查看咖啡銷售量排名 213
10.2.2 觀察咖啡銷售量的分佈情況 214
10.3 數據可視化 218