Spark基礎編程
曹如軍
相關主題
商品描述
目錄大綱
目錄
第1章大數據概述
1.1大數據的概念
1.2大數據的關鍵技術
1.3大數據計算模式
1.4本書內容介紹
1.5Linux虛擬機的安裝與使用
1.5.1安裝環境
1.5.2安裝VirtualBox
1.5.3安裝虛擬機系統Ubuntu
1.5.4Linux命令
1.5.5主機與虛擬機交互
第2章Scala基礎
2.1Scala概述
2.1.1Scala簡介
2.1.2Scala安裝
2.1.3Scala使用基礎
2.2Scala初步
2.2.1初識Scala REPL
2.2.2變量定義
2.2.3Scala REPL中的多行輸入
2.2.4函數定義
2.3Scala基本數據類型與操作
2.3.1基本數據類型
2.3.2操作符
2.3.3運算的優先級與結合性
2.3.4富操作(Rich Operations)
2.4控制結構
2.4.1if表達式
2.4.2while循環
2.4.3for表達式
2.4.4match表達式
2.4.5try表達式(異常處理)
2.5Scala常用數據結構
2.5.1序列數
2.5.2數組
2.5.3列表
2.5.4元組
2.5.5集合
2.5.6映射
2.6函數式編程
2.7Scala類與對象
2.7.1類、字段及方法
2.7.2單例對象
2.7.3樣例類
2.8Scala應用程序
第3章Spark開發基礎
3.1Spark概述
3.1.1Spark簡介
3.1.2Spark架構設計
3.2Spark安裝及部署
3.2.1安裝Spark
3.2.2Spark部署方式
3.3配置Spark訪問HDFS數據源
3.3.1Hadoop部署
3.3.2配置Spark訪問HDFS
3.4使用Spark shell
3.4.1啟動Spark shell
3.4.2使用Spark shell
3.4.3退出Scala Spark shell
3.4.4Spark shell常用選項
3.5Spark開發環境
3.5.1SBT
3.5.2IntelliJ IDEA
第4章Spark RDD編程
4.1RDD概述
4.2RDD編程基礎
4.2.1環境初始化
4.2.2交互式編程
4.2.3一個簡單的應用程序
4.3RDD常用操作
4.3.1轉換
4.3.2動作
4.3.3函數參數傳遞
4.4鍵/值對RDD
4.5共享變量
4.5.1廣播變量
4.5.2累加器
4.6文件數據讀寫
4.6.1從文件創建RDD
4.6.2保存RDD
4.7RDD程序例子
4.7.1詞頻統計WordCount
4.7.2文件合並
4.7.3求Top值
第5章Spark SQL編程
5.1Spark SQL基礎
5.1.1概述
5.1.2Spark SQL架構
5.1.3一個簡單的Spark SQL開發例子
5.2數據幀DataFrame
5.2.1DataFrame結構
5.2.2創建DataFrame
5.2.3DataFrame常用操作
5.2.4保存DataFrame
5.3數據集Dataset
5.3.1創建Dataset
5.3.2Dataset常用方法
5.4數據源
5.4.1通用load/save函數
5.4.2文件數據源
5.4.3Hive數據源
5.4.4SQL數據源
5.5安裝關系數據庫
5.5.1PostgreSQL
5.5.2MySQL Server
第6章Streaming編程
6.1流計算概述
6.1.1流計算背景
6.1.2流計算概念
6.1.3流計算框架
6.2Spark Streaming
6.2.1概述
6.2.2Spark Streaming簡單示例
6.2.3Spark Streaming開發基礎
6.2.4DStream常用操作
6.3Structured Streaming
6.3.1概述
6.3.2Structured Streaming簡單示例
6.3.3編程模型
6.3.4DataFrame和Dataset數據流API
6.4Structured Streaming編程實踐
6.4.1Kafka數據源準備
6.4.2Structured Streaming Kafka依賴包
6.4.3在Spark shell中連接Kafka
第7章Spark MLlib實踐
7.1機器學習
7.1.1機器學習概述
7.1.2機器學習常用術語
7.1.3機器學習的應用
7.1.4機器學習的方法
7.1.5大數據與機器學習
7.2Spark MLlib
7.2.1Spark機器學習概述
7.2.2MLlib概述
7.2.3MLlib機器學習管道
7.3MLlib初級實踐
7.3.1數據準備
7.3.2創建訓練集與測試集
7.3.3使用轉換器準備特徵
7.3.4使用估計器構建模型
7.3.5創建管道
7.3.6評估模型
7.4超參數調優
7.4.1基於樹的模型
7.4.2k折交叉驗證
7.4.3管道優化
參考文獻