Spark基礎編程

曹如軍

  • 出版商: 清華大學
  • 出版日期: 2024-02-01
  • 定價: $270
  • 售價: 8.5$229
  • 語言: 簡體中文
  • ISBN: 7302644667
  • ISBN-13: 9787302644668
  • 相關分類: Spark
  • 下單後立即進貨 (約4週~6週)

  • Spark基礎編程-preview-1
  • Spark基礎編程-preview-2
  • Spark基礎編程-preview-3
Spark基礎編程-preview-1

相關主題

商品描述

主要內容包括,大數據技術概述(或背景知識),Scala基礎知識,Spark基礎,RDD編程,Spark SQL開發,Spark Streaming / Structured Streaming編程,MLLib 機器學習編程等基礎內容。 主要作為本科生數據科學與大數據技術、電腦科學與技術等相關專業必修或選修課程教科書,或作為相關工程技術人員的參考書。 本教材基於Spark 3.3.x等新版本所帶來的開發方式、方法的變化,從工業、服務業等行業實際應用開發的角度,介紹Spark開發的基礎知識,開發過程中的註意事項,並提供合理建議,從而引導學習過程更貼近大數據開發實際。 除了不同於其他教材所講解的內容基礎未基於新的軟件產品或平臺外,本教程更是從工業、服務行業大數據開發實際需求出發,引導學習者養成良好的開發習慣,為高效率地解決實際問題打開堅實基礎。

目錄大綱

目錄

第1章大數據概述

1.1大數據的概念

1.2大數據的關鍵技術

1.3大數據計算模式

1.4本書內容介紹

1.5Linux虛擬機的安裝與使用

1.5.1安裝環境

1.5.2安裝VirtualBox

1.5.3安裝虛擬機系統Ubuntu

1.5.4Linux命令

1.5.5主機與虛擬機交互

第2章Scala基礎

2.1Scala概述

2.1.1Scala簡介

2.1.2Scala安裝

2.1.3Scala使用基礎

2.2Scala初步

2.2.1初識Scala REPL

2.2.2變量定義

2.2.3Scala REPL中的多行輸入

2.2.4函數定義

2.3Scala基本數據類型與操作

2.3.1基本數據類型

2.3.2操作符

2.3.3運算的優先級與結合性

2.3.4富操作(Rich Operations)

2.4控制結構

2.4.1if表達式

2.4.2while循環

2.4.3for表達式

2.4.4match表達式

2.4.5try表達式(異常處理)

2.5Scala常用數據結構

2.5.1序列數

2.5.2數組

2.5.3列表

2.5.4元組

2.5.5集合

2.5.6映射

2.6函數式編程

2.7Scala類與對象

2.7.1類、字段及方法

2.7.2單例對象

2.7.3樣例類

2.8Scala應用程序

第3章Spark開發基礎

3.1Spark概述

3.1.1Spark簡介

3.1.2Spark架構設計

3.2Spark安裝及部署

3.2.1安裝Spark

3.2.2Spark部署方式

3.3配置Spark訪問HDFS數據源

3.3.1Hadoop部署

3.3.2配置Spark訪問HDFS

3.4使用Spark shell

3.4.1啟動Spark shell

3.4.2使用Spark shell

3.4.3退出Scala Spark shell

3.4.4Spark shell常用選項

3.5Spark開發環境

3.5.1SBT

3.5.2IntelliJ IDEA

第4章Spark RDD編程

4.1RDD概述

4.2RDD編程基礎

4.2.1環境初始化

4.2.2交互式編程

4.2.3一個簡單的應用程序

4.3RDD常用操作

4.3.1轉換

4.3.2動作

4.3.3函數參數傳遞

4.4鍵/值對RDD

4.5共享變量

4.5.1廣播變量

4.5.2累加器

4.6文件數據讀寫

4.6.1從文件創建RDD

4.6.2保存RDD

4.7RDD程序例子

4.7.1詞頻統計WordCount

4.7.2文件合並

4.7.3求Top值

第5章Spark SQL編程

5.1Spark SQL基礎

5.1.1概述

5.1.2Spark SQL架構

5.1.3一個簡單的Spark SQL開發例子

5.2數據幀DataFrame

5.2.1DataFrame結構

5.2.2創建DataFrame

5.2.3DataFrame常用操作

5.2.4保存DataFrame

5.3數據集Dataset

5.3.1創建Dataset

5.3.2Dataset常用方法

5.4數據源

5.4.1通用load/save函數

5.4.2文件數據源

5.4.3Hive數據源

5.4.4SQL數據源

5.5安裝關系數據庫

5.5.1PostgreSQL

5.5.2MySQL Server

第6章Streaming編程

6.1流計算概述

6.1.1流計算背景

6.1.2流計算概念

6.1.3流計算框架

6.2Spark Streaming

6.2.1概述

6.2.2Spark Streaming簡單示例

6.2.3Spark Streaming開發基礎

6.2.4DStream常用操作

6.3Structured Streaming

6.3.1概述

6.3.2Structured Streaming簡單示例

6.3.3編程模型

6.3.4DataFrame和Dataset數據流API

6.4Structured Streaming編程實踐

6.4.1Kafka數據源準備

6.4.2Structured Streaming Kafka依賴包

6.4.3在Spark shell中連接Kafka

第7章Spark MLlib實踐

7.1機器學習

7.1.1機器學習概述

7.1.2機器學習常用術語

7.1.3機器學習的應用

7.1.4機器學習的方法

7.1.5大數據與機器學習

7.2Spark MLlib

7.2.1Spark機器學習概述

7.2.2MLlib概述

7.2.3MLlib機器學習管道

7.3MLlib初級實踐

7.3.1數據準備

7.3.2創建訓練集與測試集

7.3.3使用轉換器準備特徵

7.3.4使用估計器構建模型

7.3.5創建管道

7.3.6評估模型

7.4超參數調優

7.4.1基於樹的模型

7.4.2k折交叉驗證

7.4.3管道優化

參考文獻