Spark大數據分析與應用(Python版)

黑馬程序員

  • 出版商: 清華大學
  • 出版日期: 2025-03-01
  • 定價: $288
  • 售價: 8.5$245
  • 語言: 簡體中文
  • ISBN: 7302681058
  • ISBN-13: 9787302681052
  • 相關分類: Spark大數據 Big-dataData Science
  • 下單後立即進貨 (約4週~6週)

  • Spark大數據分析與應用(Python版)-preview-1
  • Spark大數據分析與應用(Python版)-preview-2
  • Spark大數據分析與應用(Python版)-preview-3
Spark大數據分析與應用(Python版)-preview-1

商品描述

"本書以Spark 3.x和Python 3.x為主線,全面介紹了Spark及其生態體系中常用大數據項目的安裝和使用。全書共8章,分別講解了Spark基礎知識、Spark部署、Spark RDD、Spark SQL、Spark Streaming、Kafka、Structured Streaming和Spark MLlib,並在最後完整開發了一個在線教育學生學習情況分析系統,幫助讀者鞏固前面所學的內容。 本書附有配套視頻、教學PPT、教學設計、測試題等資源,同時,為了幫助初學者更好地學習本書中的內容,還提供了在線答疑,歡迎讀者關註。 本書可以作為高等院校數據科學與大數據技術及相關專業的教材,也適合大數據開發初學者、大數據分析與挖掘的從業者閱讀。 "

目錄大綱

目錄

第1章Spark基礎1

1.1初識Spark1

1.1.1Spark概述1

1.1.2Spark的特點2

1.1.3Spark應用場景3

1.1.4Spark與MapReduce的區別3

1.2Spark基本架構及運行流程4

1.2.1基本概念4

1.2.2Spark基本架構5

1.2.3Spark運行流程6

1.3Spark的部署模式7

1.4部署Spark7

1.4.1基於Local模式部署Spark7

1.4.2基於Standalone模式部署Spark9

1.4.3基於High Availability模式部署Spark14

1.4.4基於Spark on YARN模式部署Spark19

1.5Spark初體驗20

1.6PySpark的使用22

1.7PyCharm開發Spark程序23

1.8本章小結29

1.9課後習題30

第2章Spark RDD彈性分佈式數據集31

2.1RDD簡介31

2.2RDD的創建32

2.2.1基於文件創建RDD32

2.2.2基於數據集合創建RDD33

2.3RDD的處理過程34

2.3.1轉換算子34

2.3.2行動算子39

2.4RDD的分區42

2.5RDD的依賴關系43

2.6RDD機制44

2.6.1持久化機制44

2.6.2容錯機制46

2.7Spark的任務調度46

2.7.1DAG的概念46

2.7.2RDD在Spark中的運行流程48

2.8本章小結49

2.9課後習題49

目錄Spark大數據分析與應用(Python版)第3章Spark SQL結構化數據處理模塊51

3.1Spark SQL基礎知識51

3.1.1Spark SQL簡介51

3.1.2Spark SQL架構52

3.2DataFrame基礎知識53

3.2.1DataFrame簡介53

3.2.2DataFrame的創建54

3.2.3DataFrame的常用操作56

3.2.4DataFrame的函數操作60

3.3RDD轉換為DataFrame70

3.3.1反射機制推斷Schema70

3.3.2編程方式定義Schema72

3.4Spark SQL操作數據源73

3.4.1Spark SQL操作MySQL73

3.4.2Spark SQL操作Hive76

3.5本章小結78

3.6課後習題79

第4章Spark Streaming實時計算框架80

4.1實時計算概述80

4.2Spark Streaming概述81

4.2.1Spark Streaming簡介81

4.2.2Spark Streaming的工作原理83

4.3Spark Streaming的DStream83

4.4Spark Streaming的編程模型84

4.5Spark Streaming的API操作85

4.5.1輸入操作85

4.5.2轉換操作88

4.5.3輸出操作97

4.5.4窗口操作100

4.5.5案例——電商網站實時熱門品類統計104

4.6本章小結107

4.7課後習題107

第5章Kafka分佈式發布訂閱消息系統109

5.1消息隊列簡介109

5.2Kafka簡介112

5.3Kafka工作原理113

5.3.1Kafka的基本架構113

5.3.2Kafka工作流程115

5.4搭建Kafka集群116

5.5Kafka的基本操作119

5.5.1Kafka的Shell操作119

5.5.2Kafka的Python API操作123

5.6案例——實時單詞計數125

5.7本章小結128

5.8課後習題128

第6章Structured Streaming流計算引擎130

6.1Spark Streaming的不足130

6.2Structured Streaming概述131

6.2.1Structured Streaming簡介131

6.2.2Structured Streaming編程模型132

6.3Structured Streaming的API操作133

6.3.1輸入操作133

6.3.2轉換操作137

6.3.3輸出操作140

6.4時間和窗口操作146

6.4.1時間的分類146

6.4.2窗口操作147

6.5案例——物聯網設備數據分析151

6.5.1準備數據151

6.5.2分析數據154

6.6本章小結158

6.7課後習題158

第7章Spark MLlib機器學習庫160

7.1初識機器學習160

7.1.1什麽是機器學習160

7.1.2機器學習的應用161

7.2Spark MLlib概述162

7.2.1Spark MLlib簡介162

7.2.2Spark MLlib工作流程162

7.3數據類型164

7.4Spark MLlib基本統計167

7.4.1摘要統計167

7.4.2相關統計168

7.4.3分層抽樣170

7.5分類171

7.5.1線性支持向量機171

7.5.2邏輯回歸173

7.6案例——構建電影推薦系統175

7.6.1案例分析176

7.6.2案例實現177

7.7本章小結179

7.8課後習題180

第8章綜合案例——在線教育學生學習情況分析系統181

8.1系統概述181

8.1.1系統背景介紹181

8.1.2系統流程分析182

8.2Redis的安裝和啟動183

8.3模塊開發——構建項目結構185

8.4模塊開發——在線教育數據的生成185

8.4.1模擬生成數據185

8.4.2向Kafka發送數據188

8.5模塊開發——實時分析學生答題情況190

8.6模塊開發——實時推薦題目193

8.7模塊開發——離線分析學生答題情況200

8.8模塊開發——數據可視化203

8.8.1安裝、啟動與配置FineBI203

8.8.2實現數據可視化212

8.9本章小結223