Machine Learning with PySpark: With Natural Language Processing and Recommender Systems
暫譯: 使用 PySpark 的機器學習:自然語言處理與推薦系統

Singh, Pramod

  • 出版商: Apress
  • 出版日期: 2021-12-09
  • 售價: $2,390
  • 貴賓價: 9.5$2,271
  • 語言: 英文
  • 頁數: 240
  • 裝訂: Quality Paper - also called trade paper
  • ISBN: 1484277767
  • ISBN-13: 9781484277768
  • 相關分類: 推薦系統SparkMachine Learning
  • 海外代購書籍(需單獨結帳)

相關主題

商品描述

Chapter 1: Introduction to Spark 3.1

Chapter Goal: The book's opening chapter introduces the readers to latest changes in PySpark and updates to the framework. This chapter covers the different components of Spark ecosystem. The chapter doubles up as an introduction to the book's format, including explanation of formatting practices, pointers to the book's accompanying codebase online, and support contact information. The chapter sets readers' expectations in terms of the content and structure of the rest of the book. This chapter provides the audience with a set of required libraries and code/data download information so that the user is able to set up their environment appropriately.

No of pages -30

Sub -Topics

1. Data status

2. Apache Spark evolution

3. Apache Spark fundamentals

4. Spark components

5. Setting up Spark 3.1


Chapter 2: Manage Data with PySpark

Chapter Goal:

This chapter covers the steps right from reading the data, pre-processing and cleaning for machine learning purpose. The chapter showcases the steps to build end to end data handling pipelines to transform and create features for machine learning. It covers simple way to use Koalas in order to leverage pandas in a distributed way in Spark.It also covers the method to automate the data scripts in order to run schedules data jobs using Airflow.

No of pages:50

Sub - Topics

1. Data ingestion

2. Data cleaning

3. Data transformation

4. End- to end data pipelines

5. Data processing using koalas in Spark on Pandas DataFrame

6. Automate data workflow using Airflow


Chapter 3: Introduction to Machine Learning

Chapter Goal:

This chapter introduces the readers to basic fundamentals of machine learning. This chapter covers different categories of machine learning and different stages in the machine learning lifecycle. It highlights the method to extract information related to model interpretation to understand the reasoning behind model predictions in PySpark .

No of pages: 25

Sub - Topics:

1. Supervised machine learning

2. Unsupervised machine learning

3. Model interpretation

4. Machine learning lifecycle


Chapter 4: Linear Regression with PySpark

Chapter Goal:

This chapter covers the fundamentals of linear regression for readers. This chapter then showcases the steps to build feature engineering pipeline and fitting a regression model using PySpark latest machine learning library

No of pages:20

Sub - Topics:

1. Introduction to linear regression

2. Feature engineering in PySpark

3. Model training

4. End-to end pipeline for model prediction


Chapter 5: Logistic Regression with PySpark

Chapter Goal:

This chapter covers the fundamentals of logistic regression for readers. This chapter then showcases the steps to build feature engineering pipeline and fitting a logistic regression model using PySpark machine learning library on a customer dataset

No of pages:25

1. Introduction to logistic regression

2. Feature engineering in PySpark

3. Model training

4. End-to end pipeline for model prediction


Chapter 6: Ensembling with Pyspark

Chapter Goal:

This chapter covers the fundamentals of ensembling methods including bagging, boosting and stacking. This chapter then showcases strengths of ensembling methods over other machine learning techniques. In the final part -the steps to build feature engineering pipeline and fitting random forest model using PySpark Machine learning library are covered

No of pages:30

1. Introduction to ensembling methods

2. Feature engineering in PySpark

商品描述(中文翻譯)

第 1 章:Spark 3.1 簡介

章節目標:本書的開篇章節向讀者介紹 PySpark 的最新變更及框架的更新。本章涵蓋 Spark 生態系統的不同組件。此章同時作為本書格式的介紹,包括格式化實踐的解釋、指向本書附帶的線上代碼庫的提示,以及支援聯絡資訊。本章設定了讀者對於本書其餘內容和結構的期望。本章提供了一組所需的庫和代碼/數據下載資訊,以便用戶能夠適當地設置其環境。

頁數:30

子主題:
1. 數據狀態
2. Apache Spark 的演變
3. Apache Spark 基礎
4. Spark 組件
5. 設置 Spark 3.1

第 2 章:使用 PySpark 管理數據

章節目標:本章涵蓋從讀取數據、預處理到清理以用於機器學習的步驟。此章展示了構建端到端數據處理管道以轉換和創建機器學習特徵的步驟。它涵蓋了使用 Koalas 的簡單方法,以便在 Spark 中以分散的方式利用 pandas。它還涵蓋了自動化數據腳本的方法,以便使用 Airflow 執行排程數據作業。

頁數:50

子主題:
1. 數據攝取
2. 數據清理
3. 數據轉換
4. 端到端數據管道
5. 在 Spark 中使用 Koalas 處理 Pandas DataFrame 的數據
6. 使用 Airflow 自動化數據工作流程

第 3 章:機器學習簡介

章節目標:本章向讀者介紹機器學習的基本原理。本章涵蓋機器學習的不同類別及機器學習生命週期中的不同階段。它強調了提取與模型解釋相關的信息的方法,以理解 PySpark 中模型預測背後的推理。

頁數:25

子主題:
1. 監督式機器學習
2. 非監督式機器學習
3. 模型解釋
4. 機器學習生命週期

第 4 章:使用 PySpark 的線性回歸

章節目標:本章涵蓋線性回歸的基本原理。此章展示了構建特徵工程管道和使用 PySpark 最新機器學習庫擬合回歸模型的步驟。

頁數:20

子主題:
1. 線性回歸簡介
2. PySpark 中的特徵工程
3. 模型訓練
4. 模型預測的端到端管道

第 5 章:使用 PySpark 的邏輯回歸

章節目標:本章涵蓋邏輯回歸的基本原理。此章展示了構建特徵工程管道和使用 PySpark 機器學習庫在客戶數據集上擬合邏輯回歸模型的步驟。

頁數:25

子主題:
1. 邏輯回歸簡介
2. PySpark 中的特徵工程
3. 模型訓練
4. 模型預測的端到端管道

第 6 章:使用 PySpark 的集成方法

章節目標:本章涵蓋集成方法的基本原理,包括袋裝法、提升法和堆疊法。此章展示了集成方法相對於其他機器學習技術的優勢。在最後部分,涵蓋了構建特徵工程管道和使用 PySpark 機器學習庫擬合隨機森林模型的步驟。

頁數:30

子主題:
1. 集成方法簡介
2. PySpark 中的特徵工程