Data Pipelines with Apache Airflow (Paperback)
暫譯: 使用 Apache Airflow 的數據管道 (平裝本)

Harenslak, Bas P., de Ruiter, Julian Rutger

  • 出版商: Manning
  • 出版日期: 2021-04-27
  • 定價: $1,900
  • 售價: 9.0$1,710
  • 語言: 英文
  • 頁數: 325
  • 裝訂: Quality Paper - also called trade paper
  • ISBN: 1617296902
  • ISBN-13: 9781617296901
  • 相關分類: DevOps
  • 相關翻譯: Apache Airflow 數據編排實戰 (簡中版)
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

Data Pipelines with Apache Airflow teaches you how to build and maintain effective data pipelines.

Summary
A successful pipeline moves data efficiently, minimizing pauses and blockages between tasks, keeping every process along the way operational. Apache Airflow provides a single customizable environment for building and managing data pipelines, eliminating the need for a hodgepodge collection of tools, snowflake code, and homegrown processes. Using real-world scenarios and examples, Data Pipelines with Apache Airflow teaches you how to simplify and automate data pipelines, reduce operational overhead, and smoothly integrate all the technologies in your stack.

Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications.

About the technology
Data pipelines manage the flow of data from initial collection through consolidation, cleaning, analysis, visualization, and more. Apache Airflow provides a single platform you can use to design, implement, monitor, and maintain your pipelines. Its easy-to-use UI, plug-and-play options, and flexible Python scripting make Airflow perfect for any data management task.

About the book
Data Pipelines with Apache Airflow teaches you how to build and maintain effective data pipelines. You'll explore the most common usage patterns, including aggregating multiple data sources, connecting to and from data lakes, and cloud deployment. Part reference and part tutorial, this practical guide covers every aspect of the directed acyclic graphs (DAGs) that power Airflow, and how to customize them for your pipeline's needs.

What's inside
Build, test, and deploy Airflow pipelines as DAGs
Automate moving and transforming data
Analyze historical datasets using backfilling
Develop custom components
Set up Airflow in production environments

About the reader
For DevOps, data engineers, machine learning engineers, and sysadmins with intermediate Python skills.

About the author
Bas Harenslak and Julian de Ruiter are data engineers with extensive experience using Airflow to develop pipelines for major companies. Bas is also an Airflow committer.

Table of Contents

PART 1 - GETTING STARTED

1 Meet Apache Airflow
2 Anatomy of an Airflow DAG
3 Scheduling in Airflow
4 Templating tasks using the Airflow context
5 Defining dependencies between tasks

PART 2 - BEYOND THE BASICS

6 Triggering workflows
7 Communicating with external systems
8 Building custom components
9 Testing
10 Running tasks in containers

PART 3 - AIRFLOW IN PRACTICE

11 Best practices
12 Operating Airflow in production
13 Securing Airflow
14 Project: Finding the fastest way to get around NYC

PART 4 - IN THE CLOUDS

15 Airflow in the clouds
16 Airflow on AWS
17 Airflow on Azure
18 Airflow in GCP

商品描述(中文翻譯)

《使用 Apache Airflow 的資料管道》教你如何建立和維護有效的資料管道。

**摘要**
成功的管道能有效地移動資料,最小化任務之間的暫停和阻塞,確保每個過程都能正常運作。Apache Airflow 提供了一個可自訂的單一環境來建立和管理資料管道,消除了對各種工具、零散代碼和自製流程的需求。通過真實世界的情境和範例,《使用 Apache Airflow 的資料管道》教你如何簡化和自動化資料管道,減少運營開銷,並順利整合你技術堆疊中的所有技術。

購買印刷書籍可獲得 Manning Publications 提供的免費 PDF、Kindle 和 ePub 格式電子書。

**關於技術**
資料管道管理從初始收集到整合、清理、分析、視覺化等的資料流。Apache Airflow 提供了一個單一平台,讓你可以設計、實施、監控和維護你的管道。其易於使用的用戶介面、即插即用的選項和靈活的 Python 腳本使 Airflow 成為任何資料管理任務的理想選擇。

**關於本書**
《使用 Apache Airflow 的資料管道》教你如何建立和維護有效的資料管道。你將探索最常見的使用模式,包括聚合多個資料來源、連接和從資料湖中提取資料,以及雲端部署。本書兼具參考和教程的特性,涵蓋了驅動 Airflow 的有向無環圖(DAG)的各個方面,以及如何根據你的管道需求自訂它們。

**內容概覽**
建立、測試和部署 Airflow 管道作為 DAG
自動化資料的移動和轉換
使用回填分析歷史數據集
開發自訂元件
在生產環境中設置 Airflow

**讀者對象**
適合具備中級 Python 技能的 DevOps、資料工程師、機器學習工程師和系統管理員。

**作者介紹**
**Bas Harenslak** 和 **Julian de Ruiter** 是資料工程師,擁有使用 Airflow 為大型公司開發管道的豐富經驗。Bas 也是 Airflow 的提交者。

**目錄**

**第一部分 - 開始使用**
1 認識 Apache Airflow
2 Airflow DAG 的結構
3 在 Airflow 中排程
4 使用 Airflow 上下文進行任務模板化
5 定義任務之間的依賴關係

**第二部分 - 超越基礎**
6 觸發工作流程
7 與外部系統通信
8 建立自訂元件
9 測試
10 在容器中運行任務

**第三部分 - Airflow 實踐**
11 最佳實踐
12 在生產環境中運行 Airflow
13 確保 Airflow 的安全性
14 專案:尋找在 NYC 最快的出行方式

**第四部分 - 在雲端**
15 雲端中的 Airflow
16 AWS 上的 Airflow
17 Azure 上的 Airflow
18 GCP 上的 Airflow

作者簡介

Bas Harenslak and Julian de Ruiter are data engineers with extensive experience using Airflow to develop pipelines for major companies including Heineken, Unilever, and Booking.com. Bas is a committer, and both Bas and Julian are active contributors to Apache Airflow.

作者簡介(中文翻譯)

Bas HarenslakJulian de Ruiter 是資料工程師,擁有豐富的經驗,使用 Airflow 為包括 Heineken、Unilever 和 Booking.com 在內的大型公司開發數據管道。Bas 是一名提交者,Bas 和 Julian 都是 Apache Airflow 的活躍貢獻者。