Programming Pig (Paperback)
暫譯: 程式設計 Pig (平裝本)

Alan Gates

  • 出版商: O'Reilly
  • 出版日期: 2011-10-23
  • 定價: $1,398
  • 售價: 2.1$299
  • 語言: 英文
  • 頁數: 224
  • 裝訂: Paperback
  • ISBN: 1449302645
  • ISBN-13: 9781449302641
  • 相關分類: Hadoop大數據 Big-data
  • 立即出貨(限量) (庫存=1)

買這商品的人也買了...

相關主題

商品描述

This guide is an ideal learning tool and reference for Apache Pig, the open source engine for executing parallel data flows on Hadoop. With Pig, you can batch-process data without having to create a full-fledged application—making it easy for you to experiment with new datasets.

Programming Pig introduces new users to Pig, and provides experienced users with comprehensive coverage on key features such as the Pig Latin scripting language, the Grunt shell, and User Defined Functions (UDFs) for extending Pig. If you need to analyze terabytes of data, this book shows you how to do it efficiently with Pig.

  • Delve into Pig’s data model, including scalar and complex data types
  • Write Pig Latin scripts to sort, group, join, project, and filter your data
  • Use Grunt to work with the Hadoop Distributed File System (HDFS)
  • Build complex data processing pipelines with Pig’s macros and modularity features
  • Embed Pig Latin in Python for iterative processing and other advanced tasks
  • Create your own load and store functions to handle data formats and storage mechanisms
  • Get performance tips for running scripts on Hadoop clusters in less time

商品描述(中文翻譯)

這本指南是學習和參考 Apache Pig 的理想工具,Apache Pig 是一個開源引擎,用於在 Hadoop 上執行平行數據流。使用 Pig,您可以批次處理數據,而無需創建完整的應用程式,這使您能夠輕鬆地實驗新的數據集。

《Programming Pig》為新用戶介紹 Pig,並為有經驗的用戶提供關於關鍵功能的全面覆蓋,例如 Pig Latin 腳本語言、Grunt shell 和用戶定義函數(User Defined Functions, UDFs)以擴展 Pig。如果您需要分析數TB的數據,本書將教您如何有效地使用 Pig 來完成這項工作。

- 深入了解 Pig 的數據模型,包括標量和複雜數據類型
- 編寫 Pig Latin 腳本以對數據進行排序、分組、聯接、投影和過濾
- 使用 Grunt 與 Hadoop 分佈式文件系統(HDFS)進行交互
- 利用 Pig 的宏和模組化功能構建複雜的數據處理管道
- 在 Python 中嵌入 Pig Latin 以進行迭代處理和其他高級任務
- 創建自己的加載和存儲函數以處理數據格式和存儲機制
- 獲取在 Hadoop 集群上運行腳本以更短時間內提高性能的技巧